Transfer of reinforcement learning for a robotic skill

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu | Master's thesis
Date
2018-08-20
Department
Major/Subject
Major Space Robotics and Automation
Mcode
ELEC3047
Degree programme
Master in Space Science and Technology
Language
en
Pages
82 + 71
Series
Abstract
In this work, we develop the transfer learning (TL) of reinforcement learning (RL) for the robotic skill of throwing a ball into a basket, from a computer simulated environment to a real-world implementation. Whereas learning of the same skill has been previously explored by using a Programming by Demonstration approach directly on the real-world robot, for our work, the model-based RL algorithm PILCO was employed as an alternative as it provides the robot with no previous knowledge or hints, i.e. the robot begins learning from a tabula rasa state, PILCO learns directly on the simulated environment, and as part of its procedure, PILCO models the dynamics of the inflatable, plastic ball used to perform the task. The robotic skill is represented as a Markov Decision Process, the robotic arm is a Kuka LWR4+, RL is enabled by PILCO, and TL is achieved through policy adjustments. Two learned policies were transferred, and although the results show that no exhaustive policy adjustments are required, large gaps remain between the simulated and the real environment in terms of the ball and robot dynamics. The contributions of this thesis include: a novel TL of RL framework for teaching the basketball skill to the Kuka robotic arm; the development of a pythonised version of PILCO; robust and extendable ROS packages for policy learning and adjustment in a simulated or real robot; a tracking-vision package with a Kinect camera; and an Orocos package for a position controller in the robotic arm.

I detta arbete utvecklar vi överföringsinlärning (TL) för förstärkningslärande (RL) för robotens skicklighet för att kasta en boll i en korg, från en datasimulerad miljö till en verklig implementering. Att lära sig av samma skicklighet har tidigare undersökts med hjälp av en programplanering genom demonstration direkt på den verkliga roboten. För vårt arbete användes den modellbaserade RL-algoritmen PILCO som ett alternativ eftersom det ger roboten ingen tidigare kunskap eller tips, det vill säga att roboten börjar lära sig från ett tabula rasa-tillstånd, lär PILCO direkt på den simulerade miljön och som en del av sitt förfarande modellerar PILCO dynamiken hos den uppblåsbara plastbollen som används för att utföra uppgiften. Robotkunskapen representeras som ett Markov-beslutsprocess, roboten är en Kuka LWR4 +, RL aktiveras av PILCO och TL uppnås genom policyanpassningar. Två lärda policyer överfördes, och även om resultaten visar att inga uttömmande policyanpassningar krävs, kvarstår stora luckor mellan den simulerade och den verkliga miljön när det gäller boll- och robotdynamiken. Bidrag från denna avhandling inkluderar: en ny TL of RL-ram för att undervisa basketkunskapen till Kuka robotarm; utvecklingen av en pytoniserad version av PILCO; robusta och utdragbara ROS-paket för policyinlärning och justering i en simulerad eller riktig robot; ett spårningssynspaket med en Kinect-kamera; och ett Orocos-paket för en positionskontroller i robotarmen.
Description
Supervisor
Kyrki, Ville
Thesis advisor
Hazara, Murtaza
Keywords
intelligent robotics, reinforcement learning, transfer learning, machine learning
Other note
Citation