« Oktober 2019 | Main | Juli 2020 »

KI-Projekt WS19/20

Freitag, Januar 24, 2020

Der autonome Pizzabote SAE-Level 5

Wir wiederholen die schwierige Aufgabe vom letzten Jahr, bei der ein autonomes Fahrzeug entworfen, konstruiert und programmiert werden soll, das selbständig kürzeste Wege in einer übergebenen Karte plant und ausführt. Der Anwendungsfall ist ein Lieferroboter, wie er in verschiedenen Städten erprobt wird. Das System übernimmt hier sowohl die Rolle des Roboters (Lokalisation, lokale Navigation mithilfe der Sensorik, Abliefern der Pizza) als auch die der Planungsschicht, bspw. einer zentralen KI-Komponente, die auf die Verkehrssituation der Stadt zugreifen kann und Routen nach aktueller Verkehrslage berechnet (globale Navigation).

Und natürlich muss ein Robotersystem mit Stromversorgung, Motoren, Getrieben, geeigneten Sensoren und Transportkapazität gebaut werden. Falls die Probleme zu groß werden (und groß werden sie auf jeden Fall), besteht die Fallback-Möglichkeit beim Abschlusswettbewerb mit einem manuellen Plan zu starten. Es traten 4 Roboter zum Wettbewerb an: _007, Bumblebee, Rüdiger und Fathi. Das Finale Bumblebee (84 Punkte) gegen Fathi (73 Punkte) gewann Fathi.

Deckblatt der Projektdokumentation Tobias Trompell, Peter Neuhoff

Categories: AKSEN, AMS-Projekte, RobotBuildingLab

Masterarbeit von Darya Martyniuk

Mittwoch, Januar 22, 2020

Kombination von Imitation Learning und Reinforcement Learning zur Bewegungssteuerung

Eine erfolgreiche Kombination von Imitation Learning (IL) und Reinforcement Learning (RL) zur Bewegungssteuerung eines Roboters besitzt das Potenzial, einem Endnutzer ohne Programmierkenntnisse einen intelligenten Roboter zu Verfügung zu stellen, der in der Lage ist, die benötigten motorischen Fähigkeiten von den Menschen zu erlernen und sie angesichts der aktuellen Rahmenbedingungen und Ziele eigenständig anzupassen. In dieser Masterarbeit wird eine Kombination von IL und RL zur Bewegungssteuerung des humanoiden Roboter NAO eingesetzt. Der Lernprozess findet auf dem realen Roboter ohne das vorherige Training in einer Simulation statt. Die Grundlage für das Lernen stellen kinästhetische Demonstrationen eines Experten sowie die eigene Erfahrung des Agenten, die er durch die Interaktion mit der Umgebung sammelt.

Das verwendete Lernverfahren basiert auf den Algorithmen Deep Deterministic Policy Gradient from Demonstration(DDPGfD) und Twin Delayed Policy Gradient (TD3) und wird in einer Fallstudie, dem Spiel Ball-in- a-Cup, evaluiert. Die Ergebnisse zeigen, dass der umgesetzte Algorithmus ein effizientes Lernen ermöglicht. Vortrainiert mit den Daten aus Demonstrationen, fängt der Roboter die Interaktion mit der Umgebung mit einer suboptimalen Strategie an, die er im Laufe des Trainings schnell verbessert. Die Leistung des Algorithmus ist jedoch stark von der Konfiguration der Hyperparameter abhängig. In zukünftigen Arbeiten soll für das Ball-in- a-Cup-Spiel eine Simulation erstellt werden, in der die Hyperparameter und die möglichen Verbesserungen des Lernverfahrens vor dem Training mit dem realen Roboter evaluiert werden können.

Video: Ausführung der optimalen Policy nach 200 Lernepisoden

Kolloqium: 22.01.2020

Gutachter: Dipl.-Inform. Ingo Boersch, Prof. Dr.-Ing. Jochen Heinsohn

Download: A1-Poster, Masterarbeit

Categories: Abschlussarbeiten, AMS-Projekte, Maschinelles Lernen