Maschinen lernen, neugierig zu sein
Maschinen sind bekannt dafür, mit hoher Verlässlichkeit genau das zu tun, wofür sie gebaut wurden. Im Gegensatz zu Menschen sind sie allerdings schnell überfordert, wenn Qualitäten wie eigenständiges Denken oder Neugierde gefragt sind. Weltweit arbeitet die Forschung daher daran, die Fähigkeiten von Robotern zu erweitern, so auch in Österreich. Eine Gruppe um den Robotiker Markus Vincze von der Technischen Universität Wien hat versucht, Maschinen zu schaffen, die auf unbekannte Gegenstände reagieren können. In einem vom Wissenschaftsfonds FWF finanzierten Projekt brachte man Robotern bei, Unwissen zu erkennen und sich die fehlenden Informationen aus dem Internet zu holen.
Mensch als Vorbild
„Wir haben uns am Menschen orientiert“, erklärt Markus Vincze. „Wenn ein Mensch etwas nicht weiß, macht er sich auf die Suche nach Informationen, früher in Büchern, heute vorwiegend im Internet. Die Idee war, das Gleiche mit Robotern zu machen.“ Roboter können heute schon in Kamerabildern durch Vergleich mit einer internen Datenbank Gegenstände erkennen, aber mit unbekannten Objekten wussten Maschinen bislang wenig anzufangen. Hier galt es, neue Ansätze zu entwickeln. Das Stichwort lautet „Deep Learning“ – das Lernen aus großen Datenmengen.
Räumliche Wahrnehmung
„Der erste Schritt zum Erkennen eines Gegenstands ist die Segmentierung“, erklärt Vincze. Dabei soll zwischen Objekten und ihrem Hintergrund unterschieden werden, etwa einer Kaffeetasse und der Tischplatte, auf der sie steht. „Dafür gibt es Methoden, die für allein stehende Objekte gut funktionieren“, so der Forscher. Als Nächstes wolle man wissen, mit welchen Objekten man es zu tun hat. „Das kann bereits schwierig sein, etwa, wenn mehrere Gegenstände sich nicht genau trennen lassen, weil sie sich zum Teil überdecken.“ Wird das Objekt dennoch erkannt, geht es darum, ein 3D-Modell davon anzufertigen, damit der Roboter es etwa greifen und aufheben kann. Genau diese räumliche Wahrnehmung sei für den Menschen sehr natürlich, für Maschinen aber ebenfalls schwierig, sagt Vincze: „Kleine Kinder können das ab dem ersten Lebensjahr, sie nehmen Objekte räumlich wahr.“ All diese Methoden wurden nun im Rahmen eines dreijährigen Grundlagenprojekts mit internationalen Partnern in Robotern implementiert.
Unwissen autonom erkennen
Vinczes Gruppe interessierte sich also für die Situation, wenn ein Objekt, etwa die Kaffeetasse auf dem Tisch, nicht erkannt wurde. Zuerst mussten Kriterien gefunden werden, nach der die Maschine entscheidet, ob sie ein Objekt erkannt hat oder nicht. „Der Roboter vergleicht ein Foto des Objekts mit einer Datenbank. Es sind statistische Verfahren, die entscheiden, wie sehr das beobachtete Objekt den Objekten aus der Datenbank ähnelt“, erklärt Vincze. „Das Ergebnis ist eine Maßzahl. Wenn diese zu gering ist, soll der Roboter ein Bild davon machen und sich im Internet auf die Suche machen.“ Dazu wurden verschiedene Suchalgorithmen verwendet, unter anderem ImageNet und die Standard-Google-Bildersuche. Dann analysierte Vinczes Gruppe, welche Hauptwörter in den Begleittexten am häufigsten vorkommen. Um die Ergebnisse zu verbessern, wurde ein Gegen-Check durchgeführt: Der gewonnene Begriff wurde erneut im Internet gesucht und die dabei gefundenen Bilder mit dem Bild des unbekannten Gegenstands verglichen. So ließ sich die Qualität der Suche verbessern.
Prototyp HOBBIT
Diese neuen Zugänge wurden mit Prototypen getestet. Vinczes Team und internationale Projektpartner in Italien, Frankreich und Großbritannien nutzten für die Tests in früheren Forschungsprojekten entwickelte Roboter, etwa „HOBBIT“, der für den Einsatz in Altersheimen konzipiert wurde, wo er etwa verlorene Gegenstände finden soll. Für einen Praxistest wurde eine Büro-Umgebung verwendet, wo zehn typische Utensilien auf einem Schreibtisch lagen: Tastatur, Maus, Locher, Klammermaschine, und so weiter. Die Objekte waren dem System alle bekannt. Dann wurde testweise eines der Objekte aus der Datenbank entfernt und der Roboter musste herausfinden, worum es sich handelte.
Kontext macht den Unterschied
Vincze und sein Team untersuchten in diesem Setting, wie sich der Kontext auf den Erfolg beim Erkennen auswirkt. Wird auf einem Tisch etwa hauptsächlich Geschirr gefunden, so steigt die Wahrscheinlichkeit, dass auch das unbekannte Objekt üblicherweise in diesem Zusammenhang auftritt. „Die Kontext-Information lässt sich analysieren und zielführend verwenden, und die Suche einschränken“, sagt Vincze. Damit verbessert sich das Ergebnis weiter. Der Forscher betont, dass es sich um ein Grundlagenprojekt handelte. Bis zur wirklichen Eigenständigkeit von Robotern sei es aber noch ein weiter Weg: „Der Mensch muss nach wie vor oft eingreifen.“ Bis Roboter eine ähnliche Eigenständigkeit wie Menschen entwickeln können, werde es noch Jahrzehnte dauern, prognostiziert Vincze – man arbeite daran.
Zur Person Markus Vincze ist Robotiker und forscht an der Technischen Universität Wien, wo er das Labor „Vision for Robotics“ 1996 gründete und leitet. Er interessiert sich insbesondere für Methoden zur visuellen Wahrnehmung für Roboter in realen Umgebungen.
Publikationen