Bewegungen einer Person als 3-D-Modell nur mit einer Webkamera

Seite ausdrucken und/oder als E-Mail versendenSeite ausdrucken und/oder als E-Mail versenden
Beiträge von FKTG-Mitgliedern

Immer mehr Anwendungen erfordern es, eine Person und ihre Bewegungen als digitales 3-D-Modell in Echtzeit zu erfassen: Angefangen bei virtuellen Figuren in Computerspielen, über die Bewegungsanalyse im Sport bis hin zu Untersuchungen in der Medizin. Bisher war dies nur mit teuren Kamera-Systemen möglich. Informatiker des Max-Planck-Instituts für Informatik haben nun ein System entwickelt, das lediglich eine Web-Kamera voraussetzt. Es kann sogar die 3-D-Pose aus einem vorab aufgenommenen Video berechnen, das beispielsweise von der Online-Plattform YouTube stammt. Damit sind völlig neue Anwendungen möglich, unter anderem auch die Bewegungsanalyse per Smartphone.

Es sei die erste Echtzeit-Methode, um eine völlige 3D-Skelett-Pose eines Menschen in einer stabilen, zeitlich konsistenten Weise mit einer einzigen RGB-Kamera zu erfassen, teilten die Forscher mit. Die Methode kombiniert ein neuartiges Neuronales Faltungs-Netzwerk mit einer kinematischen Skelett-Montage. Der neuartige, vollfaltende "Posen"-Algorithmus rechnet 2D- und 3D-Gelenkpositionen gemeinsam in Echtzeit und benötigt keine eng begrenzten Eingangsrahmen. Eine Echtzeit-Kinematik-Skelett-Anpassungsmethode wird benutzt, um zeitlich stabile 3D-globale Posen-Rekonstruktionen auf der Basis eines kohärenten kinematischen Skeletts zu liefern. Aus dieser Vorgehensweise ergibt sich das erste monokulare RGB-Verfahren, das in Echtzeitanwendungen wie 3-D-Zeichensteuerung einsetzbar ist. Bisher haben die einzigen monokularen Methoden für solche Anwendungen spezialisierte RGB-D(epth)-Kameras eingesetzt. Die vorgestellte Methode entspricht quantitativ den besten Offline-3D-Monokular-RGB-Posen-Schätzmethoden. Die Ergebnisse sind qualitativ vergleichbar und manchmal besser als aus monokularen RGB-D-Ansätzen wie dem Kinect. Allerdings kann der neue Ansatz breiter angewendet werden als RGB-D-Lösungen, und das bedeutet, das das Verfahren auch  für Outdoor-Szenen, Community-Videos und RD-Kameras mit niedriger Qualität funktioniert.   

Den Fortschritt ermöglicht nach Angaben der Forscher eine spezielle Art von neuronalem Netzwerk, das Forscher als „gefaltetes neuronales Netzwerk“ bezeichnen und das in Industrie und Wirtschaft unter dem Begriff „Deep Learning“ für Furore sorgt. Die Saarbrücker Forscher haben eine neue Methode entwickelt, um damit in kürzester Zeit aus den zweidimensionalen Informationen des Videostreams das dreidimensionale Abbild der Person zu berechnen. Wie das konkret aussieht, zeigt ein von den Wissenschaftlern erstelltes Kurzvideo auf ihrer Webseite. Ein Forscher jongliert mit Keulen in der Tiefe eines Raumes, im Vordergrund zeigt ein Monitor die dazugehörige Videoaufnahme. Die Gestalt des Forschers wird hier von einem feingliedrigen, roten Strichmännchen überlagert. Egal, wie schnell oder wie weit der Forscher ausholt, das Strich-Skelett macht die gleichen Bewegungen, genauso wie die aufgepumpte Version im virtuellen Raum, dargestellt auf einem weiteren Monitor links daneben.

Die Forscher haben ihr System „VNect“ getauft. Bevor es die 3-D-Pose der Person vorhersagt, bestimmt es erst deren Position im Bild. Dadurch verschwendet es keine Rechenkraft für Bildregionen, die nichts von der Person zeigen. Das neuronale Netzwerk wurde dazu mit über zehntausend annotierten Bildern während des Maschinellen Lernens trainiert. So kann es die aktuelle 3-D-Pose in Form der entsprechenden Gelenkwinkel spezifizieren, die sich leicht in virtuelle Figuren überführen lassen.

Es sind nicht wie bei den bisher bekannten Verfahren eine teure Tiefenkamera und mehrere Kameras nötig. Die Personen müssen auch keine speziellen Marker tragen. Ihre Web-Kamera genügt. Damit sind sogar völlig neue Erfahrungen in der Virtuellen Realität möglich. Darüber hinaus ist VNect auch das erste System, das lediglich ein Video benötigt, um daraus das 3-D-Bewegungsmodell einer Person zu erstellen.  Das Spektrum der möglichen Anwendungen für VNect ist daher enorm groß. Die Bandbreite reicht von Mensch-Maschine-Interaktion zu Mensch-Roboter-Interaktion bis hin zu Industrie 4.0, wo Mensch und Roboter Seite an Seite arbeiten.

Noch stößt VNect jedoch auch an Grenzen. Die Genauigkeit des neuen Systems ist etwas geringer als die Genauigkeit von Systemen, die auf mehreren Kameras oder Markern basieren. VNect gerät auch in Schwierigkeiten, wenn das Gesicht der Person verdeckt ist und wenn die Bewegungen zu schnell sind oder zu wenig den gelernten Vorbildern entsprechen. Mehrere Personen vor der Kamera bereiten VNect ebenfalls Probleme.

Dennoch ist sich die Forscher sicher, dass sich VNect weiterentwickeln wird und bald so komplexe Szenen verarbeiten kann, dass es ohne Problem im Alltag einsetzbar ist.   

VNect wurde unter der Leitung von Professor Christian Theobalt in der Gruppe „Graphics, Vision and Video“ am Max-Planck-Institut für Informatik umgesetzt. An dem Projekt wirkten neben Srinath Sridhar und Dushyant Mehta auch Oleksandr Sotnychenko, Helge Rhodin, Mohammad Shafiei, Professor Hans-Peter Seidel, Weipeng Xu und Dan Casas. Die Forscher werden VNect auf der größten Computer Vision Konferenz CVPR, im US-amerikanischen Honolulu, vom 21. bis 26. Juli, und auf der renommierten, internationalen Konferenz „SIGGRAPH“ in der US-amerikanischen Stadt Los Angeles vom 30. Juli bis 3. August zeigen.

Das Paper für den Vortag in Honolulu und eine Videodemonstration finden sich unter http://gvv.mpi-inf.mpg.de/projects/VNect/ 

(nach Informationen des Max-Planck-Instituts für Informatik , Saarland Informatics Campus)


bol-



Quelle: YouTube/Christian Theobalt
Weitere Beiträge von FKTG-Mitgliedern