Multimodale Analyse audiovisueller Inhalte

Vortrag 44: Uwe Kühhirt - Fraunhofer IDMT

In digitalen Mediensystemen und Archiven entstehen immer größere Mengen von audiovisuellen Inhalten. Um diese Daten effizient und zielgerichtet nutzen zu können, sind sehr umfassende und hochwertige Metadaten zu den Inhalten erforderlich. Tatsächlich sind sie aber oft unvollständig und fehlerhaft und die manuelle Annotation kann mit der ständig wachsenden Datenmenge nicht mehr mithalten. Deshalb werden Verfahren zur automatisierten Generierung von Metadaten auf Basis von Signalanalyse, maschinellem Lernen und statistischen Verfahren immer wichtiger, um Metadaten zu vervollständigen und zu validieren.

Solche Verfahren zur automatischen A/V- und Textanalyse werden inzwischen auch immer häufiger eingesetzt, allerdings steht die Entwicklung noch am Anfang. Oft werden die Verfahren einzeln, ohne ein organisiertes Zusammenspiel eingesetzt, so dass viele potenzielle Möglichkeiten nicht ausgeschöpft werden.

Tatsächlich erfordern aber oft schon relativ einfache Suchanfragen umfangreiche Metadaten und ein komplexes Zusammenspiel verschiedenster Extraktoren. Die Qualität der Metadaten lässt sich oft gerade erst durch die Kombination verschiedener Ansätze und Modalitäten erheblich verbessern – ein typisches Beispiel hierfür ist die Kombination von Gesichtserkennung, Sprechererkennung und Spracherkennung sowie Namenserkennung, um Archivmaterial mit Bezug zu bestimmten Personen zu annotieren und damit auffindbar zu machen. Außerdem ist es in vielen Fällen erforderlich, dass sich die Analyseverfahren an Art und Kontext der Inhalte anpassen: Oft lässt sich die Erkennung z.B. erheblich verbessern, wenn die Art der Produktion bzw. Rahmenbedingungen bzgl. Aufnahme, Produktion und Distribution der Inhalte bekannt sind.

Um dieses Potenzial multimodaler Analyse auszuschöpfen müssen einige Herausforderungen adressiert werden: Einerseits müssen Extraktoren unterschiedlicher Herkunft, die z.B. unter verschiedenen Softwarelizenzen stehen und unterschiedlichste Schnittstellen anbieten, ohne großen Aufwand integriert werden und ihrer Ergebnisse in ein gemeinsames Metadaten-Modell einspeisen. Außerdem werden auch eine flexible Orchestrierung der Extraktoren für verschiedene Anwendungsfälle sowie geeignete Abfragesprachen benötigt. Auch die Anbindung von Suchmaschinen und Empfehlungssystemen spielt eine wichtige Rolle.

Der Vortrag stellt Lösungsansätze und Herausforderungen für multimodale Analyse am Beispiel eines im Rahmen eines EU-Forschungsprojekts entwickelten Open Source Prototyps vor. Es werden Möglichkeiten und Grenzen des Systems anhand aktueller und künftige Anwendungen aufgezeigt.


Über Dr.-Ing. Uwe Kühhirt

Dr.-Ing. Uwe Kühhirt studierte Elektrotechnik in der Fachrichtung Elektronische Medientechnik (Abschluss Dipl.-Ing.) an der TU Ilmenau. Anschließend arbeitete er als wissenschaftlicher Mitarbeiter am Institut für Medientechnik der TU Ilmenau auf dem Gebiet der interaktiven audiovisuellen Applikationen. Dort war er auch in der Lehre tätig und fertigte seine Dissertation mit dem Titel „Authoring objektbasierter A/V-Anwendungen“ an.

Seit 2005 arbeitet Herr Dr. Kühhirt am Fraunhofer Institut für Digitale Medientechnologie IDMT in Ilmenau und leitet heute die Abteilung Metadaten sowie die Gruppe Audiovisuelle Systeme. Der Schwerpunkt seiner Tätigkeit liegt auf dem Gebiet der automatischen Analyse von audiovisuellen Inhalten für Rundfunk- und Archivanwendungen. Er war und ist beteiligt an verschiedenen Forschungsprojekten, u.a. an den EU-Projekten MiCO und I-Media-Cities.