Google erhält Patent für Objekterkennung in Videos

Minütlich werden auf YouTube rund 50 Stunden Videomaterial hochgeladen. Diese Datenmenge sinnvoll zu beschriften, zu kategorisieren und zu verschlagworten ist nach wie vor Aufgabe der Nutzer. Doch das könnte sich womöglich bald ändern. Google hat nun ein Patent zugesprochen bekommen, das es ermöglichen soll, Objekte in Videos zu erkennen. So wäre es denkbar, dass beim Hochladen von Videos Objekte darin erkannt werden, um dem Video automatisch die passenden Schlagworte (auch „Tags“ genannt) zu geben.

Google hat bereits Erfahrung mit Bildern

Google hat bereits einiges an Erfahrung gesammelt hinsichtlich der Bildverarbeitung. So verwaltet der Suchmaschinenbetreiber Milliarden von Bildern auf seinen Servern, die zum Teil bereits automatisch getaggt werden und innerhalb weniger Sekunden nach zum Suchbegriff relevanten Einträgen durchsucht werden können.

Objekterkennungs-App für Smartphones

Darüber hinaus bietet Google mit Goggles eine App für Smartphones an, mit der es auch bereits möglich ist, Objekte in Bildern zu erkennen. Für gewöhnlich funktioniert das zwar bislang nur mit Sehenswürdigkeiten, öffentlichen Orten und Gebäuden, berühmten Persönlichkeiten und Malerei, doch auch die Erkennung von Alltagsobjekten schreitet voran.

Eigener Bildkompressionsalgorithmus

Google konnte auch mit einem eigenen Kompressionsalgorithmus für Bilder unter Beweis stellen, dass sie große Fortschritte bei der Verarbeitung von Bilddaten machen. Der WebP (gesprochen „Weppy“) genannte Algorithmus und das gleichnamige Umwandlungsprogramm erzeugen bei gleicher Bildqualität deutlich kleinere Bilder als die beiden häufig im Netz genutzten Formate jpg und png. Jpg (auch „jpeg“) ist ein verlustbehaftetes Bildformat, das besonders für die Kompression von Landschaftsaufnahmen, Personen und anderen natürlich strukturierten Bildinhalten geeignet ist. Png hingegen speichert verlustfrei ab, erzielt dadurch aber etwas größere Dateigrößen. Dieses Format wird in der Regel für Layoutgrafiken verwendet oder für Bilder mit besonders hohen Qualitätsansprüchen. WebP zielt darauf ab, beide Formate obsolet zu machen und dadurch das gesamte Web zu beschleunigen, indem es bei verlustfreier Komprimierung und einem Alphakanal für Transparenzen, also voller Bildqualität eine kleinere Dateigröße bietet als ein mit jpg verlustbehaftet komprimiertes Bild.

Gegeben – gesucht

Google hat also offenbar Erfahrung darin, mit großen Bildmengen umzugehen. Auch weiß der Konzern sich und anderen zu helfen, indem er kurzerhand selbst Lösungen entwickelt, anstatt Vorhandenes lediglich abzuändern. Selbst in der Bildbearbeitung konnte der Suchmaschinenbetreiber bereits Erfahrungen sammeln, beispielsweise durch die Fotoverwaltung Picasa. Die notwendigen Grundlagen sind daher gegeben. Die Objekterkennung ist allerdings ein sehr kompliziertes Thema, das noch einiges mehr erfordert. Google selbst sieht sich in der Lage, diese Herausforderung erfolgreich zu meistern und in Anbetracht der bisherigen Leistungen ist dies auch nicht sehr unwahrscheinlich.

Welche Anforderungen stellt die Objekterkennung?

Das menschliche Gehirn erkennt unzählige Objekte in Sekundenbruchteilen, stellt kausale Verbindungen her, speichert die Erinnerung und kombiniert sie mit bereits bestehenden Erinnerungen. Es kennt viele Objekte bereits, kann vergleichen und erhält Bilder mit extrem hoher Auflösung. Diese enthalten genug Informationen, um ein Objekt in unter einer Sekunde zu erkennen und zu klassifizieren.

Die maschinelle Objekterkennung in Bildern ist jedoch bei Weitem noch nicht so weit. Zum Einen liegt das daran, dass jedes Bild unterschiedlich ist und zum anderen an der im Vergleich zum Gehirn sehr niedrigen Rechengeschwindigkeit. Selbst ein großer Rechnerverbund ist kaum imstande eine solch immense Denk- und Rechengeschwindigkeit hervorzubringen. Auch die Tatsache, dass ein Bild oder Video in der Regel zweidimensional ist, erschwert die Erkennung – in bestimmten Situationen sogar für Menschen. Das ist auf die fehlende Tiefeninformation zurückzuführen: Ohne diese erscheinen Objekte in Bildern, unabhängig davon ob sie sich bewegen oder stillstehen, gleich weit vom Betrachter entfernt. So muss das Gehirn zwar gleichzeitig zwei Bilder verarbeiten – eins pro Auge – doch erleichtert die dadurch gewonnene Tiefeninformation das Extrahieren und Klassifizieren von Objekten deutlich.

Bei der maschinellen Objekterkennung müssen also eine Vielzahl von Faktoren berücksichtigt werden, um die korrekte Erkennung zu ermöglichen. Bei Videos sind neben den Grundfaktoren Farbe und Form unter anderem die Oberflächenstruktur, die Größe, Position, Vollständigkeit (ist das Objekt am Rand angeschnitten?), Geschwindigkeit, Richtung und eine mögliche Veränderung dieser Variablen im Vergleich zum Ausgangsbild von Bedeutung. Diese Faktoren müssen extrahiert, auf die wichtigsten Informationseinheiten reduziert und danach klassifiziert werden.

Je mehr dieser Informationen vorhanden sind und je genauer anhand dieser das Objekt mathematisch beschrieben werden kann, umso einfacher ist ein Vergleich mit bekannten Objekten. Ein großes Problem hierbei dürfte die stark unterschiedliche Bildqualität der Videos sein. Bei den Nutzern von YouTube sind nach wie vor Webcams und Handykameras oft gewählte Aufnahmegeräte. Diese bieten in der Regel aber nur sehr schlechte bis mittlere Bildqualität, trübe Auflösung und Detaildichte durch starke Kompression und damit einhergehende Bildartefakte.

Ein mögliches Beispiel

Das Video eines Kindes, das mit einem Teddybären spielt: Der Algorithmus erkennt, dass zwei unterschiedliche Objekte zu sehen sind. Er erkennt, dass diese unterschiedliche Farben haben und die Textur verschieden ist. Das Kind hat glatte Haut, also sanfte Farbübergänge und wenig harte Kontraste, der Teddy hingegen hat eine sehr durchwachsene Struktur, viele harte Kontraste und außerdem eine ganz andere Farbe. Durch geschicktes Ändern von Kontrasten, Helligkeit, Saturation und anderen Faktoren aber auch über das selektive Ausblenden uninteressanter Flächen, etwa des Hintergrundes, können diese beiden Objekte segmentiert werden. Irgendwann kann der Algorithmus feststellen, wo beide Objekte beginnen und aufhören und erkennt schließlich über die sich im Verlauf des Videos ändernde Form, um was es sich handeln könnte.

Natürlich ist das kein einfaches Beispiel und ein rollender Ball oder ein Flugzeug am Himmel sind deutlich einfachere Fälle. Doch mittels geschickter Nutzung der gegebenen Bildinformationen lassen sich sehr viele Details extrahieren und nach eingehender Verarbeitung klassifizieren.

Wie weit ist das automatische Taggen aller Videos noch entfernt?

An Techniken zur Objekterkennung wird bereits seit über zehn Jahren geforscht. Bei statischen Bildern funktionieren diese bereits erstaunlich gut, wie sich etwa bei der automatischen Nummernschilderkennung und Texterkennung (OCR) erkennen lässt. Bei Bewegtbild fehlte bislang jedoch die nötige Rechengeschwindigkeit. Google hat allerdings eine so enorme Rechenkraft, dass eine großflächige Anwendung der Technologie in durchaus greifbare Nähe rückt. Auch hat Google immer wieder bewiesen, dass es für das Unternehmen kein Problem ist, große Datenmengen zu verwalten und schnell durchsuchbar zu machen. An Geschwindigkeit, Speicher und Zeit wird es also nicht scheitern.

Diese Technologie wäre definitiv eine sinnvolle Ergänzung für den Nutzer, da es damit möglich wäre, über die Tags Videos zu finden, die noch genauer dem entsprechen, was der Nutzer sucht. Dies hinge natürlich davon ab, wie detailliert Google taggt, doch wäre es grundsätzlich vorstellbar, dass auf diese Weise mehr Videos gefunden werden, die dem Suchbegriff entsprechen oder zumindest näher kommen.

Das große Aber…

Wie bei vielen neuen Technologien gibt es auch bei der automatischen Objekterkennung Aspekte, die das Bild trüben könnten. So ist es beispielsweise bislang nicht möglich, die Zusammenhänge zwischen Objekten in einer Szene zu erkennen. Wenn Passanten, Laternen, Autos und Häuser zu sehen sind, könnte Google also feststellen lassen, dass es sich um eine Szene in einer Straße handelt. Doch das wäre letztendlich nur eine Vermutung, da es sich auch um die Spielzeugstadt eines Kindes handeln könnte oder um ein Trickvideo der Werbung. Vieles ist sehr vielfältig interpretierbar und deswegen wäre vorerst nur mit einer Verschlagwortung der dargestellten Objekte zu rechnen. Kommen gar keine bekannten Objekte vor, weil es sich zum Beispiel um eine Computervisualisierung handelt, wüsste Google vermutlich gar nicht, was dargestellt würde.

Ein weiteres Problem könnte sich in Bezug auf den Datenschutz entwickeln. Objekterkennung wird nie perfekt sein, da begrenzt durch die Auflösung nur eine begrenzte Menge Informationen zur Verfügung steht. Das kann dazu führen, dass Gegenstände oder Lebewesen irrtümlicherweise als etwas anderes erkannt werden, was im ungünstigsten Fall dazu führen kann, dass das Video nicht akzeptiert wird oder sogar der Account gelöscht wird. Zusätzlich wäre der Datenbestand der Videos mitunter für die Strafverfolgung von Interesse. Ein denkbarer Fall wäre, dass eine bestimmte Person wegen illegalen Waffenbesitzes gesucht wird und etwa eine Luftpumpe für Fahrräder unter ungünstigen Umständen zu einer vermeintlichen Waffe werden und den Benutzer damit fälschlicherweise ins Visier der Fahnder bringen könnte. Die Behörden wären in diesem Szenario noch nicht einmal auf die Kooperation von Google angewiesen, sondern könnten, dank der automatischen Verschlagwortung, selbst ganz problemlos auf die Suche gehen.

Pro & Contra Objekterkennung

Die Objekterkennung bietet also sowohl einige Vorteile, als auch ein paar Nachteile. Welche Seite überwiegt?

Vorteile:

  • Hoher Komfort durch automatisches Taggen
  • (Wieder)finden schlecht oder falsch beschrifteter Videos
  • Vermeidung von  Tag-Spam
  • Vielfach passendere Tags
  • Finden von Videos mit speziellen Inhalten

Nachteile:

  • Datenschutzbedenken
  • Falsche oder zu ungenaue Verschlagwortung
  • Gefahr falschen Verdachts bei falscher Objekterkennung

Zwar war Google in letzter Zeit häufiger in den Schlagzeilen wegen einiger Kritik am Datenschutz des Unternehmens, doch sollte das kürzlich zur Einhaltung des Datenschutzes gegründete „Red Team“ einer erneuten Kritik angemessen entgegentreten können. Die Vergabe falscher Tags kann mittels genügend hoher Präzision vermieden werden. Auch könnte man, Videos mit bestimmter (schlechter) Qualität gar nicht automatisch taggen.

Die Auswirkungen auf SEO

Führte Google tatsächlich die automatische Verschlagwortung ein, hätte dies auch auf SEO einen Einfluss. Es wäre vorstellbar, dass Videos mit Produkten bei YouTube hochgeladen werden und Google die entsprechenden Begriffe (z.B. „Schuhe“ oder „Obst“) extrahiert und die angezeigten Tags für den Uploader, sprich für den SEO oder dessen Kunden, Besucher bedeuten. Es wäre denkbar, dass dadurch eine ganz neue Art der Werbung entsteht, indem einfach die Produkte gezeigt und von Google praktisch automatisch beschriftet werden.

Auf herkömmliches OnPage-SEO dürfte der Einfluss marginal bis nicht vorhanden sein, ebenso der Einfluss auf das Linkbuilding oder Adwords-Kampagnen. Allerdings könnte mitunter der Besucherfluss zielgerichteter gelenkt werden.

Fazit

Ob Google die Technologie wirklich überhaupt für das Taggen der Videos verwendet, ist noch gar nicht sicher. Es dürfte sich aber um eines der wahrscheinlichsten Anwendungsgebiete handeln. Wir sind gespannt, was Google mit dem Patent auf die Beine stellt.

Was denkst du? Wird die automatische Objekterkennung großen Einfluss haben oder nur eines von vielen netten, aber eher ungenutzten Gadgets werden?

LG Mario M.