Varianten der Objektdetektion/-klassifikation
Generische Objektdetektion
Unter generischer Objektdetektion versteht man die Detektion von Objekten, deren genaue Klasse vorher unbekannt ist.
Dazu bedient man sich im Allgemeinen geometrischer Eigenschaften.
So bestehen viele Objekte aus zusammenhängenden Komponenten, die sich von ihrer Umgebung abheben.
Mithilfe von Stereo-Daten können Objekte auf diese Weise segmentiert werden, indem zuerst die Bodenebene detektiert wird, und anschließend in den 3D-Daten zusammenhängende Komponenten gesucht werden, die gewisse Schwellwerte nicht über- bzw. unterschreiten.
Mehrere solcher Komponenten werden dann anhand verschiedener Ähnlichkeitsmaße zu Objekten zusammengefügt.
Anschließend findet eine Klassifikation der Objekte statt, um ein besseres Verständnis der Szene und der in ihr enthaltenen Objekte zu erhalten.
Ebenfalls werden die Objekte zeitlich getrackt, was besonders bei bewegten Objekten wie Fahrzeugen, Fahrradfahrern und Fußgängern wichtig ist.
Modellbasierte Objektdetektion
Ist ein genaues Modell des zu detektierenden/trackenden Objekts verfügbar, kann dies in einem Filter (z.B. einem Extended Kalman Filter oder Partikelfilter) eingesetzt werden.
Gelernte 2D-Detektoren
Ein Modell kann ebenfalls aus annotierten Daten mit Techniken des Machine Learning gelernt werden.
Im folgenden Bild wurde ein tiefes Neuronales Netz trainiert, das verschiedene statische Objekte (Schilder, Wegweiser, ...) im Bild detektieren kann.
Die reinen 2D-Detektionen werden mit Filter- und Schätzverfahren im 3D-Raum zeitlich getrackt.
Statische Objekte können dann als Landmarken zur objektrelativen Lokalisation und Navigation eingesetzt werden.