Zu Inhalt springen Zu Fußbereich springen

Bilderkennung

Fotos automatisch kategorisieren, das Smartphone entsperren, Pflanzen bestimmen - bilderkennende Systeme werden aktuell immer leistungsfähiger und alltäglicher. Anwendungsbereiche finden sich aber auch in der Medizin, in der Umwelttechnik, bei der Überwachung und vielen weiteren Anwendungsbereichen.

Doch was steckt dahinter? Erfahren Sie in diesem Artikel, wie Bilderkennung mit Methoden künstlicher Intelligenz funktioniert, was bilderkennende KI-Systeme können - und was nicht.

Was können bilderkennende Verfahren?

1. Objekte klassifizieren

Eine typische Aufgabe bilderkennender Verfahren ist es, zu erkennen, welches Objekt in einem Bild abgebildet ist - also zum Beispiel wie in den Bildern unten ein Chihuahua bzw. ein Muffin. Durch den Einsatz neuronaler Netze und die verbesserte Rechenleistung ist aktuell die Erkennung von Objekten in statischen 2D-Bildern mit nur einer geringen Fehlerquote möglich.

Dass es dennoch zu Fehlern kommt und die eindeutige Erkennung eines Bildinhaltes nicht immer einfach ist, wird bei den folgenden Bildern deutlich.

Das linke Bild wird von einem bilderkennenden KI-System (hier: seeingAI) beschrieben als "Wahrscheinlich ein Stofftier in einer Kiste", das rechte als "Nahaufnahme des Gesichts eines Hundes". © istock.com/Chepko, iiievengiy

Um bewerten zu können, wie treffsicher ein KI-System zur Bilderkennung arbeitet, wird gemessen, welchen Anteil an Bildern das System korrekt klassifiziert. Dazu verwendet man umfangreiche Bilddatenbanken wie zum Beispiel ImageNet (Stanford, 2020). Diese Datenbank wurde zu Forschungszwecken entwickelt und umfasst mehr als 14 Millionen Bilder und Beschriftungen („Label”), d.h. jedem Bild ist ein Label wie „Hund“, „Katze“ oder „Ball“ zugeordnet, das beschreibt, was auf dem Bild zu sehen ist. Um die Treffsicherheit einer bilderkennenden KI zu bewerten, wird gemessen, wie viele Bilder sie korrekt klassifiziert hat. Während im Jahr 2011 „nur“ 71,8% der Bilder richtig erkannt wurden waren es im Jahr 2017 bereits 97,3% der Bilder – somit galt das Problem der Objekterkennung in statischen, zweidimensionalen Bildern als gelöst (Gershgorn, 2017).

2. Objekte identifizieren und lokalisieren

  • © istock.com/GomezDavid

    Es gibt viele Anwendungen, bei denen bestimmt werden muss, wie viele Objekte ein Bild enthält oder welche Objekte sich an welcher Position im Bild befinden. Beispiele sind die automatische Unterscheidung von reifen und unreifen Erdbeeren oder die Bestimmung der Position und Anzahl von Schäden an einem Auto. Dabei werden die identifizierten Objekte mit einem Rahmen, der sogenannten „Bounding Box“, gekennzeichnet (Bahar, 2019).

3. Objekte segmentieren

Eine weitere Variante der Markierung von Objekten ist die sogenannte Segmentierung, bei der das gesuchte Objekt pixelgenau eingefärbt wird. Dadurch können die genaue Position, die Form und die Abmessungen des Objekts ermittelt werden (Bahar, 2019). Dies ist zum Beispiel in der Krebsdiagnose oder bei der Bemessung von Schäden an Autos relevant.

Das linke Bild zeigt die Identifikation, das rechte die Segmentierung eines Schadens an einem Auto. © istock.com/Srongkrod, bearbeitet

4. Bewegung von Objekten analysieren

Untersucht man die Bewegung von Objekten in einer Videosequenz, lässt sich damit die Bewegungsrichtung eines Objektes („Person überquert die Straße“) oder eine konkrete Handlung einer Person („Person liest ein Buch“) erkennen. Insbesondere für den Bereich des autonomen Fahrens ist die zuverlässige Erkennung von Objekten sowie deren Bewegungsrichtung unerlässlich, um Unfälle mit anderen Verkehrsteilnehmern zu vermeiden.

Lesen Sie hier in unserem Magazin mehr über Autonomes Fahren.

Auch für die Identifizierung von Personen ist die Bewegungsanalyse interessant, da jeder Mensch ein eindeutiges Bewegungsmuster hat. Personen können in einer Menschenmenge durch die Ganganalyse sogar zuverlässiger als mit Gesichtserkennung identifiziert werden (Bastian, 2018 und Bastian, 2018).

Identifikation der Bewegungsrichtung von Objekten in bewegten Bildern © istock.com/Kinwun

Was können bilderkennende Systeme (nicht)?

So erstaunlich die Fähigkeiten bilderkennender KI-Systeme aktuell bereits sind, so überraschend sind aber auch ihre Schwächen.

© istock.com/RLT_Images

Google Lens, seeingAI, TapTapSee, Envision oder OrCam sind Beispiele für bilderkennende Anwendungen, die auf KI-Technologien basieren. Diese Systeme können ein mit einer Kamera oder aufgenommenes Bild analysieren und die Informationen in Text und Sprache übersetzen.

Kühe auf einer Bergwiese © istock.com/slowcentury

SeeingAI kann beispielsweise Texte vorlesen, Gesichter erkennen, Produkte identifizieren oder Szenen in Worte fassen. Die nebenstehend abgebildete Szenerie beschreibt seeingAI (iOS) beispielsweise als: „Wahrscheinlich Kühe, die auf einem Feld stehen“.

Unvollständige oder unscharfe Abbildungen hingegen stellen die Anwendungen noch vor Herausforderungen. Machen Sie hierzu einen kleinen Test: Beschreiben Sie im folgenden Textfeld, was auf dem Bildausschnitt abgebildet ist. Wenn Sie auf „Überprüfen” klicken, wird ihre Antwort überprüft und beim Klick auf „Lösung anzeigen“ sehen Sie, wie seeingAI die Szene beschrieben hat. Sie werden sehen, dass die Szenenerkennung von seeingAI die Szene nicht treffsicher erfassen konnte.

Hands-On

Probieren Sie Apps zur Bilderkennung mit Ihrem Smartphone selbst aus oder erleben Sie bilderkennende KI-Systeme direkt im Browser:

  • Quickdraw
    Spielen Sie Montagsmaler mit einer KI: Erstellen Sie mit der Maus im Browser eine Skizze zu einem vorgegebenen Wort, während eine KI versucht, Ihre Zeichnung zu erkennen.

  • Autodraw
    Skizzieren Sie einen Gegenstand, während eine KI versucht, diesen zu erkennen und Ihnen entsprechende Cliparts anbietet.

  • Teachable machine
    Mit Hilfe der Online-Anwendung Teachable Machine können Sie ohne Programmierkenntnisse eine Anwendung erstellen, die zum Beispiel Bilder oder Bewegungen unterscheiden kann.

  • TapTapSee
    Installieren Sie TapTapSee auf Ihrem Smartphone und erleben Sie wie die mehrfach ausgezeichnete App hilfreich für blinde und sehbehinderte Menschen sein kann.

  • SeeingAI
    Installieren Sie SeeingAI auf Ihrem Smartphone und erleben Sie Ihre Smartphone-Kamera als „sprechendes Auge”.

Wo werden bilderkennende Verfahren eingesetzt?

Die Anwendungsgebiete für bilderkennende Systeme in privaten, öffentlichen und wirtschaftlichen Bereichen sind sehr vielfältig.

Medizintechnik

© istock.com/elenabs

Die Auswertung von Bildern, die beispielsweise von MRTs, CTs oder Röntgengeräten geliefert werden, spielen in der medizinischen Diagnose eine große Rolle. KI-gestützte Bilderkennungssysteme beschleunigen und präzisieren diese Auswertung erheblich.

Ein Beispiel ist das 2019 von Mozziyar Etemadi entwickelte System, das mit hoher Genauigkeit Lungenkrebs bereits im Frühstadium erkennen kann (Svoboda, 2020). Solche Entwicklungen nähren die Hoffnung auf eine verbesserte und allgemein zugänglichere Früherkennung von Erkrankungen wie Lungenkrebs. Dabei sollen die Systeme die radiologische Einschätzung unterstützen und nicht ersetzen (SWR Doku, 2021, 5:10-9:05 min).

Autonomes Fahren

© istock.com/Sensvector

Auch beim autonomen Fahren spielen bilderkennende Systeme eine zentrale Rolle: Durch zahlreiche Kameras wird die Umgebung des Autos aus verschiedenen Blickwinkeln erfasst. Neuronale Netze verarbeiten die Videobilder, um Objekte in der Nähe des Autos wie Verkehrsschilder, andere Autos, Ampeln oder Fußgänger zu identifizieren.

Doch nicht nur zur Bilderkennung spielt das maschinelle Lernen beim autonomen Fahren eine Rolle – auch zum Erlernen der angemessenen Reaktion auf die Hindernisse werden Deep Learning Verfahren genutzt (Stockburger, 2017). So wird ein Auto durch Simulationen oder durch als korrekt gekennzeichnete Fahrmanöver darauf trainiert, vor Hindernissen abzubremsen. Dadurch ist es in der Lage, später in ähnlichen Situationen automatisch zu stoppen. Deep Learning sorgt hier dafür, dass das Auto dieses Verhalten selbstständig lernt, ohne einen von Menschen vorgegebenen Algorithmus für „Abbremsen vor einem Hindernis” zu kennen.

Automatisisierte Aufmerksamkeits- und Emotionserkennung in Schulen

In einigen Ländern, z.B. USA oder China, werden bilderkennende Verfahren in Schulen eingesetzt oder getestet, um automatisiert Aufmerksamkeit oder Emotionen auswerten zu können. Beispielsweise werden von Kameras die Bewegung von Augenbrauen oder Mundwinkeln oder die Blickrichtung beobachtet (Karaboga et al., 2022, S. 187ff).

Als Ziele werden dabei genannt

  • den Lernprozess im Klassenzimmer durch Anpassung der Lernstrategie oder -inhalte zu verbessern,

  • psychische Auffälligkeiten wie z.B. ADHS erkennen zu können oder

  • Gewaltprävention unterstützen zu können.

Dem potenziellen Nutzen für den Lernprozess und in der Gewaltprävention stehen jedoch einige Risiken und Nachteile gegenüber:

  • Das Wissen, ständig überwacht zu werden, kann den Lernfortschritt behindern und zu Verhaltensanpassungen führen, die die persönliche Entwicklung beeinträchtigen (Karaboga et al., 2022, S. 195).

  • Die Auswirkungen auf Privatsphäre, Autonomie und Gerechtigkeit sind enorm bei gleichzeitig unsicherer Zuverlässigkeit der verwendeten Systeme.

Ein Teil des Ethikrates hält die automatische Aufmerksamkeits- und Emotionserkennung in Schulen bei strenger Reglementierung für akzeptabel, während ein anderer Teil die Risiken und Nachteile als so gravierend einstuft, dass er diese Technologie für nicht vertretbar hält (Deutscher Ethikrat, S. 249f).

Unterstützung für blinde und sehbehinderte Menschen

© istock.com/Natty Blissful

Bilderkennende KI-Systeme können als „sprechende Kameras” blinde oder sehbehinderte Menschen unterstützen, indem sie beispielsweise helfen Gesichter zu erkennen, gedruckte Texte oder Displays vorlesen oder eine Beschreibung der Umgebung in gesprochener Sprache liefern.

Die Smartphone-Kamera nutzen Apps wie TapTapSee, SeeingAI oder GoogleLens. Sie sind sowohl für iOS- als auch Android-Geräte kostenlos verfügbar.

Alternativ kann als Kamera auch eine spezielle Brille oder eine Zusatzkamera an einer Brille dienen. Aktuelle Beispiele für solche „Smartglasses” sind die Envision Glasses oder die OrCam.

Landwirtschaft

© istock.com/elenabs

In der Landwirtschaft werden bilderkennende Systeme vielfältig eingesetzt. Beispielsweise werden sie verwendet, um den Reifegrad von Tomaten, Paprika oder Erdbeeren zu bestimmen und diese so automatisch ernten zu können. Auch Schädlinge oder Krankheiten können anhand von Bildern identifiziert werden.

So werden etwa Drohnen in Apfelplantagen eingesetzt, um Bilder der Apfelbäume aufzunehmen. Diese werden dann automatisch analysiert, um Schädlinge oder Krankheiten zu erkennen und gezielt Pestizide einzusetzen, anstatt die gesamte Plantage zu behandeln. Dadurch lässt sich der Pestizideinsatz verringern, was sowohl Kosten spart als auch die Umwelt schont.

Zum Weiterlesen:

Mülltrennung

© istock.com/TarikVision

Bilderkennende Verfahren können auch eingesetzt werden, um Bilder von Müll zu analysieren und zu klassifizieren (acatech, o.J.). Dies kann zur automatischen Unterscheidung von Papier, Plastik, Metall oder anderen Materialien genutzt werden.

Zum Weiterlesen: Bei ki-kurs.org findet sich eine Anleitung zur Entwicklung einer KI-Anwendung, um Alltagsmüll zu sortieren (Registrierung erforderlich).

Überwachung zu humanitären Zwecken

© istock.com/ribitts

Drohnen, die ihre Umwelt über Kameras wahrnehmen und interpretieren können, können beispielsweise bei Naturkatastrophen eingesetzt werden, um in unzugänglichen Gebieten Aufklärung zu leisten. Auch beim Umweltschutz leisten solche Drohnen enorme Dienste, zum Beispiel um den Bestand bedrohter Tierarten automatisch zu erfassen.

Die Potentiale von KI für humanitäre Zwecke werden in einem für die OCHA angefertigten Bericht von 2020 ausführlich beschrieben.

Überwachung von Menschen

© istock.com/NLshop

Allerdings lassen sich diese Technologien nicht nur zum Schutz von Menschen oder Tieren einsetzen, sondern auch zu deren Überwachung, was zu Verletzungen der Privatsphäre und Freiheitseinschränkungen führen kann.

Ein Beispiel dafür ist das von der Europäischen Union geförderte ROBORDER-Projekt: Dabei werden Drohnen mit KI-Unterstützung entwickelt, die autonom Europas Grenzen überwachen. Diese Drohnen sollen nicht nur Menschen erkennen, sondern auch ihre Absicht vorhersagen – also zum Beispiel, ob jemand die Grenze überqueren möchte.

Viele dieser Verfahren basieren auf neuronalen Netzen. Lesen Sie in unserem Magazin mehr zur Funktionsweise neuronaler Netze.

Welche Grenzen haben bilderkennende Verfahren?

Bilderkennende KI-Systeme können Probleme lösen, die Menschen zu komplex oder zeitaufwändig sind, z. B. in der Medizintechnik. Sie automatisieren und beschleunigen Prozesse und sparen dadurch Zeit und Kosten, z. B. in der Landwirtschaft. Sie können jedoch bei ihrem Einsatz auch selbständig Entscheidungen treffen und drohen sich menschlicher Kontrolle und Verantwortung zu entziehen.

Fehlentscheidungen möglich

Bilderkennende KI-Systeme können Fehler machen.

Wurden beim Training des KI-Systems fehlerhafte oder verzerrende Trainingsdaten verwendet, dann kann dieses System bei seinem Einsatz diskriminierend wirken, insbesondere gegenüber bestimmten ethnischen Gruppen oder Geschlechtern. Lesen Sie in unserem Magazin mehr über Verzerrungen.

Möglich sind auch gezielte Manipulationen, um ein bilderkennendes KI-System fehlerhafte Ergebnisse liefern zu lassen und also zu falschen Entscheidungen führen. Lesen Sie in unserem Magazin mehr über Adversarial Attacks.

Risiko kontrollieren

Es gilt also, die großen Potentiale bilderkennender Verfahren zu nutzen, dabei aber die Probleme zu berücksichtigen, die sich aus dem Umgang mit den automatisch erhobenen und verarbeiteten Daten ergeben. Dazu ist es notwendig, transparente Rahmenbedingungen für den Einsatz der Verfahren der künstlichen Intelligenz zu schaffen.

Der 2024 in Kraft getretene EU AI Act verfolgt dazu einen risikobasierten Ansatz, d. h. das notwendige rechtliche Eingreifen hängt von der Bewertung des Risikos ab. Beispielsweise wird der Bereich Bildung als hoch riskant eingestuft und unterliegt daher strengen Regulierungen.

Risikostufen für KI-Systeme des europäischen Rechtsrahmens für KI
CC BY 4.0 ISB

Lesen Sie mehr über die Frage „(Wie) kann man KI zähmen?” hier in unserem Magazin.

Explainable Artificial Intelligence - XAI

© istock.com/yasindu costa

Ein vielversprechender Ansatz ist die Erklärbare Künstliche Intelligenz (Explainable Artificial Intelligence, kurz XAI). XAI hat zum Ziel, KI-Entscheidungen für Menschen nachvollziehbar zu machen.

Lesen Sie in einer Veröffentlichung des Fraunhofer-Instituts mehr über XAI. Sie finden hierin einen AI Videopodcast und einen Explainable AI Demonstrator sowie weitere Informationen.

Unterrichtsmaterialien zu bilderkennenden KI-Systemen

KI in 60 Sekunden - Einsatzbeispiele für bilderkennende Verfahren

Stein-Schere-Papier: spielerisch ein bilderkennendes KI-System erleben

  • Mit der Browser-Anwendung Rock-Paper-Scissors lässt sich spielerisch demonstrieren wie ein bilderkennendes KI-System arbeitet.

    Zielgruppe: Schülerinnen und Schüler von Sekundarstufe I und II

    Art des Materials: Browser-Anwendung

    Link zum Material: https://tenso.rs/demos/rock-paper-scissors/

QuickDraw: spielerisch ein bilderkennendes KI-System erleben

So lernen Maschinen - Algorithmen und Daten

  • In einem Video der acatech - Deutsche Akademie der Technikwissenschaften e.V wird erklärt, wie durch maschinelles Lernen automatische Bilderkennung möglich wird.

    Zielgruppe: 5.-13. Jahrgangsstufe

    Art des Materials: Video

    Link zum Material: https://mundo.schule/details/SODIX-0001002239

Unravel: Bilderkennung mit neuronalen Netzen

Teachable Machine: ohne Programmierkenntnisse ein bilderkennendes KI-System erstellen

  • Mit Teachable Machine lässt sich ohne Programmierkenntnisse ein einfaches bilderkennendes KI-System erstellen. Auf der Webseite von Teachable Machine findet sich eine Schritt-für-Schritt-Anleitung.

    Zielgruppe: Sekundarstufe II

    Art des Materials: Material für Lehrkräfte

    Links zum Material: https://teachablemachine.withgoogle.com

KI programmieren im Informatikunterricht Teil 5: teachable machine

  • Lars Pelz von der iMINT-Akademie Fachset Informatik stellt zwei Lernaufgaben vor, in denen die Schülerinnen und Schüler mit Teachable Machine das Trainieren und Testen neuronaler Netze für Bild- oder Ton-Erkennung praktisch umsetzen.

    Zielgruppe: Sekundarstufe II

    Art des Materials: Material für Lehrkräfte

    Links zum Material: https://mundo.schule/details/SODIX-0001130258

KI programmieren im Informatikunterricht Teil 2: Bilderkennung

  • In einem Unterrichtsbaustein stellt Alexander Schindler von der iMINT-Akademie Fachset Informatik eine Lernaufgabe vor, mit denen fortgeschrittene Schülerinnen und Schüler mit TensorFlow ein eigenes bilderkennendes KI-System erstellen und an einem Beispiel den Einsatz eines bilderkennenden Systems bewerten.

    Zielgruppe: 11.-13. Jahrgangsstufe, Fach Informatik

    Art des Materials: Unterrichtskonzept

    Link zum Material: https://mundo.schule/details/SODIX-0001130274

Lernstrecke Lernende Systeme: ohne Programmierkenntnisse ein bilderkennendes KI-System erstellen

  • In der Lernstrecke „Lernende Systeme” dienen bilderkennende KI-Systeme als Beispiele, um die Grundidee Kategorien bilden - Beispiele sammeln - Trainingsphase - Test- bzw. Anwendungsphase kindgerecht zu vermitteln.

    Zielgruppe: 5.-7. Jahrgangsstufe

    Art des Materials: Online-Lernstrecke

    Links zum Material: https://inf-schule.de/kids/computerinalltag/lernende-systeme

IT4Kids: Bilderkennung mit KI und neuronalen Netzen

  • IT4Kids stellt Materialien vor, mit denen Kinder in die Rolle eines KI-Systems schlüpfen und erfahren, wie dieses lernt. Abschließend wird im Browser in der kindgerechten Entwicklungsumgebung Cubi das Training einer KI demonstriert.

    Zielgruppe: 3. – 7. Jahrgangsstufe

    Art des Materials: Material für Lehrkräfte und Schülerinnen und Schüler, Browser-Anwendung

    Link zum Material: https://mundo.schule/details/SODIX-0001120526

Bilderkennende KI-Systeme als Unterstützung

  • Smartphone-Apps unterstützen blinde und sehbehinderte Menschen, indem sie Informationen aus einem mit der Smartphone-Kamera aufgenommenen Bild in Sprache übersetzen, z.B. Texte vorlesen oder die Umgebung beschreiben.

    Zielgruppe: Schülerinnen und Schüler mit Sehbehinderungen

    Art des Materials: Smartphone-Apps

    Links zum Material:

  • Eine Browser-Anwendung unterstützt beim Zeichnen von Gegenständen: skizziert man einen Gegenstand, bietet eine KI entsprechende Cliparts an.

    Zielgruppe: 5.-13. Jahrgangsstufe, Lehrkräfte

    Art des Materials: Browser-Anwendung

    Link zum Material: https://www.autodraw.com

Weitere Beiträge

Alle ansehen (15)
Geteiltes Gesicht eines Schülers, links realistisch, rechts verpixelt und von Binärcode überlagert – veranschaulicht die Gefahren KI-basierter Manipulation.

KI | Deepfakes

Deepfakes, eröffnen eine neue Dimension digitaler Täuschung. Wie können wir dem begegnen?

Ein Junge und ein Mädchen halten abwechselnd ein Adversarial Patch in der Hand und werden damit nicht von der Kamera erkannt.

KI | Adversarial Attacks

Adversarial Attacks sind faszinierend und beunruhigend zugleich. Durch gezielt manipulierte Eingaben, sogenannte Adversarial Examples, lassen sich Schwachstellen in maschinellen Lernmodellen ausnutzen, um die KI in die Irre zu führen.

Zu Seitenstart springen Über mebis