Zu Inhalt springen Zu Fußbereich springen

KI | Verzerrungen

Künstliche Intelligenz (KI) durchdringt immer mehr Lebensbereiche und entscheidet über wichtige Angelegenheiten wie die Auswahl von Bewerbern. Aber wie objektiv sind diese Entscheidungen wirklich? Der Artikel zeigt, wie voreingenommen KI-Systeme sein können, und erörtert, wie wir sicherstellen können, dass technologische Lösungen fair und vertrauenswürdig bleiben.

Künstliche Intelligenz entscheidet nicht objektiv

Bei der Herstellung dieses Bildes wurde am 03.04.2024 DALL.E eingesetzt. © ISB

2016 fand Beauty.AI statt, der erste internationale Schönheitswettbewerb, bei dem eine KI die Jury bildete (team@beauty.ai, 2024). Das Ergebnis löste Kontroversen aus, da fast alle Gewinner weiß waren. Lag es daran, dass die Teilnehmenden helle Hautfarben hatten? Nein, es gab auch eine große Anzahl von Teilnehmern aus Ländern wie Indien und verschiedenen afrikanischen Staaten. Die Erklärung dafür, dass der Algorithmus helle Hautfarben bevorzugte, ist, dass er mit großen Fotodatensätzen trainiert worden war, die Minderheiten nur unzureichend repräsentierten. Dieser Vorfall zeigt sehr deutlich, dass Algorithmen existierende Vorurteile reproduzieren und verstärken können, was zu verzerrten und häufig anstößigen Ergebnissen sowie der Diskriminierung von Minderheiten führen kann (ZEIT ONLINE, 2016).

In Österreich wird aktuell vor dem obersten Verwaltungsgericht über einen Algorithmus verhandelt, den Behörden einsetzen, um die Jobchancen von Arbeitssuchenden zu prognostizieren. Dieser Algorithmus teilt Arbeitssuchende basierend auf Daten wie Alter, Geschlecht, Wohnort und Staatsangehörigkeit in drei Kategorien ein, um die Wahrscheinlichkeit für eine erfolgreiche Wiedereingliederung in den Arbeitsmarkt einzuschätzen. Kritisiert wird das System für die mögliche Diskriminierung von benachteiligten Gruppen, wie z. B. Frauen, insbesondere Mütter, die aufgrund der algorithmischen Einstufung weniger Zugang zu Schulungen und Trainings erhalten könnten (Fanta, 2021).

US-amerikanische Gesundheitssysteme nutzen Algorithmen, um zu entscheiden, welche Behandlungen Patienten bekommen. Diese Ergebnisse sind für die Ärzte oft nicht nachvollziehbar. Zum Beispiel hat ein Krankenhaus in Boston festgestellt, dass ein Computerprogramm weiße Patienten häufiger als afroamerikanische für eine bestimmte Behandlung ausgewählt hat. Der Grund dafür war, dass das Programm anhand der Gesundheitskosten der Patienten in der Vergangenheit entschied. Sozial benachteiligte Patienten, die sich Arztbesuche oft nicht leisten können, gingen seltener zum Arzt und wurden daher seltener ausgewählt. Dies ist unfair, da sie eigentlich mehr Unterstützung benötigen. Nachdem Forscher in den USA dieses Problem erkannten, änderten sie das Programm. In der Folge erhielten deutlich mehr afroamerikanische Patienten die notwendige Behandlung (Obermeyer, 2019).

Ursachen für Verzerrungen

Die oben beschriebenen diskriminierenden Effekte datengestützter Technologien wurden inzwischen in vielen Bereichen nachgewiesen. Datenbasiert lernende KI-Systeme nutzen vorhandene Daten, um Vorhersagen und Empfehlungen zu generieren. Dadurch können bestehende Stereotype und Ungleichheiten in scheinbar neutralen Technologien fortgeschrieben und verstärkt werden. Solche Fehler, die unter anderem bei der Datenerhebung entstehen und Entscheidungen beeinflussen können, werden als Verzerrung bezeichnet. Verzerrungen, die aus ungenauen Daten resultieren, führen häufig zur Diskriminierung bestimmter Gruppen (Deutscher Ethikrat, 2023).

Was steckt noch hinter dem Begriff Verzerrung?

Verzerrungen treten bei allen möglichen Datenerhebungen auf, wie bei physikalischen Experimenten, bei Umfragen, bei Wettervorhersagen und vielem mehr. Die Entstehung unzuverlässiger Daten kann dabei auf verschiedene Gründe zurückzuführen sein (Schmid, 2024).

Spielen im Regen trotz sonniger Wettervorhersage
Es wurde sonniges Wetter vorhergesagt und es regnet trotzdem. (Bei der Herstellung dieses Bildes wurde am 11.04.2024 DALL.E eingesetzt.) © ISB

Zufällige Verzerrungen

... sind Abweichungen der Messwerte vom wahren Wert, die zufällig auftreten und alle Arten von Messungen betreffen, z. B. Temperaturmessungen bei Wettervorhersagen oder Gewichtsmessungen. Sie können die Verlässlichkeit von Daten wie Wettervorhersagen oder Wahlprognosen einschränken, aber ihr Einfluss kann durch das Sammeln und Vergleichen mehrerer Datenquellen und das Ermitteln von Mittelwerten begrenzt werden.

Eine heruntergekommene Imbissbude mit einer 5-Sterne Bewertung
Eine heruntergekommene Imbissbude hat eine 5-Sterne Bewertung. (Bei der Herstellung dieses Bildes wurde am 11.04.2024 DALL.E eingesetzt.) © ISB

Bewusste Verzerrungen

... sind absichtliche Manipulationen von Informationen oder Daten, die häufig zur Beeinflussung von Meinungen oder zur Gewinnmaximierung eingesetzt werden, wie z.B. manipulierte Bewertungen von Produkten oder Dienstleistungen. Sie können der Gesellschaft schaden, indem sie Fehlinformationen verbreiten und Entscheidungen verzerren; Schutz davor bieten die Überprüfung von Quellen, der Vergleich mit vertrauenswürdigen Informationen und das kritische Hinterfragen der Intention und Emotionalität von Informationen.

Ein Flügel als Musikinstrument oder als Körperteil eines Vogels.
Computer lernen aus Daten, die in unterschiedlichen Kontexten eine andere Bedeutung haben. (Bei der Herstellung dieses Bildes wurde am 11.04.2024 DALL.E eingesetzt.) © ISB

Systematische Verzerrungen,

... auch Bias genannt, treten auf, wenn Daten, die für Entscheidungs- oder Trainingsprozesse verwendet werden, eine unausgewogene oder einseitige Perspektive aufweisen. Dies führt oft zu verzerrten Ergebnissen oder Urteilen. Solche Verzerrungen beruhen häufig auf menschlichen Vorurteilen oder unvollständigen Datensätzen und können sowohl in KI-Anwendungen als auch im menschlichen Denken auftreten. Ein Beispiel im menschlichen Denken ist die soziale Erwünschtheit: Ärmeren Haushalten neigt dazu, ihr Einkommen zu überschätzen, während reichere Haushalte es oft unterschätzen.

Algorithmen diskriminieren eigentlich immer

Diskriminierung durch KI-Systeme entsteht häufig unbeabsichtigt durch eine Kombination aus gesellschaftlichen Stereotypen und technischen Entscheidungen, wie der Auswahl von Zielvariablen, Trainingsdaten und Analysemethoden (Deutscher Ethikrat, 2023).

Bei der Herstellung dieses Bildes wurde am 03.04.2024 DALL.E eingesetzt. © ISB

Beim maschinellen Lernen werden zum Beispiel Analogien aus Texten gezogen. Aus Wortpaaren wie „Deutschland - Berlin” oder „Rom - Italien” findet die Maschine eine sehr harmlose Analogie wie Berlin ist zu Deutschland wie Rom zu Italien ohne die Beziehung Hauptstadt zu kennen. Aus männlichen und weiblichen Berufsbezeichnungen könnte sich dann folgende Analogie ergeben: Mann zum Arzt wie Frau zur Ärztin. Falls der Trainingsdatensatz veraltet war, könnte es auch heißen: Mann zum Arzt wie Frau zur Krankenschwester. Das wäre dann ein Stereotyp (Zweig, 2019).

Wenn ein Algorithmus diskriminiert, bedeutet das in der Regel, dass er Unterschiede zwischen Gruppen erkennt und diese dann anhand bestimmter Merkmale voneinander trennt. Dies wird insbesondere dann problematisch, wenn es sich um grundgesetzlich geschützte Merkmale wie Geschlecht, Religion, Alter oder Gesundheitsinformationen handelt. Kritisch wird es, wenn eine solche Unterscheidung zu Benachteiligungen in wichtigen Bereichen wie Arbeit oder Bildung führt.

Verschiedene Ursachen für Verzerrungen

Aktualität der Input-Daten

Eine mögliche Ursache für Bias sind die Qualität oder Aktualität der Input-Daten, mit denen die Maschine trainiert wird. Beispielsweise verwendete der im Eingangsbeispiel erwähnte Jobcenter-Algorithmus veraltete Daten, die stereotype Annahmen enthielten. Da Mütter in der Vergangenheit häufig zu Hause blieben, um ihre Kinder zu erziehen, schätzte der Algorithmus ihre Wiedereingliederungschancen in den Arbeitsmarkt geringer ein und schlug sie seltener für Schulungen vor.

Vollständigkeit der Daten

Ein weiterer Grund für Verzerrungen kann das Fehlen bestimmter Daten sein. Für den Schönheitswettbewerb Beauty.AI gab es nicht genügend Daten von nicht weißen Menschen, um eine umfassende und faire Attraktivitätsskala zu erstellen. Aus diesem Grund wurden nur Gewinnerinnen mit weißer Hautfarbe vorgeschlagen. Ein ähnlicher Effekt zeigte sich bei Bilderkennungssystemen zur Unterscheidung von Melanomen und Leberflecken auf. Diese funktionierten bei weißer Haut zuverlässiger, da es mehr Bilder von Melanomen auf weißer als auf farbiger Haut gibt (Zweig, 2019).

Vollständigkeit der erhobenen Merkmale

Das Fehlen sensibler Daten wie das Merkmal Geschlecht kann mitunter zu Benachteiligungen führen. So unterstützen in den USA algorithmische Systeme die Endscheidungsfindung, ob Straftäter rückfällig werden oder nicht. Was wäre, wenn Frauen ein anderes Rückfallverhalten hätten als Männer, aber genau dieses sensible Merkmal nicht berücksichtigt würde? Dann würden einige Männer oder Frauen zu Unrecht länger im Gefängnis bleiben (Zweig, 2019).

Ein animierter Charakter eines Roboters, der als Chatbot dargestellt wird, sitzt vor einem Computerbildschirm, der Tweets anzeigt. Der Roboter hat ein neutrales, jedoch leicht verwirrtes Gesicht. Im Hintergrund sind Symbole für Twitter und verschiedene emotionale Gesichtsausdrücke, die von fröhlich bis wütend reichen, um die Einflüsse der Tweets zu zeigen. Auf dem Bildschirm erscheinen verschiedene Textblasen, die frauenfeindliche, rassistische und politisch extreme Aussagen enthalten. Über der Szene schwebt ein dunkles Cloud-Symbol mit dem Text 'garbage in, garbage out'.
Bei der Herstellung dieses Bildes wurde am 19.04.2024 Consistent Charakter GPT eingesetzt. © ISB

Qualität der Input-Daten

Ein anschauliches Bespiel für die Bedeutung der Qualität von Input-Daten ist der Fall von Tay, dem KI-Chatbot von Microsoft. Tay wurde entwickelt, um aus Gesprächen auf Twitter zu lernen. Doch innerhalb eines Tages wurde Tay durch negative und extremistische Tweets so stark beeinflusst, dass Microsoft ihn vom Netz nehmen musste. Konfrontiert mit frauenfeindlichen, rassistischen und politisch extremen Äußerungen, begann der Bot, diese Inhalte zu wiederholen. Informatiker nennen dies „garbage in, garbage out” - das bedeutet, dass ein Computerprogramm schlechte Informationen reproduziert, wenn es sie erhält (Vincent, 2016).

Das Problem dabei ist, dass es nahezu unmöglich ist, Beleidigungen oder Unwahrheiten durch automatische Filter für sexistische Inhalte oder Hassreden zu verhindern, da findige Nutzer diese Filter leicht umgehen können. Daher stellt sich die Frage, wie eine Gesellschaft das Erkennen und Korrigieren solcher Fehler gewährleisten kann. Ein Ansatz hierfür ist es, die Inhalte durch Menschen in Handarbeit überprüfen zu lassen. Dazu beschäftigen Social-Media-Plattformen wie Facebook oder YouTube zehntausende Menschen in Billiglohnländern, die problematische Inhalte entfernen (farbfilm verleih, 2024). Die Kriterien und Richtlinien, nach denen diese Inhalte bewertet und entfernt werden, sind jedoch streng geheim (Zweig, 2019).

Wie lassen sich Diskriminierungen nachweisen?

Bisher haben Menschen Entscheidungen über Zulassungen getroffen. Ging es beispielsweise um die Zulassung zu einem Medizinstudium, dann haben Examensnote oder Testergebnis diese Entscheidung transparent gemacht. Oft aber werden Entscheidungen aufgrund von Erfahrungen oder dem Bauchgefühl getroffen und sind somit nicht immer nachvollziehbar.

Heute werden in immer mehr Bereichen Maschinen in Entscheidungen einbezogen. Eine zentrale Herausforderung ist dabei zu erkennen, ob die Maschine Menschen diskriminiert. Dazu kann zum einen der zugrundeliegende Code untersucht werden - vorausgesetzt dieser ist bekannt, was aufgrund von Patentrechten nicht immer der Fall ist. Diese Untersuchung ist allerdings sehr aufwändig und nur von Experten durchführbar. Handelt es ich um selbstlernende Maschinen, dann ist der Prozess der Entscheidungsfindung überhaupt nicht nachvollziehbar. Hier kann das System nur mit der sogenannten Black-Box-Methode analysiert werden. Ohne auf den zugrundeliegenden Algorithmus zugreifen zu müssen, testet man das zu prüfende System mit vielen verschiedenen Testaccounts und Testanfragen (Gesellschaft für Informatik, 2018).

Eine Krankenschwester und ein Optiker.
Bei der Herstellung dieses Bildes wurde am 03.04.2024 DALL.E eingesetzt. © ISB

In folgendem Studien-Beispiel hat eine externe Bewertungsagentur die Übersetzungsqualität von Google Translate und Yandex Translate untersucht und bewertet, ob diese KI-Dienste unvoreingenommen sind:
Der Satz „He is a nurse. She is an optician“ wurde in mehrere Zielsprachen übersetzt und dann wieder ins Englische zurückübersetzt. Dabei wurde die Rückübersetzung mit dem ursprünglichen Satz verglichen. In zwei Sprachen ging die ursprüngliche Geschlechtsverteilung verloren - die Ausgabe war dann beispielsweise „That nurse. It is an optician.“ In einer anderen Sprache wurde die Geschlechtsverteilung sogar vertauscht: „She is a nurse. He is an optician.“ Der kulturelle Umstand, dass in den betreffenden Ländern Optiker ein typisch männlicher Beruf ist, findet in der Sprache seinen Ausdruck und dadurch auch in der Rückübersetzung (Srivastava, Rossi, 2018).

Weitere Informationen zur Diskriminierung durch Algorithmen finden Sie im Artikel Themen im Fokus - Digitale Ethik: Algorithmische Diskriminierung

Umgang mit Bias: Antworten aus der Gesellschaft

Ein Bild für eine Stellenanzeige als LKW-Fahrerin: Eine Frau fährt LKW und wirkt glücklich.
Bei der Herstellung dieses Bildes wurde am 18.04.2024 ideogram eingesetzt. © ISB

Manchmal ist es für Betroffene gar nicht erkennbar, dass sie diskriminiert werden. In einer Untersuchung dazu schaltete AlgorithmWatch mehrere Stellenanzeigen auf Facebook, unter anderem eine Anzeige für eine Stelle als LKW-Fahrerin. Diese Anzeige wurde deutlich häufiger Männern als Frauen angezeigt. Eine Frau, die gerne LKW-Fahrerin werden möchte, hätte diese Anzeige möglicherweise nicht gesehen, da die Werbeanzeigen automatisiert an die vermeintlichen Zielgruppen ausgespielt werden. Sie ist sich damit der Diskriminierung gar nicht bewusst (Kayser-Bril, 2020).

Rechtliche Grundlagen schaffen

Obwohl Diskriminierung verboten ist, könnte es also für betroffene Bürgerinnen und Bürger sehr schwierig sein diese nachzuweisen. Um deren Rechtsschutz gewährleisten zu können, werden von der Antidiskriminierungsstelle des Bundes folgende Vorschläge gemacht:

  • Die Beweislastregel, die festgelegt, wer vor Gericht Indizien einer Diskriminierung vorlegen muss, sollte angepasst werden. Bislang liegt es an den Betroffenen Diskriminierungsbeweise vorzulegen, doch ihnen fehlt oft das Wissen über die Funktionsweise von KI-Systemen. Daher sollten die Anbieter, die auf ihrer Plattform oder in ihrer Software ein KI-System einsetzen, vor Gericht beweisen müssen, dass keine Diskriminierung stattgefunden hat.

  • Betreiber von KI-Systemen sollten verpflichtet werden, Informationen über die verwendeten Daten offenzulegen und darüber, wie das System funktioniert.

  • Es sollte eine neutrale Stelle eingerichtet werden, die bei Diskriminierung hilft, und es sollte festgelegt werden, dass man sich bei Diskriminierungsproblemen immer an diese Stelle wenden muss (Antidiskriminierungsstelle des Bundes, 2023).

Technische Vorkehrungen treffen

Es ist schwierig mit den rechtlichen Mitteln eine Absicht zur Diskriminierung nachzuweisen. Die Gründe für Diskriminierung durch KI-Systeme sind wie im Artikel oben beschrieben komplex und auch meist nicht auf direkte Absichten der Entwickler zurückzuführen. Stattdessen entstehen solche Diskriminierungen oft durch in der Gesellschaft vorhandene Vorurteile und Stereotypen, die dann in den technischen Entscheidungsprozessen reflektiert werden.

Zur Minderung der Diskriminierung durch KI-Systeme ist eine angemessene Überwachung und Steuerung dieser Systeme notwendig. Insbesondere in sensiblen Sektoren ist der Aufbau oder die Erweiterung von gut ausgerüsteten Institutionen erforderlich (Deutscher Ethikrat, 2023).

  • Schon in der Entwicklungsphase von Technologien sollten Firmen auf wenig Diskriminierung und auf klare und verständliche Vorgehensweisen mit technischen Standards und klaren Regelungen achten. Von der Gesellschaft kann dies durch Forschungsunterstützung und Gesetze gefördert werden, die verlangen, dass Entwickler transparent Informationen über Maßnahmen gegen Diskriminierung bereitstellen. Diese bestehenden Rechte und Regelungen müssen der Öffentlichkeit bewusst gemacht werden, ihre Einhaltung muss durch Kontrollen durchgesetzt werden und falls nötig müssen die Gesetze weiter entwickelt werden (Rohde, 2021).

  • Da es technisch sehr schwierig ist, alle möglichen Fairnessziele gleichzeitig zu erreichen, müssen deshalb auch ethische und politische Entscheidungen getroffen werden, welche Kriterien wann zu berücksichtigen sind. Diese Festlegungen sollten nicht nur den Softwareentwicklern überlassen, sondern durch spezielle Verfahren und Einrichtungen demokratisch festgelegt werden. Dabei ist es auch wichtig, dass die Öffentlichkeit mitentscheiden kann, besonders um die am stärksten betroffenen Gruppen zu schützen (Deutscher Ethikrat, 2023).

Bias, ein soziales Nachhaltigkeitskriterium - Empfehlungen der Europäischen Kommission

Die Diskussion über verantwortungsvolle und ethische KI, einschließlich ihrer Umweltauswirkungen, gewinnt an Dynamik. Zur Bewertung und Einordnung möglicher Auswirkungen von KI-Systemen wurden dreizehn Nachhaltigkeitskriterien identifiziert. „Nicht-Diskriminierung und Fairness“  ist ein Kriterium für soziale Nachhaltigkeit.

Die Europäische Kommission empfiehlt, Fairness in der Entwicklung von KI-Systemen klar zu definieren und umzusetzen. Zu diesem Zweck sollte ein Entwicklungsteam:

  • eine angemessene Definition von Fairness festlegen, die auf den jeweiligen Anwendungsfall zugeschnitten und kommuniziert wird.

  • verwundbare und möglicherweise benachteiligte Gruppen identifizieren, indem es geschützte Attribute wie Ethnizität, Hautfarbe, Herkunft, Religion und Geschlecht berücksichtigt und in Test- und Evaluationsprozessen einbezieht.

  • geeignete Werkzeuge und Kriterien zur Identifizierung und Messung von Bias und Fairness in Trainings- und Eingabedaten sowie in Modellen, Methoden und Design verwenden.

  • nötige Maßnahmen zur Beseitigung von Unfairness ergreifen, wie das gezielte Entfernen oder Anpassen von geschützten Attributen in den Daten oder Modellen, wenn festgestellt wird, dass diese Merkmale, beispielsweise das Geschlecht in einem Einstellungsalgorithmus, zu einer Verzerrung führen. Wenn der Algorithmus Bewerbungen systematisch aufgrund des Geschlechts unterschiedlich bewertet, könnte das Geschlecht entweder entfernt oder so behandelt werden, dass es keine ungerechten Ergebnisse mehr verursacht.

Es ist wichtig, dass Unternehmen ihre Fairness-Praktiken transparent machen und diese immer wieder kritisch betrachten (Rohde, 2021).

Schließlich sollte die Verantwortung für die Bekämpfung von Diskriminierung durch KI-Systeme sowohl auf rechtlicher als auch auf technischer Ebene geteilt und kontinuierlich weiterentwickelt werden, um eine faire und gerechte Gesellschaft zu gewährleisten. Lehrkräfte spielen dabei eine entscheidende Rolle, indem sie das Bewusstsein für diese Themen bei den kommenden Generationen fördern.

Im folgenden Quiz können Sie Ihr Verständnis der wichtigsten Empfehlungen des Deutschen Ethikrats, der Antidiskriminierungsstelle des Bundes oder der Europäischen Kommission vertiefen:

Unterrichtsmaterial

Für verschiedene Zielgruppen gibt es Unterrichtsmaterial zu Bias und Verzerrungen:

KI für Meere

  • Beim Lernen mit Code.org über KI, maschinelles Lernen, Trainieren mit Daten und Bias lassen sich echte Modelle trainieren.

    Zielgruppe: Jahrgangsstufe 3-9

    Art des Materials: Selbstlernmaterial

    Link zum Material: KI für Meere

Data Literacy für die Grundschule

  • Der Kurs bereitet Lehrkräfte darauf vor, Datenkompetenz spielerisch und umfassend zu vermitteln, um Kinder für eine datengetriebene Welt fit zu machen. Modul 4 beschäftigt sich mit Verzerrungen.

    Zielgruppe: (Grundschul-)Lehrkräfte

    Art des Materials: Selbstlernmaterial

    Link zum Material: Data Literacy für die Grundschule

Bias und Fairness in KI-Systemen

  • Auf den Webseiten der Universität Ulm findet man einen umfassenden Überblick über die Grundlagen von Bias und Fairness in der Künstlichen Intelligenz (KI). Diese Themen werden in vier Kursen mit aufsteigender Schwierigkeit vertieft.

    Zielgruppe: Jahrgangsstufe 10-13

    Art des Materials: Selbstlernmaterial

    Link zum Material: Bias und Fairness in KI-Systemen

Weitere Beiträge

Alle ansehen (11)

KI | Chatbots

Woher haben Chatbots ihr Können und was bedeutet das für uns?

KI | Verzerrungen

Angesichts der Verbreitung von KI stellt sich die kritische Frage nach der Datenzuverlässigkeit und wie Verzerrungen entstehen: Welche Auswirkungen hat dies auf Diskriminierung?

Futuristisches Armaturenbrett eines autonomen Fahrzeugs

KI | Autonomes Fahren

Der Verkehr wird in Zukunft zunehmen. Im Unterricht sollte diskutiert werden, ob autonome Fahrzeuge eine mögliche Lösung darstellen.

Zu Seitenstart springen Über mebis