Verschiedene Ursachen für Verzerrungen
Aktualität der Input-Daten
Eine mögliche Ursache für Bias sind die Qualität oder Aktualität der Input-Daten, mit denen die Maschine trainiert wird. Beispielsweise verwendete der im Eingangsbeispiel erwähnte Jobcenter-Algorithmus veraltete Daten, die stereotype Annahmen enthielten. Da Mütter in der Vergangenheit häufig zu Hause blieben, um ihre Kinder zu erziehen, schätzte der Algorithmus ihre Wiedereingliederungschancen in den Arbeitsmarkt geringer ein und schlug sie seltener für Schulungen vor.
Vollständigkeit der Daten
Ein weiterer Grund für Verzerrungen kann das Fehlen bestimmter Daten sein. Für den Schönheitswettbewerb Beauty.AI gab es nicht genügend Daten von nicht weißen Menschen, um eine umfassende und faire Attraktivitätsskala zu erstellen. Aus diesem Grund wurden nur Gewinnerinnen mit weißer Hautfarbe vorgeschlagen. Ein ähnlicher Effekt zeigte sich bei Bilderkennungssystemen zur Unterscheidung von Melanomen und Leberflecken auf. Diese funktionierten bei weißer Haut zuverlässiger, da es mehr Bilder von Melanomen auf weißer als auf farbiger Haut gibt (Zweig, 2019).
Vollständigkeit der erhobenen Merkmale
Das Fehlen sensibler Daten wie das Merkmal Geschlecht kann mitunter zu Benachteiligungen führen. So unterstützen in den USA algorithmische Systeme die Endscheidungsfindung, ob Straftäter rückfällig werden oder nicht. Was wäre, wenn Frauen ein anderes Rückfallverhalten hätten als Männer, aber genau dieses sensible Merkmal nicht berücksichtigt würde? Dann würden einige Männer oder Frauen zu Unrecht länger im Gefängnis bleiben (Zweig, 2019).