Die Fähigkeit, Gesichter zu erkennen und zu unterscheiden, ist eine fundamentale menschliche Eigenschaft. Unser Gehirn verfügt sogar über ein eigenes Areal, das speziell für die Gesichtserkennung zuständig ist. Doch in der heutigen Zeit, in der künstliche Intelligenz (KI) immer ausgefeiltere Bilder und Videos erzeugt, stehen wir vor neuen Herausforderungen. Können wir noch zwischen echten und KI-generierten Gesichtern unterscheiden? Und wenn nicht, warum täuscht uns die KI so leicht?
Hyperrealistische KI-Gesichter: Täuschend echt
Forschungen haben gezeigt, dass es für uns Menschen nicht nur schwer ist, KI-generierte und reale Gesichter zu unterscheiden, sondern dass wir KI-Bilder sogar häufiger für menschlich halten als echte Fotos. Dies liegt daran, dass KI-Gesichter oft hyperrealistisch wirken und uns besonders symmetrisch proportioniert, vertraut und attraktiv erscheinen.
Ein Experiment enthüllt den Hyperrealismus
In einem Experiment wurden Testpersonen Porträtfotos von KI-generierten Gesichtern und realen Menschen gezeigt. Das Ergebnis war überraschend: Die Testpersonen hielten die KI-Bilder deutlich häufiger für menschlich als die realen Fotos. Dies deutet darauf hin, dass KI-Gesichter auf uns "menschlicher" wirken als echte Gesichter.
Die Merkmale von KI-Gesichtern
Weitere Untersuchungen ergaben, dass KI-generierte Porträts signifikant häufiger als wohlproportioniert, symmetrisch, attraktiv, vertraut und wenig herausstechend eingestuft werden als echte menschliche Gesichter. Diese Merkmale tragen zum hyperrealistischen Eindruck bei, den KI-Gesichter erwecken.
Die Täuschung durch KI: Eine Gefahr für die Gesellschaft?
Die Tatsache, dass wir KI-Gesichter kaum noch als solche erkennen können, birgt Risiken. Wenn Menschen ihrem Urteil nicht trauen und sich unsicher sind, reagieren sie auch vorsichtiger und überprüfen ihren ersten Eindruck vielleicht noch einmal. Da Menschen inzwischen KI-Gesichter nicht mehr als solche erkennen können, braucht die Gesellschaft Werkzeuge, die solche von künstlicher Intelligenz erzeugten Bilder identifizieren können. Wichtig sei es jedoch auch, Menschen entsprechend aufzuklären. Das Wissen über den Hyperrealismus der KI-Gesichter und ihre Merkmale könnten dazu beitragen, die Öffentlichkeit vorsichtiger und skeptischer gegenüber online gezeigten Bildern zu machen.
Lesen Sie auch: Faszination Nesseltiere: Wie sie ohne Gehirn leben
Die Zuversicht trotz Fehlurteils
Bedenklich ist auch, dass Menschen, die KI-Gesichter fälschlicherweise für real halten, paradoxerweise am zuversichtlichsten sind, dass ihre Einstufung richtig ist. Dies könnte dazu führen, dass wir uns leichter täuschen lassen und Fehlinformationen verbreiten.
Künstliche Intelligenz im Alltag: Mehr als nur Deepfakes
Künstliche Intelligenz ist längst nicht mehr nur ein Thema für Science-Fiction-Filme. Seit ChatGPT und Dall-E von einer breiten Masse genutzt werden, ist es schwer, die Anwesenheit von künstlicher Intelligenz in unserem Alltag zu ignorieren. Die Abkürzung AI wird in diesem Zusammenhang auch oft verwendet und ist einfach die Abkürzung der englischen Übersetzung „Artificial Intelligence“. KI-Systeme sind in vielen Bereichen unseres Lebens präsent, von Social-Media-Feeds über Sprachassistenten bis hin zu selbstfahrenden Autos.
Anwendungen von KI
KI-Systeme werden nicht nur in der digitalen Welt, die wir privat nutzen, eingesetzt. Ebenso nutzen Unternehmen diese bereits häufig in der Personalplanung zum Bewerten und Reihen von Bewerbungen. Auch im Straßenverkehr verwenden Menschen KI-Systeme, um zum Beispiel die Zeitschaltung von Ampelsystemen zu planen.
KI-Systeme verstehen
Der Begriff „Künstliche Intelligenz“ wird sehr häufig verwendet, ohne klar zu sagen, um welche Technologie es genau geht. Dabei wird oft verschleiert, dass - wie alle Technologien - auch KI von Menschen entwickelt wird. KI-Systeme sind also von Menschen gemachte Technologien. Um eine Technologie als KI zu benennen, braucht diese zwei weitere Eigenschaften. Zum einen braucht die Technologie Autonomie. Also ein gewisses Maß an Selbstständigkeit. Eine zweite wichtige Eigenschaft, um eine Technologie als „intelligent“ zu beschreiben, ist die Anpassungsfähigkeit. Als anpassungsfähig gilt ein System, dem es möglich ist, aus Erfahrungen und neuen Daten zu „lernen“ und bessere Ergebnisse zu erzielen.
Die Geschichte der KI
Künstlich-intelligente Systeme nutzen wir nicht erst seit gestern in unserem Alltag, wie wir zu Beginn dieses Kapitels schon bemerkt haben. Die Anfänge von KI im Sinne einer wissenschaftlichen Disziplin reichen noch viel weiter zurück. Sogar bis in die 1940-er Jahre! Die zahlreichen wissenschaftlichen Erfindungen von Alan Turing bescherten ihm den Titel „Gründervater der Informatik“. Seine Erfindungen waren für die technologische Entwicklung von KI-Systemen grundlegend und sind es bis heute. Der Begriff „Künstlichen Intelligenz“ kommt aus dem Jahr 1956. „Künstliche Intelligenz“ wurde zuerst von John McCarthy und anderen Forschern verwendet, um ihren Vorhaben einen gut klingenden und verkaufbaren Namen zu geben.
Lesen Sie auch: Lesen Sie mehr über die neuesten Fortschritte in der Neurowissenschaft.
Arten von KI
Ein KI-System der spezifischen KI (engl.: Narrow AI) wir für eine bestimmte Aufgabe eingesetzt, also zum Ausführen einer bestimmte Tätigkeit genutzt. Könnte ein KI-System mehrere sehr unterschiedliche Aufgaben lösen, würde es als allgemeine KI (engl.: General AI) bezeichnet werden. Eine weitere, synonyme Unterscheidung von künstlich-intelligenten Systemen ist die in schwache und starke KI (engl.: Weak and Strong AI werden als Synonyme zu Narrow und General AI verwendet). Ein KI-System wird als starke KI bezeichnet, wenn es wirklich „intelligent“ ist. Als schwache KI wird ein System bezeichnet, wenn es nur „intelligentes“ Verhalten aufweist - also für einzelne Aufgaben genutzt werden kann (z. B. Route planen, Text erstellen, Spiel gewinnen, Bild generieren). Spezifische KI oder schwache KI kann gleich verwendet werden. Alle KI-Systeme, die es bis heute gibt, fallen in diese Kategorie.
Das menschliche Bewusstsein und KI
Derzeit existierende KI-Systeme haben kein menschliches Bewusstsein. Vielmehr simulieren KI-Systeme Teilbereiche von Bewusstsein oder Verhalten, welches ein Vorhandensein von Bewusstsein vortäuscht. In Zukunft können KI-Systeme menschliches Bewusstsein immer besser nachahmen und uns immer besser davon überzeugen, dass diese Systeme gleich denken oder sogar fühlen könnten wie wir Menschen. Ihre Prozesse sind aber nur eine Simulation, eine Nachbildung des menschlichen Bewusstseins.
Künstliche Neuronale Netze (KNN): Das Gehirn der KI
Künstliche Neuronale Netze (KNN) sind dem menschlichen Gehirn nachempfunden und werden für maschinelles Lernen und Künstliche Intelligenz eingesetzt. Computerbasiert lassen sich damit diverse Problemstellungen lösen, die für uns Menschen fast unmöglich wären. Künstliche neuronale Netze sind Algorithmen, die dem menschlichen Gehirn nachempfunden sind. Dieses abstrahierte Modell miteinander verbundener künstlicher Neuronen ermöglicht es, komplexe Aufgaben aus den Bereichen Statistik, Informatik und Wirtschaft durch Computer zu lösen.
Die Struktur von KNN
Vereinfacht kann man sich den Aufbau eines KNN wie folgt vorstellen: Das Modell des Neuronalen Netzes besteht aus Knoten, auch Neuronen genannt, die Informationen von anderen Neuronen oder von außen aufnehmen, modifizieren und als Ergebnis wieder ausgeben. Die Information wird durch die Input-Neuronen aufgenommen und durch die Output-Neuronen ausgegeben. Die Hidden-Neuronen liegen dazwischen und bilden innere Informationsmuster ab. Die Neuronen sind miteinander über sogenannte Kanten verbunden.
Schichten von KNN
Ein KNN besteht aus verschiedenen Schichten:
Lesen Sie auch: Tinnitus und Gehirnaktivität: Ein detaillierter Einblick
- Eingabeschicht: Die Eingangsschicht versorgt das neuronale Netz mit den notwendigen Informationen. Die Input-Neuronen verarbeiten die eingegebenen Daten und führen diese gewichtet an die nächste Schicht weiter.
- Verborgene Schicht: Die verborgene Schicht befindet sich zwischen der Eingabeschicht und der Ausgabeschicht. Während die Ein- und Ausgabeschicht lediglich aus einer Ebene bestehen, können beliebig viele Ebenen an Neuronen in der verborgenen Schicht vorhanden sein. Hier werden die empfangenen Informationen erneut gewichtet und von Neuron zu Neuron bis zur Ausgabeschicht weitergereicht. Die Gewichtung findet in jeder Ebene der verborgenen Schicht statt. Die genaue Prozessierung der Informationen ist jedoch nicht sichtbar. Daher stammt auch der Name, verborgene Schicht.
- Ausgabeschicht: Die Ausgabeschicht ist die letzte Schicht und schließt unmittelbar an die letzte Ebene der verborgenen Schicht an.
Tiefes Lernen
Tiefes Lernen ist eine Hauptfunktion eines KNN und funktioniert wie folgt: Bei einer vorhandenen Netzstruktur bekommt jedes Neuron ein zufälliges Anfangsgewicht zugeteilt. Das Ergebnis dieser Berechnung wird an die nächsten Neuronen der nächsten Schicht oder des nächsten Layers weitergegeben, man spricht auch von einer „Aktivierung der Neuronen“. Natürlich sind, wie bei jedem maschinellen Lernverfahren, nicht alle Ergebnisse (Outputs) korrekt und es treten Fehler auf. Diese Fehler sind berechenbar, ebenso wie der Anteil eines einzelnen Neurons am Fehler. Im nächsten Durchlauf wird der Fehler erneut gemessen und angepasst. Dieser Prozess ist dem menschlichen Entscheidungsprozess sehr ähnlich.
Anwendungen von KNN
Typischerweise sind sie prädestiniert für solche Bereiche, bei denen wenig systematisches Wissen vorliegt, aber eine große Menge unpräziser Eingabeinformationen (unstrukturierte Daten) verarbeitet werden müssen, um ein konkretes Ergebnis zu erhalten. Das kann zum Beispiel in der Spracherkennung, Mustererkennung, Gesichtserkennung oder Bilderkennung der Fall sein. Zahlreiche Produkte und Dienstleistungen, die auf künstlichen neuronalen Netzen basieren, haben bereits Einzug in unseren Alltag gehalten.
Arten von neuronalen Netzwerk-Architekturen
Es gibt unzählig viele Typen von neuronalen Netzwerk-Architekturen.
- Perzeptron: Das einfachste und älteste neuronale Netz. Es nimmt die Eingabeparameter, addiert diese, wendet die Aktivierungsfunktion an und schickt das Ergebnis an die Ausgabeschicht. Das Ergebnis ist binär, also entweder 0 oder 1 und damit vergleichbar mit einer Ja- oder Nein-Entscheidung.
- Feedforward Neural Networks: Sie zeichnen sich dadurch aus, dass die Schichten lediglich mit der nächst höheren Schicht verbunden sind. Es gibt keine zurückgerichteten Kanten.
- Faltende Neuronale Netze (CNN): Künstliche Neuronale Netzwerke, die besonders effizient mit 2D- oder 3D-Eingabedaten arbeiten können. Bei CNNs basiert die verborgene Schicht auf einer Abfolge von Faltungs- und Poolingoperationen.
- Recurrent Neural Networks (RNN): RNN fügen den KNN wiederkehrende Zellen hinzu, wodurch neuronale Netze ein Gedächtnis erhalten. Diese Art von NN wird insbesondere dann verwendet, wenn der Kontext wichtig ist.
Generative Adversarial Networks (GAN): Die Kunst der Bilderschaffung
Übersetzt bedeutet Generative Adversarial Networks (GAN) „erzeugende generische Netzwerke“. Wie der Name es schon andeutet, dienen diese Netzwerke dem Erzeugen von Daten, etwa Bildern, die es bis dahin noch nicht gibt, aber der Realität nachempfunden sind. Ein sehr bekanntes Beispiel ist die Seite „This Person Does Not Exist“. Die dort generierten Bilder sind Fotos von Personen, die zwar zum Großteil täuschend echt aussehen, aber tatsächlich nicht existieren.
Die Funktionsweise von GAN
Bei einem GAN fehlt übrigens der Mensch als überwachende Komponente. Stattdessen arbeiten gleich zwei Künstliche neuronale Netze zusammen. Das erste Netz trainiert sich darauf, echte und künstliche Bilder von Personen voneinander zu unterscheiden. Um das zu lernen, bekommt es sowohl echte Fotos, als auch Bilder, die das zweite neuronale Netz erstellt. Das erste neuronale Netz wird immer besser darin Unterschiede zwischen echten und falschen Bildern zu erkennen. Dadurch fordert es das andere Netz, besser zu werden, um den Test trotzdem zu bestehen.
Der Uncanny-Valley-Effekt
Sie sehen einen KI-Influencer auf Social Media oder einen Charakter in einem Computerspiel - und so menschenähnlich sie auch sind, irgendetwas stimmt nicht. Vielleicht ist es die Mimik oder eine Bewegung. Der Moment des Unbehagens ist kein Zufall, sondern Teil eines faszinierenden Phänomens, das als „Uncanny Valley“ bekannt ist. Der Uncanny-Valley-Effekt ist ein faszinierendes Phänomen an der Schnittstelle von Psychologie, Robotik, Design und Medien. Während wir einfache, eindeutig künstliche Figuren meist als sympathisch und angenehm empfinden, schlägt unsere Akzeptanz bei zunehmender Ähnlichkeit zu echten Menschen plötzlich in Unbehagen, Unsicherheit oder sogar Ablehnung um.
Die Phasen des Uncanny Valley
- Geringe Menschenähnlichkeit: Klar künstlich gestaltete Figuren, wie in Cartoons oder stilisierten Robotern, erzeugen meist eine positive Wahrnehmung.
- Steigende Menschenähnlichkeit: Mit zunehmender Ähnlichkeit zu echten Menschen wächst die Akzeptanz zunächst.
- Das „Tal“ - Starke Menschenähnlichkeit: Wenn eine Figur fast menschlich, aber nicht ganz realistisch wirkt, tritt das „Tief“ des Uncanny Valley auf.
- Überwindung des Tals: Wenn die Menschenähnlichkeit weiter perfektioniert wird, nimmt das Unbehagen ab und die Akzeptanz steigt wieder.
Ursachen des Uncanny Valley
Die Ursachen des Uncanny Valley Effekts sind sowohl psychologischer als auch neurobiologischer Natur. Menschen sind von Natur aus äußerst empfindlich für Gesichter, Bewegungen und emotionale Signale. Unser Gehirn ist darauf trainiert, kleinste Abweichungen von der Norm wahrzunehmen, was in der Folge zu kognitiver Dissonanz führen kann. Je menschenähnlicher eine Figur erscheint, desto stärker sind unsere Erwartungen an menschliches Verhalten und an einen natürlichen Ausdruck. Der Uncanny Valley Effekt ist bei bewegten Objekten besonders ausgeprägt.
Die Rolle der Aufmerksamkeit bei der visuellen Wahrnehmung
Lange betrachtete die Hirnforschung das Nervensystem vor allem als eine passive Kette aus Reizen und Reaktionen. Heute weiß man: Einflüsse aus der Umwelt zu verarbeiten ist ein aktiver Prozess, mit dem wir uns unsere eigene Realität erschaffen. Wir sind weitgehend blind für unsere Umgebung und nehmen nur wahr, worauf unsere Aufmerksamkeit gerichtet ist - normalerweise etwas im Zentrum des Blickfelds. Das ist unvermeidlich, weil unsere Gehirne begrenzt sind.
Die V1-Saliency-Hypothese
Vor etwa 20 Jahren wurde die sogenannte V1-Saliency-Hypothese (oder V1SH) formuliert, laut derer der primäre visuelle Kortex eine sogenannte Saliency-Map erstellt, um Blickwechsel für die Aufmerksamkeitsselektion zu steuern. Die V1SH-Hypothese ist seither durch Ergebnisse aus der Verhaltensbiologie und Physiologie untermauert worden.
Die zentral/peripher-Dichotomie
Durch Änderungen der Blickrichtung werden die für die Weiterverarbeitung ausgewählten visuelle Eingangssignale vom peripheren ins zentrale Gesichtsfeld verschoben. Die anfänglichen spärlichen Feedforward-Daten lassen zunächst oft mehrere alternative Interpretationen des Inputs zu. Die höheren Areale des visuellen Kortex melden den niedrigeren Arealen wie V1 dann zurück, dass sie mehr Informationen brauchen, um besser zu sehen - aber nur (oder hauptsächlich) für das zentrale Gesichtsfeld.