Künstliche Intelligenz: Neuronale Netze als Nachbildung des Gehirns

Künstliche Neuronale Netze (KNN) sind Algorithmen, die dem menschlichen Gehirn nachempfunden sind. Sie werden für maschinelles Lernen und Künstliche Intelligenz (KI) eingesetzt und ermöglichen es, komplexe Aufgaben aus den Bereichen Statistik, Informatik und Wirtschaft durch Computer zu lösen. Diese computerbasierten Systeme können diverse Problemstellungen bewältigen, die für Menschen kaum zu bewältigen wären. Neuronale Netze spielen in vielen Bereichen eine wichtige Rolle, indem sie unterschiedliche Datenquellen wie Bilder, Töne, Texte, Tabellen oder Zeitreihen interpretieren und Informationen oder Muster extrahieren, um diese auf unbekannte Daten anzuwenden.

Aufbau und Funktionsweise Künstlicher Neuronaler Netze

Künstliche neuronale Netze können unterschiedlich komplex aufgebaut sein, haben aber im Wesentlichen die Struktur gerichteter Graphen. Vereinfacht kann man sich den Aufbau eines KNN wie folgt vorstellen:

  • Neuronen (Knoten): Das Modell des Neuronalen Netzes besteht aus Knoten, auch Neuronen genannt, die Informationen von anderen Neuronen oder von außen aufnehmen, modifizieren und als Ergebnis wieder ausgeben.
  • Eingabeschicht: Die Eingangsschicht versorgt das neuronale Netz mit den notwendigen Informationen. Die Input-Neuronen verarbeiten die eingegebenen Daten und führen diese gewichtet an die nächste Schicht weiter.
  • Verborgene Schicht: Die verborgene Schicht befindet sich zwischen der Eingabeschicht und der Ausgabeschicht. Während die Ein- und Ausgabeschicht lediglich aus einer Ebene bestehen, können beliebig viele Ebenen an Neuronen in der verborgenen Schicht vorhanden sein. Hier werden die empfangenen Informationen erneut gewichtet und von Neuron zu Neuron bis zur Ausgabeschicht weitergereicht. Die Gewichtung findet in jeder Ebene der verborgenen Schicht statt. Die genaue Prozessierung der Informationen ist jedoch nicht sichtbar. Daher stammt auch der Name, verborgene Schicht.
  • Ausgabeschicht: Die Ausgabeschicht ist die letzte Schicht und schließt unmittelbar an die letzte Ebene der verborgenen Schicht an.
  • Kanten: Die Neuronen sind miteinander über sogenannte Kanten verbunden. Je nach Stärke und Bedeutung der Verbindung hat jede Kante eine bestimmte Gewichtung. Je größer diese ist, desto größer ist der Einfluss, den ein Neuron über die Verbindung auf ein anderes Neuron ausüben kann.

Tiefes Lernen und Aktivierung der Neuronen

Tiefes Lernen ist eine Hauptfunktion eines KNN und funktioniert wie folgt: Bei einer vorhandenen Netzstruktur bekommt jedes Neuron ein zufälliges Anfangsgewicht zugeteilt. Das Ergebnis dieser Berechnung wird an die nächsten Neuronen der nächsten Schicht oder des nächsten Layers weitergegeben, man spricht auch von einer „Aktivierung der Neuronen“. Natürlich sind, wie bei jedem maschinellen Lernverfahren, nicht alle Ergebnisse (Outputs) korrekt und es treten Fehler auf. Diese Fehler sind berechenbar, ebenso wie der Anteil eines einzelnen Neurons am Fehler. Im nächsten Durchlauf wird der Fehler erneut gemessen und angepasst. Dieser Prozess ist dem menschlichen Entscheidungsprozess sehr ähnlich.

Anwendungen von Künstlichen Neuronalen Netzen

Künstliche Neuronale Netze spielen in vielen Bereichen eine wichtige Rolle. Typischerweise sind sie prädestiniert für solche Bereiche, bei denen wenig systematisches Wissen vorliegt, aber eine große Menge unpräziser Eingabeinformationen (unstrukturierte Daten) verarbeitet werden müssen, um ein konkretes Ergebnis zu erhalten. Das kann zum Beispiel in der Spracherkennung, Mustererkennung, Gesichtserkennung oder Bilderkennung der Fall sein. Zahlreiche Produkte und Dienstleistungen, die auf künstlichen neuronalen Netzen basieren, haben bereits Einzug in unseren Alltag gehalten.

Verschiedene Arten von Neuronalen Netzen

Es gibt unzählig viele Typen von neuronalen Netzwerk-Architekturen. Hier sind einige der bekanntesten:

Lesen Sie auch: Was taugt die Arte-Dokumentation "Das automatische Gehirn"?

Perzeptron

Das einfachste und älteste neuronale Netz. Es nimmt die Eingabeparameter, addiert diese, wendet die Aktivierungsfunktion an und schickt das Ergebnis an die Ausgabeschicht. Das Ergebnis ist binär, also entweder 0 oder 1 und damit vergleichbar mit einer Ja- oder Nein-Entscheidung. Die Entscheidung erfolgt, indem man den Wert der Aktivierungsfunktion mit einem Schwellwert vergleicht. Bei Überschreitung des Schwellwertes, wird dem Ergebnis eine 1 zugeordnet, hingegen 0 wenn der Schwellwert unterschritten wird. Darauf aufbauend wurden weitere Neuronale Netzwerke und Aktivierungsfunktionen entwickelt, die es auch ermöglichen mehrere Ausgaben mit Werten zwischen 0 und 1 zu erhalten. Am bekanntesten ist die Sigmoid-Funktion, in dem Fall spricht man auch von Sigmoid-Neuronen. Der Ursprung dieser neuronalen Netze liegt in den 1950 Jahren. Sie zeichnen sich dadurch aus, dass die Schichten lediglich mit der nächst höheren Schicht verbunden sind. Es gibt keine zurückgerichteten Kanten.

Faltende Neuronale Netze (CNN)

Faltende Neuronale Netze oder auch Convolutional Neural Networks (CNN), sind Künstliche Neuronale Netzwerke, die besonders effizient mit 2D- oder 3D-Eingabedaten arbeiten können. Der große Unterschied zu den klassischen neuronalen Netzen liegt in der Architektur der CNNs, die auch den Namen „Convolution“ oder „Faltung“ erklärt. Bei CNNs basiert die verborgene Schicht auf einer Abfolge von Faltungs- und Poolingoperationen. Bei der Faltung wird ein sogenannter Kernel über die Daten geschoben und währenddessen eine Faltung berechnet, was mit einer Multiplikation vergleichbar ist. Die Neuronen werden aktualisiert. Die anschließende Einführung einer Pooling-Schicht sorgt für eine Vereinfachung der Ergebnisse. Dies sorgt auch dafür, dass die 2D- oder 3D-Eingangsdaten kleiner werden. Setzt man diesen Prozess fort, so erhält man am Ende in der Ausgabeschicht einen Vektor, den „fully connected layer“. CNNs zeichnen sich dank konvolutionaler Filter, die räumliche Hierarchien von Funktionen erkennen, bei Bilderkennung, Computer Vision und Gesichtserkennung aus.

Rekurrente Neuronale Netze (RNN)

Recurrent Neural Networks (RNN) fügen den KNN wiederkehrende Zellen hinzu, wodurch neuronale Netze ein Gedächtnis erhalten. Das erste künstliche, neuronale Netzwerk dieser Art war das Jordan-Netzwerk, bei dem jede versteckte Zelle ihre eigene Ausgabe mit fester Verzögerung - eine oder mehrere Iterationen - erhielt. Natürlich gibt es viele Variationen, wie z.B. die Übergabe des Status an die Eingangsknoten, variable Verzögerungen usw., aber die Grundidee bleibt die gleiche. Diese Art von NN wird insbesondere dann verwendet, wenn der Kontext wichtig ist. In diesem Fall haben Entscheidungen aus früheren Iterationen oder Stichproben einen signifikanten Einfluss auf die aktuellen Iterationen. Da rekurrente Netze jedoch den entscheidenden Nachteil haben, dass sie mit der Zeit instabil werden, ist es mittlerweile üblich, sogenannte Long Short-Term Memory Units (kurz: LSTMs) zu verwenden. Das häufigste Beispiel für solche Abhängigkeiten ist die Textverarbeitung - ein Wort kann nur im Zusammenhang mit vorhergehenden Wörtern oder Sätzen analysiert werden. Ein weiteres Beispiel ist die Verarbeitung von Videos, z.B. beim autonomen Fahren. RNNs integrieren Feedback, die es ermöglichen, dass Informationen über Zeitschritte hinweg bestehen bleiben. RNNs eignen sich gut für Spracherkennung, Prognosen und sequenzielle Daten.

Transformer

Eine moderne Architektur, die RNNs für viele Sequenzaufgaben ersetzt hat. Transformer nutzen Aufmerksamkeitsmechanismen, um Abhängigkeiten in der Verarbeitung natürlicher Sprache (NLP) zu erfassen und modernste Modelle wie GPT zu unterstützen.

Training von Neuronalen Netzen

Genau wie andere Algorithmen für maschinelles Lernen erfordert ein neuronales Netz ein strenges Training, um bei Tests gut abzuschneiden. Die Power eines neuronalen Netzes kommt von seiner Fähigkeit, aus Daten die richtigen Gewichtungen und Verzerrungen zu lernen. Dies geschieht durch den Vergleich der Vorhersagen des Netzwerks, bis zur eigentlichen Kennzeichnung und Messen des Fehlers unter Verwendung einer Verlustfunktion. Um diesen Verlust zu minimieren, verwendet das Netz einen Algorithmus namens Backpropagation.

Lesen Sie auch: Schüttellähmung: Neue Hoffnung

  • Vorwärtsdurchlauf: Eingaben fließen durch das Netzwerk, berechnen lineare Kombinationen, durchlaufen die nicht lineare Aktivierung und erzeugen eine Ausgabe.
  • Fehlerberechnung: Die Verlustfunktion misst die Differenz zwischen Vorhersage und Wahrheit.
  • Rückwärtsdurchlauf (Backpropagation): Der Fehler wird rückwärts durch das Netz verbreitet.

Dieser Vorgang wird viele Male für den Trainingsdatensatz wiederholt. Jeder Durchlauf hilft dem Netzwerk, seine internen Parameter „abzustimmen“, sodass seine Vorhersagen schrittweise den richtigen Antworten näher kommen. Im Laufe der Zeit konvergiert das Netzwerk zu einer Reihe von Gewichtungen und Verzerrungen, die Fehler minimieren und gut auf unbekannte Daten übertragen werden. Die Backpropagation, gekoppelt mit dem Gradientenabstieg, ist der Motor, der neuronale Netze zum Funktionieren bringt. Sie ermöglicht es Netzwerken mit Millionen (oder sogar Milliarden) Parametern, aus riesigen Datensätzen aussagekräftige Muster zu lernen.

Herausforderungen und Lösungen

Doch trotz der Bemühungen der Anwender, hochleistungsfähige Modelle zu schulen, stehen neuronale Netze immer noch vor ähnlichen Herausforderungen wie andere Modelle des maschinellen Lernens - vor allem vor einer Überanpassung. Wenn ein neuronales Netzwerk zu komplex wird und zu viele Parameter vorliegen, kommt es zu einer Überanpassung des Modells an die Trainingsdaten und eine schlechte Vorhersage. Eine Überanpassung ist ein häufiges Problem bei allen Arten von neuronalen Netzen. Genau auf den Kompromiss zwischen Verzerrung und Varianz zu achten ist für die Erstellung leistungsstarker neuronaler Netzmodelle von entscheidender Bedeutung.

Eine wesentliche Herausforderung besteht jedoch darin, Rauschen von den echten, zu lernenden Strukturen zu unterscheiden. Nimmt ein Netz das Rauschen beim Training zu ernst, kommt es zum sogenannten Overfitting. Die Trainingsdaten werden damit übermäßig gut erklärt, wobei gleichzeitig die allgemeine Performance abfällt. Aufgrund der hohen Anzahl an Trainingsparametern erfordert das Trainieren von künstlichen neuronalen Netzen eine sehr große Menge an Trainingsdaten. Die Bemühungen des Transfer Learning versuchen dieses Problem in den Griff zu bekommen, indem beispielsweise die inneren Schichten wiederverwendet werden.

Künstliche Neuronale Netze und das menschliche Gehirn

Ein Forschungsteam der Otto-von-Guericke-Universität Magdeburg und der Brown University (USA) hat eine neue Theorie darüber vorgelegt, wie unser Gehirn in einer Welt mit ständig wechselnden Anforderungen die Kontrolle über Entscheidungen und unser Verhalten behält. Ziel der Wissenschaftler vom Lehrstuhl für Neuropsychologie der Uni Magdeburg ist es, den Mechanismus zu verstehen, wie das Gehirn auch unter wechselnden Bedingungen flexibel bleibt, zwischen Routinen umschaltet, Fehler erkennt und Umwege findet, um die Kontrolle zu behalten. Mit der neuen Theorie zu den Mechanismen soll dieses Zusammenspiel präziser erfasst werden und damit Grundlagen für künftige Anwendungen in Diagnostik und Therapie geschaffen werden und neue Wege für die Diagnose und Behandlung neurologischer und psychischer Störungen eröffnet werden.

Die Neuropsychologen gehen davon aus, dass das Gehirn sogenannte latente Abstraktionen nutzt, um Informationen je nach Situation neu zu organisieren. Diese Abstraktionen wirken wie gedankliche Karten, die das Gehirn fortlaufend aktualisiert, sobald sich die Umgebung verändert. Inspiriert ist dieser Ansatz von so genannten rekurrenten neuronalen Netzwerken der künstlichen Intelligenz. Diese Netzwerke besitzen Schleifen, die frühere Informationen im System fortwirken lassen, also eine Art künstliches Kurzzeitgedächtnis. Diese Fähigkeit, frühere Eindrücke in neue Entscheidungen einzubeziehen, machen sich die Wissenschaftler zunutze: Aus der Funktionsweise solcher Netze leiten sie die Hypothese ab, dass das menschliche Gehirn auf ähnliche Weise verborgene Abstraktionen bildet und darüber sein Verhalten steuert und adaptiv an neue Situationen anpasst.

Lesen Sie auch: Gehirn und Ernährung: Eine Verbindung

tags: #arte #kunstliche #intelligenz #gehirn