Die Einführung großer Sprachmodelle (LLMs) wie GPT-3, ChatGPT 4.0 und GPT-4o hat einen Durchbruch für den praktischen Einsatz von künstlicher Intelligenz (KI) dargestellt. Diese Modelle sind in der Lage, natürliche Sprache zu verstehen und zu generieren, was weit über ihre ursprüngliche Programmierung hinausgeht. Ein wesentlicher Aspekt dieser Modelle ist die enorme Anzahl an Parametern, die sie benötigen.
Grundlagen neuronaler Netze und Parameter
Ein neuronales Netzwerk besteht aus Schichten, die einfache Recheneinheiten, sogenannte Neuronen, enthalten. Jedes Neuron führt Berechnungen an seinen Eingängen durch und leitet das Ergebnis an die nächste Schicht weiter. Neuronen haben numerische Werte, die als Gewichte und Bias-Werte bezeichnet werden. Gewichte stellen die Stärke der Verbindungen zwischen Neuronen dar, wobei ein höheres Gewicht eine stärkere Verbindung bedeutet. Bias-Werte sind Offsets, die zur Berechnung hinzugefügt werden.
Die Parametergrößen von LLMs und ihre Herausforderungen
Die gigantischen Parametergrößen von LLMs erfordern enorme Rechen- und Speicherressourcen. Nur eine Handvoll großer Technologieunternehmen verfügen über die notwendigen Ressourcen, um Modelle wie ChatGPT 4.0 einzusetzen. Da eine einfache Skalierung der Rechenleistung nicht realisierbar ist, besteht der einzige Weg, die Abhängigkeit von diesen Unternehmen zu verringern, in der Reduzierung der Ressourcenanforderungen großer LLMs.
Techniken zur Reduzierung des Ressourcenbedarfs
Quantisierung
Quantisierung bezieht sich auf Techniken, bei denen Parameter von hochpräzisen Gleitkommazahlen (typischerweise 32-Bit) in Niedrigpräzisionsganzzahlen (oft 8-Bit oder weniger) umgewandelt werden. Diese Umwandlung reduziert erheblich den Berechnungs- und Speicherbedarf des Modells. Allerdings kann die direkte Umwandlung eines bereits trainierten Modells die Genauigkeit verringern.
LoRA (Low Rank Adaptation) und QLoRA (Quantized Low Rank Adaptation)
Eine vernünftige Lösung besteht darin, Techniken wie LoRA und QLoRA zu verwenden, um ein vortrainiertes Modell wie Llama v2 70b in ein „quantisiertes“ Modell zu verfeinern, ohne dabei die Qualität zu beeinträchtigen. Dies geschieht durch Hinzufügen eines Regularisierungsterms während des Feintunings, der die Parameter dazu anregt, Werte anzunehmen, die für eine Niedrigbit-Quantisierung geeignet sind. Parameter mit einem großen Unterschied zwischen ihren realen und den „quantisierten“ Werten werden bestraft, insbesondere in Schichten, in denen das Quantisieren zu einem größeren Leistungsabfall führt.
Lesen Sie auch: Entdecke die erstaunliche Komplexität des Gehirns
QLoRA ist eine weitere Methode zur Feinabstimmung eines vortrainierten Modells in eine „quantisierte“ Version ohne signifikanten Präzisionsverlust. Sie simuliert die Auswirkungen des Quantisierens direkt während des Feintunings, um das Modell robuster zu machen. Beispielsweise werden die Modellparameter während des Trainings „quantisiert“ und „de-quantisiert“, um das Quantisieren zur Inferenzzeit zu imitieren. Dies setzt das Modell den nichtlinearen Effekten des Quantisierens wie Sättigung aus. QLoRA ermöglicht auch unterschiedliche Quantisierungsrichtlinien pro Schicht basierend auf ihrer Empfindlichkeit.
Zusammenfassung der Techniken
Techniken wie das quantisierungsbewusste Feintuning mit LoRA und QLoRA bieten eine Lösung zur erheblichen Verbesserung der Modellgenauigkeit bei gleichzeitiger drastischer Reduzierung der Ressourcenanforderungen. Offene Fragen bleiben jedoch bestehen, insbesondere wie man die optimalen Trainingsdaten und den besten Feintuning-Ansatz zur Maximierung der Präzision für einen bestimmten Anwendungsfall bestimmt und wie man die resultierenden „finetuned“ Modelle, die für unterschiedliche Aufgaben optimiert sind, operationalisiert und verwaltet.
GPT-4o: Das neue Flaggschiff-KI-Modell von OpenAI
Am 13. Mai stellte OpenAI sein neues Sprachmodell GPT-4o vor. Das „o“ steht für „omni“ und deutet auf die Multimodalität dieses Modells hin. GPT-4o zielt darauf ab, die Interaktionen zwischen Mensch und Maschine natürlicher zu gestalten.
Verbesserungen und neue Funktionen von GPT-4o
GPT-4o ist ein multimodales Modell, das in der Lage ist, jegliche Kombinationen von Text, Audio, Video und Bildern als Eingaben zu akzeptieren und Ausgaben mit Kombinationen dieser Elemente zu generieren. Es antwortet auf Audioeingaben in durchschnittlich nur 320 Millisekunden und ermöglicht so Unterhaltungen in Echtzeit. Zudem bietet es signifikante Verbesserungen bei Sprachen jenseits von Englisch und ermöglicht nahtlose Übersetzungen zwischen verschiedenen Sprachen.
Weitere bemerkenswerte Funktionen sind:
Lesen Sie auch: Wissenschaftliche Erkenntnisse zur Gehirnkapazität
- Nutzung der Smartphone-Kamera als Eingabekanal für visuelle Informationen
- Erkennung von Emotionen in Audio, Video und Bildern zur Anpassung des Kommunikationsstils
- Doppelt so schnelle Arbeitsweise im Vergleich zu Vorgängermodellen
- Bereitstellung einer Echtzeit-API zur Integration in eigene Anwendungen
Die Architektur von GPT-4o
Obwohl OpenAI bisher keine genauen Details zur Architektur und Funktionsweise von GPT-4o veröffentlicht hat, wird vermutet, dass es auf der bewährten Transformer-Architektur basiert. Das Besondere an diesem Modell ist, dass die Multimodalität und die gleichzeitige Verarbeitung von Text, Audio, Video und Bildern nicht über mehrere untereinander kommunizierende Modelle, sondern über ein einziges natives Modell abgebildet wird. Dieses Modell wurde mit allen genannten Datentypen trainiert und verarbeitet alle Ein- und Ausgaben mit einem einzigen neuronalen Netzwerk.
Nutzungsmöglichkeiten von GPT-4o
GPT-4o soll grundsätzlich für eine breitere Öffentlichkeit verfügbar sein als GPT-4. Zunächst werden die Text- und Bildfunktionen des Modells eingeführt, gefolgt vom interaktiven Sprachmodus und weiteren Funktionen wie visuellen Eingaben über die Smartphone-Kamera. Für Nutzer von ChatGPT wird GPT-4o zunächst kostenlos zur Verfügung stehen, jedoch mit Einschränkungen hinsichtlich der Anzahl an Anfragen und bestimmter Funktionen.
Anwendungsmöglichkeiten von ChatGPT-4o
Die neuen multimodalen Fähigkeiten und die verbesserte Leistungsfähigkeit von GPT-4o eröffnen zahlreiche Anwendungsmöglichkeiten:
- Natürliche Kommunikation per Sprache in Echtzeit: Anfragen können in natürlicher Sprache gestellt und direkt beantwortet werden, was nahtlose Unterhaltungen mit Menschen in anderen Sprachen ermöglicht.
- Visuelle Eingabemöglichkeiten: Identifizierung von Gebäuden, Pflanzen oder Tieren, direkte Übersetzungen fremdsprachiger Schilder und Zeichen oder die Emotionserkennung von Gesprächspartnern.
- Weitere Anwendungen: Lösen von mathematischen Aufgabenstellungen über visuelle Eingaben, Vorlesen von Geschichten in passenden Stimmen, Analysen hochgeladener Daten verschiedener Formate.
Die Parameteranzahl von GPT-4: Ein Mysterium
Die genaue Anzahl der Parameter von GPT-4 ist bis heute nicht offiziell von OpenAI bekannt gegeben worden. Es gibt jedoch viele Spekulationen und Gerüchte darüber.
Spekulationen und Fehlinformationen
An vielen Stellen wird die Anzahl der Parameter von GPT-4 mit „100 Billionen“ angegeben. Diese Zahl stammt aus einem Artikel von Wired vom August 2021, in dem erstmals über die Eigenschaften eines GPT-3-Nachfolgers gemunkelt wurde. Allerdings basiert diese Zahl auf einer Präsentation von Lex Fridman, in der er berechnete, was eine künftige Version von GPT mit so vielen Parametern wie das Gehirn Synapsen haben für die Trainingskosten bedeuten würde.
Lesen Sie auch: Krämpfe: Ursachen und was hilft?
Die Wahrheit über GPT-4
Die Wahrheit ist, dass OpenAI bis heute keinerlei nähere Informationen zu GPT-4s Aufbau veröffentlicht hat. Es gibt keine offiziellen Angaben zur Größe des Modells, zur Architektur oder zur Hardware, die beim Training oder bei der Inferenz verwendet wurde. Der technische Bericht zu GPT-4 beschreibt jedoch, dass das Modell zunächst mit einer Kombination aus überwachtem Lernen auf einem großen Datensatz und anschließendem Verstärkungslernen unter Verwendung von menschlichem und KI-Feedback trainiert wurde.
Das "Mixture of Experts" (MoE) Prinzip
Ein aktueller Bericht von SemiAnalysis bringt Licht ins Dunkel und zeigt, dass das Geheimnis um GPT-4 weniger in einer existenziellen Bedrohung für die Menschheit liegt, sondern vielmehr in der Tatsache, dass das Geschaffene replizierbar ist. OpenAI hat die Details zu GPT-4 offenbar versucht geheim zu halten, damit niemand das Modell nachbaut, denn im Kern handelt es sich um die Kombination bekannter Techniken, die jedoch sehr intelligent genutzt und geschickt kombiniert wurden.
Die Größe von GPT-4 ist beeindruckend: Mit rund 1,8 Billionen Parametern in 120 Schichten ist es offenbar mehr als zehnmal so groß wie sein Vorgänger, GPT-3. Im Kern des Systems steht, wie schon im letzten Leak behauptet, das Prinzip des „Mixture of Experts“ (MoE). Pro Vorwärtsdurchlauf werden jedoch lediglich zwei dieser Experten genutzt, was dazu beiträgt, die Kosten überschaubar zu halten.
Trainingsdaten und -kosten
Für das Training von GPT-4 wurden beeindruckende 13 Billionen Token genutzt, darunter sowohl Text- als auch Code-basierte Daten. Die Trainingskosten für GPT-4 belaufen sich auf etwa 63 Millionen US-Dollar, wenn man 1$ je Trainingsstunde auf einem A100 annimmt.
GPT-OSS: Das erste Open-Source-GPT-Modell von OpenAI
OpenAI hat kürzlich das erste Open-Source-GPT-Modell seit sechs Jahren veröffentlicht: GPT-OSS. Dieses innovative Modell steht nun zum kostenlosen Download bereit, kann individuell angepasst werden und läuft sogar direkt auf einem Laptop.
Modellvarianten und technische Merkmale
GPT-OSS ist in zwei Varianten verfügbar:
- gpt-oss-120b: Mit 120 Milliarden Parametern erreicht es eine Leistung, die mit dem OpenAI-Modell o4-mini vergleichbar ist. Es benötigt eine einzelne Nvidia GPU und läuft effizient mit 80 GB Speicher.
- gpt-oss-20b: Diese kompakte Version umfasst 20 Milliarden Parameter und ist vergleichbar mit dem OpenAI o3-mini. Sie läuft auf Geräten mit nur 16 GB Speicher und ist daher ideal für lokale Anwendungen.
Beide Modelle sind unter der Apache 2.0 Lizenz verfügbar, was eine umfassende Anpassung und kommerzielle Nutzung ermöglicht. GPT-OSS nutzt die Mixture-of-Experts-Technologie, um Effizienz und Leistung zu optimieren.
Leistungsfähigkeit und Benchmarks
GPT-OSS überzeugt durch herausragende Ergebnisse auf renommierten Benchmarks, insbesondere im Wettbewerbscoding, bei komplexen allgemeinen Problemlösungen und in anspruchsvollen Mathematikwettbewerben.
Sicherheit und Risikominimierung
OpenAI hat umfangreiche Sicherheitsprüfungen durchgeführt, um sicherzustellen, dass GPT-OSS ein besonders zuverlässiges und risikoarmes Modell für verschiedenste Anwendungen darstellt.
Praxisanwendungen und Tool-Integration
GPT-OSS wurde speziell für eine Vielzahl realer Anwendungen entwickelt, darunter agentische Workflows, Anpassbarkeit und lokale Inferenz.
Bedeutung für Entwickler und Unternehmen
Mit GPT-OSS will OpenAI besonders kleineren Entwicklern und Unternehmen ermöglichen, leistungsfähige KI-Technologien zu nutzen, ohne hohe Kosten oder starke Infrastrukturabhängigkeiten.
Missverständnisse und Fakten rund um ChatGPT
Es gibt viele Missverständnisse rund um ChatGPT, die im Folgenden aufgedeckt werden sollen:
- Verwechslung von ChatGPT mit den zugrunde liegenden Sprachmodellen: ChatGPT ist nur eine Anwendung, die auf großen Sprachmodellen wie GPT-3.5 und GPT-4 basiert.
- Annahme, dass ChatGPT Informationen speichern oder abrufen kann: Sprachmodelle generieren Texte basierend auf Wahrscheinlichkeiten und haben keine Datenbank oder strukturierte Informationsspeicherung.
- Glaube, dass ChatGPT auf das Internet zugreifen kann: ChatGPT bezieht sein Wissen aus der Analyse riesiger Textmengen, die zu einem bestimmten Zeitpunkt verfügbar waren, und kann nicht auf aktuelle Informationen im Internet zugreifen (es sei denn, es werden spezielle Plugins verwendet).
- Überschätzung der Fähigkeiten von ChatGPT: ChatGPT ist nicht immer makellos und kann Fehler machen oder falsche Informationen liefern.