Highlights
Überblick
Fortgeschrittene auf Künstlicher Intelligenz (KI) basierende Sprachmodelle haben die Debatte angeheizt, ob Maschinen über Empfindungen verfügen. Ein bemerkenswertes Beispiel ist ein Vorfall bei Google, bei dem ein Software-Ingenieur entlassen wurde, weil er behauptet hatte, Googles Chatprogramm LaMDA habe ein Bewusstsein entwickelt. LaMDA liefert Ergebnisse auf der Grundlage eines intelligenten Mustervergleichs, ähnlich wie andere proprietäre Modelle. Es bleibt eine offene Frage, ob maschinelle Intelligenz in naher Zukunft realisierbar sein wird. Um diese Frage zu beurteilen, ist es hilfreich, einen kurzen Überblick darüber zu geben, wie Sprachmodelle aufgebaut sind und welche Faktoren den Intelligenzgrad einer Maschine bestimmen.
Sprachmodelle
Sprachmodelle sind wesentliche Bestandteile von Natural-Language-Processing-(NLP-)Anwendungen, die Texte generieren können. Diese KI-Modelle verwenden Wahrscheinlichkeiten, um Inhalte zu erstellen, die eine möglichst authentische Sprache simulieren. Ziel jedes Sprachmodells ist es, die Struktur und den Sinn menschlicher Kommunikation zu erkennen und für eine bestimmte Aufgabe anzuwenden. Die Qualität und Realitätsnähe der Textausgabe hängt von verschiedenen Faktoren ab, etwa dem gewählten Sprachmodell, dem Algorithmus, den Datenquellen und der Rechenkapazität.
Grammatische Modelle
Die Uni Stanford unterscheidet zwei Arten von Sprachmodellen: Unigramme und Bigramme. Der wesentliche Unterschied liegt in der Art und Weise, wie die Daten ausgewertet werden. Wie der Name schon sagt, betrachten Unigramme einzelne Wörter in einem Text, Bigramme jeweils zwei Wörter, Trigramme jeweils drei Wörter und so weiter. Diese schrittweise Verbesserung hat dazu geführt, dass die Antworten der KI-Chatbots nicht mehr nur auf Wörtern, sondern auf Sätzen basieren. Im nächsten Schritt wird nun ein Modell entwickelt, das auch die Stimmung der Gesprächspartner berücksichtigt.
Sprachmodelle können auch nach ihrer Funktionsweise unterteilt werden: in statistische und neuronale Sprachmodelle. Statistische Sprachmodelle sind KI-Modelle wie das Unigramm-, das Bigramm- und das Exponentialmodell, die das vorhergehende Wort und Wahrscheinlichkeiten verwenden, um Inhalte zu erzeugen. Da diese Modelle auf mathematischen Berechnungen beruhen, erfassen sie nicht den Charakter eines Gesprächs. Um Antworten menschenähnlicher zu gestalten, wurde das neuronale Sprachmodell entwickelt.
Mit seiner speziellen dreischichtigen Feedforward-Netzstruktur ist das Spiking Neural Network (SNN) eines der leistungsfähigsten neuronalen Netze, das zeitliche Daten in Echtzeit verarbeiten kann. Dank seiner hohen Rechenleistung und der fortschrittlichen Struktur eignet es sich für Robotik- und Computer-Vision-Anwendungen, die eine Datenverarbeitung in Echtzeit erfordern.
Ein SNN erleichtert es, Echtzeitdaten zu erfassen und zu verarbeiten. Damit stellt es eine wesentliche Verbesserung gegenüber anderen neuronalen Netzen dar, die hauptsächlich auf Frequenz- und nicht auf Zeitdaten basieren.
SNN ist ein hochleistungsfähiges neuronales Netz, das zeitabhängige Daten ohne Verzögerung verarbeiten kann.
Neuronales Sprachmodell
Neuronale Sprachmodelle verwenden Wörter als Parameter, um das sogenannte Problem der Seltenheit zu lösen. Dieses KI-Prognosemodell bevorzugt die Wahrscheinlichkeitsverteilung gegenüber der Sequenzierung und liefert wesentlich genauere relevante Ergebnisse. Es wird daher häufig für maschinelle Übersetzung, Sprachgenerierung und Dialogsysteme verwendet. Neuronale Sprachmodelle benötigen jedoch mehr Zeit zum Lernen und können kompliziert zu implementieren sein.
Zwei bekannte neuronale Sprachmodelle sind GPT-3 und sein Nachfolger GPT-4 von OpenAI. GPT-3 verwendete 175 Milliarden Parameter, das neuere GPT-4 noch deutlich mehr – die genaue Zahl ist noch nicht bekannt, eine realistische Schätzung liegt bei 1,76 Billionen Parametern. Diese Modelle kommen der Nachahmung menschlicher Kommunikationsstile schon sehr nahe, von maschinellem Bewusstsein kann aber noch keine Rede sein.
Sentimentanalyse
Das Sprachmodell der Sentimentanalyse (auch Meinungsanalyse genannt) nutzt Deep-Learning-Techniken, um subjektive Meinungen durch intelligente Musterabgleiche zu erkennen. Auf diese Weise versteht und beantwortet etwa LaMDA Fragen – indem es Texte aus einem großen Datensatz, mit dem es trainiert wurde, abruft und kombiniert.
Sind empfindungsfähige Machinen eine Illusion?
Maschinelle Empathie ist per se eine Illusion, da Maschinen keine Gefühle haben und entsprechend nicht darauf reagieren können. Die generierten Inhalte basieren auf den eingegebenen Daten, daher gilt das Prinzip „Schlechte Eingaben erzeugen schlechte Ergebnisse“ (Garbage In Garbage Out, GIGO). Die meisten Schlussfolgerungen, die in diese Richtung zielen, basieren auf dem inzwischen veralteten Turing-Test. Es gibt Vorschläge, ihn durch fortschrittlichere Alternativen zu ersetzen.
Da heutige Sprachmodelle mit großen Datensätzen trainiert werden und hoch entwickelte Algorithmen verwenden, ist das Bestehen des Turing-Tests kein Beweis für ein Bewusstsein. Beim Turing-Test führt ein Mensch einerseits mit anderen Menschen und andererseits mit einer Maschine ein Gespräch auf Textebene. Kann der Mensch nicht zwischen den Antworten der Menschen und denen der Maschine unterscheiden, hat die Maschine den Turing-Test angeblich bestanden. Dies sorgte für die Verwirrung im oben genannten LaMDA-Fall bei Google.
Maschinen, die sich ihrer selbst bewusst sind, sind noch eine Wunschvorstellung. Denn der Mensch entscheidet, wie ein Sprachmodell funktioniert und mit welchen Datensätzen es trainiert wird. Die Tatsache, dass eine Maschine mit großen Datensätzen gefüttert und von einem intelligenten Algorithmus angetrieben wird, macht sie noch lange nicht empfindungsfähig. Sie wird immer noch von Menschen gesteuert – und lässt sich jederzeit abschalten.