AI für Lehrer: Ein OpenTextbook

AI Speak: Natürliche Sprachverarbeitung

Natürliche Sprachverarbeitung ist ein Thema, mit dem sich die Forschung in den letzten 50 Jahren intensiv beschäftigt hat. Dies hat zur Entwicklung vieler Tools geführt, die wir täglich nutzen:

In jüngster Zeit haben Chatbots, Heimassistenten und automatische Übersetzungstools in allen Bereichen einen enormen Einfluss ausgeübt.

Lange Zeit wurden Forschung und Industrie durch die inhärente Komplexität der Sprache ausgebremst. Ende des 20. Jahrhunderts konnten Grammatiken für eine Sprache, die von Fachleuten geschrieben wurden, bis zu 50.000 Regeln enthalten. Diese Expertensysteme zeigten, dass Technologie etwas bewirken konnte, aber robuste Lösungen waren zu komplex, um sie zu entwickeln.

Auf der anderen Seite musste die Spracherkennung in der Lage sein, akustische Daten zu nutzen und sie in Text umzuwandeln. Bei der Vielzahl von möglichen Sprechenden ist dies in der Tat eine sehr schwierige Aufgabe!

Die Forschenden waren sich darüber im Klaren, dass es einfacher wäre, wenn wir ein Modell der beabsichtigten Sprache hätten: Wenn wir wüssten, welche Wörter die Sprache enthält und wie Sätze gebildet werden, wäre es einfacher, aus einer Reihe von Möglichkeiten den richtigen Satz zu wählen, der zu einer bestimmten Äußerung passt, oder aus einer Reihe von möglichen Wortfolgen eine gültige Übersetzung zu erstellen.

Ein weiteres wichtiges Thema ist die Semantik. Das meiste, was wir zur Lösung linguistischer Fragen tun können, ist oberflächlich: Die Algorithmen liefern eine Antwort auf der Grundlage einiger lokaler syntaktischer Regeln. Wenn der Text am Ende nichts bedeutet, dann ist das eben so. Ähnliches kann passieren, wenn wir einen Text von Schülerinnen bzw. Schülern lesen: Wir können die Fehler korrigieren, ohne wirklich zu verstehen, worum es in dem Text geht! Eine echte Herausforderung besteht darin, dem Text und, wenn möglich, den gesprochenen Sätzen eine Bedeutung zuzuordnen.

Im Jahr 2008 geschah etwas Überraschendes1: Ein einziges Sprachmodell konnte aus einer großen Menge von Daten lernen und für eine Vielzahl von sprachlichen Aufgaben verwendet werden. Dieses einzigartige Modell schnitt sogar besser ab als Modelle, die für die jeweiligen Aufgaben trainiert wurden.

Das Modell war ein tiefes neuronales Netzwerk. Bei weitem nicht so tief wie die heute verwendeten Modelle! Aber es reichte aus, um Forschung und Industrie davon zu überzeugen, dass maschinelles Lernen und insbesondere Deep Learning die Antwort auf viele Fragen im Bereich NLP sein würde.

Seitdem hat sich die Verarbeitung natürlicher Sprache von einem modellgetriebenen zu einem fast ausschließlich datengetriebenen Ansatz entwickelt.

Traditionell lassen sich die wichtigsten Sprachaufgaben in zwei Familien unterteilen: diejenigen, bei denen es um die Erstellung von Modellen geht, und diejenigen, bei denen es um die Dekodierung geht.

Aufbau von Modellen

Um zu transkribieren, Fragen zu beantworten, Dialoge zu erstellen oder zu übersetzen, müssen Sie wissen, ob „Je parle Français” tatsächlich ein Satz auf Französisch ist oder nicht. Und da die Grammatik der gesprochenen Sprache nicht immer genau befolgt wird, muss die Antwort probabilistisch sein: Ein Satz ist mehr oder weniger Französisch. Dies ermöglicht dem System, verschiedene Kandidatensätze zu erzeugen (z. B. die Transkription eines Lautes, die Übersetzung eines Satzes usw.), und die Wahrscheinlichkeit kann als Punktzahl angegeben werden. Wir können den am höchsten bewerteten Satz nehmen oder die Punktzahl mit anderen Informationsquellen kombinieren (wir können auch daran interessiert sein, worum es in dem Satz geht). Sprachmodelle tun dies: Die Wahrscheinlichkeiten werden von Algorithmen des maschinellen Lernens erstellt. Je mehr Daten vorhanden sind, umso besser. Für einige Sprachen gibt es eine Menge Daten, aus denen Sprachmodelle erstellt werden können. Bei anderen ist das nicht der Fall: Das sind Sprachen, für die nur wenige Daten vorliegen.

Für die Übersetzung brauchen wir nicht zwei, sondern drei Modelle: ein Sprachmodell für jede Sprache und ein weiteres Modell für die Übersetzungen, das uns sagt, wie bessere Übersetzungen von Sprachfragmenten aussehen könnten. Diese Modelle sind schwer zu erstellen, wenn die Daten knapp sind. Wenn Modelle für gängige Sprachpaare leichter zu erstellen sind, gilt dies nicht für Sprachen, die nicht häufig zusammen gesprochen werden (z. B. Portugiesisch und Slowenisch). Ein typischer Ausweg ist hier die Verwendung einer Pivot-Sprache (in der Regel Englisch) und die Übersetzung über diese Pivot-Sprache: von Portugiesisch nach Englisch und dann von Englisch nach Slowenisch. Das führt allerdings zu minderwertigen Ergebnissen, da sich die Fehler häufen.

Dekodierung

Die Dekodierung ist der Prozess, bei dem ein Algorithmus die Eingabesequenz (bei der es sich um ein Signal oder einen Text handeln kann) nimmt und anhand der Modelle eine Entscheidung trifft, die häufig ein Ausgabetext sein wird. Hier gibt es einige algorithmische Überlegungen: In vielen Fällen müssen Transkription und Übersetzung in Echtzeit erfolgen, und die Verringerung der Verzögerung ist ein wichtiges Thema. Es gibt also viel Raum für den Einsatz künstlicher Intelligenz.

End-to-End-Ansätze

Heutzutage ist der Ansatz, diese Komponenten separat zu erstellen und später zu kombinieren, durch End-to-End-Ansätze ersetzt worden, bei denen das System die Eingabe durch ein einziges Modell transkribiert, übersetzt und interpretiert. Derzeit werden solche Modelle von tiefen neuronalen Netzen trainiert, die riesig sein können: Es wird berichtet, dass das derzeit größte GPT3-Modell mehrere hundert Millionen Parameter umfasst!

Versuchen wir, die Zusammenhänge zu verstehen: Nehmen wir an, wir haben Daten. Diese Rohdaten können in irgendeiner Form kodiert werden. Aber die Codierung kann sehr redundant und vielleicht sogar teuer sein. Bauen wir nun eine bestimmte Maschine, die wir Auto-Encoder nennen (siehe Abbildung unten). Diese Maschine ist in der Lage, einen Text zu nehmen, ihn in einen kleinen Vektor zu komprimieren (das ist der Encoder) und dann den Vektor zu dekomprimieren (das ist der Decoder) und einen Text wiederherzustellen, der dem ursprünglichen Text sehr ähnlich ist. Die Idee ist, dass dieser Mechanismus den Zwischenvektor sehr aussagekräftig macht und ihm zwei wünschenswerte Eigenschaften verleiht: dass der Vektor relativ klein ist und dass er die Information des Ausgangstextes enthält.

Die Zukunft

Ein Beispiel für ein End-to-End-System, das wir bald sehen werden, wird folgende Aufgabe erfüllen können: Es hört Sie Ihre Sprache sprechen, transkribiert Ihren Text, übersetzt ihn in eine Sprache, die Sie nicht kennen, trainiert ein Sprachsynthesesystem auf Ihre Stimme und lässt Ihre eigene Stimme den entsprechenden Text in einem neuen Satz sprechen. Hier sehen Sie zwei Beispiele, die von Forschenden der Universidad Politecnica de Valencia in Spanien produziert wurden und bei denen das eigene Sprachmodell der Sprecherin bzw. des Sprechers für die Synchronisation verwendet wird.

Einige Konsequenzen für die Bildung

Die stetigen Fortschritte bei der Verarbeitung natürlicher Sprache sind bemerkenswert. Wo wir noch vor 10 Jahren über die "dummen" Übersetzungen, die von der KI vorgeschlagen wurden, gelacht hätten, wird es heute immer schwieriger, grobe Fehler zu finden. Auch die Techniken zur Sprach- und Zeichenerkennung werden immer besser.
Die semantischen Herausforderungen bestehen jedoch weiterhin und die Beantwortung von Fragen, die ein tiefes Verständnis eines Textes erfordern, funktioniert immer noch nicht fehlerfrei. Aber die Dinge entwickeln sich in die richtige Richtung. Das bedeutet, dass Lehrkräfte damit rechnen sollten, dass einige der folgenden Aussagen bald wahr sein werden, wenn sie es nicht schon sind:In diesen Beispielen wird deutlich, dass die KI bei weitem nicht perfekt ist und dass die Person, die über das entsprechende Wissen verfügt, feststellen wird, dass die Sprache korrekt ist, der Gedankenfluss jedoch nicht. Aber seien wir ehrlich: Wie lange dauert es in der Ausbildung, bis unsere Studierenden dieses Niveau erreichen?
------------------------------------------------------------------------------------------------------

1 Collobert, Ronan, and Jason Weston. “A unified architecture for natural language processing: Deep neural networks with multitask learning.” Proceedings of the 25th international conference on Machine learning. 2008. http://machinelearning.org/archive/icml2008/papers/391.pdf. Note: this reference is given for historical reasons. But it is difficult to read!

This page has paths:

This page references: