AI für Lehrer: Ein OpenTextbook

AI Speak: Datenbasierte Systeme — Teil 2

Die Konzeption und Umsetzung eines datenzentrierten Projekts kann in sechs Schritte unterteilt werden. Zwischen den einzelnen Schritten findet ein ständiges Hin und Her statt, und der gesamte Prozess muss unter Umständen mehrmals wiederholt werden, bis er richtig funktioniert.

Um im Unterricht erfolgreich zu sein, sollten multidisziplinäre Teams aus Lehrkräften, pädagogischen und informatorischen Fachkräften an jedem Schritt des Prozesses beteiligt sein.1 Menschliche Experten werden benötigt, um den Bedarf zu ermitteln und den Prozess zu entwerfen, die Daten zu entwerfen und aufzubereiten, ML-Algorithmen auszuwählen, die Ergebnisse kritisch zu interpretieren und zu planen, wie die Anwendung genutzt werden soll.2

1) Verstehen des Bildungskontextes

Der erste Schritt bei der Entwicklung eines AIED-Tools (AI in Education) besteht darin, die Bedürfnisse im Klassenzimmer zu verstehen. Sobald die Ziele festgelegt sind, muss man sehen, wie sie erreicht werden können: Welche Faktoren sind zu berücksichtigen und welche zu ignorieren? Jede datenbasierte Lösung ist auf Phänomene ausgerichtet, die sich leicht berechnen und standardisieren lassen.3 Aus diesem Grund muss jede Entscheidung zwischen den Lehrkräften, die das Werkzeug verwenden werden, den Pädagogen, die sicherstellen können, dass alle Entscheidungen auf einer erprobten Theorie basieren, und den Informatikexperten, die verstehen, wie die Algorithmen funktionieren, diskutiert werden.

Zwischen den beiden ersten Schritten gibt es ein ständiges Hin und Her, denn was möglich ist, hängt auch davon ab, welche Daten zur Verfügung stehen.2 Darüber hinaus unterliegt die Entwicklung von pädagogischen Hilfsmitteln auch Gesetzen, die die Nutzung von Daten und die Art der Algorithmen, die verwendet werden können, einschränken.

2) Verstehen der Daten

Sobald die Ziele und die dazu beitragenden Faktoren identifiziert sind, verlagert sich der Schwerpunkt darauf, welche Daten benötigt werden, wie sie beschafft und gekennzeichnet werden, wie der Datenschutz gehandhabt wird und wie die Datenqualität gemessen wird.3 Damit eine Anwendung für maschinelles Lernen erfolgreich ist, müssen die Datensätze groß genug, vielfältig und gut gekennzeichnet sein.

Maschinelles Lernen benötigt Daten, um das Modell zu trainieren, und Daten, mit denen es arbeiten oder Vorhersagen treffen kann. Für einige ML-Aufgaben, wie Gesichts- und Objekterkennung, stehen bereits zahlreiche private und öffentliche Datenbanken für das Training zur Verfügung.

Wenn diese Daten nicht bereits in brauchbarer Form vorhanden sind, müssen vorhandene Datensätze möglicherweise ergänzt oder umetikettiert werden, damit sie den Anforderungen des Projekts entsprechen. Andernfalls, müssen möglicherweise eigene Datensätze erstellt und neu beschriftet werden. Digitale Spuren, die von den Schülerinnen und Schülern während der Nutzung einer Anwendung erzeugt werden, könnten ebenfalls als Datenquelle verwendet werden.

In jedem Fall müssen die für das Problem relevanten Daten und Merkmale sorgfältig identifiziert werden.2 Irrelevante oder redundante Merkmale können einen Algorithmus dazu bringen, falsche Muster zu finden und die Leistung des Systems zu beeinträchtigen. 2 Da die Maschine nur in den ihr zur Verfügung gestellten Daten Muster finden kann, definiert die Auswahl des Datensatzes implizit auch das Problem.4 Wenn viele Daten zur Verfügung stehen, muss eine Teilmenge mit Hilfe statistischer Techniken ausgewählt und die Daten überprüft werden, um Fehler und Verzerrungen zu vermeiden.

Ein Beispiel für schlechte Trainingsdaten ist eine Geschichte aus den Anfängen der Computer Vision, in der ein Modell trainiert wurde, um zwischen Bildern von russischen und amerikanischen Panzern unterscheiden zu können. Später stellte sich heraus, dass seine hohe Genauigkeit darauf zurückzuführen war, dass die russischen Panzer an einem bewölkten Tag und die amerikanischen an einem sonnigen Tag fotografiert worden waren.4

Daher muss der gewählte Datensatz auf seine Qualität hin überprüft werden, wobei zu berücksichtigen ist, warum er erstellt wurde, was er enthält, welche Verfahren für die Sammlung, Reinigung und Kennzeichnung, Verteilung und Pflege verwendet werden.4 Zu den wichtigsten Fragen gehören: Sind die Datensätze für den beabsichtigten Zweck geeignet? Und: Enthalten die Datensätze versteckte Gefahren, die Modelle verzerrt oder diskriminierend machen können?3

3) Aufbereitung der Daten

Zur Datenvorbereitung gehört die Erstellung von Datensätzen durch Zusammenführung von Daten aus verschiedenen Quellen, die Bereinigung von Inkonsistenzen (z. B. könnten einige Testergebnisse auf einer Skala von 1 bis 10 liegen, während andere als Prozentsatz angegeben werden) und die Suche nach fehlenden oder extremen Werten. Anschließend können automatisierte Tests durchgeführt werden, um die Qualität der Datensätze zu überprüfen. Dazu gehört auch die Überprüfung auf Datenschutzlücken und unvorhergesehene Korrelationen oder Stereotypen.2 Die Datensätze können in dieser Phase auch in Trainings- und Testdatensätze aufgeteilt werden: Erstere werden zum Trainieren des Modells verwendet, letztere zum Überprüfen seiner Leistung. Das Testen des Trainingsdatensatzes wäre so, als würden Sie die Prüfungsaufgaben am Vortag als Hausaufgaben verteilen: Die Prüfungsleistung der Schülerinnen und Schüler sagt nichts über ihr Verständnis aus.2

4) Modellierung

In diesem Schritt werden Algorithmen verwendet, um Muster in den Daten zu extrahieren und Modelle zu erstellen. Normalerweise werden verschiedene Algorithmen getestet, um zu sehen, was am besten funktioniert. Diese Modelle können dann eingesetzt werden, um Vorhersagen für neue Daten zu treffen.

In den meisten Projekten decken die ersten Modelle Probleme in den Daten auf, die ein Hin- und Hergehen zwischen den Schritten 2 und 3 erfordern.2 Solange eine starke Korrelation zwischen den Merkmalen der Daten und dem Ausgabewert besteht, ist es sehr wahrscheinlich, dass ein Algorithmus für maschinelles Lernen gute Vorhersagen erzeugt.

Diese Algorithmen verwenden fortschrittliche statistische und rechnerische Techniken, um Daten zu verarbeiten. Die Programmierenden müssen die Einstellungen anpassen und verschiedene Algorithmen ausprobieren, um die besten Ergebnisse zu erzielen. Nehmen wir eine Anwendung zur Erkennung von Betrug. Ein falsch-positiver Befund liegt vor, wenn ein Lernender, der nicht geschummelt hat, markiert wird. Ein falsch-negatives Ergebnis liegt vor, wenn ein Lernender, der geschummelt hat, nicht markiert wird. Systementwickelnde können das Modell so abstimmen, dass entweder falsch-positive Ergebnisse, bei denen einige Betrugsfälle übersehen werden könnten, oder falsch-negative Ergebnisse, bei denen sogar zweifelhafte Fälle markiert werden, minimiert werden.5 Die Abstimmung hängt also davon ab, was das System leisten soll.

5) Auswertung


Während der Modellierungsphase kann jedes Modell auf die Genauigkeit der Vorhersage im Trainingsdatensatz abgestimmt werden. Dann werden die Modelle mit dem Testdatensatz getestet und ein Modell wird für die Verwendung ausgewählt. Dieses Modell wird auch dahingehend bewertet, ob es den pädagogischen Anforderungen entspricht: Werden die in Schritt 1 festgelegten Ziele erreicht? Gibt es irgendwelche unvorhergesehenen Probleme? Ist die Qualität gut? Könnte etwas verbessert oder anders gemacht werden? Ist eine Umgestaltung erforderlich? Das Hauptziel ist die Entscheidung, ob die Anwendung in Schulen eingesetzt werden kann. Wenn nicht, beginnt der ganze Prozess von vorne.2

6) Einsatz

Der letzte Schritt dieses Prozesses besteht darin, herauszufinden, wie die datenbasierte Anwendung in das Schulsystem integriert werden kann, um den größtmöglichen Nutzen zu erzielen, sowohl im Hinblick auf die technische Infrastruktur als auch auf die Unterrichtspraxis.

Auch wenn dies der letzte Schritt ist, ist der gesamte Prozess iterativ. Nach der Einführung sollte das Modell regelmäßig überprüft werden, um festzustellen, ob es für den jeweiligen Kontext noch relevant ist. Der Bedarf, die Prozesse oder die Art der Datenerfassung könnten sich ändern und sich auf die Ergebnisse des Systems auswirken. Daher sollte die Anwendung bei Bedarf überprüft und aktualisiert werden. Das System sollte kontinuierlich auf seine Auswirkungen auf das Lernen, Lehren und Bewerten überwacht werden.6

In den ethischen Richtlinien für die Nutzung von KI und Daten für pädagogische Fachkräfte wird betont, dass die Schule während des gesamten Lebenszyklus des KI-Systems mit dem Unternehmen, das die KI-Dienstleistung anbietet, in Kontakt bleiben sollte, und zwar bereits vor dem Einsatz. Sie sollte eine klare technische Dokumentation verlangen und bei Unklarheiten um Klärung bitten. Es sollte eine Vereinbarung über Support und Wartung getroffen und sichergestellt werden, dass die anbietende Firma alle rechtlichen Verpflichtungen einhält.6


Hinweis: Sowohl die hier aufgeführten Schritte als auch die Abbildung sind an die in 2. beschriebenen Phasen und Aufgaben von CRISP-DM Datascience (basierend auf Abbildung 3 in Chapman, Clinton, Kerber, et al. 1999) angepasst.

------------------------------------------------------------------------------------------------------
1 Du Boulay, B., Poulovasillis, A., Holmes, W., Mavrikis, M., Artificial Intelligence And Big Data Technologies To Close The Achievement Gap,in Luckin, R., ed. Enhancing Learning and Teaching with Technology, London: UCL Institute of Education Press, pp. 256–285, 2018
2 Kelleher, J.D, Tierney, B, Data Science, London, 2018
3 Hutchinson, B., Smart, A., Hanna, A., Denton, E., Greer, C., Kjartansson, O., Barnes, P., Mitchell, M., Towards Accountability for Machine Learning Datasets: Practices from Software Engineering and Infrastructure, Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, Association for Computing Machinery, New York, 2021
4 Barocas, S.,  Hardt, M., Narayanan, A., Fairness and machine learning Limitations and Opportunities, yet to be published
5 Schneier, B., Data and Goliath: The Hidden Battles to Capture Your Data and Control Your World, W. W. Norton & Company, 2015
6 Ethical guidelines on the use of artificial intelligence and data in teaching and learning for educators, European Commission, October 2022
 

This page has paths:

This page references: