This site requires Javascript to be turned on. Please enable Javascript and reload the page.

AI für Lehrer: Ein OpenTextbook

AI Speak: Indizierung durch Suchmaschinen

Eine Suchmaschine versucht zu verstehen, welche Informationen eine nutzende Person benötigt. Sie tut dies anhand der wenigen Schlüsselwörter, die in das Suchfeld eingegeben werden (der Suchanfrage). Sobald sie die Suchanfrage hat, versucht sie, unter den Milliarden von Webdokumenten die wenigen zu finden, die dem Bedarf entsprechen. Anschließend zeigt sie die Informationen in einer leicht zugänglichen Form an, wobei die relevanteste Seite ganz oben angezeigt wird. Um all dies zu erreichen, muss die Suchmaschine zunächst Dokumente im Web finden und sie mit Tags versehen, damit sie leicht abrufbar sind. Schauen wir uns in groben Zügen die Schritte an, die zu diesem Prozess gehören:

Schritt 1: Webcrawler finden Dokumente und laden sie herunter

Nachdem eine nutzende Person eine Suchanfrage eingegeben hat, ist es zu spät, sich alle im Internet verfügbaren Inhalte anzusehen.¹ Die Webdokumente werden vorab gesichtet, ihr Inhalt wird zerlegt und in verschiedenen Slots gespeichert. Sobald die Abfrage verfügbar ist, muss nur noch der Inhalt der Abfrage mit dem Inhalt der Slots abgeglichen werden.

Webcrawler sind Programme, die Dokumente aus dem Internet finden und herunterladen. Zu Beginn erhalten sie eine Reihe von Website-Adressen (URLs), auf die sie zugreifen können. Dieser Satz wird als Seed-Set bezeichnet. Wenn sie eine Seite aus dem Seed-Set herunterladen, sehen sie nach, ob es Links zu neuen Webseiten gibt. Wenn ja, fügen sie diese neuen Adressen zu ihrer To-do-Liste hinzu. Dann laden sie die neuen Seiten herunter und suchen darin nach weiteren Links.

Wenn der Seed-Set vielfältig genug ist, besuchen die Crawler schließlich jede Website, die ihnen den Zugriff erlaubt. Da Dokumente aktualisiert werden, muss ein Crawler auch zurückgehen und bereits besuchte Seiten auf Aktualisierungen und neue Links überprüfen.

Schritt 2: Das Dokument wird in mehrere Teile zerlegt

Das vom Crawler heruntergeladene Dokument kann eine klar strukturierte Webseite (geschrieben in einer Sprache namens HTML) mit einer eigenen Beschreibung von Inhalt, AutorIn, Datum usw. sein. Es kann aber auch ein schlecht eingescanntes Bild aus einem alten Bibliotheksbuch sein. Suchmaschinen können in der Regel hunderte verschiedener Dokumenttypen lesen.1 Sie konvertieren diese in HTML oder XML und speichern sie in Tabellen (im Fall von Google BigTable genannt).

Eine Tabelle besteht aus kleineren Abschnitten, die Tablets genannt werden. Jede Zeile des Tablets ist einer Webseite gewidmet, wobei die Webadresse die Zeile eindeutig identifiziert. Diese Zeilen sind in einer bestimmten Reihenfolge angeordnet, die zusammen mit einem Protokoll für Aktualisierungen aufgezeichnet wird. Jede Spalte enthält spezifische Informationen über die Webseite, die beim Abgleich des Dokumenteninhalts mit dem Inhalt einer zukünftigen Abfrage helfen können:

- Die Adresse der Website: Sie identifiziert nicht nur die Zeile, sondern die Adresse selbst kann eine gute Beschreibung des Inhalts der Seite sein. Sie gibt auch an, ob es sich um eine Homepage handelt, denn in diesem Fall ist der Inhalt repräsentativ für die gesamte Website.
- Titel, Überschriften und fett gedruckte Wörter, die wichtige Inhalte beschreiben.
- Metadaten der Seite: Dies sind Informationen über die Seite, die nicht zum Hauptinhalt gehören, wie z. B. der Dokumenttyp (z. B. E-Mail oder Webseite), die Dokumentstruktur und andere Merkmale, wie die Länge des Dokuments. HTML-Seiten haben auch Schlüsselwörter in der Beschreibung, die nützlich sind. Wissenschaftliche Artikel und Zeitungsartikel haben AutorIn und Veröffentlichungsdatum. Bilder und Videos haben eigene Metadaten.
- Beschreibung der Links von anderen Seiten zu dieser Seite: Wenn andere Seiten auf eine Webseite verlinken, geben sie in der Regel einen beschreibenden Text an, der unterstrichen ist, um auf das Vorhandensein des Hyperlinks hinzuweisen. Dieser Text, Ankertext genannt, ist eine gute Beschreibung dessen, worum es dem Autor bzw. der Autorin auf dieser Seite geht. Der Ankertext erhält daher separate Spalten - je mehr Links, desto mehr Spalten werden verwendet. Das Vorhandensein von Links wird auch für das Ranking verwendet, um festzustellen, wie beliebt eine Webseite ist (sehen Sie sich dazu Googles Pagerank an, ein Ranking-System, das Links zu und von einer Seite verwendet, um Qualität und Beliebtheit zu messen).
- Personennamen, Namen von Unternehmen oder Organisationen, Orte, Adressen, Zeit- und Datumsangaben, Mengen und Geldwerte usw.: Algorithmen des maschinellen Lernens können darauf trainiert werden, diese Einheiten in beliebigen Inhalten zu finden. Die Trainingsdaten sind Text, der von einem Menschen annotiert wurde. Die Maschine lernt, wie wahrscheinlich es ist, dass das nächste Wort eine Entität ist.¹
Eine Spalte der Tabelle, vielleicht die wichtigste, enthält den Hauptinhalt des Dokuments. Da eine Webseite auch andere Informationen wie externe Links und Werbung enthalten kann, muss zunächst der Hauptinhalt ermittelt werden. Eine Technik verwendet ein maschinelles Lernmodell, um zu lernen, welches der Hauptinhalt einer Webseite ist. Wie das Modell, das in AI Speak: Maschinelles Lernen gelernt hat, ob eine Karte zur „Gruppe A” oder „Gruppe B” gehört, und das Modell, das in Hands on Machine Learning gelernt hat, welches ein Fahrrad und welches ein Motorrad ist, lernt das Modell hier, welche Inhalte für die Suche wichtig sind und welche nicht.

Wir können natürlich exakte Wörter aus der Suchanfrage mit den Wörtern in einem Webdokument abgleichen, so wie die Finden-Schaltfläche in jeder Textverarbeitung. Aber das ist nicht sehr effektiv, da die Menschen unterschiedliche Wörter verwenden, um über dasselbe Objekt oder denselben Sachverhalt zu sprechen. Die Aufzeichnung der einzelnen Wörter hilft nicht dabei, zu erfassen, wie diese Wörter miteinander kombiniert werden, um eine Bedeutung zu erzeugen: Letztendlich ist es der Gedanke hinter den Wörtern, der uns hilft zu kommunizieren, und nicht die Wörter selbst. Daher wandeln alle Suchmaschinen den Text so um, dass er leichter mit der Bedeutung des Abfragetextes übereinstimmt. Später wird die Abfrage auf ähnliche Weise verarbeitet.
Da es sich um Wortteile handelt, verringert sich die Gesamtzahl der verschiedenen Token, die gespeichert werden müssen. Aktuelle Modelle speichern etwa 30.000 bis 50.000 Token.²Falsch geschriebene Wörter können identifiziert werden, da Teile von ihnen noch mit den gespeicherten Token übereinstimmen. Unbekannte Wörter können zu Suchergebnissen führen, da ihre Teile mit den gespeicherten Token übereinstimmen könnten.

Das Trainingsset für maschinelles Lernen besteht hier aus Beispieltexten. Ausgehend von einzelnen Zeichen, Leerzeichen und Satzzeichen fügt das Modell Zeichen, die häufig vorkommen, zu neuen Token zusammen. Wenn die Anzahl der Token nicht hoch genug ist, setzt es den Zusammenführungsprozess fort, um größere oder weniger häufige Wortteile abzudecken. Auf diese Weise können die meisten Wörter, Wortendungen und alle Präfixe abgedeckt werden. So kann die Maschine einen neuen Text problemlos in Token aufteilen und an den Speicher senden.

Schritt 3: Ein Index wird für eine einfache Referenz erstellt

Sobald die Daten in BigTables verstaut sind, wird ein Index erstellt. Am Ende eines Lehrbuchs listet der Index wichtige Begriffe und die Seitenzahlen auf, auf denen sie zu finden sind. Der Suchindex enthält die Token in einem Webdokument und deren Position. Suchmaschinen können dem Index auch Statistiken hinzufügen, z.B. wie oft ein Token in einem Dokument vorkommt, wie wichtig es für das Dokument ist usw. Auch Positionsinformationen können aufgezeichnet werden: Steht das Token im Titel oder in einer Überschrift? Konzentriert es sich auf einen Teil oder kommt es im ganzen Dokument vor? Folgt ein Token immer einem anderen? Oder all dies kann als eine einzige Punktzahl ausgedrückt werden, die für das Ranking verwendet werden kann.
Heutzutage verwenden viele Suchmaschinen eine Kombination aus traditioneller Indexierung und sprachbasierten Modellen, die von tiefen neuronalen Netzen erzeugt werden. Letztere kodieren semantische Details des Textes und sind für ein besseres Verständnis der Abfragen verantwortlich.³ Sie helfen den Suchmaschinen, über die Abfrage hinauszugehen und den Informationsbedarf zu erfassen, der die Abfrage ausgelöst hat.

Diese 3 Schritte geben eine vereinfachte Darstellung dessen, was man „Indizierung" nennt - das Finden, Vorbereiten und Speichern von Dokumenten und das Erstellen des Index. Als Nächstes folgen die Schritte des „Ranking" - das Abgleichen von Abfrage und Inhalt und die Anzeige der Ergebnisse nach Relevanz.

------------------------------------------------------------------------------------------------------
¹ Croft, B., Metzler D., Strohman, T., Search Engines, Information Retrieval in Practice, W.B. Croft, D. Metzler, T. Strohman, 2015
²Sennrich,R., Haddow, B., and Alexandra Birch, A., Neural Machine Translation of Rare Words with Subword Units, In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1715–1725, Berlin, Germany. Association for Computational Linguistics, 2016
³ Metzler, D., Tay, Y., Bahri, D., Najork, M., Rethinking Search: Making Domain Experts out of Dilettantes, SIGIR Forum 55, 1, Artikel 13, Juni 2021

This page has paths:

Contents of this path:

Schritt 1: Webcrawler finden Dokumente und laden sie herunter

Schritt 2: Das Dokument wird in mehrere Teile zerlegt

Schritt 3: Ein Index wird für eine einfache Referenz erstellt

This page has paths:

This page references: