This site requires Javascript to be turned on. Please enable Javascript and reload the page.

AI für Lehrer: Ein OpenTextbook

AI Speak : Indizierung durch Suchmaschinen

Eine Suchmaschine versucht zu verstehen, welche Informationen ein Benutzer benötigt. Sie tut dies anhand der wenigen Schlüsselwörter, die in das Suchfeld eingegeben werden - der Suchanfrage. Sobald sie die Suchanfrage hat, versucht sie, unter den Milliarden von Webdokumenten die wenigen zu finden, die dem Bedarf entsprechen. Anschließend zeigt es die Informationen in einer leicht zugänglichen Form an, wobei die relevanteste Seite ganz oben steht. Um all dies zu erreichen, muss die Suchmaschine zunächst Dokumente im Web finden und sie mit Tags versehen, damit sie leicht abrufbar sind. Schauen wir uns in groben Zügen die Schritte an, die zu dem ganzen Prozess gehören:

Schritt 1 : Web Crawler finden und laden Dokumente herunter.

Nachdem ein Benutzer eine Suchanfrage eingegeben hat, ist es zu spät, sich alle im Internet verfügbaren Inhalte anzusehen.¹ Die Webdokumente werden vorher gesichtet, ihr Inhalt wird aufgeschlüsselt und in verschiedenen Slots gespeichert. Sobald die Abfrage verfügbar ist, muss nur noch der Inhalt der Abfrage mit dem Inhalt der Slots abgeglichen werden.

Web-Crawler sind Programme, die Dokumente aus dem Internet finden und herunterladen. Zu Beginn erhalten sie eine Reihe von Website-Adressen (URLs), auf die sie zugreifen können. Dieser Satz wird als Seed-Set bezeichnet. Wenn sie eine Seite aus dem Seed-Set herunterladen, sehen sie nach, ob es Links zu neuen Webseiten gibt. Wenn ja, fügen sie diese neuen Adressen zu ihrer To-Do-Liste hinzu. Dann laden sie die neuen Seiten herunter und suchen darin nach weiteren Links.

Wenn der Seedsatz vielfältig genug ist, besuchen die Crawler schließlich jede Website, die ihnen den Zugriff erlaubt. Da Dokumente aktualisiert werden, muss ein Crawler auch zurückgehen und bereits besuchte Seiten auf Aktualisierungen und neue Links überprüfen.

Schritt 2: Das Dokument wird in mehrere Teile zerlegt

Das vom Crawler heruntergeladene Dokument kann eine klar strukturierte Webseite sein (geschrieben in einer Sprache namens html) mit einer eigenen Beschreibung von Inhalt, Autor, Datum usw. Es kann auch ein schlecht eingescanntes Bild eines alten Bibliotheksbuchs sein. Suchmaschinen können in der Regel hundert verschiedene Dokumenttypen lesen.¹ Sie konvertieren diese in html oder xml und speichern sie in Tabellen (im Fall von Google BigTable genannt).

Eine Tabelle besteht aus kleineren Abschnitten, die Tablets genannt werden. Jede Zeile des Tablets ist einer Webseite gewidmet, wobei die Webadresse die Zeile eindeutig identifiziert. Diese Zeilen sind in einer bestimmten Reihenfolge angeordnet, die zusammen mit einem Protokoll für Aktualisierungen aufgezeichnet wird. Jede Spalte enthält spezifische Informationen über die Webseite, die beim Abgleich des Dokumenteninhalts mit dem Inhalt einer zukünftigen Abfrage helfen können:

- Die Adresse der Webseite. Sie identifiziert nicht nur die Zeile, sondern die Adresse selbst kann eine gute Beschreibung des Inhalts der Seite liefern. Sie zeigt auch an, ob es sich um eine Startseite handelt, denn in diesem Fall ist der Inhalt repräsentativ für die gesamte Website.
- Titel, Überschriften und fett gedruckte Wörter, die wichtige Inhalte beschreiben.
- Metadaten der Seite. Dies sind Informationen über die Seite, die nicht zum Hauptinhalt gehören, wie z.B. der Dokumenttyp (z.B. E-Mail oder Webseite), die Dokumentstruktur und andere Merkmale wie die Länge des Dokuments. Html-Seiten haben auch Schlüsselwörter in der Beschreibung, die wertvoll sind. Wissenschaftliche Artikel und Zeitungsartikel haben Autor und Veröffentlichungsdatum. Bilder und Videos haben ihre eigenen Metadaten.
- Beschreibung der Links von anderen Seiten zu dieser Seite. Wenn andere Seiten auf eine Webseite verlinken, geben sie in der Regel einen beschreibenden Text an, der unterstrichen ist, um auf das Vorhandensein des Hyperlinks hinzuweisen. Dieser Text, Ankertext genannt, ist eine gute Beschreibung dessen, worum es dem Autor auf dieser Seite geht. Der Ankertext erhält daher separate Spalten - je mehr Links, desto mehr Spalten werden verwendet. Das Vorhandensein von Links wird auch für das Ranking verwendet, um festzustellen, wie beliebt eine Webseite ist (sehen Sie sich Google's Pagerank an, ein Ranking-System, das Links zu und von einer Seite verwendet, um Qualität und Beliebtheit zu messen).
- Personennamen, Namen von Unternehmen oder Organisationen, Orte, Adressen, Zeit- und Datumsangaben, Mengen und Geldwerte usw. Algorithmen für maschinelles Lernen können darauf trainiert werden, diese Entitäten in beliebigen Inhalten zu finden. Bei den Trainingsdaten handelt es sich um Text, der von einem Menschen kommentiert wurde. Die Maschine lernt zu sagen, wie hoch die Wahrscheinlichkeit ist, dass das nächste Wort eine Entität ist.¹
Eine Spalte der Tabelle, vielleicht die wichtigste, enthält den Hauptinhalt des Dokuments. Da eine Webseite auch andere Informationen wie externe Links und Werbung enthalten kann, muss zunächst der Hauptinhalt ermittelt werden. Eine Technik verwendet ein maschinelles Lernmodell, um zu lernen, welches der Hauptinhalt einer Webseite ist. Wie das Modell, das in AI Speak : Maschinelles Lernen gelernt hat, ob eine Karte zur “Gruppe A” oder “Gruppe B” gehört, und das Modell, das in Hands on Machine Learning gelernt hat, welches ein Fahrrad und welches ein Motorrad ist, lernt das Modell hier, welche Inhalte für die Suche wichtig sind und welche nicht.

Wir können natürlich exakte Wörter aus der Suchanfrage mit den Wörtern in einem Webdokument abgleichen, so wie die Finden Schaltfläche in jeder Textverarbeitung. Aber das ist nicht sehr effektiv, da die Menschen unterschiedliche Wörter verwenden, um über dasselbe Objekt zu sprechen. Die Aufzeichnung der einzelnen Wörter hilft nicht dabei, zu erfassen, wie diese Wörter miteinander kombiniert werden, um eine Bedeutung zu erzeugen: Letztendlich ist es der Gedanke hinter den Wörtern, der uns hilft zu kommunizieren und nicht die Wörter selbst. Daher wandeln alle Suchmaschinen den Text so um, dass er leichter mit der Bedeutung des Abfragetextes übereinstimmt. Später wird die Abfrage auf ähnliche Weise verarbeitet.
Als Wortteile wird die Gesamtzahl der verschiedenen Token, die gespeichert werden müssen, reduziert. Aktuelle Modelle speichern etwa 30.000 bis 50.000 Token.²Falsch geschriebene Wörter können identifiziert werden, da Teile von ihnen noch mit den gespeicherten Token übereinstimmen. Unbekannte Wörter können zu Suchergebnissen führen, da ihre Teile mit den gespeicherten Token übereinstimmen könnten.

Das Trainingsset für maschinelles Lernen besteht hier aus Beispieltexten. Ausgehend von einzelnen Zeichen, Leerzeichen und Satzzeichen fügt das Modell Zeichen, die häufig vorkommen, zu neuen Token zusammen. Wenn die Anzahl der Token nicht hoch genug ist, setzt es den Zusammenführungsprozess fort, um größere oder weniger häufige Wortteile abzudecken. Auf diese Weise können die meisten Wörter, Wortendungen und alle Präfixe abgedeckt werden. Auf diese Weise kann die Maschine einen neuen Text problemlos in Token aufteilen und an den Speicher senden.

Schritt 3 : Ein Index wird für eine einfache Referenz erstellt

Sobald die Daten in BigTables verstaut sind, wird ein Index erstellt. Am Ende eines Lehrbuchs listet der Index wichtige Begriffe und die Seitenzahlen auf, auf denen sie zu finden sind. Der Suchindex enthält die Token in einem Webdokument und deren Position. Suchmaschinen können dem Index auch Statistiken hinzufügen - wie oft ein Token in einem Dokument vorkommt, wie wichtig es für das Dokument ist usw. Auch Positionsinformationen können aufgezeichnet werden: Befindet sich das Token im Titel oder in einer Überschrift? Ist es auf einen Teil konzentriert oder kommt es im gesamten Dokument vor? Folgt ein Token immer auf ein anderes? Oder all dies kann als eine einzige Punktzahl angegeben werden, die für das Ranking verwendet werden kann.
Heutzutage verwenden viele Suchmaschinen eine Kombination aus traditioneller Indexierung und sprachbasierten Modellen, die von tiefen neuronalen Netzen erzeugt werden. Letztere kodieren semantische Details des Textes und sind für ein besseres Verständnis der Abfragen verantwortlich.³ Sie helfen den Suchmaschinen, über die Abfrage hinauszugehen und den Informationsbedarf zu erfassen, der die Abfrage ausgelöst hat.

Diese 3 Schritte geben eine vereinfachte Darstellung dessen, was man "Indizierung" nennt - das Finden, Vorbereiten und Speichern von Dokumenten und das Erstellen des Index. Als nächstes folgen die Schritte des "Ranking" - das Abgleichen von Abfrage und Inhalt und die Anzeige der Ergebnisse nach Relevanz.

------------------------------------------------------------------------------------------------------
¹ Croft, B., Metzler D., Strohman, T., Search Engines, Information Retrieval in Practice, W.B. Croft, D. Metzler, T. Strohman, 2015
²Sennrich,R., Haddow, B., and Alexandra Birch, A., Neural Machine Translation of Rare Words with Subword Units, In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1715–1725, Berlin, Germany. Association for Computational Linguistics, 2016
³ Metzler, D., Tay, Y., Bahri, D., Najork, M., Rethinking Search: Making Domain Experts out of Dilettantes, SIGIR Forum 55, 1, Artikel 13, Juni 2021

This page has paths:

Contents of this path:

Schritt 1 : Web Crawler finden und laden Dokumente herunter.

Schritt 2: Das Dokument wird in mehrere Teile zerlegt

Schritt 3 : Ein Index wird für eine einfache Referenz erstellt

This page has paths:

This page references: