Reddit schliesst Suchmaschinen aus: Nur Google darf bleiben
2023 kündigte Reddit bereits an, Suchmaschinen zukünftig möglicherweise auszuschliessen. Nun macht die Plattform Ernst und sperrte die meisten Webcrawler aus.
Das Wichtigste in Kürze
- Reddit hat die meisten Suchmaschinen von seiner Plattform ausgeschlossen.
- Nur Google schloss einen Lizenzdeal mit Reddit ab und darf noch auf die Seite zugreifen.
- Als Grund für die Sperre gibt Reddit das unbefugte Nutzen von Inhalten zum KI-Training an.
Wer zuletzt auf der Suche nach aktuellen Reddit-Inhalten ist und dabei Suchmaschinen wie Bing oder DuckDuckGo nutzt, wird enttäuscht sein. Denn diese Suchmaschinen zeigen keine neuen Beiträge von Reddit an. Anders sieht es bei Google aus, hier sind auch frische Inhalte von Reddit auffindbar.
Der Grund dafür ist eine neue Strategie von Reddit, die bestimmte Suchmaschinen aussperrt: es sei denn, sie haben eine Lizenzvereinbarung mit der Plattform getroffen. Google scheint hiervon aus besonderem Grund nicht betroffen zu sein: Wie „Heise“ berichtet, hat sich der Tech-Gigant die Rechte gesichert, um Inhalte von Reddit für KI-Trainingszwecke zu nutzen.
Führt man eine spezifische Internetsuche auf einer Website durch – zum Beispiel mit dem Trick «site:reddit.com», so liefern selbst grosse Alternativen wie Microsofts Bing oder DuckDuckGo nur ältere Ergebnisse zurück. Dies berichtet 404 Media.
Reddit setzt Drohung gegenüber Suchmaschinen um
Anscheinend hat Reddit vor etwa einer Woche damit begonnen, diese Suchmaschinen auszuschliessen. Das bedeutet konkret: Die Webcrawler dieser Dienste können seitdem keine neuen Inhalte mehr auf der Plattform finden und indizieren. Einzig jene Suchmaschinen wie Kagi beispielsweise, welche Googles Index verwenden, liefern noch aktuelle Reddit-Inhalte.
Reddit hatte bereits im Herbst 2023 angekündigt, dass es Suchmaschinen ausschliessen könnte. Der Grund: Die Plattform möchte von KI-Firmen Geld dafür, dass diese ihre Technologie mit den Inhalten von Reddit trainieren. Da Reddit eine der wertvollsten Quellen für Trainingsdaten ist, hat die Plattform Verhandlungen mit mehreren KI-Firmen geführt. Google sicherte sich diesen Zugang für 60 Millionen Dollar.
Gespräche mit anderen Suchmaschinen fruchtlos
Andere Suchmaschinen ohne Lizenzdeal wurden nun offenbar tatsächlich ausgeschlossen. Doch laut einem Sprecher von Reddit hat dies nichts mit der jüngsten Partnerschaft mit Google zu tun.
Man habe mit mehreren Suchmaschinen Gespräche geführt, aber nicht mit allen eine Einigung erzielen können. Einige seien «nicht in der Lage oder nicht willens», durchsetzbare Zusagen bezüglich ihrer Verwendung von Reddit-Inhalten zu machen. Darunter falle auch die Art, wie die Inhalte für die KI verwendet würden.
Schutz vor Datenextraktion bereits umgangen
Wie fast alle Websites verwendet auch Reddit eine Datei namens robots.txt. Diese dient dazu, Webcrawler daran zu hindern, bestimmte Inhalte abzuscannen und Datenextraktion («Data Scraping») vorzubeugen. Denn neben den Webcrawlern der Suchmaschinen nutzen auch Unternehmen künstlicher Intelligenz (KI) diese Technik zur Datengewinnung und Verbesserung ihrer Modelle.
Dies missfällt vielen Website-Betreibern. Sie sehen ihre Inhalte durch KI-Chatbots für fremde Zwecke genutzt und in einigen Fällen sogar falsch dargestellt.
Doch die robots.txt-Datei ist keine unüberwindbare Hürde. So wurde kürzlich bekannt, dass die KI-Suchmaschine Perplexity diese Datei ignoriert und Informationen ohne Erlaubnis und teilweise sogar falsch wiedergibt.