Datenrevolten gegen KI brechen aus | Shaanxi Carding Machine Co., Ltd

Unterstützt durch

Fanfiction-Autoren, Schauspieler, Social-Media-Unternehmen und Nachrichtenorganisationen haben es satt, dass KI-Unternehmen Online-Inhalte ohne Zustimmung konsumieren, und rebellieren.

Von Sheera Frenkel und Stuart A. Thompson

Sheera Frenkel und Stuart Thompson berichten über Online-Fehlinformationen und digitale Daten.

Seit mehr als 20 Jahren schreibt Kit Loffstadt Fanfiction über alternative Universen für „Star Wars“-Helden und „Buffy – Im Bann der Dämonen“-Bösewichte und teilt ihre Geschichten kostenlos online.

Doch im Mai stellte Frau Loffstadt die Veröffentlichung ihrer Kreationen ein, nachdem sie erfahren hatte, dass ein Datenunternehmen ihre Geschichten kopiert und in die künstliche Intelligenztechnologie eingespeist hatte, die ChatGPT, dem viralen Chatbot, zugrunde liegt. Bestürzt versteckte sie ihre Schriften hinter einem gesperrten Konto.

Frau Loffstadt half letzten Monat auch bei der Organisation einer Rebellion gegen KI-Systeme. Zusammen mit Dutzenden anderen Fanfiction-Autoren veröffentlichte sie eine Flut respektloser Geschichten online, um die Datenerfassungsdienste zu überfordern und zu verwirren, die die Arbeit der Autoren in die KI-Technologie einspeisen.

„Wir alle müssen tun, was wir können, um ihnen zu zeigen, dass die Ergebnisse unserer Kreativität nicht den Maschinen überlassen werden dürfen“, sagte Frau Loffstadt, eine 42-jährige Synchronsprecherin aus South Yorkshire in Großbritannien.

Fanfiction-Autoren sind nur eine Gruppe, die sich derzeit gegen KI-Systeme auflehnt, da das Technologiefieber das Silicon Valley und die Welt erfasst hat. In den letzten Monaten haben sich Social-Media-Unternehmen wie Reddit und Twitter, Nachrichtenorganisationen wie The New York Times und NBC News sowie Autoren wie Paul Tremblay und die Schauspielerin Sarah Silverman dagegen ausgesprochen, dass KI ihre Daten ohne Erlaubnis aufsaugt.

Ihre Proteste haben unterschiedliche Formen angenommen. Autoren und Künstler sperren ihre Dateien, um ihre Werke zu schützen, oder boykottieren bestimmte Websites, die KI-generierte Inhalte veröffentlichen, während Unternehmen wie Reddit Gebühren für den Zugriff auf ihre Daten erheben wollen. In diesem Jahr wurden mindestens zehn Klagen gegen KI-Unternehmen eingereicht, denen vorgeworfen wird, ihre Systeme ohne Zustimmung auf die kreative Arbeit von Künstlern zu trainieren. In der vergangenen Woche haben Frau Silverman und die Autoren Christopher Golden und Richard Kadrey OpenAI, den Hersteller von ChatGPT, und andere wegen der Nutzung ihrer Arbeit durch KI verklagt.

Im Zentrum der Rebellionen steht das neu gewonnene Verständnis, dass Online-Informationen – Geschichten, Kunstwerke, Nachrichtenartikel, Forenbeiträge und Fotos – möglicherweise einen erheblichen ungenutzten Wert haben.

Die neue Welle der KI – aufgrund der von ihr generierten Texte, Bilder und anderen Inhalte als „generative KI“ bekannt – basiert auf komplexen Systemen wie großen Sprachmodellen, die in der Lage sind, menschenähnliche Prosa zu produzieren. Diese Modelle werden auf Unmengen von Daten aller Art trainiert, damit sie Fragen von Menschen beantworten, Schreibstile nachahmen oder Komödien und Gedichte produzieren können.

Das hat dazu geführt, dass Technologieunternehmen nach noch mehr Daten für ihre KI-Systeme suchen. Google, Meta und OpenAI haben im Wesentlichen Informationen aus dem gesamten Internet genutzt, darunter große Fanfiction-Datenbanken, jede Menge Nachrichtenartikel und Buchsammlungen, von denen viele kostenlos online verfügbar waren. Im Sprachgebrauch der Technologiebranche wurde dies als „Scraping“ des Internets bezeichnet.

GPT-3 von OpenAI, ein im Jahr 2020 veröffentlichtes KI-System, umfasst 500 Milliarden „Tokens“, die jeweils Teile von Wörtern darstellen, die hauptsächlich online zu finden sind. Einige KI-Modelle umfassen mehr als eine Billion Token.

Die Praxis des Internet-Scrapings besteht seit langem und wurde größtenteils von den Unternehmen und gemeinnützigen Organisationen, die es praktiziert haben, offengelegt. Aber es wurde von den Unternehmen, denen die Daten gehörten, nicht gut verstanden oder als besonders problematisch angesehen. Das änderte sich, nachdem ChatGPT im November auf den Markt kam und die Öffentlichkeit mehr über die zugrunde liegenden KI-Modelle erfuhr, die den Chatbots zugrunde liegen.

„Was hier passiert, ist eine grundlegende Neuausrichtung des Wertes von Daten“, sagte Brandon Duderstadt, Gründer und CEO von Nomic, einem KI-Unternehmen. „Früher dachte man, dass man aus Daten einen Nutzen ziehen kann, indem man sie für alle zugänglich macht und Anzeigen schaltet. Der Gedanke ist nun, dass Sie Ihre Daten sperren, weil Sie viel mehr Wert daraus ziehen können, wenn Sie sie als Eingabe für Ihre KI verwenden.“

Die Datenproteste dürften auf lange Sicht kaum Wirkung zeigen. Finanzstarke Technologiegiganten wie Google und Microsoft verfügen bereits über Berge proprietärer Informationen und verfügen über die Ressourcen, um weitere Lizenzen zu erteilen. Aber da die Ära der leicht zu extrahierenden Inhalte zu Ende geht, können kleinere KI-Startups und gemeinnützige Organisationen, die gehofft hatten, mit den großen Firmen konkurrieren zu können, möglicherweise nicht mehr genügend Inhalte erhalten, um ihre Systeme zu trainieren.

In einer Erklärung sagte OpenAI, dass ChatGPT auf „lizenzierten Inhalten, öffentlich zugänglichen Inhalten und Inhalten, die von menschlichen KI-Trainern erstellt wurden“ geschult wurde. Es fügte hinzu: „Wir respektieren die Rechte von Urhebern und Autoren und freuen uns darauf, weiterhin mit ihnen zusammenzuarbeiten, um ihre Interessen zu schützen.“

Google sagte in einer Erklärung, dass man an Gesprächen darüber beteiligt sei, wie Verlage ihre Inhalte künftig verwalten könnten. „Wir glauben, dass jeder von einem lebendigen Content-Ökosystem profitiert“, sagte das Unternehmen. Microsoft antwortete nicht auf eine Anfrage nach einem Kommentar.

Die Datenrevolten brachen letztes Jahr aus, nachdem ChatGPT zu einem weltweiten Phänomen wurde. Im November reichte eine Gruppe von Programmierern eine geplante Sammelklage gegen Microsoft und OpenAI ein und behauptete, die Unternehmen hätten ihr Urheberrecht verletzt, nachdem ihr Code zum Trainieren eines KI-gestützten Programmierassistenten verwendet worden sei.

Im Januar verklagte Getty Images, das Stockfotos und Videos bereitstellt, Stability AI, ein KI-Unternehmen, das Bilder aus Textbeschreibungen erstellt, und behauptete, das Start-up habe urheberrechtlich geschützte Fotos verwendet, um seine Systeme zu trainieren.

Dann reichte Clarkson, eine Anwaltskanzlei in Los Angeles, im Juni eine 151-seitige Sammelklage gegen OpenAI und Microsoft ein, in der sie beschrieb, wie OpenAI Daten von Minderjährigen gesammelt hatte und sagte, Web Scraping verstoße gegen das Urheberrecht und stelle „Diebstahl“ dar. Am Dienstag reichte das Unternehmen eine ähnliche Klage gegen Google ein.

„Die Datenrebellion, die wir im ganzen Land erleben, ist der Weg der Gesellschaft, sich gegen die Vorstellung zu wehren, dass Big Tech einfach das Recht hat, alle Informationen aus beliebigen Quellen zu übernehmen und sie sich zu eigen zu machen“, sagte Ryan Clarkson, der Gründer von Clarkson.

Eric Goldman, Professor an der juristischen Fakultät der Santa Clara University, sagte, die Argumente der Klage seien weitreichend und würden vom Gericht wahrscheinlich nicht akzeptiert. Aber die Welle der Rechtsstreitigkeiten beginne gerade erst, sagte er, und es komme eine „zweite und dritte Welle“, die die Zukunft der KI bestimmen werde.

Auch größere Unternehmen wehren sich gegen KI-Scraper. Im April gab Reddit bekannt, dass es für den Zugriff auf seine Anwendungsprogrammierschnittstelle (API) eine Gebühr erheben wolle. Dabei handelt es sich um die Methode, mit der Dritte die umfangreiche Datenbank mit persönlichen Gesprächen des sozialen Netzwerks herunterladen und analysieren können.

Steve Huffman, Vorstandsvorsitzender von Reddit, sagte damals, dass sein Unternehmen „diesen ganzen Wert nicht kostenlos an einige der größten Unternehmen der Welt abgeben muss“.

Im selben Monat kündigte Stack Overflow, eine Frage-und-Antwort-Site für Computerprogrammierer, an, dass sie auch KI-Unternehmen zur Zahlung von Daten auffordern werde. Die Website enthält fast 60 Millionen Fragen und Antworten. Der Umzug wurde zuvor von Wired gemeldet.

Auch Nachrichtenorganisationen wehren sich gegen KI-Systeme. In einem internen Memo über den Einsatz generativer KI im Juni sagte The Times, KI-Unternehmen sollten „unser geistiges Eigentum respektieren“. Ein Times-Sprecher lehnte es ab, näher darauf einzugehen.

Für einzelne Künstler und Schriftsteller bedeutete der Kampf gegen KI-Systeme, zu überdenken, wo sie veröffentlichen.

Nicholas Kole, 35, ein Illustrator aus Vancouver, British Columbia, war beunruhigt darüber, wie sein einzigartiger Kunststil von einem KI-System reproduziert werden konnte, und vermutete, dass die Technologie seine Arbeit beschädigt hatte. Er plant, seine Kreationen weiterhin auf Instagram, Twitter und anderen Social-Media-Seiten zu veröffentlichen, um Kunden anzulocken, hat jedoch aufgehört, auf Seiten wie ArtStation zu veröffentlichen, die neben von Menschen erstellten Inhalten auch KI-generierte Inhalte veröffentlichen.

„Es fühlt sich einfach wie mutwilliger Diebstahl von mir und anderen Künstlern an“, sagte Herr Kole. „Es löst in mir ein Loch in der existenziellen Angst aus.“

Bei Archive of Our Own, einer Fanfiction-Datenbank mit mehr als 11 Millionen Geschichten, üben Autoren zunehmend Druck auf die Website aus, um Data-Scraping und KI-generierte Geschichten zu verbieten.

Als im Mai einige Twitter-Konten Beispiele dafür teilten, wie ChatGPT den Stil populärer Fanfiction nachahmte und auf Archive of Our Own gepostet wurde, erhoben sich Dutzende Autoren in Aufruhr. Sie blockierten ihre Geschichten und schrieben subversive Inhalte, um die KI-Scraper in die Irre zu führen. Sie drängten auch die Verantwortlichen von Archive of Our Own, die Zulassung von KI-generierten Inhalten einzustellen.

Betsy Rosenblatt, Rechtsberaterin für Archive of Our Own und Professorin am University of Tulsa College of Law, sagte, die Website verfolge eine Politik der „maximalen Inklusivität“ und wolle nicht in der Lage sein, zu erkennen, welche Geschichten geschrieben wurden mit KI

Für Frau Loffstadt, die Fanfiction-Autorin, begann der Kampf gegen die KI, als sie eine Geschichte über „Horizon Zero Dawn“ schrieb, ein Videospiel, in dem Menschen in einer postapokalyptischen Welt gegen KI-betriebene Roboter kämpfen. Im Spiel, sagte sie, seien einige der Roboter gut und andere schlecht.

Aber in der realen Welt, sagte sie, „werden sie dank der Hybris und der Gier der Unternehmen dazu verleitet, schlechte Dinge zu tun.“

Sheera Frenkel ist eine preisgekrönte Technologiereporterin mit Sitz in San Francisco. Im Jahr 2021 veröffentlichten sie und Cecilia Kang „An Ugly Truth: Inside Facebook's Battle for Dominance“. Mehr über Sheera Frenkel

Stuart A. Thompson ist Reporter in der Abteilung Technologie und befasst sich mit Online-Informationsflüssen. Mehr über Stuart A. Thompson