Worum geht es?
Zum Streit zwischen der GEMA und ChatGTP war es gekommen wegen des Trainings der Künstlichen Intelligenz mit Schlagertexten, bei denen die daran bestehenden Rechte von der GEMA wahrgenommen werden. Das Interesse am Prozess war groß, schließlich waren Songs von so namhaften Stars wie Herbert Grönemeyer und Helene Fischer Gegenstand des Rechtsstreits. Zudem erhofften sich die kreativen Kreise von der Entscheidung eine Klärung, inwieweit es im Rahmen des § 44b UrhG, der Vorschrift über das Text und Data Mining, erlaubt ist, urheberrechtlich geschützte Werke zum KI-Training zu nutzen. Gerade hier ist aber das Ergebnis des Rechtsstreits etwas mager. Auf den Punkt gebracht stellt die Entscheidung nur eines fest: Data und Text Mining darf nicht dazu führen, dass die KI auf einfache Anfragen, sogenannte „Prompts“, von KI-Nutzern (z.B. „Wie lautet der Refrain von Atemlos durch die Nacht?“) den Text des Schlagers auch nur auszugsweise zur Verfügung stellt. Wer das mit KI machen wolle, brauche das Vervielfältigungsrecht nach § 16 UrhG und das werde von § 44b UrhG gerade nicht eingeräumt, zumindest nicht im Sinne des Memorierens der zum Training der KI genutzten Texte. Das ergebe sich auch aus der in § 44b Abs. 2 UrhG ausdrücklichen Beschränkung des Vervielfältigungsrechts. Vervielfältigungen seien nur zu „Analysezwecken“ des Textes zulässig, als eine Art „vorbereitende Handlung“.
Was erlaubt ist und was nicht
Versucht man, den Kern der Entscheidung etwa auf die bildende Kunst oder die Musik zu übertragen, dann wird durch die nachfolgenden Beispiele deutlich, wo die Grenze zur unzulässigen Vervielfältigung verläuft. Gibt jemand der KI den Auftrag, ein Bild über den Krieg im Stil des Bildes „Guernica“ von Pablo Picasso künstlerisch zu gestalten, dann darf das Ergebnis keine einzige Widergabe eines Ausschnitts aus diesem Gemälde enthalten. Das Gleiche gilt im Falle des Auftrags, ein Jazzstück im Fünfvierteltakt zu schreiben. Auch hier muss die KI jegliche Widergabe des berühmten Stückes von Dave Brubeck „Take five“ vermeiden. Und so ist es letztlich ebenso unerlaubt, nicht nur Schlagertexte, sondern beispielsweise auch journalistische Texte jenseits des Trainings einer KI durch diese wiedergeben zu lassen. Dafür müssten sich die Betreiber von KI das Vervielfältigungsrecht ausdrücklich einräumen lassen, was sie in der Regel nicht tun. Alle diese rechtmäßig zugänglichen Werke dürfen nur für das KI-Training, also eben zu Analysezwecken, genutzt werden. Das ist im Übrigen nur ausgeschlossen, wenn die Rechteinhaber von dem maschinenlesbaren Vorbehalt des § 44b Abs. 3 UrhG Gebrauch gemacht haben.
Wer sich nun erhofft hatte, es sei aus dem Urteil genauer zu entnehmen, was § 44b Abs. 1 UrhG genau meint, wenn diese Vorschrift „die automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken“ erlaubt, „um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen“, wurde weitgehend enttäuscht. Erst recht lässt sich der Entscheidung nicht entnehmen, dass das Training einer KI mit urheberrechtlich geschützten Werken nicht stattfinden dürfe oder vergütungspflichtig sei. Den einzigen (eher technischen) Hoffnungsschimmer enthält die Randnummer 209 des Urteils. Sie wirft nämlich die Frage auf, ob das Training einer KI mit „Trainingsdaten“, also mit urheberrechtlich geschützten Werken, überhaupt möglich ist, ohne die Trainingsdaten zu memorisieren. Wenn das nicht der Fall sei, dann sei die Nutzung dieser Daten zu Trainingszwecken nicht durch das Text und Data Mining des § 44 b UrhG gedeckt. Dann brauche es die Einführung einer neuen Schranke, die ein derartiges Training ermögliche und eine Vergütung der Urheber beinhalte. Dass dies so sein könnte, ergibt sich ansatzweise aus der nachfolgenden Randnummer 211 des Urteils. Dort heißt es: „Die Memorisierung in den (KI-)Modellen stellt keine dem Zweck des Text und Data Mining dienende zweckgerichtete Vervielfältigung dar. Nach dem Vortrag der Beklagten erfolgten die Vervielfältigungen in ihren Modellen bereits nicht hierzu, sondern unbeabsichtigt.“ Das klingt sehr nach, Text und Data Mining ohne Memorisierung geht gar nicht. Man darf gespannt sein, welche Konsequenzen diese Feststellung mittelfristig hat.
Das Interesse von Textautoren
Autoren, die als Journalistinnen und Publizisten Texte mit politischen, gesellschaftlichen, wirtschaftlichen oder kulturellen Inhalten verfassen, tun dies in der Regel, um andere zu informieren oder von ihren Ansichten zu überzeugen. Bisher ging es dabei im Wesentlichen um natürliche Personen, die als Leser die geschriebenen Texte wahrnehmen. Greifen Menschen jedoch zur Meinungsbildung oder Wissensvermittlung in Zukunft immer mehr auf Künstliche Intelligenz zurück, dann muss es ein großes Interesse dieser Autoren geben, dass die von ihnen verfassten Texte Eingang in das Training Künstlicher Intelligenz finden. Insofern hat das Text und Data Mining vor allem im Bereich der Meinungsbildung durchaus seinen Sinn. Niemand, der die Meinungsbildung beeinflussen möchte, kann letztlich wollen, dass sein Text beim Training der KI außen vorbleibt. Gäbe es also in Zukunft zum Schutz der Urheber eine neue gesetzliche Regelung für das Training einer KI, dann dürfte dies deshalb nicht auf die Notwendigkeit einer ausdrücklichen Lizensierung hinauslaufen, diese wäre viel zu kompliziert, um Meinungsvielfalt zu garantieren und das umfangreiche Informationsinteresse der Menschen zu befriedigen. Vielmehr muss es beim Fortbestand der jetzigen gesetzlichen Regelung bleiben. Voraussetzung wäre aber die Zahlung einer allgemeinen Abgabe der Tech-Unternehmen an die maßgebenden Verwertungsgesellschaften, die anschließend nach deren Verteiler-Schlüssel an die Autoren ausgeschüttet werden. Wie diese dann etwa bei der VG Wort gestaltet werden, wäre zu debattieren. Allein auf hohe Klickzahlen zu setzen, ist jedenfalls dafür der falsche Maßstab. Es muss auch um Inhalte und Qualität gehen.
Die Trainingsentscheidung für die KI
Das wirft zudem die wichtige Frage auf, wer eigentlich nach welchen Kriterien über das Training von KI entscheidet. Wird mehr oder weniger alles genutzt, was verfügbar ist? Gibt es Auswahl-Kriterien, wenn eine Auswahl stattfindet oder fließen auch Texte mit Fake-News und Verschwörungstheorien in das Training von KI ein? Soll es überhaupt eine Auswahl geben? Das alles ist mehr oder weniger undurchsichtig. Umso mehr muss es dazu führen, dass gerade die Texte der Kreise, die sich an Aufklärung, Demokratie und Richtigkeit der Fakten orientieren, zum Training von Künstlicher Intelligenz genutzt werden können.
Dieser Text ist urheberrechtlich geschützt.
