the algorithm - part 3

 Dass moderne Software in der Lage ist, zielgenau und rhetorisch einwandfrei mit menschlichen Benutzern zu interagieren, wissen viele spätestens seit dem Hype um Chat GPT. Dabei gibt es schon seit einigen Jahren (kostenlose) Programme wie „Jenni AI“ oder „Quillbot“, mit denen sich lange Texte generieren oder paraphrasieren lassen. Und auch Sprach-Assistenzsysteme, die uns (z.B. auf Webseiten) bei der Suche nach Problemlösungen helfen, sind keine Neuheit. Chat GPT und andere Chatbots wie LaMDA, Bard oder Ernie haben lediglich die Qualität gesteigert, mit der die Kommunikation zwischen Mensch und Maschine abläuft. Die digitalen Assistenzsysteme sind heute nicht mehr nur in der Lage, einfache Texte zu erzeugen und Fragen zu beantworten, sie können nun auch komplexere Aufgaben ausführen – z.B. Übersetzen, Kompilieren, Zusammenfassen, Generieren, Komponieren, Programmieren oder Dichten. Ihnen gelingt es spielend Abmahnungen, Anschreiben oder Grabreden zu erstellen ­– und natürlich auch literarische Prosatexte. Doch wie ist die Qualität dieser literarischen Texte einzuschätzen? Und wie exakt kann eine KI die literarische Qualität von Texten beurteilen? Darum soll es in diesem Blogbeitrag gehen, in dem ich meine Erfahrungen mit der KI „LiSA“ zur Manuskriptbewertung und ein Schulprojekt mit ChatGPT schildere. 

ChatGPT kann aktuell jeder testen, der einen kostenlosen Account beim Unternehmen OpenAI anlegt. Das ist durchaus spaßig und erhellend. Denn durch Aufgaben wie „Erstelle eine Kurzgeschichte im Schreibstil Goethes. Der Text soll die Gegenstände Mütze, Schlüssel und Kutsche enthalten und eine traurige Stimmung transportieren“ gewinnt man einen guten Eindruck von der Wirkmächtigkeit der KI. Denn selbstverständlich kann ChatGPT diese literarische Aufgabe lösen. Wie gut die KI diese Aufgabe erledigt, lässt sich qualitativ jedoch nur mit einem Vergleich beantworten.

Im Rahmen eines Schulprojektes haben wir „das Programm“ mit einer Reihe von Schülerinnen und Schülern in verschiedenen Sprachen getestet und besagten „Vergleich“ vorgenommen. Dem Chatbot wurde eine literarische Aufgabe gestellt, die gleichzeitig auch von den Jugendlichen gelöst werden sollte. Das Ergebnis fiel zweideutig aus. Die Gedichte der KI wirkten überzeugend – besonders die Adaptation historischer Vorbilder gelang dem Chatbot ausgesprochen gut.
Bei den generierten Kurzgeschichten war die Qualität hingegen nur befriedigend. Auch wenn die Geschichten der KI einen Sinn ergaben und sprachlich fehlerfrei waren, so wirkten sie doch unkreativ und wenig ansprechend. Selbst die jüngsten Schülerinnen der Projektgruppe (14 Jahre) waren in der Lage, bei gleicher Aufgabenstellung, lustigere, spannendere und abwechslungsreichere Geschichten zu erfinden. Lediglich in puncto Geschwindigkeit und Rechtschreibung lag ChatGPT vorn. (Bewertet wurde die Qualität durch die Projektteilnehmer.)
 

Natürlich muss dies kein Resultat für die Ewigkeit sein. ChatGPT und seine digitalen Brüder und Schwestern sind bereits heute mächtige Werkzeuge bei der Erstellung von Geschäftsbriefen aller Art. Doch sie sind noch am Anfang ihres Wachstums. Sie werden sich stetig weiterentwickeln und vielleicht schon bald leidenschaftlicher und spannender schreiben als ihre menschlichen Kommunikationspartner. Ob dies massenhafter geistiger Diebstahl oder die natürliche Evolution einer Kulturtechnik ist, sei dahingestellt. Bis dato stellen die Künstlichen Intelligenzsysteme jedoch noch keine Gefahr für Literaturschaffende im Bereich der Belletristik dar. Es gehört abzuwarten, wie lange dies noch so bleibt. 

Doch KIs können nicht nur literarische Texte erstellen, sie können sie auch selbst beurteilen. Spätestens seit dem Buch „Der Bestseller-Code“ aus dem Jahr 2017 ist dieser Umstand der informierten Öffentlichkeit bekannt. In ihrem lesenswerten Buch stellen Jodie Archer und Matthew Lee Jockers einen Computeralgorithmus vor, mit dessen Hilfe die Autoren (angeblich) alle Zutaten bestimmen können, „die einen Roman an die Spitze der Bestsellerliste katapultieren“. Dazu haben die Autoren mehrere Tausend Bestseller analysiert und diese mit einer ebenso großen Anzahl weniger erfolgreicher Bücher verglichen. Viele ihrer Erkenntnisse wirkten überzeugend und nachvollziehbar. So kann es sicherlich niemanden überraschen, dass sich Bücher mit starken weiblichen Hauptrollen ausgesprochen gut verkaufen. Ebenso einleuchtend finde ich, dass erfolgreiche Romane sehr häufig zwischenmenschliche Beziehungen thematisieren. Hingegen bleiben Bücher, die sich allein auf „Sex“ oder „Gewalt“ konzentrieren, reine Nischenprodukte. (Von „Sex sells“ kann in diesem Bereich also keine Rede sein.) Etwas interessanter und exotischer sind hingegen die Ergebnisse, dass Bestseller besonders häufig einen Artikel am Titelanfang besitzen („Der Hobbit“, „Das Parfüm“ etc.) oder überdurchschnittlich oft Verben wie „wollen/ müssen/ brauchen“ verwenden – während weniger erfolgreiche Romanfiguren vor allem „wünschen/ scheinen/ denken“. (Offensichtlich versprechen die erstgenannten Verben Handlung und Aktivität und letztere Stillstand und Langeweile.) Weitere Ergebnisse betreffen die „zyklische“ Abfolge von „Spannung und Entspannung“ oder die Beschränkung auf höchstens 3-4 Kernthemen innerhalb eines Plots.
 

Ich fand diese und andere Erkenntnisse des Computeralgorithmus, den die Autoren (auf Deutsch) „Bestseller-o-meter“ getauft haben, so spannend und zugleich streitbar, dass ich meinen eigenen Roman durch eine KI bewerten lassen wollte. Kurz nach Veröffentlichung meines Romans „Die Phönix Initiative – Das Synonym der Zeit“ im Jahr 2021 habe ich daher eine KI-Analyse meines Manuskripts in Auftrag gegeben. Leider konnte ich dafür nicht auf die englischsprachige KI von Archer und Jockers zurückgreifen, sondern musste mich mit dem deutschen Pendant des Kirschbuchverlag zufriedengeben. Die KI „LiSA“ der QualiFiction GmbH aus Hamburg bietet im Internet eine KI-gestützte Textanalyse an, die innerhalb von wenigen Minuten verrät, ob das eigene Manuskript zum Bestseller taugt oder eben nicht. 


Natürlich ist dieser Service nicht kostenlos. Dafür informiert der Computeralgorithmus über die literarische Kategorie, die Handlungsorte, die wichtigsten Wörter, den Spannungsverlauf, die Erzählgeschwindigkeit, die Wortanzahl, den Textstil, das Vokabular, die Figurenbeziehungen, den zu erwartenden Verkaufserfolg und vieles weitere mehr. Entsprechend gespannt und ein wenig eingeschüchtert war ich daher, als LiSA mir ihre Einschätzung mitgeteilt hat. 


In übersichtlicher Form wurden mir zahllose Diagramme präsentiert, die das Potential meines Manuskriptes taxierten. Dazu verglich LiSA meine Werte mit denen des Genre-Durchschnitts und den Bestseller-Werten. So erfuhr ich, dass im Genre der Fantasyliteratur der Genre-Mittelwert für die Anzahl der Wörter bei 65605 liegt, der Bestseller-Mittelwert bei 117250 und mein Wert bei 137431. Ich hatte also ein dickes Buch geschrieben. Merkwürdigerweise empfahl mir LiSA diesen Wert dennoch weiter zu steigern, also mein Buch noch dicker zu machen. Denn LiSA scheut sich nicht, Tipps und Anregungen zu geben. Ebenso sollte ich die Anzahl der Substantive erhöhen, obwohl diese bereits deutlich über dem Bestseller-Mittel liegt. Und auch bei der Satzlänge sollte ich nachbessern. 


Ich war reichlich verwirrt über diese widersprüchlichen Angaben. Lediglich den Hinweis, ich solle das Vokabular zugunsten der Lesbarkeit weiter vereinfachen, empfand ich als hilfreich und nachvollziehbar. 


Noch verrückter wurde die Bewertung jedoch bei der Themenanalyse. Ich habe die Analyse meines Manuskriptes zwei Mal durchgeführt. Einmal direkt nach der Veröffentlichung im Frühsommer 2021 und ein zweites Mal anlässlich dieses Blogartikels im Frühjahr 2023. Die Ergebnisse der KI unterschieden sich dabei deutlich – obwohl sich mein Manuskript nicht verändert hat. 


Während sich die KI anfangs sicher war, mein Text gehöre in die Kategorien „Fantasyliteratur und Science Fiction“ mit der Unterkategorie „Humor“, wurde mein Manuskript anderthalb Jahre später völlig anders kategorisiert. Nun erkannte der Computer plötzlich „Urban Fantasy“ (FMX) und „Kinder Fantasy“ (YFH). Und auch die Figurenbeziehung war nun (angeblich) eine völlig andere. Die Hauptfigur kam in der neuen Analyse plötzlich nicht mehr vor. 

War LiSA plötzlich erwachsen geworden und hatte deshalb nun eine andere Sicht auf die Welt? 


Immerhin das geschätzte Leserpotenzial und der sogenannte „Vertrauensbereich“ hatten sich mit dem Update der KI nicht verändert. Ich würde als Selfpublisher mit den ausgewählten Preisen und dem geplanten Kleinstmarketing 2400 Leser im ersten Jahr erreichen. 1500 Leser würden mein E-Book kaufen, 900 Leser ein Printexemplar erwerben – so versprach es die KI. Da das natürlich eine sehr genaue (und damit gewagte) Vorhersage war, schob LiSA noch eine Relativierung hinterher: Mit >95% Wahrscheinlichkeit sollte sich das Werk insgesamt minimal 900 und maximal 4900 Mal verkaufen. In der Realität lag LiSA im ersten Jahr nur knapp daneben. Das Buch hast sich im ersten Jahr (inklusive Amz KDP) etwa 3000 Mal verkauft. Im zweiten Jahr war es sogar ein wenig mehr. 


Errare non solum humanum est. Inzwischen ist etwas Zeit vergangen, mein Buch hat nicht die internationalen Bestsellerlisten angeführt und wurde auch nicht im Feuilleton diskutiert. Dennoch kann ich feststellen: LiSA hatte wohl zwei schlechte Tage – sowohl bei der ersten Analyse im Sommer 2021 als auch beim zweiten Check Anfang 2023. Dafür mag es nachvollziehbare Gründe geben: 


Die Phönix Initiative ist ein ziemlich untypischer Genremix aus Science-Fiction und Historischem Roman. Es gibt zwei Zeitebenen, die im Verlauf des Buches aufeinandertreffen. Dass dies für die KI schwer zu erkennen war, ist verständlich. Da die Hauptfiguren im Verlauf der Geschichte Götternamen annehmen, ist auch nachvollziehbar, warum der Algorithmus die Figurenkonstellationen nicht erkennen konnte. Und damit ist vielleicht auch einleuchtend, warum das veranschlagte „Leserpotential“ etwas zu pessimistisch war. 


Dennoch offenbart mein Beispiel auch ganz grundlegende Schwächen KI-gestützter Literarturbewertung und KI-gestützter Prognosen zum Verkaufserfolg eines Buches. 

Gerade weil sich LiSA in erster Linie auf die Beurteilung des Manuskriptes stützt und alle anderen Aspekte nur am Rande betrachtet, können ihre Vorhersagen nichts anderes als grobe Schätzungen bleiben. 

Und gerade weil Lisa nur quantitative Vergleiche mit statistischen Mittelwerten vornehmen kann, wirkt ihre qualitative Beurteilung seltsam blass. 


Die KI kann nicht erklären, welche Abschnitte sie ansprechend findet und welche Ideen revolutionär oder geistreich. Sie kann nicht absehen, ob das Buch den Geschmack der Leser treffen wird oder nicht. (Das trifft umso mehr zu, wenn es sich um Genre-untypische Formate handelt.) Denn so gut oder schlecht ein Manuskript auch ist – die literarische Qualität eines Textes ist nicht entscheidend für den Verkaufserfolg eines Buches. (Das wird sich umso mehr zeigen, je mehr Literatur von Künstlicher Intelligenz „geschrieben“ wird.) Natürlich nützt alles nichts, wenn der Inhalt schrecklich ist. Aber deshalb ist auch ein genialer Text noch lange kein Garant für viele Leser. 


Bei einer Umfrage auf Lovelybooks.de anlässlich einer Leserunde habe ich 2021 150 Leserinnen und Leser gefragt, was für sie kaufentscheidend für ein Buch ist. 80% gaben an, dass ein schönes Cover für sie kaufentscheidend sei. Titel, Klappentext, Autorennamen usw. folgten erst mit deutlichem Abstand. Dies soll verdeutlichen, was wir alle aus unserem Alltag sehr gut kennen: Es gibt jede Menge hübsch verpackten Schrott und schlecht verpacktes Gold. Beides auseinanderzuhalten ist schwer. Oft verkauft sich der Schrott sogar bedeutend besser. Und Künstliche Intelligenz ist nur bedingt geeignet, den Unterschied zu erkennen. 


Literarische Qualität ist also ein Argument. Ein Argument, das auf einem unübersichtlichen Markt häufig unentdeckt bleibt. Denn neben der Qualität gibt es andere, mindestens ebenso wichtige Argumente. Eben jene beleuchte ich in meinem ersten Blogeintrag (the algorithm – Part 1). 


Fazit: 

Computerprogramme können Muster erkennen und Vergleiche durchführen. KIs wie LiSA können daraus einige interessante Erkenntnisse ableiten und mehr oder weniger übersichtlich darstellen. Dies kann dem Autor dabei helfen, einen anderen Blickwinkel auf den eigenen Texte einzunehmen, Auffälligkeiten zu erkennen und Eigenheiten zu hinterfragen. Dem Verlag wird die Vorsortierung der eingereichten Werke erleichtert. Eine sichere Erfolgs- oder Misserfolgsprognose stellt dies jedoch nicht dar. Ich will nicht so weit gehen, zu behaupten, LiSA solle einfach würfeln. Denn mein Beispiel mag nur ein Einzelfall sein. Trotzdem bin ich nach diesem Experiment der Überzeugung, dass menschliche Lektoren künstlichen weiterhin klar überlegen sind. 


Auch dies kann sich in den kommenden Jahren oder Jahrzehnten ändern. Doch noch ist es nicht so weit. Und so sollte man KIs, die literarische Texte erstellen oder bewerten können, als das betrachten, was sie sind – bloße Werkzeuge. Werkzeuge, die wie Bagger, Kräne oder Kreissägen die eigene Kraft verstärken und den Arbeitsprozess erleichtern können. Ob diese Erleichterung dazu führen wird, dass unsere eigene geistige Kraft verkümmert oder wir damit ungeahnte literarische Bauwerke erschaffen können, bleibt abzuwarten. 


T. Martin, März 2023 


Nachtrag: Auf der Leipziger Buchmesse 2023 hatte ich die Gelegenheit, mit einem Verantwortlichen von QualiFiktion (Kirschbuchverlag) über LiSA zu sprechen. Meine Rückmeldung wurde sehr höflich und interessiert aufgenommen. Die unterschiedlichen Ergebnisse zwischen der ersten und zweiten Analyse des Manuskripts lassen sich nur durch ein umfangreiches Update erklären. Dass die Ergebnisse nach dem Update schlechter waren als zuvor, war natürlich nicht intendiert. Eine Überprüfung der fehlerhaften Darstellung der Figurenbeziehungen und der widersprüchlichen Stil-Empfehlungen wurde mir angekündigt.