KI als Rechtsstaatsbedrohung

Obergerichtliche Urteile selber machen – eine Bastelanleitung

Prof. Dr. Roland Schimmel
Recht allgemein
13. Mai 2026
6 Min.

Mann sitzt vor dem Laptop und hält die Hand ausgestreckt, über der Hand "schwebt" eine virtuelle Künstliche Intelligenz — Was würde passieren, wenn jemand Dutzende KI-generierte Urteile in Umlauf brächte oder existierende Urteile durch KI modifizierte? Ein Gedankenexperiment. © Kiattisak / Adobe Stock

Von der Resilienz des Rechtsstaats ist seit Jahren viel die Rede. Gleiches gilt für den KI-Hype. Bedrohlich für den Rechtsstaat scheint KI bisher vor allem durch AI-Slops und erfundene Fundstellen. Wenig diskutiert werden bisher erfundene Urteile.

Vielleicht hilft bei der Überlegung der hier zusammengefasste kollegiale Gedankenaustausch. Wir beginnen mit dem Ende.

Der greise Kollege hatte sich durchaus nicht in Rage geredet. Er hatte den Gedanken in aller Seelenruhe entwickelt, während wir höflich zuhörten und gewohnheitsmäßig nach Einwänden suchten. Beim Schluss der Überlegungen angekommen fragte er uns, was nun dagegen spräche, dass derlei – oder Ähnliches – geschehen werde. Wir runzelten die Stirn und tuschelten, dann schwiegen wir. Wir waren uns einig: Das alles sei ganz unmöglich.

Aus Gründen indes, die zu benennen wir uns nicht imstande sahen. Wir versuchten es mit: Niemand sei so bösartig oder derart perfide. Niemand setze taktisch oder gar strategisch Desinformation gegen irgendeinen "Feind" ein. Niemand simuliere menschliche Kommunikation mit miesen politischen oder gar kommerziellen Absichten. Das widerspreche einfach der menschlichen Natur und sei überhaupt das genaue Gegenteil von fair play. Wenn aber doch mit derlei zu rechnen sei, hätten jedenfalls längst die professionellen Datenbankanbieter, die Medien und erst recht die Justiz verlässliche Authentifizierungs- und Verifikationsmechanismen und überhaupt Abwehrstrategien entwickelt und vorsorglich implementiert. Die seien doch nicht doof. Wir beschlossen also, bei nächster Gelegenheit die Profis zu fragen, ließen den alten Mann sich weiter sorgen und gingen gut gelaunt auseinander. Wer wollte es uns vorwerfen?

Wie alles begann

Vielleicht sollte ich doch mit dem Anfang anfangen. Also etwa so: Neulich saßen wir wieder beim kollegialen Kaffeetrinken zusammen und erörterten ziemlich optimistisch die Zukunft des – womöglich allerdings stark schrumpfenden – hiesigen Rechtswesens unter besonderer Berücksichtigung der Auswirkungen der jüngsten sowie der alsbald am Markt zu erwartenden nächsten Versionen gängiger Großsprachmodelle. Auch wir hatten längst begonnen, diese Entitäten kumpelhaft "Künstliche Intelligenzen" zu nennen.

Einzig ein greiser Kollege goss Wasser in den Wein unserer guten Laune. Er sprach: Sei es nicht bedenklich, wenn mittlerweile Professoren hinter vorgehaltener Hand einräumten, schon heute einige der lästigen Urteilsanmerkungen maschinell anfertigen zu lassen? Zu seiner Zeit habe man eine solche Anmerkung als Teil des Wissenschaftsgeschäfts begriffen und sie daher vorzugsweise selbst verfasst. Ihm komme die großsprachmodellbasierte Herstellung dessen, was man jetzt als Gebrauchstexte etikettiere, wie ein echter Verfall der Sitten vor. Manche Leute schienen dagegen so stolz auf die neuen Möglichkeiten zu sein, dass sie den Verstoß gegen die Regeln der guten wissenschaftlichen Praxis leichten Herzens zugäben.

Natürlich könne er nachvollziehen, warum eine Rechtsanwältin sich in einem komplizierten versicherungsrechtlichen Mandat die Vorhersage des letztinstanzlichen BGH-Urteils erprompte. (Das Wort auszusprechen fiel ihm nicht ganz leicht.) Vielleicht müsse das schon bald als Rechtsberatung lege artis gelten – und das Unterlassen solchen Vorgehens folgerichtig als sorgfaltswidrig beurteilt werden.

Was alles möglich ist

Er gebe aber zu bedenken, dass die Möglichkeit der kinderleichten Herstellung eines nicht-autorisierten Urteils ein paar kleine Nebenfragen aufwerfe. Es sei doch beispielsweise ein Leichtes, aus zwanzig Urteilen des Bundesverwaltungsgerichts zu einzelnen Corona-Maßnahmen ein einundzwanzigstes zu generieren. Dazu müsse man kein Bundesverwaltungsrichter sein, sondern nur ein mit den zwanzig Urteilen und einem Konfliktsachverhalt gefüttertes Großsprachmodell, das wiederum auch über die Volltexte der wichtigsten einschlägigen wissenschaftlichen Quellen verfüge. (Urheberrechtliche Bedenken seien zur Kenntnis genommen, aber wie üblich einstweilen ignoriert.)

Die spezifische Sprache des betreffenden Senats und die Argumentationsweise nachzuahmen sei ja nun eben die Stärke des Großsprachmodells. Der von der Prozessordnung vorgegebene Aufbau des Urteils werde praktisch stark schematisiert befolgt, das sei einfach zu imitieren. Die Randnummerierung sei ein Automatismus. Was also hindere das Großsprachmodell an der blitzschnellen Produktion eines täuschend echt wirkenden Urteilstexts? Oder mehrerer Urteile mit unterschiedlichen argumentativen Herleitungen oder verschiedenen vorher auszuwählenden Ergebnissen?

Wenn ein oder mehrere Urteile leicht zu produzieren seien, warum nicht Dutzende oder Hunderte? Die Aktenzeichen einschließlich eines stimmigen ECLI könne die Maschine nach der amtlichen Logik erfinden. Die Herstellung einer PDF-Datei in quasi-amtlicher visueller Anmutung werde wohl kaum eine Herausforderung darstellen.

Wer kommt denn auf so etwas?

Natürlich werde kein seriöser deutscher Rechtsanwalt die Zeit investieren und das Risiko auf sich nehmen, derlei Falsifikate (der Kollege nannte sie Urteils-Blüten, fürwahr ein schönes Bild!) herzustellen oder in Umlauf zu bringen. Die drohenden Auswirkungen auf das eigene berufliche Fortkommen seien gar zu übel.

Was aber der Anwalt nicht tun wolle, nehme vielleicht der kreative oder technisch talentierte Mandant auf sich. Der neige zuletzt ja sowieso dazu, den Anwalt einzusparen, und lasse sein prozessuales Vorbringen von Maschinen texten. Wenn es nicht der Mandant sei, sei es vielleicht der neugierige Professor unter Berufung auf die Wissenschaftsfreiheit, selbstverständlich bei vollständig kontrollierbaren experimentellen Bedingungen. Sei es aber nicht Letzterer, so werde das alles womöglich zuerst jemand ausprobieren, dem an kontrollierbaren Bedingungen gar nicht gelegen sei.

Man müsse sich doch eigentlich nur das Zusammentreffen dreier neugieriger und ausreichend gelangweilter natürlicher Personen an einem Ort jenseits der unmittelbaren Einwirkungsmöglichkeiten der deutschen Strafjustiz vorstellen, von denen die eine im Programmieren, Modifizieren und Prompten von Großsprachmodellen versiert sei, die zweite über gründliche Kenntnisse des deutschen Rechtswesens verfüge und die dritte auf der Grundlage einer Let’s-see-what-happens-when-we-flood-the-zone-with-german-jurisdiction-fake-shit-attitude (dieses Wort hinwiederum auszusprechen fiel ihm verdächtig leicht) entweder infantiles Vergnügen an der Zerstörung habe oder – in einer kapitalistischen Welt wenigstens ebenso gut vorstellbar – auf der Suche nach einem einträglichen Geschäftsmodell sei. Letzteres könne man ja auch staatlichen Spielern anbieten, die bereits jetzt massiv versuchten, freiheitlich demokratisch ausgerichtete Staaten anzugreifen, indem sie demokratische Prozesse unterhöhlten – und zwar gerade mit den von diesen gewährten Freiheiten.

Was als nächstes geschähe

Die drei Personen würden, so argumentierte der Kollege, zunächst binnen weniger Tage einige Zehntausend alte und neue und ein paar zukünftige Gerichtsentscheidungen auf Vorrat produzieren. Bevor sie diese in Umlauf brächten, würden sie eine zweite und eine dritte Generation von Urteilen herstellen, die die erste Generation zitiere und damit implizit authentifiziere, während sie selbst eine vegetarische Pizza vom örtlichen Bringdienst verzehrten.

Mit einer sechsstelligen Zahl von Urteilen würden sie dann die interessierten Medien und Fachdatenbanken einschließlich der kostenlos für jedermann zugänglichen Urteilsdatenbanken fluten. Algorithmische "Intelligenz" und menschliche Intelligenz werde 74,2 % der Fälschungen identifizieren und zurückweisen. Oder 93,4 %. Über einige davon werde als Ente in den Medien berichtet werden. Der Rest werde als echtes Urteil in die Datenbanken aufgenommen. Darauf werde man aufbauen.

Die vierte Generation werde deutlich besser werden als die erste – und schon nach zwei Monaten auf den "Markt" kommen. Spätestens in dieser vierten Generation sei dann auch glaubwürdigkeitsförderndes Begleitmaterial flankierend verfügbar: Pressemeldungen der Gerichte, erste Berichterstattung konkurrierender Medienhäuser, Interviews mit den verfahrensbeteiligten Rechtsanwältinnen und Rechtsanwälten, um nur die nächstliegenden Gedanken zu benennen.

Das Geschäftsmodell müsse sich indes nicht darauf beschränken, vollständig gefälschtes Material in Umlauf zu bringen. Attraktiver erscheine ihm, so der greise Kollege, die wohlwollende Modifikation bereits vorhandener Urteile. Was spreche schließlich dagegen, in die Randnummern 91 ff. und 127 eines sowieso schon ziemlich langen Urteils einige leitsatzverdächtige Aussagen oder auch nur obiter dicta aufzunehmen, auf die das Gericht bei seiner nächsten Rechtsprechungsänderung Bezug nehmen könne?

Und die Folgen?

Zu besorgen seien zunächst Verunsicherungs- und Vergiftungswirkungen ("toxisch" gehört nicht zum aktiven Wortschatz des Kollegen) im juristischen Diskurs, weil mit vertretbarem Aufwand die echten von den echten wirkenden Entscheidungen nicht zu unterscheiden seien.

Über das Problem von Original und Fälschung hinaus, das es auch zu vor-digitalen Zeiten schon gegeben habe, habe die Angelegenheit aber noch eine Komponente, die man nicht ganz ignorieren dürfe: Es seien Auswirkungen auf das ohnehin bröselige Vertrauen des Menschen in seinen Rechtsstaat zu gewärtigen, wenn die Echtheit amtlicher Dokumente und die Authentizität richterlicher Argumentationen nur noch mit erheblichem professionellem Rechercheaufwand zu erweisen sei.

Absehbarerweise sei zur Verhinderung solchen Unheils eine Ressourcen-Reallokation innerhalb von Redaktionen, bei Datenbankanbietern und nicht zuletzt in der Justiz angezeigt. Die Auswirkungen der KI zu bekämpfen werde jede Menge Jobs schaffen. Das werde sich auf die Preise und die Performanz auswirken und gemeinnützige Anbieter vor Probleme stellen. Die angestrebte Veröffentlichung von 100 % aller echten Urteile werde die Schwierigkeiten eher vergrößern als verkleinern, zumal gleichzeitig das leidige Anonymisierungsproblem zu lösen sei. Maschinen allein würden das alles vermutlich nicht schaffen; es werde zur Bullshit-Detektion des Menschen bedürfen. Interessant argumentiert.