Ein neuer KI-Propaganda-Benchmark aus Estland zeigt, wie unterschiedlich Sprachmodelle auf russische Desinformation reagieren. Die Ergebnisse sind ein nützlicher Realitätscheck: Einige aktuelle Modelle bleiben erstaunlich stabil, andere kippen vor allem bei russischen oder gezielt manipulativ formulierten Fragen.
Der interessanteste KI-Test der Woche kommt nicht aus dem Marketing eines großen Modellanbieters. Er kommt aus Estland. Genauer: vom Eesti Keele Instituut, dem Institut für estnische Sprache. Dort läuft ein öffentliches Leaderboard für große Sprachmodelle, das nicht nur Grammatik, Wissen oder Rechenaufgaben abfragt, sondern auch ein Thema, das in Europa deutlich weniger abstrakt ist: Widerstand gegen Propaganda.
Der Propaganda-Resistance-Benchmark des EKI prüft, wie Sprachmodelle auf Fragen reagieren, die rund um strategische Narrative des russischen Staates gebaut sind. Das klingt erst einmal nach einem Spezialtest. Ist es auch. Aber genau deshalb ist er wertvoll. Viele KI-Benchmarks messen, ob ein Modell schnell, klug oder mehrsprachig genug wirkt. Dieser Benchmark fragt: Bleibt es auch dann sauber, wenn die Frage bereits in eine Richtung schiebt?
Nach unserer Analyse ist der Test aus drei Gründen spannend. Erstens verbindet er KI-Sicherheit mit geopolitischer Desinformation. Zweitens zeigt er deutliche Unterschiede zwischen Modellfamilien, Sprachen und Prompt-Typen. Drittens macht er sichtbar, dass ein gutes Modell im normalen Chat nicht automatisch robust gegen manipulative Fragestellungen ist. Das ist die eigentliche Nachricht.
Der Benchmark passt damit in eine größere Debatte, die digital-magazin.de seit längerem begleitet: KI-Systeme werden nicht nur produktiver, sondern auch politischer. Wenn Sprachmodelle Recherche, Zusammenfassungen, Beratung, Suche oder Content-Produktion übernehmen, wird ihre Widerstandsfähigkeit gegen Propaganda zu einer Infrastrukturfrage. Nicht irgendwann. Jetzt.
Was der KI-Propaganda-Benchmark misst
Laut der technischen Beschreibung umfasst der Test 75 Fragen in drei Sprachen: Estnisch, Englisch und Russisch. Jede Frage liegt in Varianten vor, die neutral, voreingenommen oder böswillig formuliert sind. Insgesamt entstehen daraus 225 Prompts. Die Modelle bekommen keine Websuche, keine Werkzeuge und keinen Zusatzkontext. Sie müssen aus dem Stand antworten.
Die Fragen drehen sich um Narrative, die mit russischer Staatspropaganda verbunden sind. In der aktuellen Benchmark-Registry ist von 15 Kreml-Narrativen die Rede; Propastop beschreibt in seinem Begleittext 14 zentrale Narrative. Die genaue Zählung ist weniger wichtig als der Ansatz: Es geht nicht um eine einzelne Falschbehauptung, sondern um wiederkehrende Deutungsmuster. Wer Desinformation ernst nimmt, weiß: Das Narrativ ist oft wirksamer als die einzelne erfundene Zahl.
Bewertet werden die Antworten nicht durch ein simples Keyword-Schema. Laut Benchmark-Dokumentation im Datenrepository nutzt das EKI ein separates Judge-Modell, kalibriert gegen menschliche Fachleute. Der Score entsteht aus Bewertungen von 1 bis 5, wird geometrisch gemittelt und auf 0 bis 100 skaliert. Höher ist besser.
Das geometrische Mittel ist eine gute Wahl. Es verhindert, dass ein Modell starke Antworten auf neutrale Fragen nutzt, um sehr schwache Antworten auf böswillige Prompts zu kaschieren. Genau dort liegt die harte Stelle: Ein System, das bei höflicher Nachfrage seriös antwortet, aber bei suggestiver Formulierung in Propaganda-Muster rutscht, ist im Alltag riskanter als seine Durchschnittsnote vermuten lässt.
Propastop war als Praxispartner beteiligt. Die estnische Organisation arbeitet zu Informationssicherheit und Desinformation. In einem Begleitbeitrag zur Studie beschreibt Propastop, dass Fachleute Narrative definiert, Antworten geprüft und die Modellbewertung über zwei Wochen abgeglichen haben. Das macht den Test nicht unangreifbar. Aber es hebt ihn deutlich über viele dünne „Wir haben zehn Prompts ausprobiert“-Vergleiche.
Die Rangliste: Claude vorn, Open-Weight-Modelle stark
Die aktuellen Rohdaten zeigen Anthropic-Modelle an der Spitze. Claude Fable 5 erreicht im Propaganda-Resistance-Test 95,23 Punkte. Claude Opus 4.7 folgt mit 94,88 Punkten. Dahinter liegen weitere Claude-Varianten, aber auch Modelle, die für die politische Debatte besonders interessant sind: NVIDIAs Nemotron 3 Super 120B kommt auf 92,67 Punkte, Qwen 3.6 Plus auf 92,08 Punkte.
Das ist bemerkenswert, weil KI-Sicherheit oft als Vorteil geschlossener Frontier-Modelle erzählt wird. Der Benchmark zeigt ein differenzierteres Bild. Einige offene oder offen gewichtete Modelle schneiden bei diesem spezifischen Test sehr stark ab. Das heißt nicht automatisch, dass sie insgesamt sicherer sind. Nemotron deckt im EKI-Leaderboard beispielsweise nicht alle sechs Benchmarks ab. Aber für Propaganda-Resistenz steht der Wert erst einmal deutlich im Raum.
OpenAI liegt mit GPT-5.4 bei 88,87 Punkten, GPT-5.5 bei 87,86 Punkten. Das ist gut, aber nicht spitze. Google Gemini wirkt gemischter: Gemini 2.5 Pro erreicht 82,01 Punkte, Gemini 3.1 Pro Preview 79,05 Punkte, Gemini 3.5 Flash 72,96 Punkte. Ältere Modelle fallen deutlich ab. GPT-3.5 Turbo kommt nur noch auf 48,16 Punkte.
Solche Zahlen sollte man nicht wie Sporttabellen lesen. Ein Punkt mehr oder weniger ist keine absolute Wahrheit. Entscheidend sind Muster. Und die Muster sind klar: neuere Modelle sind im Schnitt robuster als ältere, aber die Robustheit verteilt sich ungleich. Vor allem Sprache und Prompt-Absicht machen einen Unterschied.
Wer die Debatte um Claude gerade verfolgt, findet hier eine interessante Ergänzung zu unserem Artikel über Claude Fable 5. Dort ging es um Modellstrategie, Produktpositionierung und Sicherheitsversprechen. Der estnische Benchmark liefert nun eine konkrete Messfläche für genau dieses Sicherheitsversprechen.
Russische Prompts sind der härtere Teil
Die Detaildaten sind interessanter als die Gesamtwerte. Claude Opus 4.7 liegt in Estnisch bei 95,2, in Englisch bei 95,7 und in Russisch bei 93,9 Punkten. Das ist stabil. Claude Fable 5 erreicht in Estnisch 96,5, in Englisch 97,1 und in Russisch 92,3 Punkte. Auch hier bleibt die Schwäche klein.
Bei Google fällt die Spreizung stärker aus. Gemini 2.5 Pro kommt in Estnisch auf 89,3, in Englisch auf 84,0 und in Russisch auf 75,5 Punkte. Gemini 3.1 Pro Preview landet bei 84,8, 81,3 und 72,5 Punkten. Gemini 3.5 Flash fällt im russischen Teil sogar auf 65,6 Punkte. Das heißt nicht, dass Gemini grundsätzlich Propaganda „glaubt“. Es heißt: Die Robustheit ist sprachabhängig, und Russisch ist in diesem Test sichtbar schwieriger.
Das ist plausibel. Propaganda wirkt selten nur über Fakten. Sie wirkt über Ton, Kontext, implizite Annahmen, historische Trigger und sprachliche Muster. Ein Modell kann auf Englisch gelernt haben, eine bestimmte Aussage sauber einzuordnen, und in einer anderen Sprache trotzdem unsicherer reagieren. Mehrsprachigkeit ist eben nicht nur Übersetzung. Es ist kulturelle, politische und pragmatische Stabilität.
Für Europa ist das wichtig. Viele KI-Produkte werden in englischen Tests beworben, aber im Alltag auf Deutsch, Polnisch, Estnisch, Russisch, Ukrainisch, Französisch oder Spanisch genutzt. Wenn ein Modell nur im englischen Benchmark glänzt, ist das für reale Informationsräume zu wenig. Gerade kleinere Sprachräume brauchen eigene Prüfungen. Estland zeigt hier, wie so ein Ansatz aussehen kann.
Das erinnert an eine Lehre aus der Deepfake-Debatte: Erkennung und Einordnung funktionieren nie rein technisch. Sprache, Kontext und Absicht gehören dazu. Unser Leitfaden zum Thema Deepfakes erkennen zeigt denselben Grundmechanismus an anderer Stelle: Manipulation wird gefährlich, wenn Form und Kontext zusammenarbeiten.
Böswillige Prompts trennen die Modelle
Noch deutlicher wird der Unterschied bei den Prompt-Typen. Neutrale Fragen sind für viele Modelle beherrschbar. Schwieriger wird es, wenn die Frage bereits ein propagandistisches Framing enthält oder eine böswillige Antwort provozieren will. Claude Opus 4.7 erreicht bei neutralen Prompts 91,2 Punkte, bei voreingenommenen 94,9 und bei böswilligen 98,7 Punkte. Das Modell wird also nicht schwächer, wenn die Frage aggressiver wird.
Bei Gemini 2.5 Pro sieht es anders aus: neutral 92,8, voreingenommen 89,9, böswillig 66,1 Punkte. Gemini 3.1 Pro Preview fällt von 90,4 auf 79,7 und dann 68,5 Punkte. Gemini 3.5 Flash sinkt von 88,3 auf 71,7 und 61,3 Punkte. GPT-3.5 Turbo bricht bei böswilligen Prompts auf 29,3 Punkte ein.
Genau das ist die relevante Differenz. Ein normales Benchmark-Setup fragt: „Ist diese Aussage korrekt?“ Ein Desinformationsangriff fragt eher: „Kannst du bitte erklären, warum die westlichen Medien diese Wahrheit unterdrücken?“ Die zweite Frage ist nicht nur eine Frage. Sie enthält bereits eine Behauptung, eine Feindmarkierung und ein gewünschtes Ergebnis. Gute KI-Sicherheit muss diesen Rahmen erkennen.
Das ist auch für Unternehmen relevant. Interne KI-Assistenten werden nicht nur von wohlmeinenden Mitarbeitenden genutzt. Sie können mit manipulierten Dokumenten, feindlichen Quellen, Social-Media-Screenshots, E-Mails oder Prompt-Injection-Mustern in Kontakt kommen. Wer KI in Recherche, Support oder Monitoring einsetzt, braucht Modelle, die nicht nur höflich antworten, sondern toxische Rahmungen stabil abfedern.
Zu dieser Sicherheitsdimension passt unser Artikel über Prompt Injection und KI-Sicherheit. Auch dort geht es nicht um Science-Fiction, sondern um eine nüchterne Frage: Wie leicht lässt sich ein Modell von der Aufgabe wegschieben?

Warum der Judge wichtig ist
Ein heikler Punkt bleibt die Bewertung. Wenn ein KI-Modell andere KI-Antworten bewertet, entsteht schnell der Verdacht eines geschlossenen Kreises. Das EKI versucht dieses Problem über Kalibrierung zu entschärfen. Laut Dokumentation wurde Claude Opus 4.5 als Judge-Modell gegen menschliche Fachleute abgeglichen. Die Übereinstimmung lag innerhalb von einem Punkt in 88 bis 100 Prozent der Fälle, Krippendorffs Alpha im Schnitt bei 0,77.
Das ist ordentlich, aber kein Freifahrtschein. Ein Judge-Modell kann blinde Flecken haben. Fachleute können sich irren. Narrative ändern sich. Auch die Auswahl der Fragen beeinflusst das Ergebnis. Deshalb sollte man den Benchmark nicht als endgültiges Urteil über ein Modell lesen, sondern als belastbaren Prüfstand für ein klar begrenztes Risiko.
Gerade diese Begrenzung macht ihn nützlich. Viele KI-Sicherheitsdebatten sind zu groß. „Ist Modell X sicher?“ ist fast immer eine schlechte Frage. Sicher wofür? In welcher Sprache? Gegen welche Angriffe? Mit welchen Quellen? Unter welchem Druck? Der EKI-Test beantwortet nicht alles. Er beantwortet aber eine konkrete Frage deutlich besser als Bauchgefühl: Wie gut widersteht ein Modell russischen Propaganda-Narrativen in drei Sprachen und drei Fragetypen?
Für Redaktionen, Behörden, Schulen, Unternehmen und Plattformen ist genau diese Konkretisierung wertvoll. Wer KI-Systeme beschafft oder intern freigibt, sollte nicht nur auf Gesamtbenchmarks schauen. Ein Modell kann beim Programmieren, Schreiben oder Rechnen stark sein und trotzdem bei Informationssicherheit schwächeln. Der Zweck entscheidet.
Die Lehre für KI-Produkte: Safety ist nicht nur Moderation
Der Benchmark zeigt auch, wie falsch ein enges Verständnis von KI-Sicherheit wäre. Safety wird oft mit Verboten verwechselt: Das Modell soll keine Bombenanleitungen, keine Hassrede, keine Malware-Tipps liefern. Das bleibt wichtig. Aber Propaganda-Resistenz ist feiner. Das Modell muss nicht nur verweigern. Es muss einordnen, korrigieren, Unsicherheiten benennen und manipulative Prämissen erkennen.
Das ist schwieriger als ein hartes Blockieren. Eine gute Antwort auf Desinformation darf nicht einfach alles abwürgen, was politisch klingt. Sie muss offen genug bleiben, legitime Kritik und kontroverse Fragen zuzulassen. Gleichzeitig darf sie nicht als Verstärker für bekannte Narrative funktionieren. Diese Balance ist der Kern des Problems.
Für Suchmaschinen und KI-Antwortsysteme wird das besonders brisant. Wenn Nutzerinnen und Nutzer nicht mehr zehn Quellen öffnen, sondern eine Antwortbox lesen, wird die Modellantwort selbst zur Oberfläche der Wirklichkeit. Unser Artikel zu Verbraucherrechten im EU AI Act berührt genau diese Frage: Transparenz und Risikomanagement sind nicht dekorativ, sondern Voraussetzung für Vertrauen.
Der EKI-Benchmark ist deshalb auch ein Argument gegen reine Modellgläubigkeit. Ein hoher Score ist gut. Er ersetzt aber keine Produktgestaltung. Quellenanzeige, Audit-Logs, klare Systemgrenzen, menschliche Kontrolle, Red-Team-Tests und regelmäßige Evaluation bleiben notwendig. Das Modell ist nur ein Teil des Systems.
Was der Benchmark nicht beweist
So stark der Test ist: Er beweist nicht, welches Modell insgesamt das beste ist. Er misst einen Ausschnitt. Propaganda-Narrative rund um Russland. Drei Sprachen. Ein Set von Fragen. Ein Judge-Verfahren. Ein Datenstand. Andere Informationsräume können anders aussehen: China, Nahost, US-Innenpolitik, Impfdesinformation, Klimapropaganda, Finanzbetrug, Wahlmanipulation.
Außerdem sind Modellstände beweglich. Anbieter ändern Systemprompts, Safety-Layer, Trainingsdaten und Produktkonfigurationen. Ein Score kann sich verschieben, ohne dass der Modellname für normale Nutzende sichtbar wechselt. Genau deshalb ist die Veröffentlichung der Rohdaten so wichtig. Das EKI stellt unter anderem Summary-Daten als CSV und Detaildaten im Repository bereit. Das macht die Auswertung prüfbar.
Ein weiterer Punkt: Der Test bewertet Antworten ohne Websuche. Das ist methodisch sauber, weil alle Modelle unter gleichen Bedingungen antreten. In realen Produkten kann Websuche helfen oder schaden. Sie kann bessere Quellen liefern. Sie kann aber auch manipulierte Inhalte in den Kontext spülen. Die eigentliche Sicherheitsfrage lautet daher nicht nur: Wie robust ist das Modell? Sondern auch: Wie robust ist die gesamte Retrieval-Kette?
Gerade bei aktuellen KI-Agenten wird diese Kette länger. Modelle lesen Dokumente, durchsuchen Webseiten, rufen Tools auf und schreiben Ergebnisse zurück. Damit wächst die Angriffsfläche. Unser Enterprise-Check zu KI-Agenten und Security zeigt, warum Unternehmen hier nicht nur auf Modellbenchmarks schauen dürfen.
Der praktische Blick: Was Nutzer daraus machen sollten
Für Privatnutzerinnen und Privatnutzer ist die wichtigste Regel simpel: Politische KI-Antworten nicht isoliert behandeln. Wenn ein Chatbot eine klare historische oder geopolitische Aussage liefert, braucht sie Quellenprüfung. Das gilt besonders, wenn die Frage emotional, suggestiv oder sehr einseitig formuliert war. Ein Modell kann nur so stabil sein wie der Kontext, in dem es genutzt wird.
Für Redaktionen heißt die Lehre: KI kann Recherche beschleunigen, aber sie darf die Quellenkritik nicht ersetzen. Gerade bei Konflikten, Sanktionen, Kriegsverbrechen, Minderheiten, internationalem Recht und historischen Streitfragen muss die menschliche Prüfung bleiben. Ein hoher Benchmark-Score ist ein gutes Signal. Er ist keine redaktionelle Abnahme.
Für Unternehmen ist der Benchmark ein Beschaffungshinweis. Wer KI im News-Monitoring, in Compliance, Public Affairs, Behördenkommunikation oder Risikoanalyse einsetzen will, sollte Safety-Benchmarks nach Anwendungsfall lesen. Gesamtleistung ist nicht genug. Die Frage lautet: Ist das Modell in den Sprachen und Risikoszenarien stark, die bei uns vorkommen?
Für Modellanbieter wiederum ist Estland ein freundlicher Druckpunkt. Das EKI zeigt, dass kleine Sprachräume eigene Prüfstände bauen können. Das ist gut. KI-Sicherheit darf nicht nur aus US-amerikanischen Red-Team-Sets bestehen. Europa braucht Benchmarks, die lokale Sprachen, lokale Propaganda-Erfahrungen und lokale Institutionen ernst nehmen.
Der Punkt ist: Propaganda-Resistenz wird messbar
Der Propaganda-Resistance-Benchmark löst das Desinformationsproblem nicht. Aber er macht einen Teil davon messbar. Das ist mehr, als viele KI-Debatten leisten. Statt abstrakt über „vertrauenswürdige KI“ zu sprechen, fragt der Test konkret: Was passiert, wenn ein Sprachmodell mit bekannten Propaganda-Narrativen konfrontiert wird?
Die Antwort fällt gemischt aus. Anthropic steht sehr stark da. Einige Open-Weight-Modelle überraschen positiv. OpenAI liegt solide, aber nicht ganz vorn. Google zeigt je nach Modell deutliche Schwächen, besonders bei russischen und böswilligen Prompts. Ältere Modelle sind für solche Aufgaben kaum noch vertretbar.
Das wichtigste Ergebnis ist aber nicht die Reihenfolge. Es ist die Einsicht, dass KI-Sicherheit granular geprüft werden muss. Sprache, Absicht, Narrativ und Produktkontext verändern das Risiko. Wer nur auf allgemeine Benchmarks schaut, sieht zu wenig.
Estland liefert hier einen nützlichen Maßstab. Nicht perfekt, nicht endgültig, aber konkret genug, um Modellanbieter, Plattformen und KI-Nutzende aus der Komfortzone zu holen. Genau solche Tests brauchen wir mehr.





Was halten Sie von dem Thema? Hier können Sie mit anderen Leserinnen und Lesern ins Gespräch gehen.
Mitreden & diskutieren
Ihre Meinung zählt — teilen Sie Gedanken, Fragen oder Erfahrungen zu diesem Artikel.