500 bisher unbekannte Sicherheitslücken in Open-Source-Software. Gefunden von einer KI. Ohne spezielle Anweisungen. Claude Opus 4.6 hat am 5. Februar 2026 nicht nur Benchmarks gebrochen – das Modell hat echte Schwachstellen in realer Software aufgedeckt, die menschlichen Sicherheitsforschenden jahrelang entgangen waren.
Ich gebe zu: Als Anthropic nur drei Monate nach dem Vorgänger schon wieder ein neues Opus-Modell ankündigte, war meine erste Reaktion Skepsis. Schon wieder? Wirklich? Doch dann kamen die Zahlen. Und die haben es in sich. Wir bei digital-magazin.de haben uns Claude Opus 4.6 genauer angeschaut – und was wir gefunden haben, verdient mehr als eine Randnotiz.
Anthropic positioniert Claude Opus 4.6 als das leistungsstärkste Modell, das je aus dem Unternehmen kam. Klingt nach Marketing-Sprech? Mag sein. Aber die Daten sprechen eine deutliche Sprache.
Das Modell bringt eine ganze Reihe technischer Neuerungen mit:
Der Clou: Die Preise bleiben unverändert bei 5 Dollar pro Million Input-Token und 25 Dollar pro Million Output-Token. Erst wer das erweiterte 1-Million-Token-Fenster nutzt, zahlt einen Aufpreis – 10 bzw. 37,50 Dollar pro Million Token.
Große Zahlen beeindrucken. Aber was bedeuten sie konkret? Eine Million Token entspricht ungefähr 750.000 Wörtern. Das sind 10 bis 15 komplette Fachaufsätze. Oder ein ganzes Patentportfolio. In einer einzigen Sitzung.
Klingt gut. Doch hier kommt der eigentlich spannende Teil: Viele Sprachmodelle werben mit riesigen Kontextfenstern – und liefern dann bei langen Texten miserabel ab. Fachleute nennen das Phänomen „Context Rot“. Je länger der Input, desto schlechter die Leistung. Claude Opus 4.6 bricht mit diesem Muster.
Auf dem MRCR-v2-Benchmark – einem Test, der wichtige Informationen wie Nadeln im Heuhaufen über riesige Textmengen verteilt – erreicht Opus 4.6 beeindruckende 76 Prozent bei einer Million Token mit acht versteckten Nadeln. Zum Vergleich: Claude Sonnet 4.5 schafft unter identischen Bedingungen gerade mal 18,5 Prozent. Googles Gemini 3 Pro, das mit zwei Millionen Token ein nominell doppelt so großes Fenster hat? Kommt auf 26,3 Prozent.
Hand aufs Herz: Wer mit umfangreichen Dokumenten arbeitet – Rechtsabteilungen, Forschungsteams, Analysefachleute – der weiß, wie frustrierend es ist, Dokumente in Häppchen zerlegen zu müssen. Mit Opus 4.6 fällt diese Einschränkung weg. Zumindest in der Beta.
Beim Vorgänger gab es eine einfache Wahl: Extended Thinking an oder aus. Schwarz oder weiß. Opus 4.6 macht Schluss mit diesem Entweder-oder.
Das neue System heißt Adaptive Thinking und funktioniert über vier Stufen:
| Stufe | Einsatzbereich | Beschreibung |
| Low | Einfache Aufgaben | Kein Nachdenken nötig – Klassifikation, Formatierung, Extraktion |
| Medium | Moderate Aufgaben | Dosiertes Nachdenken für bessere Balance zwischen Geschwindigkeit und Qualität |
| High (Standard) | Produktionsworkloads | Das Modell denkt fast immer nach – empfohlen für die meisten Anwendungen |
| Max | Härteste Probleme | Maximale Denktiefe, höhere Latenz – für Aufgaben, bei denen jedes Prozent zählt |
Warum das wichtig ist? Weil es Ressourcen spart. Nicht jede Anfrage braucht tiefes Nachdenken. Wer eine E-Mail klassifizieren lässt, braucht kein Modell, das minutenlang grübelt. Wer aber einen komplexen Patentanspruch analysiert, will genau das. Claude Opus 4.6 trifft diese Entscheidung kontextabhängig – oder die Entwickelnden steuern sie manuell über die vier Stufen.
Ein technisches Detail am Rande: Das alte budget_tokens-System für Extended Thinking ist damit abgelöst. Interleaved Thinking – also Nachdenken zwischen Tool-Aufrufen – funktioniert bei Opus 4.6 automatisch, ohne dass Entwickelnde spezielle Beta-Header setzen müssen.
Benchmarks erzählen nie die ganze Geschichte. Aber sie erzählen einen Teil. Und dieser Teil sieht für Anthropic ziemlich gut aus.
Auf Terminal-Bench 2.0, einem Test für agentenbasierte Programmieraufgaben, kommt Claude Opus 4.6 auf 65,4 Prozent. OpenAIs GPT-5.2 liegt mit 64,7 Prozent knapp dahinter – nur 0,7 Prozentpunkte trennen die beiden. Googles Gemini 3 Pro folgt mit deutlichem Abstand bei 56,2 Prozent.
Auf SWE-bench Verified – einem Benchmark mit echten Software-Engineering-Aufgaben – zeigt sich ein kurioses Bild: Opus 4.6 erreicht 80,8 Prozent und liegt damit hauchdünn unter dem Vorgänger Opus 4.5, der 80,9 Prozent schaffte. Ein winziger Rückschritt. GPT-5.2 kommt auf 80,0 Prozent, Gemini 3 Pro auf 76,2 Prozent.
Der GDPval-AA-Benchmark misst, wie gut Modelle bei professioneller Wissensarbeit abschneiden – Finanzanalysen, juristische Recherchen, wirtschaftliche Bewertungen. Opus 4.6 erreicht einen Elo-Score von 1606. GPT-5.2 kommt auf 1462. Der Vorgänger Opus 4.5 auf 1416.
Was bedeuten 144 Elo-Punkte Unterschied? In der Praxis: Claude Opus 4.6 liefert bei etwa 70 Prozent der Aufgaben ein besseres Ergebnis als GPT-5.2. Das ist kein Zufallsergebnis.
Wirklich aufhorchen lässt der ARC-AGI-2-Benchmark. Dieser Test prüft Fähigkeiten, die für Menschen einfach, für KI-Systeme aber extrem schwer sind – Mustererkennung, abstraktes Denken, flexible Problemlösung.
Opus 4.6: 68,8 Prozent. Opus 4.5: 37,6 Prozent. GPT-5.2 Pro: 54,2 Prozent.
Fast eine Verdopplung gegenüber dem Vorgänger. Das passiert selten. Und es deutet darauf hin, dass Anthropic bei den Reasoning-Fähigkeiten einen echten Sprung gemacht hat – nicht nur ein inkrementelles Update.
Ehrlich gesagt: Nicht überall liegt Opus 4.6 vorn. Auf GPQA Diamond, einem Test für Reasoning auf Graduierten-Niveau, kommt GPT-5.2 auf 93,2 Prozent – Opus 4.6 auf 91,3 Prozent. Und auf dem MCP-Atlas-Benchmark für skalierte Tool-Nutzung fiel Opus 4.6 sogar auf 59,5 Prozent zurück, während der Vorgänger noch 62,3 Prozent erreichte. GPT-5.2 führt hier mit 60,6 Prozent.
Wer also behauptet, Opus 4.6 sei in jeder Disziplin die Nummer eins, macht es sich zu einfach.
Jetzt wird es richtig spannend. Und ein bisschen unheimlich.
Anthropics Frontier Red Team hat Claude Opus 4.6 in einer abgesicherten Sandbox-Umgebung getestet. Die Aufgabe: Sicherheitslücken in Open-Source-Code finden. Das Modell bekam Zugang zu Python und klassischen Analysetools wie Debuggern und Fuzzern. Aber – und das ist entscheidend – keine spezifischen Anweisungen oder Spezialkenntnisse.
Das Ergebnis? Über 500 bisher unbekannte, hochkritische Sicherheitslücken. Schwachstellen, die echte Software in Produktionsumgebungen betreffen.
Die gefundenen Lücken reichen von Systemabstürzen bis hin zu Speicherkorruption:
Mal ehrlich: 500 Zero-Days – das ist mehr, als viele Sicherheitsteams in einem ganzen Jahr finden. Und hier hat eine KI das in einer kontrollierten Testumgebung geschafft. Ohne gezielte Hinweise.
Anthropic hat daraufhin die Ergebnisse auf ihrer Red-Team-Seite veröffentlicht und sechs neue cybersicherheitsspezifische Prüfmethoden entwickelt, um Missbrauch dieser Fähigkeiten zu erkennen. In blinden Tests über 40 Cybersicherheits-Herausforderungen lieferte Opus 4.6 in 38 von 40 Fällen die besten Ergebnisse – jeweils mit bis zu neun Subagenten und über 100 Tool-Aufrufen.
Die Kehrseite? Dieselben Fähigkeiten, die KI-gestützte Cybersicherheit stärken, könnten theoretisch auch missbraucht werden. Anthropic reagiert darauf mit neuen Sicherheitskontrollen und erwägt laut eigener Aussage sogar Echtzeit-Eingriffe, die verdächtigen Traffic blockieren könnten.

Stellen Sie sich vor, Sie haben ein Projektteam. Fünf Leute. Bisher musste jede Person warten, bis die vorherige fertig war. Mit Agent Teams passiert das Gegenteil: Mehrere Claude-Instanzen arbeiten gleichzeitig an verschiedenen Teilaufgaben und koordinieren sich untereinander.
Scott White, Head of Product bei Anthropic, vergleicht das Feature gegenüber TechCrunch mit einem eingespielten Menschenteam: „Die Fähigkeit, parallel zu koordinieren und schneller zu arbeiten.“ Agent Teams sind derzeit als Research Preview für die API und Claude-Code-Abonnements verfügbar.
Für die Praxis bedeutet das: Wer KI-Agenten für komplexe Workflows einsetzt, bekommt einen massiven Geschwindigkeitsschub. Ein Beispiel aus der Frühphase: Rakuten berichtet, dass Claude Opus 4.6 an einem einzigen Tag autonom 13 Issues geschlossen und 12 weitere an die richtigen Teammitglieder delegiert hat – in einer Organisation mit rund 50 Personen über sechs Repositories hinweg.
Das Modell traf dabei sowohl Produkt- als auch Organisationsentscheidungen, synthetisierte Kontext aus mehreren Bereichen und wusste – das ist der Knackpunkt – wann es an Menschen eskalieren sollte.
Zwei Neuerungen, die weniger Schlagzeilen machen, aber im Alltag enorm helfen können.
Context Compaction löst ein Problem, das jeder kennt, der längere Sessions mit KI-Modellen führt: Irgendwann ist das Kontextfenster voll. Bisher hieß das: Konversation abbrechen, neu starten, Kontext manuell wieder aufbauen. Claude Opus 4.6 fasst ältere Konversationsteile automatisch zusammen, wenn der Speicher knapp wird. Die Unterhaltung kann theoretisch endlos weiterlaufen.
Cowork ist Anthropics Antwort auf die Frage: „Was wäre, wenn Claude direkt auf meinem Desktop arbeiten könnte?“ Nutzende geben Claude Zugriff auf einen lokalen Ordner. Das Modell kann Dateien lesen, bearbeiten und erstellen. Mehrere Analysen laufen gleichzeitig, während Sie den Denkprozess in Echtzeit steuern.
Besonders reizvoll: Cowork lässt sich mit Plugins anpassen. Anthropic liefert etwa ein Corporate-Finance-Plugin mit, das gängige Workflows wie Buchungssätze, Varianzanalysen und Kontenabstimmungen direkt versteht. Unternehmen können eigene Plugins bauen, die zu ihren Abläufen passen.
Excel-Integration gab es schon vorher. Aber mit Opus 4.6 hat Anthropic sie deutlich aufgewertet. Das Modell unterstützt jetzt Pivot-Tabellen, Diagrammänderungen, bedingte Formatierung, Sortierung, Filterung und – für Finanzfachleute wichtig – formatiert Zahlen wie ein Profi. Drag-and-Drop für mehrere Dateien reduziert das lästige Copy-Paste zwischen Tabs.
Die wirkliche Neuheit ist allerdings Claude in PowerPoint. Bisher konnte man Claude zwar bitten, eine Präsentation zu erstellen – aber das Ergebnis musste man als Datei herunterladen und separat öffnen. Jetzt sitzt Claude als Sidebar direkt in PowerPoint, liest vorhandene Layouts, Schriften und Master-Slides und baut darauf auf.
Kennen Sie das? Sie sollen eine Kundenpräsentation erstellen, haben das Template, aber keine Lust, 30 Slides manuell zu befüllen? Genau dafür ist das gedacht. Claude respektiert dabei das bestehende Designsystem und die Markenstandards.
Die Frage, die sich alle stellen: Welches Modell ist das beste? Die unbefriedigende – aber ehrliche – Antwort: Kommt drauf an.
| Benchmark | Claude Opus 4.6 | GPT-5.2 | Gemini 3 Pro |
| Terminal-Bench 2.0 | 65,4 % | 64,7 % | 56,2 % |
| SWE-bench Verified | 80,8 % | 80,0 % | 76,2 % |
| ARC-AGI-2 | 68,8 % | 54,2 % | 45,1 % |
| GDPval-AA (Elo) | 1606 | 1462 | — |
| GPQA Diamond | 91,3 % | 93,2 % | — |
| BrowseComp | 84,0 % | 77,9 % | 59,2 % |
| OSWorld | 72,7 % | — | — |
| Kontextfenster | 1 Mio. (Beta) | — | 2 Mio. |
| MRCR v2 (1M Token) | 76 % | — | 26,3 % |
Claude Opus 4.6 dominiert bei Wissensarbeit, agentenbasiertem Coding und abstracter Problemlösung. OpenAIs GPT-Reihe hält bei akademischem Reasoning die Nase vorn. Und Googles Gemini 3 Pro hat das größte Kontextfenster – nutzt es aber deutlich weniger effektiv.
Meine Einschätzung: Für Unternehmen, die auf autonome Agenten und komplexe Workflows setzen, ist Opus 4.6 aktuell die stärkste Wahl. Für reines akademisches Reasoning hat GPT-5.2 Vorteile. Und wer primär mit visuellen Daten arbeitet, sollte sich Gemini genauer anschauen.

Anthropic hält die Preise stabil. Wer innerhalb des Standard-Kontextfensters von 200.000 Token bleibt, zahlt exakt so viel wie beim Vorgänger:
Kostensparoptionen gibt es auch: Prompt Caching reduziert die Kosten um bis zu 90 Prozent, Batch Processing um 50 Prozent. Beides unterstützt Opus 4.6.
Das Modell ist ab sofort verfügbar auf:
claude-opus-4-6anthropic.claude-opus-4-6-v1:0claude-opus-4-6
Anthropic hat nach eigenen Angaben die bisher umfassendste Sicherheitsevaluation für ein eigenes Modell durchgeführt. Die Ergebnisse sind bemerkenswert.
Auf der internen Skala für fehlgeleitetes Verhalten – also Täuschung, Schmeichelei, Unterstützung von Missbrauch – kommt Claude Opus 4.6 auf einen Wert von 1,8 von 10. Der niedrigste Wert aller Claude-Modelle. Opus 4.5 lag bei 1,9, Haiku 4.5 bei 2,2, Sonnet 4.5 bei 2,7 und das ursprüngliche Opus 4.1 bei 4,3.
Gleichzeitig hat Opus 4.6 die niedrigste Over-Refusal-Rate – also die geringste Neigung, harmlose Anfragen fälschlicherweise abzulehnen. Das klingt nach einem kleinen Detail, ist aber in der Praxis enorm relevant. Nichts nervt mehr als ein KI-Assistent, der bei einer völlig harmlosen Frage die Antwort verweigert.
Spannend auch: Anthropic experimentiert mit Methoden aus der Interpretability-Forschung – also dem Versuch, zu verstehen, warum ein Modell sich so verhält, wie es sich verhält. Das geht über reine Verhaltenstests hinaus und könnte langfristig Probleme aufdecken, die standardmäßige Evaluierungen übersehen.
Die Benchmark-Verbesserungen schlagen sich in konkreten Anwendungsfeldern nieder. Drei Bereiche stechen heraus.
Auf dem Finance-Agent-Benchmark von Vals AI – der echte Aufgaben mit SEC-Filings öffentlicher Unternehmen testet – erreicht Opus 4.6 60,7 Prozent. Auf TaxEval, das steuerrechtliches Reasoning prüft, sind es 76,0 Prozent – Bestwert aller getesteten Modelle. Die Verbesserung gegenüber Claude Sonnet 4.5 beträgt laut Anthropic über 23 Prozentpunkte auf der internen Real-World-Finance-Evaluation.
90,2 Prozent auf dem BigLaw Bench – dem bisher besten Ergebnis eines Claude-Modells bei komplexen juristischen Analysen. 40 Prozent der Antworten erhielten die Höchstpunktzahl, 84 Prozent lagen über 0,8 von 1,0.
Anthropic berichtet, dass Opus 4.6 auf Benchmarks für Computerbiologie, Strukturbiologie, organische Chemie und Phylogenetik fast doppelt so gut abschneidet wie der Vorgänger. Justin Reppert von Elicit – einem Tool für wissenschaftliche Literaturanalyse – bestätigt: 85 Prozent Recall auf dem Biopharma-Competitive-Intelligence-Benchmark, ein Plus von 12 Punkten, statistisch hochsignifikant. Bei den schwierigsten Aufgaben lag die Verbesserung bei über 30 Prozentpunkten.
Nach unserer Recherche bei digital-magazin.de zeigt sich: Opus 4.6 ist kein Modell, das überall ein bisschen besser ist. Es ist ein Modell, das in ganz bestimmten Einsatzfeldern – Wissensarbeit, agentenbasierte Aufgaben, lange Kontexte – einen echten Qualitätssprung liefert.
Wer von Opus 4.5 migriert, muss ein paar Anpassungen vornehmen:
budget_tokens ist deprecated – stattdessen kommt Adaptive Thinking mit dem neuen effort-Parameteroutput_format wandert nach output_config.format (alter Pfad funktioniert noch, wird aber entfernt)Positiv: Fine-grained Tool Streaming ist jetzt auf allen Modellen und Plattformen allgemein verfügbar, ohne Beta-Header. Und die Data-Residency-Kontrolle über den inference_geo-Parameter erlaubt es, Inference gezielt in den USA laufen zu lassen – relevant für Unternehmen mit strengen Datenresidenz-Anforderungen.
Drei Monate nach Opus 4.5 schon ein neues Modell. CNBC spricht von einer „Vibe Working“-Ära – KI-Modelle, die nicht mehr nur antworten, sondern eigenständig arbeiten. Die Grenzen zwischen Tool und Teammitglied verschwimmen.
Was mich persönlich am meisten beeindruckt: nicht die Benchmarks. Die 500 Zero-Day-Schwachstellen. Weil sie zeigen, dass diese Modelle Dinge finden können, die Menschen übersehen – nicht theoretisch, sondern ganz konkret in realer Software. Das verändert die Spielregeln in der Cybersicherheit.
Wer heute Agentic AI im Unternehmen einsetzt oder plant, kommt an Claude Opus 4.6 kaum vorbei. Nicht weil es perfekt ist – der MCP-Atlas-Rückschritt und die knappen Abstände bei einigen Benchmarks zeigen deutlich, dass der Wettbewerb mit OpenAI und Google eng bleibt. Sondern weil es in den Disziplinen glänzt, die für den produktiven Einsatz am meisten zählen: lange Kontexte zuverlässig nutzen, komplexe Aufgabenketten eigenständig abarbeiten und dabei weniger Fehler machen als die Konkurrenz.
Die nächsten Monate werden zeigen, ob Anthropic diesen Vorsprung halten kann. OpenAI hat nur 20 Minuten nach dem Opus-4.6-Launch mit GPT-5.3 Codex gekontert. Der Wettkampf um das beste KI-Modell 2026 hat gerade erst angefangen.
Um Ihnen ein optimales Erlebnis zu bieten, verwenden wir Technologien wie Cookies, um Geräteinformationen zu speichern und/oder darauf zuzugreifen. Wenn Sie diesen Technologien zustimmen, können wir Daten wie Ihr Surfverhalten oder eindeutige IDs auf dieser Website verarbeiten. Wenn Sie Ihre Zustimmung nicht erteilen oder widerrufen, können bestimmte Merkmale und Funktionen beeinträchtigt werden.