Software Engineering auf neuem Niveau: Was Opus 4.7 für Entwickelnde bedeutet – und warum der massive Sprung bei CursorBench der eigentliche Knackpunkt ist.

Neue Maßstäbe beim Programmier-Benchmark

Softwareentwicklung mit KI-Unterstützung ist längst Alltag. Seit Jahren schrauben die großen Labore an Modellen, die nicht nur Texte generieren, sondern tatsächlich mit Code umgehen können. Jetzt hat Anthropic seinen neuesten Wurf vorgelegt: Claude Opus 4.7. Das Modell tritt direkt die Nachfolge von Opus 4.6 an – und bringt eine Release-Taktung mit, die das Feld aufmischt: künftig soll alle zwei Monate eine neue Hauptversion erscheinen.

SWE-bench misst, wie gut ein Modell echte Softwareprobleme aus Open-Source-Projekten löst – keine Spielwiesen-Beispiele, sondern Aufgaben, für die Entwickelnde sonst Stunden brauchen. Mit einem Score von 87,6 Prozent löst Opus 4.7 laut Anthropic fast neun von zehn gestellten Aufgaben auf Anhieb. Das ist ein Sprung, der sich sehen lassen kann. Das SWE-bench Framework selbst ist auf GitHub öffentlich einsehbar und wird von der Forschungscommunity gepflegt.

Noch spannender wird es beim Blick auf CursorBench: Hier sprang die Leistung von 58 Prozent bei Opus 4.6 auf über 70 Prozent. Das ist kein Inkremental-Update – das ist ein deutlicher Schritt nach vorn bei Aufgaben, die mehrere Tools, Dateien und Denkschritte erfordern. Genau das, was Entwickelnde im Alltag brauchen, die nicht nur einen Snippet erklärt haben wollen, sondern komplette Feature-Implementierungen oder Refactorings über mehrere Dateien hinweg.

Juristische Analyse als Bonus: BigLaw Bench mit 90,9 Prozent

Was viele neben den Coding-Benchmarks übersehen: Opus 4.7 erreicht beim BigLaw Bench, also dem Benchmark für juristische Analysen im Auftrag von Harvey, immerhin 90,9 Prozent. Für eine KI, die primär als Software-Modell positioniert wird, ist das ein bemerkenswert hoher Wert. Das suggeriert, dass Anthropic nicht nur punktuelle Optimierungen vorgenommen hat, sondern an der generellen Denkfähigkeit geschliffen hat – und das Modell nun auch in Domänen funktioniert, die weit über das Programmierische hinausgehen.

Ob das für den praktischen Einsatz in Anwaltskanzleien reicht, steht auf einem anderen Blatt. Aber es zeigt: Die Grenzen zwischen spezialisierten Modellen verschwimmen zunehmend. Wenn Sie sich fragen, ob solche domänenübergreifenden Fähigkeiten wirklich haltbar sind oder nur Marketing-Geräusch, dann sind Sie nicht allein. Die Realität wird wie immer komplizierter sein als die Benchmarks.

Mit dem EU AI Act, der seit 2024 schrittweise in Kraft tritt, gewinnt das Thema KI-Sicherheit ohnehin an Gewicht. Anthropic hat im Rahmen von Opus 4.7 das Projekt Glasswing und das Cyber Verification Program vorgestellt – Safeguards, die Missbrauch erschweren sollen. Ob das reicht, um die Anforderungen europäischer Regulierung zu erfüllen, wird die Praxis zeigen.

Vision und Memory: Endlich brauchbar?

Zwei Schwächen, die Entwickelnde seit Jahren bemängeln, hat Anthropic bei Opus 4.7 angepackt. Erstens die Bildauflösung: Das Modell verarbeitet ab sofort Bilder mit bis zu 2.576 Pixeln Auflösung. Das klingt nach einem technischen Detail, ist aber für die Praxis relevant: Wer Screenshots von Code-Reviews, Architektur-Diagramme oder Dokumentationen einwerfen will, bekommt nun deutlich mehr Details erkannt.

Zweitens – und das ist vielleicht der wichtigste Punkt – das Memory-System. Opus 4.7 merkt sich ab jetzt Dateien und Arbeitskontexte über mehrere Sessions hinweg. Heißt konkret: Wer heute an einem Projekt arbeitet und morgen wieder einsteigt, muss nicht mehr bei Null anfangen. Das Modell hat die relevanten Dateien bereits im Blick. Für Entwickelnde, die zwischen verschiedenen Codebasen wechseln, ist das ein echter Produktivitätsschub – vorausgesetzt, das Memory funktioniert so zuverlässig, wie Anthropic es verspricht.

Neues Claude Code Feature: /ultrareview

Claude Code hat mit Opus 4.7 ein neues Feature bekommen: den Modus /ultrareview. Der Name ist Programm – es handelt sich um eine intensive Analyse von Code. Nicht nur Style-Checks, sondern eine ganzheitliche Bewertung inklusive Architektur, Sicherheit und Performance. Das ist für Teams interessant, die vor wichtigen Releases stehen und eine zweite Meinung brauchen, ohne gleich einen teuren externen Audit zu beauftragen.

Der Clou: Die Bewertung fällt mit Opus 4.7 spürbar fundierter aus als mit früheren Versionen. Das Modell versteht Kontexte besser, erkennt Zusammenhänge zwischen Modulen und kann konkrete Vorschläge machen, statt nur generische Ratschläge. Wenn Sie sich fragen, ob KI-gestützte Reviews tatsächlich eine Alternative zu menschlichen Code-Reviews sein können, dann lohnt sich ein Blick auf die Testergebnisse: Ja – zumindest für bestimmte Aufgabentypen.

Box Eval: Weniger Aufrufe, weniger Tool Calls, schneller durch

Ein Detail, das in der Ankündigung etwas unterging: die Box-Eval-Ergebnisse. Box Eval ist ein intern genutztes Benchmark-Verfahren von Anthropic, das misst, wie effizient ein Modell bei gegebenen Aufgaben arbeitet. Und die Zahlen sind beeindruckend: Opus 4.7 braucht 56 Prozent weniger Model Calls als sein Vorgänger, 50 Prozent weniger Tool Calls und ist 24 Prozent schneller.

Das hat direkte Auswirkungen auf die Betriebskosten. Weniger API-Aufrufe bedeutet niedrigere Rechnungen bei gleichbleibender – oder sogar steigender – Leistung. Gerade für Unternehmen, die KI tief in ihre Workflows integriert haben, ist das ein starkes Argument. Wenn dasselbe Budget plötzlich mehr leistet, verschiebt sich die Kosten-Nutzen-Rechnung deutlich zugunsten von Opus 4.7. Wer schon einmal frustrierend zugeschaut hat, wie ein Modell für eine einfache Aufgabe zehnmal den Same-Endpoint pingeln muss, weiß, wie wertvoll Effizienz ist.

Tokeniser mit besserer Kompression

Opus 4.7 bringt einen neuen Tokeniser mit, der je nach Input zwischen 1,0- und 1,35-fach mehr Tokens pro Eingabe generiert. Konkret heißt das: Ihre Prompts werden effizienter verarbeitet. Für lange Dokumente, umfangreiche Codebases oder komplexe Analysen kann das spürbare Auswirkungen auf die Kosten haben. Ein 5.000-Wort-Dokument belegt plötzlich weniger Token-Budget als noch vor kurzem.

Das ist besonders interessant für Use Cases, in denen regelmäßig große Datenmengen verarbeitet werden. Wer bisher bei langen Kontexten auf Budget-Limits stieß, könnte mit Opus 4.7 wieder mehr Spielraum haben. Allerdings ist der genaue Effekt stark vom jeweiligen Input abhängig – ob sich das in der Praxis bemerkbar macht, muss jeder für seinen Anwendungsfall selbst austesten.

Preise bleiben, Verfügbarkeit wächst

Eine erfreuliche Nachricht für alle, die bereits mit Opus 4.6 arbeiten: Die Preisstruktur bleibt identisch. Fünf Dollar pro Million Input Tokens, 25 Dollar pro Million Output Tokens. Das ist im Vergleich zu anderen Premium-Modellen am Markt wettbewerbsfähig – und angesichts der Leistungssteigerung ein gutes Angebot. Wer für dasselbe Budget mehr Performance bekommt, muss nicht lange rechnen.

Opus 4.7 ist über die Claude API, Amazon Bedrock, Google Cloud Vertex AI und Microsoft Foundry verfügbar. Die Breite der Plattformen macht es einfach, das Modell in bestehende Infrastrukturen zu integrieren, egal ob über AWS, GCP oder Azure. Wer ohnehin in einer dieser Cloud-Umgebungen arbeitet, kann Opus 4.7 mit minimalem Aufwand nutzbar machen. Das senkt die Einstiegshürde für Unternehmen erheblich.

Opus 4.7 im Ranking: Zwischen Mythos Preview und dem Wettbewerb

Wo steht Opus 4.7 im Gesamtbild? Laut Anthropic übertrifft das Modell GPT-5.4 und Gemini 3.1 Pro bei anspruchsvollen Aufgaben. Gleichzeitig bleibt es hinter Mythos Preview zurück – einem Modell, das bislang nicht öffentlich verfügbar ist. Das ist eine interessante Positionierung: An der Spitze des öffentlich verfügbaren Angebots, aber mit noch Luft nach oben.

Interessant auch: Der Releasezyklus hat sich geändert. Statt wie früher seltener Updates erscheinen neue Hauptversionen nun alle zwei Monate. Das ist ein deutlicher Schritt in Richtung Agilität und zeigt, dass Anthropic auf Geschwindigkeit setzt, um im Rennen gegen OpenAI, Google und Meta nicht den Anschluss zu verlieren. Die Frage ist, ob die Qualität dabei auf der Strecke bleibt – oder ob das Labor genug Ressourcen hat, um den Takt durchzuhalten.

Für Entwickelnde und Unternehmen heißt das: Wer sich jetzt auf Opus 4.7 einlässt, kann mit regelmäßigen Updates rechnen. Die Zeiten, in denen ein Modell monatelang auf dem neuesten Stand gehalten wurde, könnten vorbei sein. Stattdessen gilt es, Workflows so zu gestalten, dass sie mit häufigeren Wechseln umgehen können.

Auto Mode jetzt für alle Max-Abonnenten

Eine Nachricht, die Claude-Code-Nutzer freuen wird: Das automatisierte Auto Mode, bei dem das Modell eigenständig Decisions trifft und Aufgaben abarbeitet, ist jetzt auch für Max-Abonnenten verfügbar. Bisher war das Feature eher für höhere Tarife reserviert. Die Öffnung für ein breiteres Publikum zeigt, dass Anthropic das Auto Mode als zentrales Feature seiner Entwickler-Suite versteht – und nicht als Premium-Gimmick.

Ob das Auto Mode in der Praxis funktioniert, hängt stark vom Anwendungsfall ab. Für repetitive Aufgaben mit klar definierten Regeln kann es Zeit sparen. Für kreative oder unklar umrissene Probleme dürfte der manuelle Modus weiterhin die bessere Wahl sein. Entwickelnde sollten das Feature mit gesundem Menschenverstand einsetzen – KI ist kein Alleskönner, auch wenn die Benchmarks etwas anderes suggerieren mögen.

Cybersecurity-Safeguards: Glasswing und Cyber Verification Program

Im Schatten der Benchmark-Zahlen hat Anthropic zwei neue Sicherheitsinitiativen vorgestellt: Projekt Glasswing und das Cyber Verification Program. Ziel ist es, den Missbrauch von KI-Modellen für Cyberangriffe zu erschweren. Konkret geht es um Szenarien, in denen Angreifende versuchen könnten, große Sprachmodelle für die Generierung von Phishing-Kampagnen, Exploit-Code oder Social Engineering zu nutzen.

Wie effektiv diese Maßnahmen sind, wird sich zeigen. Die Branche tut sich seit Jahren schwer damit, die Balance zwischen Sicherheit und Nutzbarkeit zu finden. Zu strikte Safeguards können legitime Nutzungsszenarien blockieren; zu lasche Controls lassen Raum für Missbrauch. Der EU AI Act setzt hier zusätzliche Leitplanken, die über das hinausgehen, was ein einzelnes Unternehmen selbst regeln kann.

Was bleibt?

Claude Opus 4.7 ist kein revolutionäres neues Modell – dafür ist die Architektur zu nah am Vorgänger. Aber es ist ein massives Upgrade in genau den Bereichen, die für professionelle Nutzer zählen: bessere Code-Performance, besseres Memory, weniger Overhead. Dass dabei auch die Kosten pro Task sinken, macht es für Unternehmen noch attraktiver.

Wer regelmäßig mit KI an komplexen Entwicklungsaufgaben arbeitet, sollte Opus 4.7 einen Versuch geben. Insbesondere das verbesserte CursorBench-Ergebnis deutet darauf hin, dass sich das Modell bei Multi-File-Aufgaben, Refactoring und komplexen Debugging-Szenarien deutlich wohler fühlt als sein Vorgänger. Und das neue Memory-System über Sessions hinweg? Das ist eine Funktion, auf die Entwickelnde schon lange warten.

Der Teaser klang vielversprechend – und die Details halten, was er verspricht. Bleibt die Frage, ob die versprochenen Verbesserungen in der Praxis ankommen oder ob es wie so oft eine Diskrepanz zwischen Benchmark und Alltag gibt. Das werden die nächsten Wochen zeigen.

Anthropic feuert zurück: Claude Opus 4.7 setzt neue Maßstäbe beim Software Engineering

Neue Maßstäbe beim Programmier-Benchmark

Juristische Analyse als Bonus: BigLaw Bench mit 90,9 Prozent

Vision und Memory: Endlich brauchbar?

Neues Claude Code Feature: /ultrareview

Box Eval: Weniger Aufrufe, weniger Tool Calls, schneller durch

Tokeniser mit besserer Kompression

Preise bleiben, Verfügbarkeit wächst

Opus 4.7 im Ranking: Zwischen Mythos Preview und dem Wettbewerb

Auto Mode jetzt für alle Max-Abonnenten

Cybersecurity-Safeguards: Glasswing und Cyber Verification Program

Was bleibt?

Mitreden & diskutieren

Neue Maßstäbe beim Programmier-Benchmark

Juristische Analyse als Bonus: BigLaw Bench mit 90,9 Prozent

Vision und Memory: Endlich brauchbar?

Neues Claude Code Feature: /ultrareview

Box Eval: Weniger Aufrufe, weniger Tool Calls, schneller durch

Tokeniser mit besserer Kompression

Preise bleiben, Verfügbarkeit wächst

Opus 4.7 im Ranking: Zwischen Mythos Preview und dem Wettbewerb

Auto Mode jetzt für alle Max-Abonnenten

Cybersecurity-Safeguards: Glasswing und Cyber Verification Program

Was bleibt?

Auch interessant

Moonshot AI, Open-Source-KI-Modell, Anthropic OpenAI

Claude SEO: Warum klare Expertise und Quellen wichtiger werden

Claude Science: Warum Anthropic mit neuer API die Pharma-Forschung antreibt