Claude Opus 4.7 und der Benchmark, der das Programmieren verändert

Felix Braun
12. April 2026
Thema: Anthropic, Künstliche Intelligenz

Wie der Cursor Code Editor selbst zeigt, ist CursorBench der Geekbench des Programmierens. Und während die einen noch darüber streiten, ob KI nun wirklich Code schreiben kann,gaben Anthropic Mitte April 2026 mal eben den Nachfolger, der die Messlatte um 12 Punkte anhebt. Das ist, als würde man in einem Autorennen plötzlich 120 km/h aufaddieren – auf der Geraden, in der Kurve, egal wo man hinschaut.

Claude Opus 4.7 heißt das gute Stück. Es ist schneller, smarter und kommt mit einem Kontextfenster um die Ecke, das selbst die großzügigsten Entwickler-Pensen blass aussehen lässt. Aber der Reihe nach.

Was CursorBench überhaupt misst

Bevor wir in Features abtauchen, kurz der Kontext: CursorBench ist ein Benchmark, der speziell entwickelt wurde, um die Programmierfähigkeiten von KI-Modellen zu messen. Während allgemeine MMLU-Tests nur abfragen, ob ein Modell mögenweise Wissen gespeichert hat, simuliert CursorBench echte Programmieraufgaben. Multi-File-Refactoring, das Schreiben kompletter APIs, das Debuggen von Legacy-Code – und zwar nicht als Multiple-Choice-Abfrage, sondern als funktionierender Code, der anschließend getestet wird.

Die Idee dahinter: Programmierer interessieren sich nicht für Durchschnittsnoten. Sie wollen wissen, ob die KI ihren Job macht, wenn es drauf ankommt. Wenn der Stack trace 200 Zeilen lang ist und kein Mensch mehr durchsteigt. Wenn die Legacy-Anwendung niemand mehr versteht, aber niemand sie abschalten darf. Wenn die Deadline nächstes Wochenende ist und der Kunde schon wieder Features dazwischen geschoben hat.

Sein direkter Vorgänger Claude Opus 4.6 war schon gut in diesem Benchmark. Aber Im Anthropic-eigenen Benchmark-Vergleich legt Claude Opus 4.7 nochmal nach – 12 Punkte mehr, das ist nicht-trivial. Zum Vergleich: Das entspricht grob dem Sprung von einem soliden Azubi zu jemandem, der auch unter Zeitdruck die Ruhe bewahrt und keinen Unsinn programmiert.

Claude Code Entwickelnde am Arbeitsplatz mit mehreren Monitoren

Passend zum Thema:

Claude Code: Der vollständige Guide für AI-Poweruser

1 Million Token: Mehr Kontext als jedes Teammeeting

Das vielleicht beeindruckendste Feature von Opus 4.7 ist der Kontext. Eine Million Token – das sind ungefähr 750.000 Wörter, was dem Umfang mehrerer großer Romane entspricht. Oder, für die Techies unter Ihnen: Der komplette Codebase eines mittelständischen SaaS-Produkts, auf einmal geladen und durchdacht.

Und weil Anthropic weiß, dass große Kontexte auch große Rechnungen bedeuten. Die Anthropic API-Dokumentation beschreibt Task-Budgets. Das Konzept ist clever: Statt einen riesigen Prompt zu schicken und dann auf die gesamte Quoten-Rechnung zu starren, teilt Opus 4.7 die Arbeit in Budgets auf. Jedes Budget hat ein definiertes Ziel – „Refaktorisiere diese drei Module“ oder „Schreibe Tests für die Authentifizierung“ – und verbraucht nur dafür Tokens. So lässt sich die Nutzung besser kontrollieren, und man bekommt nicht nach dem dritten Prompt eine Überraschungsrechnung präsentiert, die höher ausfällt als die monatliche Miete.

Für Teams, die mit großen Codebasen arbeiten, ist das ein echter Gamechanger. Stellen Sie sich vor, Sie könnten Ihre gesamte Legacy-Anwendung in ein einziges System laden und es bitten, Ihnen zu erklären, warum derjenige, der das damals geschrieben hat, so dachte wie er dachte. Ohne dass dafür eine halbe Stunde API-Aufrufe nötig wären. Und ohne dass das Modell in der Mitte des Prompts anfängt zu vergessen, was am Anfang stand.

Das Problem mit kleineren Kontextfenstern kennt jeder, der schon mal mit einem 8K-Context-Modell gearbeitet hat: Irgendwann fängt die KI an zu halluzinieren, weil sie nicht mehr alles im Blick hat. Opus 4.7 lst dieses Problem nicht vollständig – keine KI lst Probleme vollständig –, aber es entschärft es deutlich. Mit einer Million Token passen bei den meisten Projekten sogar die Abhängigkeiten, die Unit-Tests UND die CI/CD-Konfiguration in einen einzigen Kontext.

Claude Opus 4.6: 500 Zero-Days und neue Rekorde 2026

Passend zum Thema:

Claude Opus 4.6 – neue Rekorde in 2026 & 500 Zero-Days gefunden

Visuelles Denken: Hochauflösende Bilder bis 2576 Pixel

Claude Opus 4.7 beherrscht ab sofort Bildanalyse in einer Qualität, die vorher nur Spezialmodellen vorbehalten war. Screenshots, Diagramme, Wireframes – alles bis 2576 Pixel Auflösung, pixelgenau verarbeitet. Das mag abstrakt klingen, aber für Programmierer ist das praktisch relevant.

Stellen Sie sich folgendes Szenario vor: Ein Designer liefert ein Figma-Prototyp im Format 4K. Statt den Text abzutippen oder sich auf vage Beschreibungen zu verlassen, kann Opus 4.7 das Bild direkt verarbeiten – Buttons, Farben, Layout, Abstände. Die KI versteht die Struktur und kann basierend darauf Code generieren. Nicht immer perfekt, aber gut genug, um als Ausgangspunkt zu dienen.

Oder imagine (um mal ein englisches Wort einzustreuen, das hier einfach passt): Sie fotografieren ein bestehendes Dashboard mit dem Telefon, schicken das Bild an Opus 4.7 und bitten um einen Klon. Ohne Bildschirmfreigabe, ohne Screen-Sharing, einfach so. Das funktioniert jetzt. Natürlich nicht perfekt – die KI wird gelegentlich Details falsch interpretieren oder Schriften approximieren statt exakt kopieren. Aber die Richtung ist klar. Die KI wird visuell.

Für Frontend-Entwickler, die mit Designern zusammenarbeiten, ist das ein Impuls, alte Workflows zu hinterfragen. Muss es wirklich immer ein exportiertes PNG sein? Oder reicht ein Foto? Für Rapid Prototyping ist das ein enormer Vorteil – die Zeit vom Handy-Foto zur funktionierenden Demo sinkt von Tagen auf Stunden.

Passend zum Thema:

ChatGPT-Alternativen 2026: Die 8 besten KI-Chatbots

Der Wettbewerb: GPT-5.4 und das Gespenst der Alternativen

Wenn von Claude die Rede ist, fällt unweigerlich der Name OpenAI. Schließlich teilen sich die beiden Großen den Markt für fortgeschrittene KI-Modelle. Laut OpenAI launchte im März 2026 GPT-5.4 mit 83% auf dem GDPval-Benchmark – und integriertem Computer-Use. Das ist beeindruckend, keine Frage.

GPT-5.4 versteht Befehle wie „öffne Firefox, navigiere zur Seite X, fülle das Formular aus“ und führt sie aus. Das ist praktisch, wenn man der Meinung ist, eine KI sollte mehr ein Roboterarm sein als ein Software-Agent. Der Computer-Use von GPT-5.4 ist ein beeindruckendes Demo-Feature – man kann ihm beim Tippen zusehen, und es sieht fast so aus, als würde ein Mensch am Rechner sitzen. Aber seien wir ehrlich: Für die meisten Programmierer ist die Frage nach der Kontextmenge relevanter als die Frage, ob die KI Mausbewegungen simulieren kann.

Dann ist da noch die Sache mit den Bildern. OpenAI hat Images 2.0 in ChatGPT integriert – über 99% Textgenauigkeit, so der offizielle Claim. Klingt fantastisch, aber lassen Sie mich eine Gegenfrage stellen: Wann haben Sie zuletzt eine KI-generierte Grafik gebraucht, die pixelgenau eine bestimmte Schriftart verwendet? Für Programmierer, die mit Code arbeiten, ist Bildgenerierung nett, aber selten das Kern-Use-Case. Die meiste Zeit verbringen wir damit, Strings zu concatenieren und Semikolons zu suchen.

Was Anthropic hier richtig macht: statt alles auf einmal zu wollen, konzentriert sich Opus 4.7 auf das, was Entwickler wirklich brauchen – Kontext, Zuverlässigkeit, Geschwindigkeit. Das ist weniger sexy als ein KI-Agent, der den Desktop bedient, aber für den Arbeitsalltag vermutlich nützlicher. Während andere Modelle große Worte machen und tolle Demos zeigen, liefert Opus 4.7 das, was unter der Haube zählt.

GPT-5.4 Sprachmodell professionelle Arbeitsabläufe Computer-Use

Passend zum Thema:

GPT-5.4: OpenAI klickt jetzt auch – Computer-Use 2026

Was das für Programmierer bedeutet: Eine Fail-Story inklusive

Ein Programmierer vertieft sich in die durch Claude Opus 4.7 ausgelöste Benchmark-Revolution.

Jetzt kommt der Teil, in dem ich gestehe, was schiefgelaufen ist. Ich habe Opus 4.7 nämlich zuerst dafür benutzt, um einen Crawler für eine Nische zu schreiben, die ich schon seit Monaten vor mir herschiebe. Die Idee: ein kleines Tool, das öffentlich zugängliche Patentdaten scraped und in eine SQLite-Datenbank kippt.

Der Prompt war simpel: „Schreib mir einen Python-Crawler dafür.“ Opus 4.7 hat geliefert. Sauberen, kommentierten Code. Unit-Tests dazu. Sogar eine kleine CLI mit Argument-Parsing. Alles funktionierte auf Anhieb – bis auf eine Sache: die Zielseite hatte ein CAPTCHA. Natürlich. Welche öffentliche Datenbank hat schon kein CAPTCHA?

Das war mein Fehler. Ich hatte den Anwendungsfall nicht vollständig durchdacht. Opus 4.7 hat geliefert, was ich verlangt habe – aber ich habe nicht verlangt, was ich gebraucht hätte. Die KI kann Gedanken nicht lesen (noch nicht). Sie kann nur das umsetzen, was ihr gesagt wird. Und das ist ein Punkt, den ich immer wieder betonen möchte: Prompts sind nicht nur Eingaben. Prompts sind Spezifikationen. Je genauer die Spezifikation, desto besser das Ergebnis.

Mein Lerneffekt nach dem Fail: Für das CAPTCHA-Problem habe ich dann einen anderen Prompt geschrieben, diesmal mit dem Zusatz „berücksichtige CAPTCHAs und schlage Lösungen vor“. Opus 4.7 kam mit drei Optionen, inklusive Code für den Fall, dass ich einen CAPTCHA-Umgehungsdienst nutzen wollte. Das war hilfreich – aber die entscheidende Verbesserung kam nicht vom Modell, sondern davon, dass ich gelernt habe, den Prompt besser zu formulieren.

Task-Budgets im Praxistest: Nicht nur Marketing-Gerede

Das Task-Budget-Konzept habe ich bereits erwähnt, aber es verdient einen eigenen Abschnitt, weil es in der Praxis tatsächlich funktioniert – und zwar anders, als man zuerst denkt. Ich habe es mit einem mittelgroßen Refactoring-Projekt getestet: eine alte PHP-Anwendung (ja, PHP, ich weiß), die dringend modernisiert werden musste.

Die Anwendung hatte 23 Dateien, insgesamt rund 8.000 Zeilen Code – für Opus 4.7 kein Problem, der Kontext hat alles auf einmal geschluckt. Ich habe fünf Task-Budgets definiert: Datenbank-Abstraktion, URL-Routing, Template-Engine, Session-Management und Error-Handling. Fünf getrennte Aufträge, nicht einen großen Prompt.

Das Ergebnis: Jedes Budget lieferte isoliert guten Code. Und weil die Budgets unabhängig waren, konnte ich sie auch unabhängig reviewen und anpassen. Ein Budget hat eine Schwachstelle gehabt – ein Edge-Case beim Session-Management, der bei gleichzeitigen Requests Probleme gemacht hätte. Ich habe das Budget angepasst und eine verbesserte Version angefordert. Kein kompletter Neustart des gesamten Prozesses, keine Verwirrung darüber, was der Kontext jetzt noch weiß. Das war gut gemacht.

Was mich überrascht hat: Die Qualität der einzelnen Outputs war bei fokussierten Budgets höher als bei einem einzigen großen Prompt. Das ist logisch, wenn man drüber nachdenkt – wer ein Buch schreibt, sollte auch die Kapitel einzeln reviewen können. Aber ich hatte erwartet, dass das Modell bei geteilten Aufgaben schlechter wird, weil es den Gesamtkontext verliert. Das Gegenteil war der Fall.

Bilderkennung im Alltag: Wireframes und überraschungen

Weil ich ein neugieriger Mensch bin, habe ich Opus 4.7 auch mit Wireframes getestet. Konkret: eine Handy-App-Idee, die ich seit zwei Jahren skizziere, aber nie umgesetzt habe. Konventionelle Methode wäre: Figma öffnen, Pixel füllen, Code schreiben, debuggen, fertig. Meine Methode: Foto vom Wireframe auf einem Papierserviette machen und an Opus 4.7 schicken.

Das Wireframe zeigte eine Startseite mit Suchleiste, drei Kategorien-Buttons und einem Footer mit Social-Media-Icons. Opus 4.7 hat das Bild analysiert und mir einen React-Native-Code geliefert, der das Layout approximierte. Die Suchleiste war etwas niedriger als im Wireframe, einer der Buttons hatte eine leicht andere Farbe. Aber die Grundstruktur stimmte.

Ich habe den Code dann genommen und angepasst. Nach zwei Stunden hatte ich eine funktionierende Demo-Version, die das grundlegende UX-Konzept zeigte. Für einen Proof of Concept, um Investoren zu überzeugen, war das ausreichend. Das Wireframe auf Serviette war schneller erstellt als jede Figma-Datei – und das Endergebnis war vergleichbar. Der Trade-off: Perfektion gegen Geschwindigkeit. In einer frühen Phase ist Perfektion überbewertet.

Überraschung am Rande: Opus 4.7 hat auch Handschrift erkannt. Mein Wireframe war nicht besonders sauber – grobe Quadrate, Pfeile, Notizen am Rand. Die KI hat trotzdem verstanden, was ich wollte. Das ist mehr, als ich von einigen menschlichen Designern erwarten würde.

Claude Opus 4.7 vs. Alternativen: Die ehrliche Einordnung

Ich will hier keine Werbung machen, nur die Lage beschreiben. Opus 4.7 ist stark, aber es ist nicht das einzige gute Modell da draußen. GPT-5.4 hat seine Stärken beim Computer-Use und bei der Bildgenerierung. Wie ein Vergleich von ChatGPT-Alternativen zeigt, bieten auch Googles Gemini-Modelle ähnlich große Kontextfenster. Und für spezifische Programmieraufgaben gibt es spezialisierte Modelle wie Cursor Code, die teilweise sogar schneller arbeiten.

Was Opus 4.7 besonders macht: die Kombination aus Kontextmenge, Task-Budgets und Bildanalyse ist zum aktuellen Zeitpunkt einzigartig. Das heißt nicht, dass es für jeden Use-Case das beste Modell ist. Für jemanden, der nur gelegentlich kurze Snippets braucht, ist Opus 4.7 überdimensioniert. Die API-Kosten stehen in keinem Verhältnis zum Nutzen, wenn man nur mal eben einen Regex-String braucht.

Für Teams, die große Codebasen verwalten, ist es hingegen ein massiver Produktivitätsgewinn. Wenn Sie gerade dabei sind, eine Monolith-Application zu zerlegen, oder wenn Sie mit Legacy-Code arbeiten, der dokumentiert werden muss – Opus 4.7 ist hier Geld wert. Die Zeitersparnis bei der Codeanalyse und dem Refactoring rechtfertigt die Kosten in der Regel.

Die Schattenseiten: Was noch nicht gut funktioniert

Ich würde Ihnen etwas vorschwindeln, wenn ich nur die Glanzseiten zeige. Also: Opus 4.7 hat auch Schwächen.

Erstens: Die Bildanalyse funktioniert gut bei Screenshots und sauberen Wireframes. Bei komplexen Layouts, besonders mit Overlays oder transparenten Elementen, wird es ungenau. Mein Test mit einem komplizierten Dashboard mit animierten Graphen lieferte nur annähernd brauchbare Ergebnisse.

Zweitens: Task-Budgets klingen gut, aber sie erfordern eine gewisse Disziplin bei der Planung. Wenn man nicht weiß, wie man die Aufgabe sinnvoll in Budgets aufteilt, ist das Konzept wertlos. Man muss die Arbeit verstehen, um sie sinnvoll zu delegieren. Für unerfahrene Entwickler ist das eine zusätzliche Hürde.

Drittens: Die Wartezeiten bei großen Kontexten können lang sein. Bei einer Million Token redet man über Sekunden bis Minuten, je nach Auslastung. Für interaktive Workflows ist das ärgerlich. Das ist kein Opus-4.7-spezifisches Problem – alle Modelle mit großem Kontext haben dieses Latenzproblem.

Viertens, und das ist eher philosophisch: Die KI ist gut darin, Code zu schreiben, aber schlecht darin, Architekturentscheidungen zu hinterfragen. Wenn Sie ein schlecht designedes System haben, wird Opus 4.7 Ihnen helfen, es umzusetzen – aber nicht unbedingt dabei, es besser zu designen. Dazu gehört menschliche Erfahrung, Kontextwissen über Nutzer und Geschäftsprozesse, das die KI nicht hat.

Fazit: Mehr Kontext, weniger Ausreden

Claude Opus 4.7 ist kein revolutionäres neues Produkt im Sinne eines völlig neuen Paradigmas. Es ist eine iterative Verbesserung, die aber an den richtigen Stellen iteriert – dort, wo Entwickler tatsächlich kämpfen. Kontextfenster zu klein. Token-Quoten unkontrollierbar. Bilderkennung nicht brauchbar für Echtzeit-Anwendungsfälle. An diesen Punkten hat Anthropic gedreht, und das Ergebnis ist ein Modell, das professionelle Entwickler überzeugen kann.

Mit Opus 4.7 wird die KI zu einem Tool, das nicht nur Antworten gibt, sondern Probleme löst – und zwar richtig. Die 12 Punkte auf CursorBench sind nicht nur eine Zahl. Sie sind ein Indikator dafür, dass das Modell in der Lage ist, komplexe, mehrstufige Programmieraufgaben zuverlässig zu lösen. In der Praxis heißt das: weniger Retry-Loops, weniger Nachbearbeitung, weniger Frust.

Die große Frage ist jetzt: Was machen die anderen? Wie unser GPT-5.4-Test zeigt, hat OpenAI mit Computer-Use einen anderen Weg eingeschlagen. Die Konkurrenz wird nicht stillhalten. Aber für heute gilt: Wer ein großes Programmierprojekt vor sich hat und ein Modell sucht, das nicht bei jedem dritten Prompt einknickt, der sollte Opus 4.7 eine Chance geben. Am besten mit einem konkreten, gut durchdachten Prompt. Und ohne CAPTCHA.

Und wenn die KI dann doch mal etwas falsch macht? Tja. Dann war der Prompt halt nicht gut genug. Oder das CAPTCHA war stärker. Das ist die neue Realität des Programmierens: Die KI ist nicht das Problem. Die KI ist das Werkzeug. Die Frage ist, ob wir gelernt haben, es richtig zu benutzen. Bei Opus 4.7 ist die Lernkurve flacher als bei den Alternativen. Das ist schon mal was.

0 0 Bewertungen

Artikel Bewertung

0 Kommentare

Älteste

Neueste Meistbewertet

Inline-Feedbacks

Alle Kommentare anzeigen

Claude Opus 4.7 und der Benchmark, der das Programmieren verändert

Was CursorBench überhaupt misst

1 Million Token: Mehr Kontext als jedes Teammeeting

Visuelles Denken: Hochauflösende Bilder bis 2576 Pixel

Der Wettbewerb: GPT-5.4 und das Gespenst der Alternativen

Was das für Programmierer bedeutet: Eine Fail-Story inklusive

Task-Budgets im Praxistest: Nicht nur Marketing-Gerede

Bilderkennung im Alltag: Wireframes und überraschungen

Claude Opus 4.7 vs. Alternativen: Die ehrliche Einordnung

Die Schattenseiten: Was noch nicht gut funktioniert

Fazit: Mehr Kontext, weniger Ausreden

Enterprise-KI-Agenten: Die Industrie hat den Schalter umgelegt

EU AI Act vor der Deadline: Warum die Verhandlungen über die Omnibus-Reform scheitern

EU KI-Gesetz: Die Verschiebung, die Unternehmen nicht überraschen durfte

EU AI Act + KI-MIG: Der deutsche Sonderweg bei der KI-Regulierung

Cursor und SpaceX: Die 50-Milliarden-Dollar-Wette auf die Zukunft des Programmierens

Claude Code: Desktop-KI für Entwickler