OpenAI hat gestern GPT-5.4 vorgestellt – und das neue Sprachmodell kann nicht nur tippen, sondern auch klicken. Computer-Steuerung per KI, eine Million Tokens Kontext und 33 Prozent weniger Fehler als der Vorgänger: Wir zeigen Ihnen, was GPT-5.4 für professionelle Arbeitsabläufe wirklich bedeutet.

GPT-5.4: Was OpenAI diesmal anders macht

Mal ehrlich: Wann haben Sie das letzte Mal eine KI-Modell-Ankündigung gelesen und gedacht „Wow, das ist neu“? Die meisten Updates der letzten Monate waren Inkremente. Mehr Token hier, weniger Halluzinationen dort. GPT-5.4 ist anders.

OpenAI nennt es das „leistungsfähigste und effizienteste Frontier-Modell für professionelle Arbeit“. Klingt nach Marketing-Sprech? Ist es auch. Aber hinter der Fassade steckt etwas Substantielles: GPT-5.4 kann Ihren Computer bedienen. Nicht im übertragenen Sinn – das Modell kann tatsächlich Code schreiben, der Maus und Tastatur steuert, Screenshots analysiert und Browser navigiert.

Die Veröffentlichung kam nur zwei Tage nach GPT-5.3 Instant, das laut OpenAI „alltägliche Chatgespräche verbessern“ sollte. Während GPT-5.3 Instant auf niedrige Latenz und Effizienz optimiert ist, konzentriert sich GPT-5.4 auf komplexes Reasoning, Coding und agentic workflows.

Computer-Use: Wenn die KI selbst klickt

Die größte Neuerung ist die native Computer-Steuerung. GPT-5.4 kann Playwright-Code schreiben – eine Bibliothek für Browser-Automatisierung – und Maus- sowie Tastatureingaben als Reaktion auf Screenshots ausgeben. Das klingt zunächst technisch, hat aber konkrete Konsequenzen für Ihre Arbeit.

Stellen Sie sich vor: Sie sagen dem Modell „Öffne die Umsatzübersicht vom Januar, filtere nach Produktkategorie XY und exportiere das Ergebnis als PDF“. GPT-5.4 kann diese Aufgabe selbstständig ausführen – indem es Ihr Tabellenkalkulationsprogramm öffnet, die Daten filtert, Ansichten anpasst und den Export-Dialog bedient.

Anthropic hatte mit Claude 3.5 Sonnet bereits ähnliche Fähigkeiten demonstriert. OpenAI zieht jetzt nach – und das ausgerechnet in einer Zeit, in der das Unternehmen wegen seiner Pentagon-Kooperation unter Beschuss steht. Während OpenAI beteuert, die Technologie werde nicht für inländische Überwachung genutzt, kletterte Claude im US App Store auf Platz eins, nachdem das Pentagon Anthropic auf eine Blacklist setzte.

Die Ironie: OpenAI veröffentlicht sein bisher fähigstes Modell genau dann, wenn das Vertrauen der Nutzenden auf einem Tiefpunkt ist. Im Februar 2026 verzeichnete ChatGPT laut Branchenberichten den größten Nutzerrückgang seiner Geschichte.

Eine Million Tokens: Kontext ohne Ende

Das Kontextfenster von GPT-5.4 umfasst bis zu eine Million Tokens – der größte von OpenAI jemals bereitgestellte Wert. Zum Vergleich: GPT-4 Turbo hatte 128.000 Tokens, GPT-5.2 je nach Variante zwischen 200.000 und 500.000.

Was bedeutet das konkret? Ein typisches Buch hat etwa 100.000 Wörter, was ungefähr 130.000 Tokens entspricht. Mit einer Million Tokens können Sie theoretisch sieben bis acht Bücher gleichzeitig als Kontext laden – oder 500 Seiten Code, 200 wissenschaftliche Paper oder ein komplettes ERP-System-Handbuch.

Für professionelle Anwendungsfälle ist das relevant: Rechtsabteilungen könnten komplette Vertragssammlungen auf einmal analysieren lassen. Forschungsteams könnten Dutzende Paper vergleichen, ohne ständig neuen Kontext hochladen zu müssen. Entwicklungsteams könnten ganze Codebases durchsuchen lassen, ohne Teile auszuklammern.

Allerdings: Mehr Kontext bedeutet auch höhere API-Kosten. OpenAI hat die Grundpreise für Entwickelnde erhöht – ein Punkt, über den in der Launch-Kommunikation wenig gesprochen wurde. Die Token-Effizienz ist zwar gestiegen (GPT-5.4 löst dieselben Probleme mit deutlich weniger Tokens als GPT-5.2), aber die Preisstruktur federt den Vorteil teilweise ab.

Tool Search: Weniger Token, mehr Effizienz

Eine der unauffälligeren, aber praktisch relevanteren Neuerungen ist Tool Search. Bisher mussten System-Prompts alle verfügbaren Werkzeuge und ihre Definitionen auflisten – was bei vielen Tools schnell Hunderte oder Tausende Tokens verschlang, bevor überhaupt die eigentliche Anfrage verarbeitet wurde.

Mit Tool Search kann das Modell Werkzeug-Definitionen nach Bedarf nachschlagen, statt sie alle vorab zu laden. Das senkt den Token-Verbrauch bei Systemen mit vielen verfügbaren Funktionen drastisch und beschleunigt gleichzeitig die Antwortzeit.

Für Unternehmen, die GPT-5.4 in bestehende Workflows integrieren wollen, ist das ein echter Vorteil. Weniger Tokens bedeuten niedrigere Kosten – selbst bei den gestiegenen Grundpreisen. Und schnellere Antworten verbessern die Nutzererfahrung, gerade bei interaktiven Anwendungen.

Drei Varianten: Standard, Thinking, Pro

GPT-5.4 ist in drei Versionen verfügbar:

GPT-5.4: Die Standardversion für allgemeine Arbeitsaufgaben. Verfügbar für ChatGPT Plus, Team und Pro sowie über die OpenAI API.
GPT-5.4 Thinking: Die Reasoning-Variante mit verlängerter Chain-of-Thought-Verarbeitung. Eignet sich für komplexe Logikaufgaben und mehrstufiges Denken. Ersetzt GPT-5.2 Thinking, das noch drei Monate verfügbar bleibt.
GPT-5.4 Pro: Die Performance-Variante für maximale Leistung bei anspruchsvollen Tasks. Nur für ChatGPT Pro und Enterprise verfügbar.

Die Thinking-Variante ist besonders interessant: OpenAI hat eine neue Sicherheitsevaluation eingeführt, die testet, ob das Modell seine Chain-of-Thought manipulieren kann – also ob es seine Denkprozesse verstecken oder verfälschen könnte. Die Tests zeigen, dass Täuschung bei GPT-5.4 Thinking weniger wahrscheinlich ist als bei früheren Versionen. Das ist eine Reaktion auf Bedenken von KI-Sicherheitsforschenden, die seit Monaten warnen, dass Reasoning-Modelle unter bestimmten Umständen ihre tatsächlichen Überlegungen verschleiern könnten.

Anthropic hatte bei Tests mit Claude gezeigt, dass solche Täuschungsmanöver theoretisch möglich sind. OpenAI behauptet nun, GPT-5.4 Thinking sei dagegen resistent. Die Formulierung im Blogpost ist vorsichtig: Das Modell „lacks the ability to hide its reasoning“ – es fehlt ihm die Fähigkeit, seine Überlegungen zu verbergen. Nicht: Es will es nicht. Sondern: Es kann es nicht.

Benchmarks: Wo GPT-5.4 brilliert

GPT-5.4 erreicht Bestwerte bei Computer-Use-Benchmarks und Wissensarbeits-Aufgaben

OpenAI hat eine Reihe von Benchmark-Ergebnissen veröffentlicht, die zeigen sollen, wo GPT-5.4 besser ist als die Konkurrenz. Drei stechen heraus:

OSWorld-Verified: Ein Benchmark für Computer-Nutzung. GPT-5.4 erreicht einen neuen Rekordwert.
WebArena Verified: Testet, wie gut Modelle Webseiten navigieren und Aufgaben ausführen. Auch hier Bestwert.
GDPval: Ein Test für Wissensarbeits-Aufgaben. GPT-5.4 erreicht 83 Prozent – der höchste je gemessene Wert.

Besonders interessant: Mercors APEX-Agents Benchmark, der professionelle Fähigkeiten in Jura und Finanzwesen testet. Mercor-CEO Brendan Foody sagt, GPT-5.4 sei „hervorragend darin, langfristige Ergebnisse wie Slide Decks, Finanzmodelle und Rechtsanalysen zu erstellen“ – und das schneller und günstiger als konkurrierende Frontier-Modelle.

Skeptisch sollten Sie trotzdem bleiben. Benchmarks sagen nur begrenzt etwas über die Leistung in realen Szenarien aus. Und OpenAI wählt naturgemäß die Tests aus, bei denen GPT-5.4 gut abschneidet. Trotzdem: Die Verbesserungen gegenüber GPT-5.2 sind messbar. Einzelne Aussagen sind laut OpenAI 33 Prozent seltener falsch, Gesamtantworten 18 Prozent weniger fehleranfällig.

Was fehlt: Deutschsprachige Performance

Ein Problem, das OpenAI traditionell hat: Deutschsprachige Leistung wird in den Launch-Materialien kaum erwähnt. Die meisten Benchmarks laufen auf Englisch, die meisten Beispiele sind anglozentrisch. Wie gut GPT-5.4 tatsächlich auf Deutsch performt – bei Reasoning, bei Tool-Nutzung, bei Computer-Steuerung – werden erst praktische Tests zeigen.

Wir bei digital-magazin.de haben GPT-5.4 bereits mit einigen deutschsprachigen Aufgaben getestet. Die ersten Eindrücke sind durchwachsen: In einfachen Dialogen und Zusammenfassungen funktioniert es einwandfrei. Bei komplexeren Reasoning-Aufgaben – zum Beispiel juristischen Analysen oder mehrstufigen Berechnungen auf Deutsch – zeigt sich gelegentlich Unsicherheit. Das Modell switcht teils ins Englische, wenn es nachdenkt, und übersetzt dann zurück.

Für deutschsprachige Unternehmen bleibt abzuwarten, ob GPT-5.4 tatsächlich das hält, was die englischsprachigen Benchmarks versprechen. OpenAI arbeitet seit Jahren daran, die Qualität in nicht-englischen Sprachen zu verbessern – aber der Abstand zu Englisch ist nach wie vor spürbar.

Die Pentagon-Kontroverse: Timing ist alles

GPT-5.4 erscheint in einer turbulenten Phase für OpenAI. Anfang März 2026 wurde bekannt, dass das Unternehmen eine Kooperation mit dem US-Verteidigungsministerium eingegangen ist. OpenAI betonte, die Technologie werde nicht für inländische Überwachung genutzt – aber das Vertrauen vieler Nutzender ist erschüttert.

Laut Analysen von Sensor Tower und Similar Web verlor ChatGPT im Februar 2026 mehr aktive Nutzende als in jedem anderen Monat seit dem Launch. Gleichzeitig stiegen Anthropics Claude und Googles Gemini in den Download-Charts. Anthropic profitierte besonders, nachdem das Pentagon das Unternehmen auf eine Blacklist setzte – ein paradoxer Marketing-Boost.

OpenAI reagiert auf den Vertrauensverlust mit einer beschleunigten Release-Kadenz. GPT-5.3 Instant am 3. März, GPT-5.4 am 5. März – das ist ein Tempo, das selbst für OpenAI ungewöhnlich ist. Die Botschaft: Wir liefern weiter, wir sind führend, wir bleiben relevant.

Ob das funktioniert, ist offen. Technologisch ist GPT-5.4 zweifellos beeindruckend. Aber Technologie allein reicht nicht, wenn das Vertrauen fehlt. Die Frage ist nicht nur, was GPT-5.4 kann – sondern wem Sie diese Fähigkeiten anvertrauen wollen.

Computer-Use in der Praxis: Was jetzt möglich ist

Zurück zu den praktischen Anwendungen. Was bedeutet Computer-Steuerung konkret für Ihren Arbeitsalltag? Ein paar Szenarien:

Dokumenten-Automatisierung: Sie geben GPT-5.4 eine Anweisung wie „Erstelle aus den letzten drei Quartalsberichten eine Zusammenfassung als PowerPoint-Präsentation“. Das Modell öffnet die Dateien, extrahiert die relevanten Daten, erstellt Folien, fügt Diagramme ein und exportiert das Ergebnis.

Datenanalyse: „Vergleiche die Verkaufszahlen von Produkt A und B über die letzten zwölf Monate und visualisiere die Trends.“ GPT-5.4 öffnet Ihre Datenbank oder Excel-Datei, filtert, berechnet und erstellt Grafiken.

Workflow-Automatisierung: „Wenn eine neue Support-Anfrage mit Priorität ‚hoch‘ in Zendesk eingeht, erstelle ein Jira-Ticket, benachrichtige das Team in Slack und aktualisiere die Eskalations-Tabelle.“ GPT-5.4 kann diese Kette selbstständig abarbeiten – vorausgesetzt, die nötigen API-Zugänge sind konfiguriert.

Das ist keine Science Fiction. Anthropic hat mit Claude 3.5 Sonnet bereits gezeigt, wie gut Computer-Use funktionieren kann. Videos zeigen Claude beim Ausfüllen von Formularen, beim Navigieren durch komplexe Menüs, beim Erstellen von Kalkulationen. GPT-5.4 verspricht ähnliche Fähigkeiten – mit dem Vorteil, dass OpenAIs API-Infrastruktur etablierter ist.

Aber: Computer-Use ist fehleranfällig. Oberflächen ändern sich, Menüs verschieben sich, unerwartete Pop-ups tauchen auf. Ein KI-Modell, das auf Screenshots reagiert, kann leicht aus dem Takt geraten. Deshalb ist Computer-Use bisher keine Lösung für kritische Prozesse – sondern eher für repetitive Aufgaben, bei denen gelegentliche Fehler tolerierbar sind.

OpenAI launches GPT-5.4 with Pro and Thinking versions

Kostenstruktur: Was Sie zahlen

OpenAI hat die API-Preise mit GPT-5.4 angehoben. Die genauen Zahlen variieren je nach Region und Volumen, aber die Tendenz ist klar: Pro Token wird es teurer. Gleichzeitig ist GPT-5.4 effizienter – Sie brauchen weniger Tokens für dieselbe Aufgabe.

Unterm Strich: Für viele Anwendungsfälle dürften die Kosten ungefähr gleich bleiben oder leicht steigen. Der Vorteil liegt in der Qualität, nicht im Preis. Wenn Sie GPT-5.4 für Aufgaben nutzen, bei denen Fehler teuer sind – Rechtsanalysen, Finanzmodelle, technische Dokumentation – kann die höhere Genauigkeit die Mehrkosten rechtfertigen.

Für ChatGPT-Nutzende bleibt die Preisstruktur unverändert: Plus kostet 20 Dollar pro Monat, Pro 200 Dollar. GPT-5.4 ist in beiden Plänen verfügbar, allerdings mit unterschiedlichen Nutzungslimits. Pro-Nutzende erhalten Zugriff auf GPT-5.4 Pro, die Performance-Variante.

Was jetzt zu tun ist

Falls Sie GPT-5.4 in Ihrer Organisation einsetzen wollen, hier ein paar Empfehlungen:

Testen Sie spezifische Aufgaben: Benchmarks sind schön, aber Ihr Workflow ist einzigartig. Probieren Sie GPT-5.4 mit realen Szenarien aus – und vergleichen Sie die Ergebnisse mit denen von GPT-5.2, Claude oder Gemini.
Starten Sie mit niedrigem Risiko: Nutzen Sie Computer-Use zunächst für unkritische Aufgaben. Automatisieren Sie repetitive Tasks, die bei Fehlern keine großen Schäden verursachen.
Konfigurieren Sie Tool Search: Falls Sie viele Werkzeuge einbinden, kann Tool Search erhebliche Token-Einsparungen bringen. Die Implementierung erfordert allerdings Anpassungen an Ihrem System-Prompt.
Achten Sie auf Datenschutz: Computer-Use bedeutet, dass die KI auf Ihre Systeme zugreift. Klären Sie vorher, welche Daten Sie teilen wollen – und wie Sie verhindern, dass sensible Informationen an OpenAI übertragen werden.
Bleiben Sie skeptisch: GPT-5.4 ist besser als GPT-5.2, aber nicht perfekt. Verlassen Sie sich nicht blind auf Outputs – gerade bei fachlich komplexen oder rechtlich relevanten Inhalten.

Und jetzt?

GPT-5.4 ist ein Schritt nach vorn. Mehr Kontext, bessere Genauigkeit, native Computer-Steuerung – das sind echte Verbesserungen. Aber es ist kein Quantensprung. Die KI kann jetzt klicken – na und? Sie konnte schon vorher schreiben, rechnen, Code generieren. Computer-Use erweitert das Repertoire, revolutioniert aber nicht, was möglich ist.

Was bleibt, ist die Frage nach dem Vertrauen. OpenAI hat technologisch geliefert. Aber gleichzeitig hat das Unternehmen politische Entscheidungen getroffen, die viele Nutzende abschrecken. Die Pentagon-Kooperation, die undurchsichtigen Nutzungsbedingungen, die Intransparenz bei Trainingsmethoden – das alles nagt am Vertrauen.

Für Unternehmen ist GPT-5.4 dennoch eine Option, die man ernst nehmen sollte. Nicht, weil OpenAI der sympathischste Anbieter ist. Sondern weil die Technologie funktioniert – und weil die Konkurrenz noch nicht aufgeholt hat. Anthropic kommt näher, Google holt auf, Open-Source-Modelle werden besser. Aber Stand März 2026 ist GPT-5.4 das leistungsfähigste allgemein verfügbare Sprachmodell.

Die eigentliche Frage ist nicht, ob Sie GPT-5.4 nutzen. Sondern wie. Mit klaren Regeln, mit realistischen Erwartungen und mit einem gesunden Misstrauen gegenüber der Technologie – und dem Unternehmen dahinter.

GPT-5.4: OpenAI klickt jetzt auch – Computer-Use 2026