Claude Code vs Codex vs Cursor: Ehrliche 6-Monats-Bewertung

Vor sechs Monaten traf ich eine Entscheidung, über die ich immer noch nachdenke. Ich sagte dem Seahawk-Team, dass wir uns richtig für KI-Coding-Assistenten einsetzen würden -- nicht herumprobieren, nicht nur die einfachen Erfolge rauspicken, sondern echte Kundenarbeit tatsächlich durch diese Tools routen und messen, was passiert. Das bedeutete abrechenbare Stunden, Live-Repositories und Production Deployments. Nicht Spielzeugprojekte. Nicht "schreib mir eine To-do-App"-Demos.

Wichtigste Erkenntnis: Nach sechs Monaten täglich gewinnt Claude Code bei Agenturarbeit durch Kontexttiefe und Tooling, Cursor gewinnt im In-Editor-Workflow, und Codex gewinnt bei roher Completion-Geschwindigkeit; die meisten Teams enden damit, zwei zu kombinieren.After six months daily, Claude Code wins agency work on context depth and tooling, Cursor wins in-editor flow, and Codex wins raw completion; most teams end up pairing two.

Zwölftausend Websites über neun Jahre geben dir ein ziemlich kalibriertes Gespür dafür, was Hype ist und was eine echte Verschiebung darstellt. Und ehrlich gesagt? Dieser Bereich ist beides auf einmal, was das Schreiben darüber so nervig macht.

Also hier ist es -- sechs Monate mit Claude Code, OpenAI Codex (über die API und die neuere Codex CLI), und Cursor. Keine Rankings, keine Gewinner vor wir überhaupt angefangen haben. Einfach das, was ich gefunden habe.Claude Code, OpenAI Codex (via the API and the newer Codex CLI), and Cursor. No rankings, no winners declared before we've even started. Just what I found.

---

Warum ich alle drei gleichzeitig ausprobiert habe

Die Versuchung ist, einen zu wählen und tief einzusteigen. Ich hätte das fast getan. Im Januar war ich bereit, mich einfach auf Cursor zu standardisieren, weil sich die VS Code-Integration wie der Weg des geringsten Widerstands anfühlte. Dann gab mir ein Client -- ein SaaS-Gründer in Manchester, der ein internes Logistik-Dashboard baute -- ein Python-lastiges Backend, das wirklich undurchsichtig war, und Cursors Vorschläge verpassten immer wieder Kontext, der drei Dateien weiter weg existierte.

Das war der Moment, in dem ich beschloss, dass die einzig ehrliche Evaluationsmethode darin bestand, die gleichen Aufgabenkategorien parallel durch jedes Tool zu schicken. Nicht exakt die gleiche Eingabeaufforderung, weil das künstlich ist, aber die gleiche Art von Arbeit: Refaktorierung von Legacy-PHP, Schreiben neuer React-Komponenten aus Figma-Spezifikationen, Debugging intermittierender API-Fehler und Generierung von Test-Coverage für existierende Funktionen.type of work: refactoring legacy PHP, writing new React components from Figma specs, debugging intermittent API errors, and generating test coverage for existing functions.

Die Ergebnisse überraschten mich in Wegen, die ich nicht erwartet hatte.

---

Claude Code: Erschreckend gut im Kontext-Verständnis, langsamer als mir lieb ist

Lass mich direkt sein. Claude Code ist das durchdachteste der drei. Das Wort klingt vage, also lass mich es konkret machen.thoughtful of the three. That word sounds vague, so let me make it concrete.

Als ich ihm ein 400-zeiliges WordPress-Plugin fütterte, das ich 2021 geschrieben hatte -- zu einer Zeit, als ich Dinge tat, die ich jetzt für peinlich halte, wie Optionen direkt aus $_POST zu speichern ohne Sanitization -- behob es nicht nur die offensichtlichen Probleme. Es flaggte das architektonische Muster, erklärte, warum dieser Ansatz fragil war, und bot eine umgestaltete Version, die das exakte Verhalten bewahrte, während es die Sicherheitslücken behob. Cursor tat die Hälfte davon. Codex gab mir im Grunde eine saubere Version des gleichen schlechten Musters.WordPress plugin I'd written in 2021 -- back when I was doing things I now consider embarrassing, like storing options directly in$_POST without sanitisation -- it didn't just fix the obvious issues. It flagged the architectural pattern, explained why the approach was fragile, and offered a refactored version that preserved the exact behaviour while fixing the security gaps. Cursor did half of that. Codex basically gave me a cleaner version of the same bad pattern.

Wo es gewinnt

Das Langkontext-Reasoning ist real. Du kannst einen kompletten Komponenten-Baum einfügen, einen Fehler drei Ebenen tief beschreiben, und Claude Code wird dem Faden folgen, ohne ihn zu verlieren. Für Agentur-Arbeit, wo du regelmäßig das Chaos anderer Leute erbst, ist das keine Kleinigkeit.

Es schreibt auch Erklärungen gut. Wenn ein Junior in meinem Team nicht versteht, warum ein Refactor auf eine bestimmte Weise funktioniert, neigt Claude Code's Output dazu zu lehren. Das hat echten Wert, wenn du versuchst, ein kleines Team hochzufahren.explanations well. When a junior on my team doesn't understand why a refactor works a certain way, Claude Code's output tends to teach. That has actual value when you're trying to level up a small team.

Wo es frustriert

Geschwindigkeit. Die Antworten sind langsamer als Cursors In-Editor-Autovervollständigung, was kein fairer Vergleich ist -- das sind unterschiedliche Interaktionsmodelle -- aber wenn du im Flow bist, bricht ein Warten von drei bis fünf Sekunden auf eine Antwort etwas.

Auch die Preisgestaltung ist ein echtes Thema. Bei intensiver Nutzung addieren sich die API-Kosten schneller auf, als man erwartet. Ich habe im Februar allein etwa £340 an Claude-API-Aufrufen für Kundenprojekte ausgegeben. Das ist nicht ruinös, muss aber irgendwo auf die Rechnung.

---

OpenAI Codex: Das, das alle vergessen

Hier ist das Ding mit Codex -- Menschen sprechen weniger darüber, jetzt dass ChatGPT und GPT-4o alle Aufmerksamkeit bekommen, aber die Codex CLI, die OpenAI 2025 shipped, ist wirklich interessant für terminal-native Workflows.Codex CLI that OpenAI shipped in 2025 is genuinely interesting for terminal-native workflows.

Ich habe sie intensiv auf einem Projekt für einen Fintech-Client genutzt (kann sie nicht nennen, NDA, Standardkram), wo die gesamte Codebasis in einem Monorepo lebte und wir viel Arbeit im Terminal statt in einem Editor machten. Die Möglichkeit, Codex inline mit Shell-Kontext auszuführen, Dateien direkt zu lesen und Befehle in einer isolierten Umgebung auszuführen, fühlte sich anders an als die Chat-artige Interaktion der anderen Tools.codex inline with shell context, have it read files directly, and execute commands in a sandboxed environment felt different from the chat-style interaction of the other tools.

Wo Codex glänzt

Automatisierungsaufgaben. Bash-Scripting. GitHub-Actions-Workflows schreiben. Boilerplate generieren, das einem strikten Muster folgt. Für das Fintech-Projekt ließ ich Codex etwa 60% der CI/CD-Pipeline-YAML generieren, und sie war sauber genug, dass ich nur kleinere Änderungen vornahm.

Es ist auch das wörtlichste der drei. Wenn du ihm eine präzise Spezifikation gibst, befolgt es sie. Keine Kommentierung, kein "hier ist ein besserer Ansatz" -- es macht einfach die Sache. Manchmal ist das genau das, was du willst.literal of the three. If you give it a precise spec, it follows it. No editorialising, no "here's a better approach" -- it just does the thing. Sometimes that's exactly what you want.

Wo es zu kurz kommt

Die Kehrseite von buchstäblich ist spröde. Vage Prompts produzieren vagen Code. Und anders als Claude Code verlässt es sich nicht zuverlässig darauf, das zu erkennen, das du hätte fragen sollen, aber nicht getan hast. Ich hatte eine Situation im März, in der Codex ein perfekt funktionierendes Datenbank-Migrationsskript generierte, das auf einer Postgres-14-Datenbank zu einem stillen Datenverlust geführt hätte, weil es mit DEFAULT-Werten bei existierenden Spalten nicht richtig umging. Es tat genau das, was ich fragte. Es sagte mir nur nicht das, das ich wissen musste.should have asked about but didn't. I had a situation in March where Codex generated a perfectly functional database migration script that would have caused a silent data loss issue on a Postgres 14 database because of how it handled DEFAULT values on existing columns. It did exactly what I asked. It just didn't tell me the thing I needed to know.

Das ist ein bedeutsamer Unterschied beim Vertrauen.

---

Cursor: Das Tool, das ich täglich wirklich nutze

Ich bin ehrlich -- Cursor ist das Tool, das ich zuerst öffne. Nicht, weil es in irgendeinem abstrakten Sinne das "Beste" ist, sondern weil es dort existiert, wo ich arbeite. Die VS Code-Grundlage bedeutet Null Context-Switching. Meine Extensions sind dort. Meine Keybindings sind dort. Das Farbschema, das ich seit 2019 verwende (One Dark Pro, falls du es wissen möchtest), ist dort.

Die In-Editor-Erfahrung

Cursors Tab-Completion ist wirklich unheimlich, wenn sie gut funktioniert. Letzten Monat gab es Phasen, in denen ich eine Funktion angefangen habe, zweimal Tab gedrückt habe, und die gesamte Implementierung war exakt das, was ich geschrieben hätte. Nicht ähnlich -- exakt. Das kommt vielleicht in 30% der Fälle vor. Die anderen 70% sind nützlich, aber nicht magisch. Was immer noch ein gutes Verhältnis ist.exactly. That happens maybe 30% of the time. The other 70% it's useful but not magical. Which is still a good ratio.

Das Cmd+K-Inline-Editing und das Chat-Panel in der Seitenleiste decken verschiedene Workflows ab, und ich schätze, dass Cursor dich nicht in einen Modus zwingt. Manchmal will ich eine Konversation über den Code führen. Manchmal will ich einfach nur diese eine Zeile reparieren. Das Tool lässt mich beides ohne Reibung tun.Cmd+K inline editing and the chat panel in the sidebar cover different workflows, and I appreciate that Cursor doesn't force you into one mode. Sometimes I want to have a conversation about the code. Sometimes I just want to fix this one line. The tool lets me do both without friction.

Wo es enttäuscht

Bei Tasks mit langem Kontext fängt Cursor an zu wackeln. Ich habe ihm eine Codebasis mit etwa 85.000 Zeilen Code gegeben -- einen großen WooCommerce-Build für einen britischen Einzelhändler -- und ihn gebeten, nachzuverfolgen, wie eine benutzerdefinierte Versandberechnung die Warenkorbsummen über drei verschiedene Plugin-Interaktionen hinweg beeinflusste. Es war verwirrt. Gab mir selbstbewusst klingende Antworten, die falsch waren, welche Datei was tat.

Claude Code hat die gleiche Aufgabe besser bewältigt. Hat länger gedauert. Aber hat es richtig gemacht.

Es gibt auch die Frage nach dem zugrunde liegenden Modell. Cursor lässt dich zwischen Claude, GPT-4o und anderen wählen, was nützlich ist -- aber das Standard-Modell "Cursor Tab" für Autocomplete ist sein eigenes trainiertes Modell, und es ist nicht immer klar, was man bekommt oder warum es einen bestimmten Vorschlag gemacht hat. Da gibt es etwas Undurchsichtigkeit, die ich bei Kundenarbeit lieber nicht hätte.

---

Kopf-an-Kopf: Die Aufgabenzergliederung

Nach sechs Monaten würde ich jedes Tool bei den Aufgabentypen, die mir wirklich wichtig sind, ungefähr so bewerten:

Legacy-Code-Umgestaltung (PHP, älteres JS):

Claude Code: am besten. Erkennt Dinge, die du gar nicht gefragt hast.
Cursor: gut. Schneller, etwas weniger gründlich.
Codex: ok, wenn dein Prompt präzise ist.

Neue Komponenten von Grund auf schreiben:

Cursor: am besten. Der Editor-Workflow ist schneller.
Claude Code: stark, leicht langsamer.
Codex: solide für Boilerplate.

Debuggen von intermittierenden oder Logikfehlern:

Claude Code: am besten. Die Reasoningkette ist sichtbar und meist korrekt.
Cursor: ordentlich für offensichtliche Bugs.
Codex: schwächste Option hier. Zu wörtlich, wenn du Nuance brauchst.

DevOps / Scripting / Automatisierung:

Codex CLI: am besten für terminalgesteuerte Arbeit.
Claude Code: stark.
Cursor: nicht das richtige Werkzeug dafür.

Team-Lesbarkeit (Code, den ein Junior verstehen kann):

Claude Code: mit Abstand das Beste.
Cursor: variiert je nach Modell.
Codex: prägnant.

---

Die Kostenrealität, über die niemand ehrlich spricht

Drei Tools über sechs Monate zu betreiben kostet echtes Geld. Hier ist ungefähr, was ich ausgegeben habe:

Cursor Pro -- 20 £/Monat. Das Cap für schnelle Anfragen (500/Monat im Standard-Plan) wird an schweren Tagen überraschend schnell erreicht. -- $20/month. The fast requests cap (500/month on the standard tier) gets hit surprisingly quickly on heavy days.
Claude API (für Claude Code) -- variierte zwischen 180 £ und 340 £/Monat je nach Projektintensität. -- varied between £180 and £340/month depending on project intensity.
OpenAI API (für Codex CLI) -- etwa 90-120 £/Monat bei meinem Nutzungslevel. -- around £90-£120/month at my usage level.

Das sind irgendwo zwischen 300 und 500 £ pro Monat für Tools. Für einen Solo-Freelancer ist das ein echter Posten. Für eine Agentur, die Kundenarbeit abrechnet, ist es leichter zu verkraften -- aber du musst es tatsächlich nachverfolgbar und berücksichtigen, was überraschend viele Menschen nicht tun.

Die ehrliche ROI-Rechnung für mich: Ich schätze, dass diese Tools mir 10-15 Stunden pro Monat an abrechnungsäquivalenter Zeit sparen. Nach meinem Satz ist das erheblich mehr wert als 500 £. Aber die Rechnung geht nur auf, wenn man diszipliniert ist, wofür man die eingesparte Zeit nutzt. Wenn du die gesparte Zeit einfach nur nutzt, um auf Hacker News zu scrollen, ist die ROI null.

Es gibt anständige Analysen von Dritten zu den Preismodellen von KI-Developer-Tools auf der Website des Pragmatic Engineer, wenn du tiefer in die Ökonomie einsteigen willst.AI developer tool pricing models over at the Pragmatic Engineer if you want to go deeper on the economics.

---

Was ich an meiner Arbeitsweise geändert habe

Ein paar konkrete Dinge, die sich nach diesem Experiment verschoben haben:

Ich habe damit aufgehört, diese Tools als Autocomplete-Engines zu behandeln, und bin dazu übergegangen, sie als First-Pass-Reviewer zu nutzen. Code schreiben. Dann das Tool fragen, was ich übersehen habe.
Ich nutze Claude Code für alles, bei dem ich unsicher bin, und Cursor für alles, bei dem ich mir sicher bin, aber einfach schneller vorankommen will.uncertain about and Cursor for anything I'm confident about but just want to go faster on.
Ich habe bessere Prompts geschrieben, indem ich sie wie Tickets behandelt habe. Kontext, Einschränkungen, erwartete Ausgabe. Simon Wilsons Schreiben über Prompting hat meine Sichtweise darauf verändert.Simon Willison's writing on prompting changed how I think about this.
Ich überprüfe jeden einzelnen von KI generierten Code, bevor er in einen PR geht. Nicht weil ich den Tools nicht traue, sondern weil das eine Mal, als ich es nicht tat -- ein Cursor-Vorschlag im November, der eine subtile Race Condition in einem Node.js-Handler einführte -- mich zwei Stunden Debugging gekostet hat.

Dieser letzte Punkt ist wichtig. Diese Tools sind schnell und oft richtig. Sie haben nicht immer recht. Die professionelle Verpflichtung zur Überprüfung bleibt bestehen.

---

FAQ

Welches Tool ist das beste für einen Freelancer, der gerade mit KI-Coding-Tools anfängt?

Cursor, ohne zu zögern. Der Preis von 20 $ pro Monat ist angemessen, die VS Code Integration bedeutet keine Lernkurve für die Umgebung, und die Qualität ist hoch genug, dass du schon in der ersten Woche echte Produktivitätssteigerungen sehen wirst. Fang dort an. Später kannst du dich noch umsehen.

Kann ich Claude Code nutzen, ohne ein intensiver API-Nutzer zu sein?

Ja, aber die Wirtschaftlichkeit verschiebt sich. Wenn du es über Claude.ais Pro-Plan (20 $ pro Monat) statt über die reine API nutzt, bekommst du Zugang zu Claude Code mit einer Nutzungsobergrenze. Das ist eine vorhersagbarere Kostenstelle. Die API-Route gibt dir mehr Kontrolle, erfordert aber, dass du deine Ausgaben sorgfältig im Blick behältst.

Lohnt sich Codex 2025 noch, angesichts der ganzen Aufmerksamkeit, die GPT-4o bekommt?

Für terminalbasierte und automatisierungslastige Workflows, ja. Es wird für Scripting und CI/CD-Arbeit speziell unterschätzt. Wenn deine Arbeit hauptsächlich im Editor ist, kannst du es auslassen. Aber wenn du echte Zeit im Terminal verbringst -- und viele Backend-Entwickler tun das -- verdient die Codex CLI einen Blick.Codex CLI deserves a look.

Verstehen diese Tools wirklich große Codebasen?

Teilweise. Claude Code verarbeitet derzeit große Context Windows besser als die anderen – Anthropic veröffentlicht die technischen Spezifikationen, wenn du die Details brauchst. Aber „verstehen" ist großzügig ausgedrückt. Sie reasoning gut innerhalb dessen, was sie sehen können. Die Disziplin, deinen Codebase lesbar und gut dokumentiert zu halten, ist mit AI-Tools wichtiger als ohne – nicht weniger.context window specs if you want the technical detail. But "understanding" is generous. They reason well within what they can see. The discipline of keeping your codebase readable and well-documented matters more with AI tools than without them, not less.

Werden AI-Coding-Tools Entwickler ersetzen?

Nicht die, die ich kenne. Was sie ersetzen, ist die aufmerksamkeitsarme Arbeit – Boilerplate, offensichtliche Refactorings, sich wiederholende Pattern-Anwendungen. Was sie nicht ersetzen, ist zu wissen, warum du etwas baust, ob die Architektur sinnvoll ist, und was der Client tatsächlich braucht versus was er gefragt hat. Diese Urteilslücke ist da, wo der Job noch lebt.why you're building a thing,whether the architecture makes sense, and what the client actually needs versus what they asked for. That judgment gap is where the job still lives.

---

Nach sechs Monaten ist meine Meinung wahrscheinlich nicht das, was du erwartet hast: Ich denke nicht, dass es einen Gewinner gibt. Es gibt das richtige Tool, je nachdem, was du in einer gegebenen Stunde machst. Die Entwickler, die das meiste aus dieser Ära herausholen, sind diejenigen, die neugierig auf die Tools bleiben, ihr kritisches Denken eingeschaltet lassen und das Urteil nicht outsourcen – nur die Routinearbeit.

Das war schon immer so. Es ist nur offensichtlicher jetzt.

Pick your view

Claude Code vs Codex vs Cursor: Ehrliche Bewertung nach 6 Monaten