Hace seis meses tomé una decisión en la que aún pienso. Le dije al equipo de Seahawk que íbamos a comprometernos adecuadamente con asistentes de codificación con IA -- no experimentar, no elegir solo las victorias fáciles, sino realmente encaminar trabajo real de clientes a través de estas herramientas y medir qué pasaba. Eso significaba horas facturables, repositorios en vivo e implementaciones en producción. No proyectos de juguete. No demostraciones de "construye una app de tareas".
Punto clave: Después de seis meses de uso diario, Claude Code gana trabajo de agencia en profundidad de contexto y herramientas, Cursor gana flujo dentro del editor, y Codex gana en completitud bruta; la mayoría de los equipos terminan emparejando dos.After six months daily, Claude Code wins agency work on context depth and tooling, Cursor wins in-editor flow, and Codex wins raw completion; most teams end up pairing two.
Doce mil sitios en nueve años te da un olfato bastante calibrado para distinguir qué es hype y qué es un cambio genuino. ¿Y honestamente? Este espacio es ambos a la vez, lo que es lo que hace tan molesto escribir sobre él.
Aquí está -- seis meses con Claude Code, OpenAI Codex (a través de la API y el Codex CLI más nuevo) y Cursor. Sin rankings, sin ganadores declarados antes de que ni siquiera hayamos empezado. Solo lo que encontré.Claude Code, OpenAI Codex (via the API and the newer Codex CLI), and Cursor. No rankings, no winners declared before we've even started. Just what I found.
---
Por Qué Ejecuté Los Tres Simultáneamente
La tentación es elegir uno y profundizar. Casi lo hago. En enero estaba listo para simplemente estandarizar en Cursor porque la integración con VS Code parecía el camino de menor resistencia. Luego un cliente -- un fundador de SaaS en Manchester construyendo un dashboard de logística interna -- me entregó un backend pesado en Python que era genuinamente opaco, y las sugerencias de Cursor seguían perdiendo contexto que vivía tres archivos más allá.
Fue entonces cuando decidí que el único método de evaluación honesto era ejecutar las mismas categorías de tareas a través de cada herramienta en paralelo. No el mismo prompt exacto, porque eso es artificial, pero el mismo tipo de trabajo: refactorizar PHP legacy, escribir nuevos componentes React a partir de especificaciones de Figma, debuggear errores intermitentes de API, y generar cobertura de tests para funciones existentes.type of work: refactoring legacy PHP, writing new React components from Figma specs, debugging intermittent API errors, and generating test coverage for existing functions.
Los resultados me sorprendieron de formas que no esperaba.
---
Claude Code: Asombrosamente Bueno en Contexto, Más Lento de lo que me Gustaría
Déjame ser directo. Claude Code es el más reflexivo de los tres. Esa palabra suena vaga, así que déjame hacerlo concreto.thoughtful of the three. That word sounds vague, so let me make it concrete.
Cuando le pasé un plugin de WordPress de 400 líneas que escribí en 2021 -- en la época en que hacía cosas que ahora considero vergonzosas, como almacenar opciones directamente en $_POST sin sanitización -- no solo corrigió los problemas obvios. Señaló el patrón arquitectónico, explicó por qué el enfoque era frágil, y ofreció una versión refactorizada que preservaba el comportamiento exacto mientras cerraba los vacíos de seguridad. Cursor hizo la mitad de eso. Codex básicamente me dio una versión más limpia del mismo patrón malo.WordPress plugin I'd written in 2021 -- back when I was doing things I now consider embarrassing, like storing options directly in$_POST without sanitisation -- it didn't just fix the obvious issues. It flagged the architectural pattern, explained why the approach was fragile, and offered a refactored version that preserved the exact behaviour while fixing the security gaps. Cursor did half of that. Codex basically gave me a cleaner version of the same bad pattern.
Dónde Destaca
El razonamiento de contexto largo es real. Puedes pegar un árbol de componentes completo, describir un error tres capas más abajo, y Claude Code rastreará el hilo sin perderlo. Para trabajo de agencia donde regularmente heredas el caos de otras personas, eso no es algo menor.
También escribe explicaciones bien. Cuando un junior en mi equipo no entiende por qué un refactor funciona de cierta manera, la salida de Claude Code tiende a enseñar. Eso tiene valor real cuando estás intentando mejorar un equipo pequeño.explanations well. When a junior on my team doesn't understand why a refactor works a certain way, Claude Code's output tends to teach. That has actual value when you're trying to level up a small team.
Dónde Frustra
Velocidad. Las respuestas son más lentas que el autocompletado en el editor de Cursor, lo que no es una comparación justa -- son modelos de interacción diferentes -- pero cuando estás en flujo, esperar tres a cinco segundos por una respuesta rompe algo.
El precio también es una conversación real. Con uso intenso, los costos de API se acumulan más rápido de lo que esperarías. Gasté alrededor de £340 en llamadas a la API de Claude solo en febrero, entre proyectos de clientes. No es ruinoso, pero tiene que ir a la factura en algún lado.
---
OpenAI Codex: El Que Todos Olvidan
Lo que pasa con Codex es que la gente habla menos de él ahora que ChatGPT y GPT-4o acaparan toda la atención, pero el Codex CLI que OpenAI lanzó en 2025 es genuinamente interesante para flujos de trabajo nativos de terminal.Codex CLI that OpenAI shipped in 2025 is genuinely interesting for terminal-native workflows.
Lo usé intensamente en un proyecto para un cliente fintech (no puedo nombrarlo, NDA, cosas estándar) donde toda la base de código vivía en un monorepo y estábamos haciendo mucho trabajo en la terminal en lugar de un editor. Poder ejecutar codex inline con contexto de shell, tener que lea archivos directamente, y ejecute comandos en un entorno aislado se sintió diferente de la interacción estilo chat de las otras herramientas.codex inline with shell context, have it read files directly, and execute commands in a sandboxed environment felt different from the chat-style interaction of the other tools.
Dónde Destaca Codex
Tareas de automatización. Scripts de Bash. Escribir workflows de GitHub Actions. Generar boilerplate que sigue un patrón estricto. Para ese proyecto fintech, hice que Codex generara aproximadamente el 60% del YAML de la tubería CI/CD, y fue lo suficientemente limpio como para que solo hiciera ediciones menores.
También es el más literal de los tres. Si le das una especificación precisa, la sigue. Sin editoriales, sin "aquí hay un mejor enfoque" -- solo lo hace. A veces eso es exactamente lo que quieres.literal of the three. If you give it a precise spec, it follows it. No editorialising, no "here's a better approach" -- it just does the thing. Sometimes that's exactly what you want.
Dónde Se Queda Corto
El reverso de literal es frágil. Prompts vagos producen código vago. Y a diferencia de Claude Code, no detecta confiablemente la cosa que deberías haber preguntado pero no lo hiciste. Tuve una situación en marzo donde Codex generó un script de migración de base de datos perfectamente funcional que hubiera causado un problema de pérdida de datos silenciosa en una base de datos Postgres 14 debido a cómo manejaba valores DEFAULT en columnas existentes. Hizo exactamente lo que pedí. Solo que no me dijo la cosa que necesitaba saber.should have asked about but didn't. I had a situation in March where Codex generated a perfectly functional database migration script that would have caused a silent data loss issue on a Postgres 14 database because of how it handled DEFAULT values on existing columns. It did exactly what I asked. It just didn't tell me the thing I needed to know.
Esa es una diferencia significativa en confianza.
---
Cursor: La Que Realmente Uso Todos Los Días
Seré honesto -- Cursor es la herramienta que abro primero. No porque sea la "mejor" en algún sentido abstracto, sino porque vive donde trabajo. La base de VS Code significa cero cambio de contexto. Mis extensiones están ahí. Mis atajos de teclado están ahí. El tema de color que he estado usando desde 2019 (One Dark Pro, por si lo preguntas) está ahí.
La Experiencia En El Editor
El Tab completion de Cursor es genuinamente inquietante cuando funciona bien. Hubo momentos el mes pasado en los que iniciaba una función, presionaba Tab dos veces, y la implementación completa era exactamente lo que habría escrito. No similar -- exactamente. Eso sucede quizás el 30% de las veces. El otro 70% es útil pero no mágico. Lo que sigue siendo una buena proporción.exactly. That happens maybe 30% of the time. The other 70% it's useful but not magical. Which is still a good ratio.
El inline editing con Cmd+K y el panel de chat en la sidebar cubren workflows diferentes, y aprecio que Cursor no te fuerce a un modo. A veces quiero tener una conversación sobre el código. A veces solo quiero arreglar esta línea. La herramienta me permite hacer ambas cosas sin fricción.Cmd+K inline editing and the chat panel in the sidebar cover different workflows, and I appreciate that Cursor doesn't force you into one mode. Sometimes I want to have a conversation about the code. Sometimes I just want to fix this one line. The tool lets me do both without friction.
Dónde Decepciona
Las tareas de contexto largo son donde Cursor comienza a tambalearse. Le di una base de código con aproximadamente 85,000 líneas de código — una construcción WooCommerce grande para un minorista del Reino Unido — y le pedí que rastreara cómo un cálculo de envío personalizado estaba afectando los totales del carrito en tres interacciones de complementos diferentes. Se confundió. Me dio respuestas que sonaban seguras pero eran incorrectas sobre cuál archivo estaba haciendo qué.
Claude Code manejó la misma tarea mejor. Tomó más tiempo. Pero acertó.
También está la cuestión del modelo subyacente. Cursor te permite elegir entre Claude, GPT-4o y otros, lo cual es útil — pero el modelo predeterminado "Cursor Tab" para autocompletar es su propio modelo entrenado, y no siempre es claro qué estás obteniendo o por qué hizo una sugerencia particular. Hay cierta opacidad que preferiría no tener en trabajo de clientes.
---
Frente a Frente: El Desglose de Tareas
Después de seis meses, así es como aproximadamente calificaría cada herramienta en los tipos de tareas que realmente me importan:
Refactorización de código heredado (PHP, JS antiguo):
- Claude Code: la mejor. Detecta cosas que ni siquiera pediste.
- Cursor: buena. Más rápida, ligeramente menos exhaustiva.
- Codex: está bien si tu prompt es preciso.
Escribir componentes nuevos desde cero:
- Cursor: lo mejor. El flujo dentro del editor es más rápido.
- Claude Code: fuerte, ligeramente más lento.
- Codex: sólido para boilerplate.
Depuración de errores intermitentes o de lógica:
- Claude Code: lo mejor. La cadena de razonamiento es visible y generalmente correcta.
- Cursor: decente para errores obvios.
- Codex: lo más débil aquí. Demasiado literal cuando necesitas matices.
DevOps / scripting / automatización:
- Codex CLI: lo mejor para trabajo orientado a terminal.
- Claude Code: fuerte.
- Cursor: no es la herramienta adecuada para esto.
Legibilidad del equipo (código que un junior pueda entender):
- Claude Code: el mejor por una buena distancia.
- Cursor: varía según el modelo.
- Codex: conciso.
---
La realidad de costos que nadie discute con honestidad
Ejecutar tres herramientas durante seis meses cuesta dinero real. Aquí está aproximadamente lo que gasté:
- Cursor Pro — $20/mes. El límite de solicitudes rápidas (500/mes en el nivel estándar) se alcanza sorprendentemente rápido en días intensos. -- $20/month. The fast requests cap (500/month on the standard tier) gets hit surprisingly quickly on heavy days.
- Claude API (para Claude Code) — varió entre £180 y £340/mes dependiendo de la intensidad del proyecto. -- varied between £180 and £340/month depending on project intensity.
- OpenAI API (para Codex CLI) — alrededor de £90-£120/mes en mi nivel de uso. -- around £90-£120/month at my usage level.
Son entre £300 y £500 por mes en herramientas. Para un freelancer independiente, es una línea de costo real. Para una agencia que factura trabajo de clientes, se absorbe más fácilmente — pero tienes que rastrearlo y contabilizarlo realmente, lo cual una cantidad sorprendente de personas no hace.
El cálculo de ROI honesto para mí: estimo que estas herramientas me ahorran 10-15 horas por mes de tiempo equivalente a facturación. En mi tarifa, eso vale considerablemente más que £500. Pero las matemáticas solo funcionan si eres disciplinado sobre qué usas el tiempo ahorrado. Si solo usas el tiempo ahorrado para desplazarte por Hacker News, el ROI es cero.
Hay análisis de terceros decente sobre modelos de precios de herramientas de desarrollador de IA en Pragmatic Engineer si quieres profundizar en la economía.AI developer tool pricing models over at the Pragmatic Engineer if you want to go deeper on the economics.
---
Qué He Cambiado Sobre Cómo Trabajo
Algunas cosas concretas que cambiaron después de este experimento:
- Dejé de tratar estas herramientas como motores de autocompletado y comencé a tratarlas como un revisor de primer paso. Escribe el código. Luego pregúntale a la herramienta qué me falta.
- Uso Claude Code para cualquier cosa de la que no estoy seguro y Cursor para cualquier cosa de la que estoy seguro pero solo quiero ir más rápido.uncertain about and Cursor for anything I'm confident about but just want to go faster on.
- He empezado a escribir mejores prompts tratándolos como tickets. Contexto, restricciones, salida esperada. La escritura de Simon Willison sobre prompting cambió cómo pienso en esto.Simon Willison's writing on prompting changed how I think about this.
- Reviso cada pieza de código generado por IA antes de que vaya a un PR. No porque no confíe en las herramientas, sino porque la única vez que no lo hice — una sugerencia de Cursor en noviembre que introdujo una condición de carrera sutil en un manejador Node.js — me costó dos horas de depuración.
Ese último punto importa. Estas herramientas son rápidas y frecuentemente acertadas. No siempre acierten. La obligación profesional de revisar no desaparece.
---
FAQ
¿Cuál es la mejor herramienta para un freelancer que está empezando con herramientas de codificación por IA?
Cursor, sin dudarlo. El precio de $20/mes es razonable, la integración con VS Code significa sin curva de aprendizaje en el entorno, y la calidad es lo suficientemente alta como para que veas ganancias genuinas de productividad en la primera semana. Empieza ahí. Expande después.
¿Puedo usar Claude Code sin ser un usuario pesado de API?
Sí, aunque la economía cambia. Si lo usas a través del plan Pro de Claude.ai ($20/mes) en lugar de la API bruta, obtienes acceso a Claude Code con un límite de uso. Ese es un costo más predecible. La ruta de API te da más control pero requiere que rastrees el gasto cuidadosamente.
¿Vale la pena seguir usando Codex en 2025 dado cuánta atención recibe GPT-4o?
Para flujos de trabajo nativos de terminal y automatización pesada, sí. Está subestimado para scripts y trabajo de CI/CD específicamente. Si tu trabajo es principalmente en un editor, puedes saltarte esto. Pero si pasas tiempo real en la terminal — y muchos desarrolladores de backend lo hacen — Codex CLI merece una oportunidad.Codex CLI deserves a look.
¿Estas herramientas realmente entienden bases de código grandes?
Parcialmente. Claude Code maneja mejor las ventanas de contexto grande que los otros ahora — Anthropic publica sus especificaciones de ventana de contexto si quieres el detalle técnico. Pero "entender" es generoso. Razonan bien dentro de lo que pueden ver. La disciplina de mantener tu base de código legible y bien documentada importa más con herramientas de IA que sin ellas, no menos.context window specs if you want the technical detail. But "understanding" is generous. They reason well within what they can see. The discipline of keeping your codebase readable and well-documented matters more with AI tools than without them, not less.
¿Las herramientas de codificación de IA reemplazarán a los desarrolladores?
No los que yo conozco. Lo que reemplazan es el trabajo de baja atención -- código repetitivo, refactorizaciones obvias, aplicación de patrones repetitivos. Lo que no reemplazan es saber por qué estás construyendo algo, si la arquitectura tiene sentido, y qué es lo que el cliente realmente necesita versus lo que pidió. Esa brecha de criterio es donde el trabajo todavía vive.why you're building a thing,whether the architecture makes sense, and what the client actually needs versus what they asked for. That judgment gap is where the job still lives.
---
Seis meses después, mi opinión probablemente no es la que esperabas: no creo que haya un ganador. Hay una herramienta correcta dependiendo de qué estés haciendo en una hora determinada. Los desarrolladores que sacarán más provecho de esta era son los que se mantienen curiosos sobre las herramientas, mantienen su pensamiento crítico activo, y no externalizan el criterio -- solo el trabajo manual.
Eso siempre ha sido cierto. Solo es más obvio ahora.
