Seis meses atrás tomei uma decisão em que ainda penso. Disse ao time da Seahawk Media que íamos nos comprometer de verdade com assistentes de codificação com IA -- não apenas testar, não selecionar apenas as vitórias fáceis, mas de fato rotear trabalho real de clientes por essas ferramentas e medir o que acontecia. Isso significava horas faturáveis, repositórios em produção e deployments reais. Não projetos brinquedo. Não demos de "construa um app de tarefas".
Conclusão principal: Depois de seis meses diários, Claude Code vence em trabalho de agência pela profundidade de contexto e ferramentas, Cursor vence em fluxo dentro do editor, e Codex vence em completações puras; a maioria dos times acaba usando dois em conjunto.After six months daily, Claude Code wins agency work on context depth and tooling, Cursor wins in-editor flow, and Codex wins raw completion; most teams end up pairing two.
Doze mil sites ao longo de nove anos te dão um olfato bem calibrado para distinguir o que é hype e o que é uma mudança genuína. E honestamente? Esse espaço é os dois ao mesmo tempo, o que é o que torna escrever sobre isso tão irritante.
Então aqui está -- seis meses com Claude Code, OpenAI Codex (via API e o novo Codex CLI), e Cursor. Sem rankings, sem vencedores declarados antes de sequer começarmos. Só o que descobri.Claude Code, OpenAI Codex (via the API and the newer Codex CLI), and Cursor. No rankings, no winners declared before we've even started. Just what I found.
---
Por Que Executei Todos os Três Simultaneamente
A tentação é escolher um e aprofundar. Quase fiz isso. Em janeiro eu estava pronto para apenas padronizar em Cursor porque a integração com VS Code parecia o caminho de menor resistência. Aí um cliente -- um founder de SaaS em Manchester construindo um dashboard de logística interno -- me passou um backend pesado em Python que era genuinamente opaco, e as sugestões do Cursor ficavam perdendo contexto que vivia a três arquivos de distância.
Foi quando decidi que o único método honesto de avaliação era rodar as mesmas categorias de tarefas através de cada ferramenta em paralelo. Não o mesmo prompt exato, porque isso é artificial, mas o mesmo tipo de trabalho: refatorar PHP legado, escrever novos componentes React a partir de specs do Figma, debugar erros de API intermitentes, e gerar cobertura de testes para funções existentes.type of work: refactoring legacy PHP, writing new React components from Figma specs, debugging intermittent API errors, and generating test coverage for existing functions.
Os resultados me surpreenderam de formas que eu não esperava.
---
Claude Code: Assustadoramente Bom em Contexto, Mais Lento do que eu Gostaria
Deixa eu ser direto. Claude Code é o mais reflexivo dos três. Essa palavra soa vaga, então deixa eu tornar concreto.thoughtful of the three. That word sounds vague, so let me make it concrete.
Quando passei para ele um plugin WordPress de 400 linhas que escrevi em 2021 -- quando eu fazia coisas que agora considero embaraçosas, como armazenar opções direto do $_POST sem sanitização -- ele não apenas corrigiu os problemas óbvios. Sinalizou o padrão arquitetural, explicou por que a abordagem era frágil, e ofereceu uma versão refatorada que preservava o comportamento exato enquanto fechava as brechas de segurança. Cursor fez metade disso. Codex basicamente me deu uma versão mais limpa do mesmo padrão ruim.WordPress plugin I'd written in 2021 -- back when I was doing things I now consider embarrassing, like storing options directly in$_POST without sanitisation -- it didn't just fix the obvious issues. It flagged the architectural pattern, explained why the approach was fragile, and offered a refactored version that preserved the exact behaviour while fixing the security gaps. Cursor did half of that. Codex basically gave me a cleaner version of the same bad pattern.
Onde Vence
O raciocínio de longo contexto é real. Você pode colar uma árvore de componentes completa, descrever um bug três camadas abaixo, e Claude Code vai acompanhar o fio sem perder. Para trabalho de agência onde você regularmente herda o caos de outras pessoas, isso não é pouca coisa.
Ele também escreve explicações bem. Quando um júnior no meu time não entende por que uma refatoração funciona de um certo jeito, o output do Claude Code tende a ensinar. Isso tem valor real quando você está tentando elevar o nível de um time pequeno.explanations well. When a junior on my team doesn't understand why a refactor works a certain way, Claude Code's output tends to teach. That has actual value when you're trying to level up a small team.
Onde Causa Frustração
Velocidade. As respostas são mais lentas do que o autocomplete dentro do editor do Cursor, o que não é uma comparação justa -- são modelos de interação diferentes -- mas quando você está em fluxo, esperar três a cinco segundos por uma resposta quebra algo.
Preço também é uma conversa real. Com uso intenso, os custos da API se acumulam mais rápido do que você esperaria. Rodei cerca de £340 em chamadas da Claude API só em fevereiro, distribuídos entre projetos de clientes. Não é ruinoso, mas precisa entrar na fatura em algum lugar.
---
OpenAI Codex: O que Todo Mundo Esquece
A coisa com Codex -- as pessoas falam menos sobre isso agora que ChatGPT e GPT-4o ganham toda a atenção, mas o Codex CLI que OpenAI lançou em 2025 é genuinamente interessante para workflows nativos do terminal.Codex CLI that OpenAI shipped in 2025 is genuinely interesting for terminal-native workflows.
Usei pesadamente em um projeto para um cliente fintech (não posso nomear, NDA, coisa padrão) onde todo o codebase vivia em um monorepo e estávamos fazendo muito trabalho no terminal em vez de um editor. Conseguir rodar codex inline com contexto de shell, ter ele lendo arquivos diretamente, e executar comandos em um ambiente sandboxed se sentiu diferente da interação no estilo chat das outras ferramentas.codex inline with shell context, have it read files directly, and execute commands in a sandboxed environment felt different from the chat-style interaction of the other tools.
Onde Codex se Destaca
Tarefas de automação. Shell scripting. Escrever workflows do GitHub Actions. Gerar boilerplate que segue um padrão rígido. Para aquele projeto fintech, tive Codex gerando aproximadamente 60% do YAML da pipeline de CI/CD, e estava limpo o suficiente para eu fazer apenas pequenas edições.
É também o mais literal dos três. Se você der a ele uma especificação precisa, ele segue. Sem editorializar, sem "aqui está uma abordagem melhor" -- ele apenas faz a coisa. Às vezes é exatamente o que você quer.literal of the three. If you give it a precise spec, it follows it. No editorialising, no "here's a better approach" -- it just does the thing. Sometimes that's exactly what you want.
Onde Fica Curto
O outro lado da literal é frágil. Prompts vagos produzem código vago. E diferente de Claude Code, ela não captura confiável a coisa que você deveria ter perguntado mas não perguntou. Tive uma situação em março onde Codex gerou um script de migração de banco de dados perfeitamente funcional que teria causado um problema silencioso de perda de dados em um banco Postgres 14 por causa de como ela lidava com valores DEFAULT em colunas existentes. Ela fez exatamente o que pedi. Só não me disse a coisa que eu precisava saber.should have asked about but didn't. I had a situation in March where Codex generated a perfectly functional database migration script that would have caused a silent data loss issue on a Postgres 14 database because of how it handled DEFAULT values on existing columns. It did exactly what I asked. It just didn't tell me the thing I needed to know.
Essa é uma diferença significativa em confiança.
---
Cursor: A Que Eu Realmente Uso Todo Dia
Vou ser honesto -- Cursor é a ferramenta que abro primeiro. Não porque é a "melhor" em algum sentido abstrato, mas porque ela vive onde trabalho. A fundação VS Code significa zero troca de contexto. Minhas extensões estão lá. Minhas combinações de teclas estão lá. O tema de cores que uso desde 2019 (One Dark Pro, se estiver curioso) está lá.
A Experiência No Editor
O Tab completion do Cursor é genuinamente perturbador quando está funcionando bem. Houve momentos no mês passado em que eu começava uma função, pressionava Tab duas vezes, e a implementação inteira era exatamente o que eu teria escrito. Não similar -- exatamente. Isso acontece talvez 30% das vezes. Os outros 70% é útil mas não mágico. O que continua sendo uma boa proporção.exactly. That happens maybe 30% of the time. The other 70% it's useful but not magical. Which is still a good ratio.
O inline editing Cmd+K e o painel de chat na sidebar cobrem workflows diferentes, e aprecio que Cursor não force você em um modo. Às vezes quero ter uma conversa sobre o código. Às vezes só quero corrigir essa uma linha. A ferramenta me deixa fazer ambos sem atrito.Cmd+K inline editing and the chat panel in the sidebar cover different workflows, and I appreciate that Cursor doesn't force you into one mode. Sometimes I want to have a conversation about the code. Sometimes I just want to fix this one line. The tool lets me do both without friction.
Onde Desaponta
Tarefas de contexto longo são onde o Cursor começa a vacilar. Dei a ele uma base de código com cerca de 85 mil linhas -- uma build grande de WooCommerce para um varejista do Reino Unido -- e pedi para rastrear como um cálculo de envio customizado estava afetando totais do carrinho em três interações diferentes de plugins. Ele se confundiu. Me deu respostas que soavam confiantes mas estavam erradas sobre qual arquivo estava fazendo o quê.
Claude Code lidou melhor com a mesma tarefa. Levou mais tempo. Mas acertou.
Há também a questão do modelo subjacente. O Cursor permite que você escolha entre Claude, GPT-4o, e outros, o que é útil -- mas o modelo padrão "Cursor Tab" para autocompletar é seu próprio modelo treinado, e nem sempre fica claro o que você está recebendo ou por que fez uma sugestão particular. Tem uma opacidade aí que eu preferiria não ter em trabalho com clientes.
---
Cara a Cara: A Análise das Tarefas
Após seis meses, é assim que eu classificaria cada ferramenta entre os tipos de tarefa que realmente me importam:
Refatoração de código legado (PHP, JS mais antigo):
- Claude Code: o melhor. Detecta coisas que você nem pediu.
- Cursor: bom. Mais rápido, ligeiramente menos completo.
- Codex: funciona bem se seu prompt for preciso.
Escrevendo novos componentes do zero:
- Cursor: o melhor. O fluxo no editor é mais rápido.
- Claude Code: forte, um pouco mais lento.
- Codex: sólido para boilerplate.
Debugando erros intermitentes ou de lógica:
- Claude Code: o melhor. A cadeia de raciocínio é visível e geralmente correta.
- Cursor: decente para bugs óbvios.
- Codex: o mais fraco aqui. Muito literal quando você precisa de nuance.
DevOps / scripting / automação:
- Codex CLI: o melhor para trabalho orientado pelo terminal.
- Claude Code: forte.
- Cursor: não é a ferramenta certa para isso.
Legibilidade do código em equipe (código que um junior consegue entender):
- Claude Code: o melhor por uma margem considerável.
- Cursor: varia conforme o modelo.
- Codex: conciso.
---
A Realidade do Custo que Ninguém Fala Honestamente
Rodar três ferramentas por seis meses custa dinheiro de verdade. Aqui está o que gastei aproximadamente:
- Cursor Pro -- £20/mês. O limite de requisições rápidas (500/mês no tier padrão) é atingido surpreendentemente rápido em dias intensos. -- $20/month. The fast requests cap (500/month on the standard tier) gets hit surprisingly quickly on heavy days.
- Claude API (para Claude Code) -- variou entre £180 e £340/mês dependendo da intensidade do projeto. -- varied between £180 and £340/month depending on project intensity.
- OpenAI API (para Codex CLI) -- cerca de £90-£120/mês no meu nível de uso. -- around £90-£120/month at my usage level.
Isso fica em algum lugar entre £300 e £500 por mês em ferramentas. Para um freelancer solo, é uma linha real no orçamento. Para uma agência faturando trabalho de cliente, é mais fácil de absorver -- mas você tem que de fato rastrear e contabilizar, o que um número surpreendente de pessoas não faz.
O cálculo honesto de ROI para mim: estimo que essas ferramentas economizam 10-15 horas por mês de tempo equivalente faturável. Na minha taxa, isso vale consideravelmente mais que £500. Mas a matemática só funciona se você é disciplinado sobre o que usa o tempo economizado. Se você apenas usa o tempo economizado para scrollar Hacker News, o ROI é zero.
Há uma análise decente de terceiros sobre modelos de preços de ferramentas de desenvolvedor com IA no Pragmatic Engineer se você quiser se aprofundar na economia.AI developer tool pricing models over at the Pragmatic Engineer if you want to go deeper on the economics.
---
O Que Mudei Sobre Como Trabalho
Algumas coisas concretas que mudaram depois desse experimento:
- Parei de tratar essas ferramentas como mecanismos de autocompletar e comecei a tratá-las como um revisor de primeira passagem. Escrevo o código. Depois peço à ferramenta o que perdi.
- Uso Claude Code para qualquer coisa em que tenho incerteza e Cursor para qualquer coisa em que tenho confiança mas só quero ir mais rápido.uncertain about and Cursor for anything I'm confident about but just want to go faster on.
- Comecei a escrever prompts melhores tratando-os como tickets. Contexto, restrições, output esperado. A escrita de Simon Willison sobre prompting mudou como penso sobre isso.Simon Willison's writing on prompting changed how I think about this.
- Eu reviso cada pedaço de código gerado por IA antes de ir para uma PR. Não porque eu não confio nas ferramentas, mas porque na única vez que não fiz -- uma sugestão do Cursor em novembro que introduziu uma condição de corrida sutil em um handler Node.js -- me custou duas horas de debugging.
Esse último ponto importa. Essas ferramentas são rápidas e frequentemente certas. Elas nem sempre estão certas. A obrigação profissional de revisar não desaparece.
---
FAQ
Qual ferramenta é a melhor para um freelancer começando com ferramentas de IA para coding?
Cursor, sem hesitação. O preço de $20/mês é razoável, a integração com VS Code significa nenhuma curva de aprendizado no ambiente, e a qualidade é alta o suficiente para você ver ganhos reais de produtividade na primeira semana. Comece lá. Explore outras depois.
Posso usar Claude Code sem ser um usuário pesado de API?
Sim, embora a economia mude. Se você usar através do plano Pro do Claude.ai ($20/mês) em vez da API bruta, você tem acesso a Claude Code com um limite de uso. Esse é um custo mais previsível. A rota da API te dá mais controle mas requer que você acompanhe o gasto cuidadosamente.
Vale a pena usar Codex ainda em 2025 dado quanto de atenção GPT-4o recebe?
Para workflows nativos de terminal e pesados em automação, sim. É subestimado para trabalho de scripting e CI/CD especificamente. Se seu trabalho é principalmente em um editor, você pode pular. Mas se você passa tempo real no terminal -- e muitos devs de backend fazem -- o Codex CLI merece uma olhada.Codex CLI deserves a look.
Essas ferramentas realmente entendem grandes bases de código?
Parcialmente. Claude Code lida melhor com janelas de contexto grande por enquanto — Anthropic publica as especificações da janela de contexto deles se você quiser o detalhe técnico. Mas "compreensão" é generoso. Eles raciocinam bem dentro do que conseguem ver. A disciplina de manter sua base de código legível e bem documentada importa mais com ferramentas de IA do que sem elas, não menos.context window specs if you want the technical detail. But "understanding" is generous. They reason well within what they can see. The discipline of keeping your codebase readable and well-documented matters more with AI tools than without them, not less.
Ferramentas de IA para código vão substituir desenvolvedores?
Não os que conheço. O que eles substituem é o trabalho de baixa atenção — boilerplate, refatorações óbvias, aplicação de padrões repetitivos. O que eles não substituem é saber por que você está construindo uma coisa, se a arquitetura faz sentido, e o que o cliente realmente precisa versus o que pediu. Essa lacuna de julgamento é onde o trabalho ainda vive.why you're building a thing,whether the architecture makes sense, and what the client actually needs versus what they asked for. That judgment gap is where the job still lives.
---
Seis meses dentro, minha opinião provavelmente não é a que você esperava: eu não acho que há um vencedor. Há uma ferramenta certa dependendo do que você está fazendo em uma dada hora. Os desenvolvedores que vão tirar mais proveito desta era são aqueles que mantêm a curiosidade sobre as ferramentas, mantêm o pensamento crítico ligado, e não terceirizam o julgamento — apenas o trabalho pesado.
Isso sempre foi verdade. É só mais óbvio agora.
