六个月前我做了一个决定,我现在仍然经常想起。我告诉Seahawk团队我们将正式承诺使用AI编码助手——不是浅尝,不是挑选容易的任务,而是真正将实际客户工作通过这些工具进行处理并衡量结果。这意味着计费工时、实时仓库和生产部署。不是玩具项目。不是"给我建一个待办清单应用"的演示。
关键要点:在六个月的日常使用后,Claude Code在上下文深度和工具方面赢得了代理工作,Cursor在编辑器内工作流中获胜,Codex在原始完成度上获胜;大多数团队最终会配对两个工具。After six months daily, Claude Code wins agency work on context depth and tooling, Cursor wins in-editor flow, and Codex wins raw completion; most teams end up pairing two.
九年来部署的一万二千个网站让你有相当敏锐的嗅觉去分辨什么是炒作、什么是真正的转变。说实话?这个领域两者都有,这就是为什么写这个话题这么烦人。
所以就是这样——六个月使用Claude Code、OpenAI Codex(通过API和较新的Codex CLI)和Cursor。没有排名,在我们开始之前没有宣布获胜者。只是我发现的内容。Claude Code, OpenAI Codex (via the API and the newer Codex CLI), and Cursor. No rankings, no winners declared before we've even started. Just what I found.
---
为什么我同时运行所有三个工具
诱惑是选择一个并深入使用。我几乎就这样做了。回到一月,我准备好只在Cursor上标准化,因为VS Code集成看起来是最省力的方法。然后一个客户——一位在曼彻斯特建立内部物流仪表板的SaaS创始人——给了我一个真正不透明的Python后端,而Cursor的建议一直缺少三个文件之外的上下文。
那时我决定唯一诚实的评估方法是在每个工具中并行运行相同类别的任务。不是完全相同的提示词,因为那太人工了,但是同样类型的工作:重构遗留PHP代码、根据Figma规范编写新的React组件、调试间歇性API错误,以及为现有函数生成测试覆盖。type of work: refactoring legacy PHP, writing new React components from Figma specs, debugging intermittent API errors, and generating test coverage for existing functions.
结果以我没有预料到的方式让我感到惊讶。
---
Claude Code:对上下文的理解令人惊叹,但速度不如我所期望的快
让我直说。Claude Code是这三个中最周全的。这个词听起来很模糊,所以让我具体说明。thoughtful of the three. That word sounds vague, so let me make it concrete.
当我提供给它一个我在2021年写的400行WordPress插件时——那时我还在做现在认为令人尴尬的事情,比如直接从$_POST存储选项而不进行清理——它不仅修复了明显的问题。它标记了架构模式,解释了为什么这种方法是脆弱的,并提供了一个重构的版本,保留了完全相同的行为同时修复了安全漏洞。Cursor做了其中的一半。Codex基本上给了我同一个不良模式的更清洁版本。WordPress plugin I'd written in 2021 -- back when I was doing things I now consider embarrassing, like storing options directly in$_POST without sanitisation -- it didn't just fix the obvious issues. It flagged the architectural pattern, explained why the approach was fragile, and offered a refactored version that preserved the exact behaviour while fixing the security gaps. Cursor did half of that. Codex basically gave me a cleaner version of the same bad pattern.
它的优势在哪里
长上下文推理是真实的。你可以粘贴整个组件树,描述三层深的错误,Claude Code 会追踪线索而不会丢失它。对于你经常继承他人混乱代码的代理工作来说,这不是小事。
它的解释文字也写得很好。当我团队的初级成员不理解为什么重构以某种方式工作时,Claude Code的输出往往具有教育意义。在你试图提升小团队水平时,这有实际价值。explanations well. When a junior on my team doesn't understand why a refactor works a certain way, Claude Code's output tends to teach. That has actual value when you're trying to level up a small team.
它让人沮丧的地方
速度。响应速度比Cursor的编辑器内自动完成慢,这不是公平的比较——它们是不同的交互模型——但当你处于流状态时,等待三到五秒的回复会破坏某些东西。
定价也是一个真实的问题。在高使用量情况下,API 成本的增长速度比你预期的要快。仅在二月份,我就在 Claude API 调用上花费了约 340 英镑,跨越多个客户项目。这不是毁灭性的,但需要在某处计入发票。
---
OpenAI Codex:被遗忘的那个
Codex的事是这样的——人们现在谈论它较少,因为ChatGPT和GPT-4o获得了所有的关注,但OpenAI在2025年推出的Codex CLI对于终端原生工作流来说真的很有趣。Codex CLI that OpenAI shipped in 2025 is genuinely interesting for terminal-native workflows.
我在一个金融科技客户的项目上大量使用它(出于保密协议不能说是谁,标准stuff),整个代码库都在一个monorepo中,我们在终端而不是编辑器中做了很多工作。能够用shell上下文内联运行codex、让它直接读取文件,并在沙箱环境中执行命令感觉与其他工具的聊天式交互不同。codex inline with shell context, have it read files directly, and execute commands in a sandboxed environment felt different from the chat-style interaction of the other tools.
Codex 的闪光点
自动化任务。Bash 脚本。编写 GitHub Actions 工作流。生成遵循严格模式的样板代码。对于那个金融科技项目,我让 Codex 生成了大约 60% 的 CI/CD 流水线 YAML,质量足够高,我只做了一些小的编辑。
它也是三个中最字面的。如果你给它一个精确的规范,它会遵循它。没有编辑评论,没有"这是一个更好的方法"——它只是做这件事。有时这正是你想要的。literal of the three. If you give it a precise spec, it follows it. No editorialising, no "here's a better approach" -- it just does the thing. Sometimes that's exactly what you want.
它的不足之处
字面意思的另一面是脆弱。模糊的提示词会产生模糊的代码。与Claude Code不同的是,它不能可靠地捕捉你本应问但没有问的东西。我在三月份有一个情况,Codex生成了一个完全正常的数据库迁移脚本,它本来会在Postgres 14数据库上造成静默数据丢失问题,因为它处理现有列上DEFAULT值的方式。它完全按照我的要求做了。它就是没有告诉我我需要知道的东西。should have asked about but didn't. I had a situation in March where Codex generated a perfectly functional database migration script that would have caused a silent data loss issue on a Postgres 14 database because of how it handled DEFAULT values on existing columns. It did exactly what I asked. It just didn't tell me the thing I needed to know.
这是信任上的一个有意义的差异。
---
Cursor:我每天实际使用的工具
我老实说——Cursor是我首先打开的工具。不是因为它在某种抽象意义上是"最好的",而是因为它存在于我工作的地方。VS Code基础意味着零上下文切换。我的扩展在那里。我的键绑定在那里。我从2019年开始一直使用的配色方案(如果你想知道的话是One Dark Pro)在那里。
编辑器内的体验
Cursor 的 Tab 补全功能工作良好时确实令人惊叹。上个月有一些时候,我开始写一个函数,按两次 Tab,整个实现就完全是我会写的样子。不是相似——完全一致。这种情况大概占 30%。另外 70% 的时候它很有用,但没有那么神奇。这个比例仍然不错。exactly. That happens maybe 30% of the time. The other 70% it's useful but not magical. Which is still a good ratio.
Cmd+K内联编辑和侧边栏中的聊天面板覆盖不同的工作流,我很欣赏Cursor不强制你使用一种模式。有时我想讨论代码。有时我只想修复这一行。这个工具让我能够做两者而不产生摩擦。Cmd+K inline editing and the chat panel in the sidebar cover different workflows, and I appreciate that Cursor doesn't force you into one mode. Sometimes I want to have a conversation about the code. Sometimes I just want to fix this one line. The tool lets me do both without friction.
它令人失望的地方
长上下文任务是 Cursor 开始不稳定的地方。我给它一个大约 85,000 行代码的代码库——一个为英国零售商构建的大型 WooCommerce 项目——并要求它追踪一个自定义的运费计算如何影响三个不同插件交互中的购物车总额。它搞混了。给了我看起来很有信心但实际上错误的答案,关于哪个文件在做什么。
Claude Code 处理同样的任务表现更好。花了更长时间。但结果是对的。
还有一个问题是底层模型。Cursor 让你可以在 Claude、GPT-4o 和其他模型之间选择,这很有用——但默认的"Cursor Tab"自动补全模型是它自己训练的模型,不总是清楚你得到的是什么或它为什么做出特定建议。这里有一定的不透明性,我在客户工作中不想要这样。
---
对比:任务分解
六个月后,以下是我在我实际关心的任务类型上大致给每个工具的评分:
重构遗留代码(PHP、较旧的 JS):
- Claude Code:最好。能发现你没有问的东西。
- Cursor:不错。更快,细致度略低。
- Codex:如果你的提示足够精确就还行。
从头开始编写新组件:
- Cursor:最佳。编辑器内的工作流更快。
- Claude Code:强大,速度略慢。
- Codex:适合样板代码。
调试间歇性或逻辑错误:
- Claude Code:最佳。推理链清晰且通常正确。
- Cursor:对明显的bug还不错。
- Codex:这里最弱。需要细微差别时太过字面。
DevOps / 脚本 / 自动化:
- Codex CLI:最适合终端优先的工作。
- Claude Code:强劲。
- Cursor:不是合适的工具。
团队代码可读性(初级开发者能理解的代码):
- Claude Code:目前最优。
- Cursor:因模型而异。
- Codex:代码简洁。
---
没人诚实讨论的成本现实
运行三个工具六个月需要真金白银。我的支出大致如下:
- Cursor Pro——20 美元/月。快速请求上限(标准版每月 500 个)在繁重工作的日子里会出人意料地快速达到。 -- $20/month. The fast requests cap (500/month on the standard tier) gets hit surprisingly quickly on heavy days.
- Claude API(用于 Claude Code)——根据项目强度在 £180 到 £340/月之间波动。 -- varied between £180 and £340/month depending on project intensity.
- OpenAI API(用于 Codex CLI)——按我的使用级别大约是 £90-£120/月。 -- around £90-£120/month at my usage level.
这是每月 £300 到 £500 的工具成本。对于独立自由职业者来说,这是实实在在的开销。对于一个代理公司的客户工作来说,更容易吸收——但你必须实际跟踪并计算它,令人惊讶的是很多人没有这样做。
对我来说诚实的 ROI 计算:我估计这些工具每月为我节省 10-15 小时的可计费等当时间。按我的费率,这远远超过 £500 的价值。但这个数学只有在你对如何使用节省的时间有纪律的情况下才成立。如果你只是用节省的时间刷 Hacker News,ROI 是零。
关于AI开发者工具定价模式,Pragmatic Engineer上有不少第三方分析,如果你想深入了解经济学方面的内容可以去看看。AI developer tool pricing models over at the Pragmatic Engineer if you want to go deeper on the economics.
---
我改变了什么工作方式
这个实验之后有几个具体的转变:
- 我不再把这些工具当作自动完成引擎,而是把它们当作第一稿审阅者。写代码。然后问工具我遗漏了什么。
- 我用Claude Code处理那些我不确定的事情,用Cursor处理那些我有把握但想加快速度的工作。uncertain about and Cursor for anything I'm confident about but just want to go faster on.
- 我开始把提示词当成工单来写,包括上下文、约束条件和预期输出。Simon Willison关于提示词的文章改变了我对这方面的思考方式。Simon Willison's writing on prompting changed how I think about this.
- 我在每一段 AI 生成的代码进入 PR 之前都会检查。不是因为我不相信这些工具,而是因为有一次我没有——一个 Cursor 在 11 月的建议在一个 Node.js 处理程序中引入了一个微妙的竞态条件——花了我两小时调试。
最后这一点很重要。这些工具速度快,通常没问题。但它们并不总是对的。专业的审查义务不会消失。
---
常见问题
刚开始使用 AI 编程工具的自由职业者应该选择哪个工具?
毫无疑问是 Cursor。每月 20 美元的价格点很合理,VS Code 集成意味着在环境上没有学习曲线,质量高到足以让你在第一周就看到真实的生产力提升。从这里开始。之后再尝试其他工具。
我可以在不是重度 API 用户的情况下使用 Claude Code 吗?
可以,但经济学会改变。如果你通过 Claude.ai 的 Pro 计划(每月 20 美元)而不是原生 API 来使用,你会获得有使用量上限的 Claude Code 访问权限。这样成本更可预测。API 路由给你更多控制,但需要你仔细跟踪支出。
考虑到 GPT-4o 获得了这么多关注,2025 年 Codex 还值得使用吗?
对于终端原生和自动化密集的工作流,是的。它在脚本编写和 CI/CD 工作中被低估了。如果你的工作主要在编辑器中,你可以跳过它。但如果你花大量时间在终端中——很多后端开发人员都这样——Codex CLI 值得尝试。Codex CLI deserves a look.
这些工具真的能理解大型代码库吗?
部分可以。Claude Code 目前在处理大上下文窗口方面比其他工具表现得更好——如果你想了解技术细节,Anthropic 会公布他们的上下文窗口规格。但说"理解"就言过其实了。它们在能看到的范围内推理能力不错。保持代码可读性和文档完善这个纪律,用 AI 工具时比不用时更重要,而不是更不重要。context window specs if you want the technical detail. But "understanding" is generous. They reason well within what they can see. The discipline of keeping your codebase readable and well-documented matters more with AI tools than without them, not less.
AI 编码工具会取代开发者吗?
我认识的工具都不能。它们替代的是低专注度的工作——样板代码、显而易见的重构、重复模式的应用。它们替代不了的是知道你为什么要构建某个东西、架构是否合理,以及客户实际需要什么而不是他们要求什么。这个判断力的差距才是工作所在的地方。why you're building a thing,whether the architecture makes sense, and what the client actually needs versus what they asked for. That judgment gap is where the job still lives.
---
六个月下来,我的看法可能不是你预期的那样:我认为没有赢家。取决于你在某个小时内在做什么,有合适的工具就用。能在这个时代获益最多的开发者,是那些对工具保持好奇、保持批判性思维、不外包判断力的人——只外包苦力活。
这一直都是真的。现在只是更明显了。
