6か月前、私は今でも考える決断を下した。Seahawk チームに、AIコーディングアシスタントに真摯に取り組むと伝えた――小手先ではなく、簡単な案件だけを選ぶのではなく、実際のクライアント案件をこれらのツールで処理して、その結果を測定するということだ。つまり、請求時間、本番レポジトリ、本番環境へのデプロイメントを意味していた。おもちゃのようなプロジェクトではなく。「ToDoアプリを作ってくれ」というデモではなく。
重要なポイント:6ヶ月間毎日使用した結果、Claude Codeはコンテキスト深度とツーリングでエージェンシー業務に勝り、Cursorはエディタ内フローで勝り、Codexは生のコード補完で勝ります。ほとんどのチームは2つのツールを組み合わせて使用することになります。After six months daily, Claude Code wins agency work on context depth and tooling, Cursor wins in-editor flow, and Codex wins raw completion; most teams end up pairing two.
9年間で1万2千サイトをこなすと、ハイプと本物のシフトを見分ける嗅覚が相応に研ぎ澄まされる。そして正直に言うと?このスペースは両方が同時に起きているんだ。だからこれについて書くのはこんなに厄介なわけだ。
ここからが本題だ――Claude Code、OpenAI Codex(API経由と2025年の新しいCodex CLI)、Cursorを使った6か月間。ランキングなし、始まる前から勝者を決めることもなし。ただ、私が見つけたことを。Claude Code, OpenAI Codex (via the API and the newer Codex CLI), and Cursor. No rankings, no winners declared before we've even started. Just what I found.
---
なぜ3つを同時に実行したのか
誘惑は1つを選んで深掘りすることだ。私もそうしかけていた。1月、Cursorに標準化するだけの準備ができていた。VS Code統合が最も抵抗の少ない道に思えたからだ。その時、あるクライアント――マンチェスターで内部ロジスティクスダッシュボードを構築しているSaaS創業者――が、本当に不透明なPythonヘビーなバックエンドを渡してきた。そして、Cursorの提案は3ファイル離れたところにあるコンテキストを何度も見逃した。
その時点で、唯一誠実な評価方法は、同じカテゴリのタスクを各ツールで並行して実行することだと決めた。まったく同じプロンプトではない、それは人為的だからだが、同じ種類の仕事だ。レガシーPHPのリファクタリング、FigmaのスペックからReactコンポーネントを新規作成、間欠的なAPIエラーのデバッグ、既存関数のテストカバレッジ生成といった具合に。type of work: refactoring legacy PHP, writing new React components from Figma specs, debugging intermittent API errors, and generating test coverage for existing functions.
結果は予想外の方法で私を驚かせました。
---
Claude Code:文脈理解は恐ろしいほど優れているが、予想より遅い
ストレートに言う。Claude Codeが3つの中で最も思慮深い。その言葉は曖昧に聞こえるかもしれないから、具体的にしよう。thoughtful of the three. That word sounds vague, so let me make it concrete.
2021年に書いた400行のWordPressプラグインを入力した時――当時の私は恥ずかしいと思う、$_POSTのオプションをサニタイズなしで直接保存するようなことをしていた時代だ――それは単に明らかな問題を修正しただけではなかった。アーキテクチャパターンにフラグを立て、そのアプローチがなぜ脆いのかを説明し、正確な動作を保持しながらセキュリティギャップを修正したリファクタリング版を提供した。Cursorはそのうちの半分をやった。Codexは基本的に同じ悪いパターンのより整った版を渡してきた。WordPress plugin I'd written in 2021 -- back when I was doing things I now consider embarrassing, like storing options directly in$_POST without sanitisation -- it didn't just fix the obvious issues. It flagged the architectural pattern, explained why the approach was fragile, and offered a refactored version that preserved the exact behaviour while fixing the security gaps. Cursor did half of that. Codex basically gave me a cleaner version of the same bad pattern.
強み
長いコンテキストの推論は現実です。コンポーネントツリー全体を貼り付け、3層深いバグを説明できます。Claude Codeはスレッドを追跡して失うことはありません。他人の混乱を定期的に引き継ぐエージェンシーの仕事では、それは小さなことではありません。
また説明も上手く書く。チームの後輩がリファクタがなぜそうなるのか理解できない時、Claude Codeのアウトプットは教える傾向がある。小さなチームをレベルアップさせようとしている時、それは実際の価値を持つ。explanations well. When a junior on my team doesn't understand why a refactor works a certain way, Claude Code's output tends to teach. That has actual value when you're trying to level up a small team.
不満な点
スピード。レスポンスはCursorのエディタ内オートコンプリートより遅い。これは公平な比較ではない――異なるインタラクションモデルだから――だが、フローに入った時、返信を3~5秒待つのは何かを壊す。
料金設定も実際に難しい問題だ。使用量が多いと、APIコストは予想より速く膨らむ。2月だけで約£340分のClaude APIコール(クライアントプロジェクト全体)を使った。破滅的ではないが、どこかで請求書に載せなければならない。
---
OpenAI Codex:みんなが忘れているツール
Codexについてはこうだ――ChatGPTとGPT-4oが全ての注目を集めるようになった今、人々はそれについてあまり話さなくなったが、OpenAIが2025年に出荷したCodex CLIはターミナルネイティブのワークフローに本当に興味深い。Codex CLI that OpenAI shipped in 2025 is genuinely interesting for terminal-native workflows.
fintech顧客向けのプロジェクトで多用した(NDA関係で名前は言えない、標準的なやつ)。その時はコードベース全体がモノレポに住んでいて、エディタではなくターミナルで大量の作業をしていた。codexをシェルコンテキストのインラインで実行でき、ファイルを直接読め、サンドボックス環境でコマンドを実行できるというのは、他のツールのチャットスタイル相互作用とは違う感じがした。codex inline with shell context, have it read files directly, and execute commands in a sandboxed environment felt different from the chat-style interaction of the other tools.
Codexが活躍する場面
自動化タスク。Bashスクリプト。GitHub Actionsワークフローの作成。厳密なパターンに従うボイラープレートの生成。そのフィンテックプロジェクトでは、CI/CDパイプラインのYAMLの約60%をCodexに生成させたが、十分きれいで、軽微な編集しか必要なかった。
また、3つの中で最も文字通りでもある。正確な仕様を与えると、それに従う。編集的なコメントもなく、「より良いアプローチはこれだ」もなく――ただやるだけだ。時にそれは正確に欲しいものだ。literal of the three. If you give it a precise spec, it follows it. No editorialising, no "here's a better approach" -- it just does the thing. Sometimes that's exactly what you want.
欠点がある部分
文字通りの裏返しは脆弱性だ。曖昧なプロンプトは曖昧なコードを産む。そしてClaude Codeと異なり、聞くべきだったが聞かなかったことを確実にキャッチしない。3月に、Codexが完全に機能するデータベースマイグレーションスクリプトを生成した事例があった。それはPostgres 14データベースで既存列のDEFAULT値の扱い方が原因でサイレントデータロス問題を引き起こしていただろう。ちょうど頼んだ通りだった。ただ知る必要があったことを教えてくれなかっただけだ。should have asked about but didn't. I had a situation in March where Codex generated a perfectly functional database migration script that would have caused a silent data loss issue on a Postgres 14 database because of how it handled DEFAULT values on existing columns. It did exactly what I asked. It just didn't tell me the thing I needed to know.
それは信頼における意味のある違いだ。
---
Cursor:毎日実際に使っているツール
正直に言おう――Cursorが最初に開くツールだ。何か抽象的な意味で「最高」だからではなく、仕事をしている場所に存在しているからだ。VS Code基盤は文脈切り替えがゼロという意味だ。拡張機能はそこにある。キーバインディングはそこにある。2019年から使っている色のテーマ(One Dark Pro、ちなみに)はそこにある。
エディタ内の体験
Cursorのタブ補完は、うまく機能している時は本当に不気味だ。先月、関数を始めてTabを2回押すと、実装全体が私が書いたであろうものと全く同じだった瞬間が何度もあった。それは時間の約30%起きる。残りの70%は有用だが魔法的ではない。それでも良い比率だ。exactly. That happens maybe 30% of the time. The other 70% it's useful but not magical. Which is still a good ratio.
Cmd+Kのインライン編集とサイドバーのチャットパネルは異なるワークフローをカバーしており、Cursorが1つのモードを強制しないことを評価している。コードについて会話したい時もある。この1行だけ修正したい時もある。このツールは両方をシームレスにできるようにしてくれる。Cmd+K inline editing and the chat panel in the sidebar cover different workflows, and I appreciate that Cursor doesn't force you into one mode. Sometimes I want to have a conversation about the code. Sometimes I just want to fix this one line. The tool lets me do both without friction.
残念な部分
ロングコンテキストのタスクは、Cursorが不安定になるポイントです。約85,000行のコード――大規模なWooCommerceの実装でUKの小売業者向け――を与えて、カスタム配送計算がどのように3つの異なるプラグインの相互作用を通じてカート合計に影響しているかを追跡するよう依頼しました。混乱しました。どのファイルが何をしているのかについて、確信を持ったように聞こえるが間違った回答をくれました。
Claude Codeは同じタスクをより良く処理しました。時間がかかりました。ただし正解にたどり着きました。
また基礎となるモデルの問題もあります。Cursorはクロード、GPT-4o、その他の選択肢から選べます――これは便利です――ですが、オートコンプリート用のデフォルトの「Cursor Tab」モデルは独自に訓練されたモデルで、何を得ているのか、なぜそのような提案をしたのかが必ずしも明確ではありません。クライアント業務ではあまり持ちたくない不透明性がそこにあります。
---
直接対決:タスク分類
6ヶ月経過後、実際に気にかけるタスクタイプ全体で各ツールをざっと採点した結果は以下の通りです:
レガシーコードのリファクタリング(PHP、古いJS):
- Claude Code:最高。あなたが尋ねなかったことも見つけます。
- Cursor:良好。より速く、やや不十分。
- Codex:プロンプトが正確なら問題ありません。
新しいコンポーネントをゼロから書く場合:
- Cursor:最強。エディタ内のフローが高速です。
- Claude Code:強力で、やや遅い。
- Codex:ボイラープレート向けに堅実です。
間欠的なエラーやロジックエラーのデバッグ:
- Claude Code:最強。推論チェーンが可視化され、通常は正確です。
- Cursor:明らかなバグに対してはまともです。
- Codex:ここが最も弱い。ニュアンスが必要な場面では字句的すぎます。
DevOps / スクリプト / 自動化:
- Codex CLI:ターミナルファーストの作業に最強です。
- Claude Code:強力である。
- Cursor:このタスクに適したツールではない。
チームの可読性(ジュニアが理解できるコード):
- Claude Code:かなりの距離で最高である。
- Cursor:モデルによって異なる。
- Codex:簡潔である。
---
誰も正直に話さないコストの現実
3つのツールを6か月間実行するには実際の費用がかかる。私が費やした金額は以下の通りである:
- Cursor Pro――月額$20です。高速リクエストの上限(標準ティアで月500件)は繁忙日には意外と早く達成されます。 -- $20/month. The fast requests cap (500/month on the standard tier) gets hit surprisingly quickly on heavy days.
- Claude API(Claude Code用)――プロジェクトの負荷に応じて月額£180~£340の間で変動しました。 -- varied between £180 and £340/month depending on project intensity.
- OpenAI API(Codex CLI用)――私の使用レベルで月額約£90~£120です。 -- around £90-£120/month at my usage level.
これはツール関連で月額£300~£500のどこかです。フリーランスの個人事業主にとっては、それは実際の費目です。クライアント業務を請求するエージェンシーの場合は、より簡単に吸収できます――ですがそれを実際に追跡して会計処理する必要があり、驚くほど多くの人々がそれをしていません。
私にとってのROI計算は正直に言うと:これらのツールは月に請求可能相当時間で10~15時間節約していると見積もります。私のレート計算では、それは£500より大幅に価値があります。ですが数学は、節約した時間に対して何をするかについて規律的であれば機能するだけです。単に節約時間をHacker Newsのスクロールに使うだけなら、ROIはゼロです。
Pragmatic Engineerに、AI開発者ツールの価格モデルについてのまともなサードパーティ分析がありますので、経済学についてもっと深掘りしたければ確認してみてください。AI developer tool pricing models over at the Pragmatic Engineer if you want to go deeper on the economics.
---
仕事のやり方で変わったこと
この実験後にシフトした具体的なものが何か:
- これらのツールを自動補完エンジンとして扱うのをやめて、初期段階のレビューアーとして扱い始めた。コードを書く。その後、ツールに何を見落とした訊ねる。
- 不確実なことはClaude Codeを使い、確実だけどスピードアップしたいことはCursorを使っています。uncertain about and Cursor for anything I'm confident about but just want to go faster on.
- チケットのようにプロンプトを書き始めました。コンテキスト、制約、期待される出力を明確にする形です。Simon Willisonのプロンプティングに関する執筆がこれについての考え方を変えました。Simon Willison's writing on prompting changed how I think about this.
- AI生成コードのすべてをPRに入る前に確認します。ツールを信頼していないからではなく、11月にそうしなかった1回――Node.jsハンドラーで微妙な競合状態を導入したCursorの提案――は2時間のデバッグを費やしたからです。
その最後の点が重要だ。これらのツールは速く、しばしば正しい。常に正しいわけではない。レビューする専門家としての義務は消えない。
---
FAQ
AI コーディングツールを始めたばかりのフリーランサーにとって、どのツールが最適か?
躊躇なく Cursor だ。月20ドルの価格ポイントは合理的で、VS Code との統合は環境における学習曲線がなく、品質は初週で本当の生産性向上が見える程度に高い。そこから始めよう。後で広げればいい。
重い API ユーザーでなくても Claude Code は使えるか?
使える。ただ経済性はシフトする。生 API ではなく Claude.ai の Pro プラン(月20ドル)経由で使う場合、Claude Code へのアクセスは使用量キャップ付きで得られる。より予測可能なコストだ。API ルートはより多くの制御を与えるが、支出を注意深く追跡する必要がある。
2025年において、GPT-4o がこれだけ注目を集めている中で、Codex を使う価値はまだあるか?
ターミナルネイティブおよびオートメーション主体のワークフローについてはそうです。スクリプティングとCI/CD業務について過小評価されています。主にエディターでの業務は飛ばせます。ですがターミナルで実際の時間を費やす場合――多くのバックエンド開発者がそうです――Codex CLIは見る価値があります。Codex CLI deserves a look.
これらのツールは本当に大規模なコードベースを理解できるのか?
部分的にです。Claude Codeは現在のところ他のツールよりもロングコンテキストウィンドウをより上手に処理します――Anthropicが技術的な詳細を知りたい場合はコンテキストウィンドウの仕様を公開しています。ですが「理解」は寛容な言い方です。見えるもの範囲内で十分に推論します。コードベースを読みやすく十分に文書化しておく規律は、AIツール導入なしよりも導入したほうが、より重要です。context window specs if you want the technical detail. But "understanding" is generous. They reason well within what they can see. The discipline of keeping your codebase readable and well-documented matters more with AI tools than without them, not less.
AIコーディングツールは開発者に取って代わるのか?
私が知っているやつらではない。AIが置き換えるのは、低い注意力で済む仕事だ――ボイラープレート、明らかなリファクタリング、反復的なパターン適用。置き換えないのは、何を構築しているのかの理由、アーキテクチャが意味をなしているかどうか、クライアントが実際に必要としているものとリクエストされたものの違いだ。その判断のギャップが、仕事がまだそこに存在する場所だ。why you're building a thing,whether the architecture makes sense, and what the client actually needs versus what they asked for. That judgment gap is where the job still lives.
---
半年経った今、私の意見はあなたが予想したものではないだろう――勝者はいない、と思う。やっていることに応じて、その時間で使うべき正しいツールがあるだけだ。この時代から最も恩恵を受ける開発者は、ツーリングについて好奇心を保ち、批判的思考をオンにし、判断はアウトソースしない――単に退屈な仕事だけをアウトソースする奴らだ。
これはいつだってそうだった。ただ今は明白になってるだけだ。
