Claude Code बनाम Codex बनाम Cursor: 6 महीने की ईमानदारी से समीक्षा

छह महीने पहले मैंने एक फैसला किया जिसके बारे में मैं अभी भी सोचता हूँ। मैंने Seahawk टीम को बताया कि हम AI कोडिंग असिस्टेंट्स को लेकर सही मायने में प्रतिबद्ध होने वाले हैं — बस कोशिश नहीं करेंगे, आसान जीत नहीं उठाएंगे, बल्कि असली क्लाइंट काम को इन टूल्स के ज़रिये भेजेंगे और देखेंगे क्या होता है। इसका मतलब बिलिंग के घंटे, live रिपोज़itory, और production डिप्लॉयमेंट्स थे। खिलौना प्रोजेक्ट्स नहीं। "मुझे एक to-do ऐप बना दो" डेमो नहीं।

मुख्य निष्कर्ष: छह महीने की रोज़मर्रा की उपयोग के बाद, Claude Code संदर्भ की गहराई और टूलिंग पर एजेंसी काम जीतता है, Cursor इन-एडिटर फ्लो में जीतता है, और Codex कच्ची पूर्णता में जीतता है; अधिकांश टीमें दोनों को जोड़ी बनाकर उपयोग करती हैं।

नौ साल में बारह हज़ार साइट्स आपको काफी सही अंदाज़ा देते हैं कि क्या हाइप है और क्या असली बदलाव है। और ईमानदारी से कहूँ तो? यह स्पेस दोनों ही बार एक साथ है, जो इस बारे में लिखना इतना मुश्किल बनाता है।

तो यह रहा — छह महीने Claude Code, OpenAI Codex (API के ज़रिये और नए Codex CLI के ज़रिये), और Cursor के साथ। कोई रैंकिंग नहीं, हम शुरू भी नहीं हुए और पहले ही कोई विजेता घोषित नहीं करूंगा। बस जो मुझे मिला।

---

मैंने तीनों को एक साथ क्यों चलाया

लालच यह है कि एक को चुनो और गहराई से जाओ। मैं लगभग ऐसा ही करता। जनवरी में मैं सिर्फ Cursor पर मानकीकृत करने के लिए तैयार था क्योंकि VS Code इंटीग्रेशन कम प्रतिरोध का रास्ता लग रहा था। फिर एक क्लाइंट, Manchester का एक SaaS फाउंडर जो एक इंटरनल लॉजिस्टिक्स डैशबोर्ड बना रहा था, मुझे एक Python-हेवी बैकएंड दिया जो सचमुच अपारदर्शी था, और Cursor की सुझावें ऐसा कॉन्टेक्स्ट मिस कर रही थीं जो तीन फाइलें दूर रहता था।

तब मैंने फैसला किया कि एकमात्र ईमानदार मूल्यांकन विधि यह थी कि प्रत्येक टूल के माध्यम से समान श्रेणियों के काम को समानांतर में चलाया जाए। वही सटीक प्रॉम्प्ट नहीं, क्योंकि वह कृत्रिम है, लेकिन काम का एक ही प्रकार: legacy PHP को रीफैक्टर करना, Figma specs से नए React components लिखना, intermittent API errors को debug करना, और मौजूदा functions के लिए test coverage generate करना।

नतीजे मुझे ऐसे तरीकों से चौंकाने वाले थे जिनकी मैंने उम्मीद नहीं की थी।

---

Claude Code: Context में Frighteningly अच्छा, मुझे जितना चाहिए उससे Slower

मुझे सीधे कहने दीजिए। Claude Code तीनों में सबसे विचारशील है। वह शब्द अस्पष्ट लगता है, तो मुझे इसे concrete बनाने दीजिए।

जब मैंने इसे एक 400-लाइन WordPress प्लगइन दिया जो मैंने 2021 में लिखा था, उस समय जब मैं ऐसी चीजें कर रहा था जिन्हें अब शर्मनाक मानता हूँ, जैसे sanitisation के बिना सीधे $\_POST में options स्टोर करना, तो इसने सिर्फ स्पष्ट समस्याएं ठीक नहीं कीं। इसने आर्किटेक्चरल पैटर्न को फ्लैग किया, समझाया कि वह दृष्टिकोण नाजुक क्यों था, और एक refactored संस्करण दिया जो सटीक व्यवहार को सुरक्षित रखते हुए सुरक्षा खामियों को ठीक करता था। Cursor ने इसका आधा किया। Codex मूलतः मुझे एक ही बुरे पैटर्न का एक साफ़ संस्करण दिया।

यह कहाँ जीतता है

long-context reasoning real है। आप एक पूरा component tree paste कर सकते हो, एक bug का तीन layers गहराई में describe कर सकते हो, और Claude Code thread को बिना खोए track करेगा। Agency work के लिए जहाँ आप regularly दूसरे लोगों की chaos को inherit कर रहे हो, वह कोई छोटी बात नहीं है।

यह अच्छी तरह से explanations भी लिखता है। जब मेरी टीम का एक junior समझ नहीं पाता कि एक refactor एक निश्चित तरीके से क्यों काम करता है, Claude Code का output आमतौर पर सिखाता है। यह actual value रखता है जब आप एक छोटी टीम को level up करने की कोशिश कर रहे हों।

जहां यह निराश करता है

गति। प्रतिक्रियाएं Cursor के in-editor ऑटोकंप्लीट से धीमी हैं, जो एक निष्पक्ष तुलना नहीं है, वे विभिन्न इंटरैक्शन मॉडल हैं, लेकिन जब आप flow में होते हैं, तो उत्तर के लिए तीन से पाँच सेकंड का इंतज़ार कुछ तोड़ देता है।

मूल्य निर्धारण भी एक वास्तविक बातचीत है। भारी उपयोग पर, API लागतें जितनी तेजी से आप उम्मीद करते हैं उससे अधिक तेजी से बढ़ती है। मैंने अकेले फरवरी में क्लाइंट प्रोजेक्ट्स में लगभग £340 मूल्य के Claude API कॉल चलाए। यह विनाशकारी नहीं है, लेकिन इसे इनवॉइस पर कहीं न कहीं जाना है।

---

OpenAI Codex: वह जिसे सब भूल गए हैं

Codex के बारे में बात यह है — लोग अब इसके बारे में कम बात करते हैं अब जब ChatGPT और GPT-4o सभी का ध्यान खींच गए हैं, लेकिन Codex CLI जो OpenAI ने 2025 में भेजा है terminal-native workflows के लिए सचमुच दिलचस्प है।

मैंने इसे एक fintech client के लिए एक project पर heavily use किया (नाम नहीं दे सकते, NDA, standard stuff) जहाँ पूरा codebase एक monorepo में रहता था और हम terminal में काम कर रहे थे न कि एक editor में। codex को shell context के साथ inline चलाने में सक्षम होना, files को directly read करना, और commands को एक sandboxed environment में execute करना दूसरे tools की chat-style interaction से अलग महसूस हुआ।

जहां Codex चमकता है

ऑटोमेशन कार्य। Bash स्क्रिप्टिंग। GitHub Actions वर्कफ़्लो लिखना। एक सख्त पैटर्न का पालन करने वाला boilerplate बनाना। उस फिनटेक प्रोजेक्ट के लिए, मैंने Codex से लगभग 60% CI/CD pipeline YAML generate करवाया, और यह इतना स्वच्छ था कि मैंने केवल मामूली संपादन किए।

यह तीनों में सबसे शाब्दिक भी है। अगर आप इसे एक सटीक स्पेक दो, तो यह इसका पालन करता है। कोई editorial नहीं, कोई "यहाँ एक बेहतर दृष्टिकोण है" नहीं, बस काम कर देता है। कभी-कभी यह बिल्कुल वही होता है जो आप चाहते हैं।

जहां यह कमजोर पड़ता है

Literal का flip side brittle है। Vague prompts vague code produce करते हैं। और Claude Code के विपरीत, यह reliably उस चीज़ को नहीं पकड़ता जिसे आपको पूछना चाहिए था लेकिन नहीं पूछा। मेरे पास March में एक situation था जहाँ Codex ने एक perfectly functional database migration script generate किया जो एक Postgres 14 database पर एक silent data loss issue का कारण बनता क्योंकि यह existing columns पर DEFAULT values को कैसे handle करता था। इसने सटीक रूप से वह किया जो मैंने पूछा था। इसने बस मुझे वह चीज़ नहीं बताई जो मुझे जानने की जरूरत थी।

यह विश्वास में एक सार्थक अंतर है।

---

Cursor: वह जिसे मैं वाकई हर दिन यूज़ करता हूँ

मैं ईमानदार होऊँ, Cursor वह टूल है जिसे मैं पहले खोलता हूँ। इसलिए नहीं कि यह किसी अमूर्त अर्थ में "सर्वश्रेष्ठ" है, बल्कि क्योंकि यह वहाँ रहता है जहाँ मैं काम करता हूँ। VS Code की नींव का मतलब शून्य context-switching है। मेरी extensions वहाँ हैं। मेरी keybindings वहाँ हैं। रंग theme जो मैं 2019 से इस्तेमाल कर रहा हूँ (One Dark Pro, अगर आप जानना चाहते हैं) वहाँ है।

इन-एडिटर एक्सपीरिएंस

Cursor का Tab completion सचमुच डरावना होता है जब यह अच्छी तरह काम कर रहा हो। पिछले महीने के दौरान ऐसे समय थे जहाँ मैं एक फंक्शन शुरू करता था, Tab दो बार दबाता था, और पूरा implementation बिल्कुल वही था जो मैंने लिखा होता। मिलता-जुलता नहीं, बिल्कुल। यह शायद 30% समय होता है। बाकी 70% समय यह उपयोगी है पर जादुई नहीं। जो अभी भी एक अच्छा अनुपात है।

Cmd+K inline editing और sidebar में chat panel अलग-अलग workflows को cover करते हैं, और मैं सराहना करता हूँ कि Cursor आपको एक mode में force नहीं करता। कभी-कभी मैं code के बारे में बातचीत करना चाहता हूँ। कभी-कभी मैं बस यह एक लाइन fix करना चाहता हूँ। यह tool मुझे friction के बिना दोनों करने देता है।

जहां यह निराश करता है

लंबे संदर्भ वाले काम वह हैं जहां Cursor हिलने लगता है। मैंने इसे लगभग 85,000 लाइनों का कोडबेस दिया, एक बड़ा WooCommerce बिल्ड जो यूके के एक खुदरा विक्रेता के लिए है, और इससे पूछा कि एक कस्टम शिपिंग कैलकुलेशन तीन अलग-अलग प्लगइन इंटरएक्शन के पार कार्ट टोटल को कैसे प्रभावित कर रहा है। यह भ्रमित हो गया। मुझे आत्मविश्वास से भरे जवाब दिए जो इस बारे में गलत थे कि कौन सी फाइल क्या कर रही है।

Claude Code ने इसी काम को बेहतर तरीके से संभाला। अधिक समय लगा। लेकिन सही जवाब दिया।

अंतर्निहित मॉडल का सवाल भी है। Cursor आपको Claude, GPT-4o और अन्य के बीच चुनने देता है, जो उपयोगी है, लेकिन ऑटोकंपलीट के लिए डिफ़ॉल्ट "Cursor Tab" मॉडल इसका अपना प्रशिक्षित मॉडल है, और यह हमेशा स्पष्ट नहीं होता कि आप क्या प्राप्त कर रहे हैं या इसने एक विशेष सुझाव क्यों दिया। कुछ अस्पष्टता है जो मैं क्लाइंट के काम पर नहीं चाहूंगा।

---

Head-to-Head: The Task Breakdown

छह महीनों के बाद, यहां बताया गया है कि मैं प्रत्येक tool को उन task प्रकारों में कैसे score करूंगा जिनकी मुझे वास्तव में परवाह है:

Refactoring legacy code (PHP, older JS):

Claude Code: सबसे अच्छा। उन चीजों को पकड़ता है जो आपने पूछी नहीं।
Cursor: अच्छा। तेज़, थोड़ा कम thorough।
Codex: ठीक है अगर आपका prompt precise हो।

स्क्रैच से नए कंपोनेंट लिखना:

Cursor: सर्वश्रेष्ठ। एडिटर के अंदर का फ्लो तेज़ है।
Claude Code: मज़बूत, थोड़ा धीमा।
Codex: बॉयलरप्लेट के लिए ठीक है।

इंटरमिटेंट या लॉजिक एरर को डीबग करना:

Claude Code: सर्वश्रेष्ठ। रीज़निंग चेन दिखता है और आमतौर पर सही होता है।
Cursor: जाहिर बग्स के लिए ठीक है।
Codex: यहाँ सबसे कमजोर। जब आपको बारीकियों की जरूरत हो तो बहुत शाब्दिक।

DevOps / स्क्रिप्टिंग / ऑटोमेशन:

Codex CLI: टर्मिनल-फर्स्ट काम के लिए सर्वश्रेष्ठ।
Claude Code: मजबूत है।
Cursor: इस काम के लिए सही टूल नहीं है।

टीम की पठनीयता (कोड जो एक जूनियर समझ सके):

Claude Code: काफी हद तक सबसे अच्छा है।
Cursor: मॉडल के हिसाब से अलग-अलग।
Codex: संक्षिप्त।

---

लागत की वास्तविकता जिस पर कोई ईमानदारी से बात नहीं करता

तीन टूल्स छह महीने तक चलाने में असली पैसा खर्च होता है। मैंने मोटे तौर पर यह खर्च किया:

Cursor Pro, $20/month। तेज़ अनुरोध सीमा (मानक स्तर पर 500/month) भारी दिनों पर आश्चर्यजनक रूप से तेज़ी से प्राप्त हो जाती है।
Claude API (Claude Code के लिए), प्रोजेक्ट की तीव्रता के आधार पर £180 और £340/month के बीच।
OpenAI API (Codex CLI के लिए), मेरे उपयोग स्तर पर लगभग £90-£120/month।

यह प्रति माह £300 और £500 के बीच कहीं है उपकरणों में। एक एकल फ्रीलांसर के लिए, यह एक वास्तविक लाइन आइटम है। एक एजेंसी के लिए जो क्लाइंट के काम पर बिल करता है, यह अधिक आसानी से अवशोषित होता है, लेकिन आपको वास्तव में इसे ट्रैक करना और हिसाब करना होता है, जो आश्चर्यजनक रूप से बहुत सारे लोग नहीं करते।

मेरे लिए ईमानदार ROI गणना: मैं अनुमान लगाता हूँ कि ये उपकरण मुझे प्रति माह 10-15 घंटे बिलयोग्य-समकक्ष समय बचाते हैं। मेरी दर पर, यह £500 से काफी अधिक है। लेकिन गणित तभी काम करती है जब आप इस बारे में अनुशासित हों कि आप बचाए गए समय के लिए इसका उपयोग क्या करते हैं। यदि आप बस Hacker News स्क्रॉल करने के लिए बचाए गए समय का उपयोग करते हैं, तो ROI शून्य है।

Pragmatic Engineer के पास AI डेवलपर टूल की प्राइसिंग मॉडल्स पर अच्छा थर्ड-पार्टी विश्लेषण है अगर आप अर्थशास्त्र पर गहराई से जाना चाहते हैं।

---

मैंने अपने काम के तरीके में क्या बदलाव किए हैं

इस प्रयोग के बाद कुछ ठोस चीजें बदलीं:

मैंने इन टूल्स को ऑटोकंप्लीट इंजन के रूप में माना जाना बंद किया और उन्हें एक पहली पास रिव्यूअर के रूप में माना जाना शुरू किया। कोड लिखो। फिर टूल से पूछो कि मैंने क्या मिस किया।
मैं Claude Code का इस्तेमाल करता हूँ जब मुझे कुछ अनिश्चितता हो, और Cursor का जब मुझे आत्मविश्वास हो लेकिन बस तेज़ी से काम निकालना चाहता हूँ।
मैंने प्रॉम्प्ट्स को टिकट्स की तरह लिखना शुरू किया है। कॉन्टेक्स्ट, कंस्ट्रेंट्स, एक्सपेक्टेड आउटपुट। Simon Willison की प्रॉम्प्टिंग पर लेखनी ने इस बारे में मेरी सोच बदल दी।
मैं AI-जनरेट किए गए कोड के हर एक टुकड़े की समीक्षा करता हूं इससे पहले कि यह PR में जाए। इसलिए नहीं कि मुझे टूल्स पर भरोसा नहीं है, बल्कि इसलिए कि एक बार जब मैंने ऐसा नहीं किया, तो नवंबर में Cursor का एक सुझाव जो एक Node.js हैंडलर में एक सूक्ष्म रेस कंडीशन पेश करता है, मुझे दो घंटे की डिबगिंग खर्च की।

यह आखिरी बात मायने रखती है। ये टूल्स तेज़ हैं और अक्सर सही हैं। वे हमेशा सही नहीं हैं। प्रोफेशनल जिम्मेदारी रिव्यू करने की कभी नहीं हटती।

---

FAQ

AI कोडिंग टूल्स के साथ शुरुआत करने वाले फ्रीलांसर के लिए कौन सा टूल सबसे अच्छा है?

Cursor, बिना किसी संदेह के। $20/month की कीमत उचित है, VS Code इंटीग्रेशन का मतलब एनवायरनमेंट पर कोई लर्निंग कर्व नहीं है, और क्वालिटी इतनी अच्छी है कि आप पहले हफ्ते में असली प्रोडक्टिविटी गेन देखेंगे। वहीं से शुरू करो। बाद में और एक्सप्लोर करो।

क्या मैं भारी API यूजर बने बिना Claude Code का इस्तेमाल कर सकता हूँ?

हाँ, हालांकि इकनॉमिक्स बदल जाते हैं। अगर आप इसे Claude.ai के Pro प्लान ($20/month) के ज़रिए इस्तेमाल करते हो, सीधे API के बजाय, तो आपको यूसेज कैप के साथ Claude Code का एक्सेस मिलता है। यह एक ज़्यादा प्रेडिक्टेबल कॉस्ट है। API रूट आपको ज़्यादा कंट्रोल देता है लेकिन खर्च को सावधानी से ट्रैक करना जरूरी है।

2025 में Codex का इस्तेमाल करने लायक है, यह देखते हुए कि GPT-4o को कितना ध्यान मिल रहा है?

टर्मिनल-नेटिव और ऑटोमेशन-भारी वर्कफ़्लो के लिए, हां। यह स्क्रिप्टिंग और CI/CD काम के लिए विशेष रूप से कम आंका जाता है। अगर आपका काम मुख्य रूप से एडिटर में है, तो आप इसे छोड़ सकते हैं। लेकिन अगर आप टर्मिनल में वास्तविक समय बिताते हैं, और बहुत सारे बैकएंड डेवलपर्स करते हैं, तो Codex CLI एक नज़र के लायक है।

क्या ये टूल्स वास्तव में बड़े कोडबेस को समझते हैं?

आंशिक रूप से। Claude Code अभी अन्य की तुलना में बड़ी संदर्भ खिड़कियों को बेहतर तरीके से संभालता है, Anthropic अपनी संदर्भ विंडो स्पेक्स प्रकाशित करता है अगर आप तकनीकी विवरण चाहते हैं। लेकिन "समझना" उदार है। वे जो कुछ देख सकते हैं उसके भीतर अच्छी तरह से तर्क करते हैं। आपके कोडबेस को पठनीय और अच्छी तरह से दस्तावेज़ित रखने का अनुशासन AI टूल्स के साथ इसके बिना अधिक महत्वपूर्ण है, कम नहीं।

क्या AI कोडिंग टूल्स डेवलपर्स की जगह ले लेंगे?

जो मैं जानता हूं उनमें से नहीं। जो वे प्रतिस्थापित करते हैं वह कम-ध्यान का काम है, बॉयलरप्लेट, स्पष्ट रिफ़ैक्टर, दोहराए जाने वाला पैटर्न आवेदन। जो वे प्रतिस्थापित नहीं करते वह यह जानना है कि आप एक चीज़ क्यों बना रहे हैं, क्या आर्किटेक्चर समझ में आता है, और क्लाइंट को वास्तव में क्या चाहिए बनाम उन्होंने क्या पूछा। यह निर्णय अंतराल वह है जहां नौकरी अभी भी रहती है।

---

छह महीने बाद, मेरी राय शायद वह नहीं है जिसकी आप उम्मीद कर रहे हैं: मुझे नहीं लगता कि कोई विजेता है। हर घंटे आप जो कर रहे हैं, उसके आधार पर एक सही tool होता है। जो developers इस दौर से सबसे ज्यादा फायदा उठाएंगे, वे वही हैं जो tools के बारे में जिज्ञासु रहते हैं, अपनी critical thinking को सक्रिय रखते हैं, और judgment को outsource नहीं करते—सिर्फ grunt work को।

यह हमेशा सच रहा है। यह अब बस अधिक स्पष्ट है।