डायरेक्टरी वेबसाइटें जो 28,000 पेजों को थिन-कंटेंट पेनल्टी के बिना संभाल लेती हैं।
Programmatic-SEO डायरेक्टरी और लिस्टिंग प्लेटफॉर्म Next.js और Supabase पर। उस ऑपरेटर द्वारा बनाया गया जो HostList.io चलाता है — 2024 से इसी स्टैक पर लगभग 28,000 वेब होस्टिंग कंपनी के पेज लाइव हैं।
आप किस तरह की डायरेक्टरीज बनाते हैं
किसी भी निर्देशिका संरचना के लिए, एक सुव्यवस्थित डेटा स्रोत दिया जाए। पिछले दो साल में, जो पैटर्न मैंने ship किए हैं, वे चार व्यापक प्रकारों में विभाजित होते हैं, और अधिकांश क्लाइंट परियोजनाएँ इनमें से किसी एक का कोई flavour हैं।
Industry directories किसी vertical के भीतर कंपनियों को सूचीबद्ध करती हैं, जो category, location, size, और feature set से विभाजित होती हैं। HostList.io canonical उदाहरण है जिसे मैं खुद चलाता हूँ — लगभग अठ्ठाईस हजार web hosting कंपनियाँ, जो hosting type, region, price band, और use case से sliced हैं। Buyers providers को खोजते हैं, providers को traffic मिलता है, और directory itself sponsored placements, affiliate links, या paid premium listings के माध्यम से monetise होती है, जो vertical के लिए उपयुक्त हो।
Local और location directories दूसरा पैटर्न हैं। Restaurant guides, pub guides, dentist directories, contractor directories। हर listing LocalBusiness schema के साथ geo coordinates, opening hours, और ratings ले जाती है जहाँ आपके पास data rights हों। Programmatic city-and-category pages — "best Italian restaurants in Manchester" या "pubs in Stoke Newington" — इन sites पर अधिकांश long-tail SEO surface area provide करते हैं।
Tool और software directories किसी category के भीतर software products को सूचीबद्ध करती हैं। CRM tools। Project management apps। No-code platforms। AI tools। इन sites पर traffic engine comparison pages हैं — Notion versus Linear versus ClickUp — और feature-matrix pages, जहाँ searcher को पहले से ही नाम पता होते हैं और बस एक tiebreaker चाहिए।
People और service directories चौथा पैटर्न हैं। Agencies। Freelancers। Consultants। Photographers। Lawyers। इसका चुनौती यह है कि अधिकांश people directories मर जाती हैं क्योंकि listings stale हो जाती हैं और कोई उन्हें update नहीं करता। हम project के पहले दिन से ही expiry workflows और self-service profile editing build करते हैं बजाय इसके बाद retrofit करने के।
HostList केस स्टडी क्या है
HostList.io वह directory है जिसे मैंने solo build किया है पूरे web hosting industry को catalogue करने के लिए। लगभग अठ्ठाईस हजार hosting company pages, spring 2024 से live, उसी Next.js plus Supabase plus Vercel stack पर जिसे हम अब client directory builds के लिए use करते हैं।
HostList जो करता है वह हर web hosting company को catalogue करता है जिसे हम verify कर सकते हैं, type से विभाजित — shared, VPS, managed WordPress, cloud, dedicated, reseller — region, price band, और use case। Specific hosts के बीच comparison pages हैं, हर segment के लिए category pages हैं, एक search और filter UI है जो अठ्ठाईस-हजार-row dataset को बिना query latency के handle करता है, हर listing पर schema markup है, और एक streaming sitemap है क्योंकि URL count पहले से ही इतना अधिक है कि एक single sitemap.xml hold नहीं कर सकता।
इसे run करने से तीन सीख अब हर client directory build को shape देती हैं। पहली, data quality पूरा खेल है। तीन unique data points वाले pages entity name से beyond survive करते हैं Google updates; केवल name और generic description वाले pages de-indexed हो जाते हैं। दूसरी, internal linking इस scale पर backlinks से अधिक matter करती है। Listings, categories, और comparison pages के बीच link graph decide करता है कि किन leaf pages को indexed रहने के लिए बार-बार crawl किया जाता है। तीसरी, programmatic मतलब lazy नहीं है। हर page को exist करने का एक कारण चाहिए, और "हमारे पास database में एक row है" एक कारण नहीं है।
हमने database का लगभग पंद्रह प्रतिशत index से रोका क्योंकि unique-data threshold उन rows पर meet नहीं हुआ था। हमने category pages cut किए जिनके पास पाँच से कम strong listings थीं क्योंकि वे thin पढ़ते थे भले ही underlying schema सही था। हमने named competitors के बीच comparison pages जोड़े एक अलग page type के रूप में, और वह template site पर सबसे अधिक converting traffic में से कुछ बन गया। यही playbook अब हर directory पर standard है जिसे हम clients के लिए ship करते हैं।
ज्यादातर डायरेक्टरी साइट्स क्यों फेल होती हैं
अधिकांश directories मर जाती हैं survival से अधिक, और failure modes इतने predictable हैं कि मैं पहली call पर ही आमतौर पर बता सकता हूँ कि project किस ओर जा रहा है।
थिन-कंटेंट डी-इंडेक्सिंग सबसे आम विफलता है। एक डायरेक्टरी पाँच हजार लिस्टिंग्स के साथ लॉन्च होती है, उनमें से आधी में केवल एक नाम और एक-पंक्ति का विवरण होता है, और Google पहली पंद्रह सौ को इंडेक्स करता है फिर रुक जाता है। साइट कम-प्रयास वाले स्क्रैप की तरह पढ़ी जाती है। छह महीने बाद ज्यादातर इंडेक्स्ड पेज एक कोर अपडेट में डी-इंडेक्स हो जाते हैं। फिक्स डेटा-कलेक्शन समय पर होना चाहिए — हर पंक्ति को साइटमैप के लिए योग्य होने से पहले तीन यूनिक डेटा पॉइंट्स की जरूरत है, "हम इसे बाद में भर देंगे" नहीं।
स्टेल डेटा ड्रिफ्ट दूसरा पैटर्न है। एक डायरेक्टरी जो 2023 में सटीक व्यवसायों को लिस्ट करती थी, 2026 में आधे-अधूरे व्यवसायों को लिस्ट करती है क्योंकि किसी ने पंक्तियों को अपडेट नहीं किया, संपर्क जानकारी पुरानी पड़ जाती है, वेबसाइटें पार्किंग पेजों पर रीडायरेक्ट होती हैं, और डायरेक्टरी Google और मानव विजिटर दोनों के साथ ट्रस्ट सिग्नल खो देती है। हम या तो क्राउड-सोर्स्ड एडिटिंग फ्लो्स बनाते हैं जहाँ लिस्ट किया गया व्यवसाय अपनी प्रोफाइल को दावा और एडिट कर सके, ऑटोमेटेड फ्रेशनेस चेक्स जो डेड लिस्टिंग्स को डिसेबल करें, या दोनों। फ्रेशनेस लेयर के बिना डायरेक्टरी चाहे मूल डेटा कितना भी अच्छा हो, प्रासंगिकता से बाहर हो जाती है।
कोई मोट नहीं — यह तीसरा पैटर्न है। तीन प्रतिस्पर्धी डायरेक्टरीज एक ही वर्टिकल को समान डेटा के साथ कवर करती हैं। किसी के पास यूनिक डेटा नहीं है, तो किसी के पास अस्तित्व का कोई रक्षणीय कारण नहीं है। सर्च-शेयर विखंडित हो जाता है और कोई भी रैंक नहीं करता। फिक्स एडिटोरियल लेयर है — ओरिजिनल एनालिसिस, स्कोरिंग, सिफारिशें, कम्पेरिजन फ्रेमवर्क्स — जो अंतर्निहित डेटा अकेले प्रदान नहीं कर सकता। HostList अपनी स्कोरिंग रूब्रिक पर प्रतिस्पर्धा करता है, इसकी होस्टिंग लिस्ट पर नहीं, क्योंकि होस्टिंग लिस्ट स्वयं विशेष रूप से रक्षणीय नहीं है।
फिल्टर्स से इंडेक्स ब्लोट चौथा पैटर्न है। आठ फिल्टर डायमेंशन्स वाली एक डायरेक्टरी तकनीकी रूप से लाखों यूआरएल कॉम्बिनेशन्स जेनरेट कर सकती है। यदि हर कॉम्बिनेशन इंडेक्सेबल है, तो आप Google को थिन पेजों से भर देते हैं और मजबूत लोगों को पतला कर देते हैं। हम हमेशा थिन फिल्टर कॉम्बिनेशन्स को इंडेक्स से ब्लॉक करते हैं — तीन से कम लिस्टिंग्स वाली कोई भी चीज noindex पाती है, कोई भी असली क्वेरी इंटेंट नहीं जैसे सॉर्ट ऑर्डर्स या पेज-2 आगे कोई भी noindex पाती है, और केवल कैनोनिकल फिल्टर कॉम्बिनेशन्स जो असली सर्च्स के लिए मैप करते हैं, इंडेक्सेबल रहते हैं।
एक निर्देशिका बिल्ड में क्या होता है जो हम शिप करते हैं
एक डायरेक्टरी के लिए रेफरेंस आर्किटेक्चर पाँच लेयर्स के साथ आता है। हर प्रोजेक्ट स्पेसिफिक्स को फ्लेक्स करता है, लेकिन स्पाइन बिल्ड्स के आर-पार दोहराता है।
डेटा लेयर Supabase के माध्यम से Postgres है या सेल्फ-होस्ट किया गया, हर फेसेट कॉलम पर सही इंडेक्सेस के साथ। प्रत्येक एंटिटी टाइप के लिए एक डेडिकेटेड लिस्टिंग्स टेबल है — कंपनियाँ, प्रोडक्ट्स, लोकेशन्स, लोग — और कंटेंट के साथ क्वालिटी-गेट कॉलम्स (यूनिकनेस स्कोर, कम्पलीटनेस परसेंटेज, लास्ट-वेरिफाइड टाइमस्टैम्प)। एक साइटमैप-एलिजिबिलिटी व्यू क्वालिटी थ्रेसहोल्ड के नीचे की पंक्तियों को ऑटोमेटिकली फ़िल्टर करता है।
पेज टेम्पलेट्स एक लिस्टिंग डिटेल पेज में विभाजित होते हैं (फुल डेटा, रिलेटेड लिस्टिंग्स, स्कीमा, ब्रेडक्रम्ब), एक कैटेगरी पेज (पेजिनेटेड लिस्ट फिल्टर यूआई और ItemList स्कीमा के साथ), नामित एंटिटीज के बीच हेड-टू-हेड के लिए एक कम्पेरिजन पेज, एक लोकेशन पेज मैप एंबेड और जियो स्कीमा के साथ जहाँ ज्योग्राफी महत्वपूर्ण है, और अबाउट और मेथडोलॉजी पेजेस जो ओरिजिनल एडिटोरियल वेट ले जाते हैं जो अंतर्निहित डेटा प्रदान नहीं कर सकता।
सर्च और फिल्टर लगभग दस हजार लिस्टिंग्स तक Postgres फुल-टेक्स्ट सर्च का उपयोग करते हैं, फिर बड़ी डायरेक्टरीज के लिए Algolia या Meilisearch कम क्वेरी लेटेंसी रिक्वायरमेंट्स के साथ। सर्वर-रेंडर्ड फिल्टर यूआरएल्स हर फिल्टर कॉम्बिनेशन को एक कैनोनिकल देते हैं, और थिन या डुप्लिकेट कॉम्बिनेशन्स पर noindex इंडेक्स ब्लोट को रोकता है। सबमिशन और मॉडरेशन को एक पब्लिक सबमिशन फॉर्म मिलता है जहाँ मॉडल क्राउड-फेड है, एक एडमिन क्यू जहाँ क्वालिटी-गेट स्कोर्स मॉडरेटर रिव्यू के लिए सर्फेस किए जाते हैं, रिजेक्शन ईमेल्स को टेम्पलेट किया गया है खास कारणों के साथ, और लिस्ट किए गए एंटिटीज के लिए एक सेल्फ-सर्विस एडिट फ्लो अपनी प्रोफाइल को दावा और अपडेट करने के लिए।
एसईओ स्कैफोल्डिंग वह लेयर है जो तय करती है कि डायरेक्टरी जीवित रहती है या नहीं। स्ट्रीमिंग साइटमैप टेम्पलेट-पर-चंक पैटर्न के साथ, स्कीमा.आर्ग Organization या Product या Place या Service या LocalBusiness हर लिस्टिंग पर जैसा उपयुक्त हो, CollectionPage कैटेगरी पेजेस पर ItemList के साथ, BreadcrumbList हर जगह, कैनोनिकल यूआरएल एकल सत्य स्रोत से उत्सर्जित (डेटाबेस, टेम्पलेट नहीं), और एक बिल्ड-टाइम एसईओ लिंटर जो बिल्ड को फेल करता है मिसिंग H1, ओवरसाइज़्ड मेटा डिस्क्रिप्शन्स, या इनवैलिड JSON-LD पर।
मोनेटाइजेशन फीचर्ड लिस्टिंग्स (एक बूलियन फ्लैग एक पंक्ति को कैटेगरी पेजेस के शीर्ष पर प्रमोट करता है), स्पॉन्सर्ड कैटेगरी प्लेसमेंट्स (एक ब्रांड एक बिलिंग पीरियड के लिए एक कैटेगरी के शीर्ष का मालिक बन जाता है), एफिलिएट-लिंक ट्रैकिंग प्रॉपर rel="sponsored" एट्रिब्यूशन के साथ, और लिस्ट किए गए एंटिटीज के लिए पेड प्रीमियम टियर्स बेहतर प्लेसमेंट, अधिक रिच डेटा फील्ड्स, और एनालिटिक्स एक्सेस पाने के लिए के माध्यम से आते हैं।
एक DIRECTORY बनाने के लिए आपको कौन सा DATA SOURCE चाहिए
डायरेक्टरी प्रोजेक्ट में सबसे बड़ा चर डेटा स्रोत ही होता है। ज्यादातर एनगेजमेंट्स एक ही सवाल के जवाब पर जीते या मरते हैं: डे वन पर डेटा कहाँ से आएगा, और लॉन्च के बाद यह ताजा कैसे रहेगा?
मैनुअल एडिटोरियल का मतलब है कि एक टीम हर लिस्टिंग लिखती है। धीमा, महंगा, लेकिन बचाव योग्य। एक हजार से कम लिस्टिंग्स के लिए उपयुक्त। मैंने जो उदाहरण देखे हैं वे काम करते हैं: हाई-एंड होटल गाइड्स, क्यूरेटेड एजेंसी डायरेक्टरीज, निश लॉकेशन साइट्स जहाँ लिस्ट किया जाना ही वैल्यू है।
स्ट्रक्चर्ड इंपोर्ट का मतलब है आप किसी विश्वसनीय जगह से CSV या डेटाबेस एक्सपोर्ट लाते हो, और हम इसे क्लीन, डेडुप, एनरिच और इंजेस्ट करते हैं। एक हजार से एक लाख लिस्टिंग्स के लिए उपयुक्त। उदाहरण: पब्लिक डेटा वाली इंडस्ट्री डायरेक्टरीज, गवर्नमेंट रजिस्टर इंपोर्ट्स, कंपनीज-हाउस स्टाइल एक्सपोर्ट्स।
ऑटोमेटेड स्क्रेपिंग या API का मतलब है लिस्टिंग्स किसी थर्ड-पार्टी API या सम्मानजनक स्क्रेपिंग पाइपलाइन से पॉप्युलेट होती हैं। कानूनी और नैतिक रूप से स्रोत पर निर्भर करता है। दस हजार से लाखों लिस्टिंग्स के लिए उपयुक्त जहाँ डेटा किसी ज्ञात कैनोनिकल जगह पर रहता है। उदाहरण: GitHub से पुल की गई डेवलपर टूल डायरेक्टरीज, कंपनी साइट्स पर पब्लिक रिव्यूज से स्क्रैप किए गए होस्टिंग रिव्यूज।
यूजर-सबमिटेड का मतलब है लिस्टिंग्स उन लोगों से आती हैं जो लिस्ट किए जा रहे हैं। लॉन्च के लिए सस्ता, मॉडरेशन के लिए महंगा। एडिटोरियल सीड डेटा के ऊपर एक लेयर के रूप में सबसे अच्छा, केवल स्रोत के रूप में नहीं। हाइब्रिड पैटर्न (एडिटोरियल सीड प्लस स्ट्रक्चर्ड इंपोर्ट प्लस वार्षिक एडिटोरियल रिव्यू) वह है जो HostList चलाता है और वह है जो ज्यादातर असली डायरेक्टरीज करती हैं चाहे उन्होंने इसकी योजना बनाई हो या नहीं।
पहली कॉल पर हम पूछेंगे कि कौन सा कॉम्बिनेशन आपके डेटा रियलिटी से मेल खाता है। अगर आपके पास साफ जवाब नहीं है, तो डेटा सवाल ही काम का पहला फेज है; बिल्ड के बाद आता है।
एक डायरेक्टरी बिल्ड की लागत कितनी है और इसमें कितना समय लगता है
असली हाल के एनगेजमेंट्स के आधार पर ईमानदार रेंज, सेल्स डेक पर आकांक्षी प्राइसिंग नहीं। एक हजार से कम लिस्टिंग्स वाली छोटी एडिटोरियल डायरेक्टरी अठारह से पैंतीस हजार अमेरिकी डॉलर चलती है छह से नौ हफ्तों में। एक से दस हजार लिस्टिंग्स वाली मिड-साइज्ड डायरेक्टरी स्ट्रक्चर्ड डेटा इंपोर्ट के साथ तीस से साठ हजार दस से चौदह हफ्तों में चलती है। दस से एक लाख लिस्टिंग्स वाली बड़ी डायरेक्टरी, स्केल पर प्रोग्रामेटिक, पचास से नब्बे हजार बारह से अठारह हफ्तों में चलती है। मार्केटप्लेस शेप — दोनों ओर से, बुकिंग्स या ट्रांजेक्शन्स के साथ — साठ से एक सौ पचास हजार चौदह से बाइस हफ्तों में चलता है।
सभी रेंज्स में SEO स्कैफोल्डिंग (स्कीमा, साइटमैप, लिंटर), सर्च-एंड-फिल्टर लेयर, और एक बेसिक एडमिन डैशबोर्ड शामिल है। इसमें डेटा एक्विजीशन (मैनुअल एडिटोरियल, स्क्रेपिंग इंफ्रास्ट्रक्चर, थर्ड-पार्टी API कॉस्ट्स), ऑरिजिनल ब्रांड और डिज़ाइन वर्क, या पेड ट्रैफिक एक्विजीशन शामिल नहीं है। लॉन्च के बाद चलने वाली केयर प्लान्स पाँच सौ से तीन हजार अमेरिकी डॉलर प्रति महीना चलती हैं।