2025 के अंत तक हमने सभी चैट-संबंधित कार्य OpenAI के माध्यम से सीधे चलाए। एक खाता, एक कुंजी, एक बिल। जनवरी 2026 में हमने एक मल्टी-मॉडल एग्रीगेटर पर माइग्रेट किया। यहाँ वास्तव में क्या हुआ।
हमारे पास क्या था
- OpenAI एंटरप्राइज टियर — $~$8k/माह सभी सतहों पर
- सभी चैट पूर्णताएं
gpt-4oयाgpt-4o-miniपर - एक एम्बेडिंग मॉडल, एक इमेज मॉडल (DALL-E 3)
- चार सेवाओं में डायरेक्ट SDK इंटीग्रेशन
मूव का ट्रिगर क्या था
- Claude Opus 4.6 हमारे एजेंटिक कोडिंग इवैल्स पर ध्यान देने योग्य बेहतर स्कोर कर रहा था
- Gemini 3 Pro लंबे संदर्भ दस्तावेज़ विश्लेषण के लिए स्पष्ट विजेता बन गया
- हम ओपन-सोर्स मॉडल (DeepSeek, Llama 4) का परीक्षण करना चाहते थे बिना इन्फ्रास्ट्रक्चर खड़ा किए
- पांच प्रदाताओं को चलाने का मतलब था पांच अनुबंध, पांच बिलिंग चक्र, पांच दर सीमा डैशबोर्ड
माइग्रेशन
हमने एक OpenAI-संगत एग्रीगेटर पर स्विच किया (वास्तव में यही — हम उत्पादन में अपने उत्पाद का उपयोग करते हैं)। पूरा परिवर्तन SDK में baseURL और apiKey को बदलने का था। कोड अंतर चार सेवाओं में 8 लाइनों का था।
// पहले
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });
// बाद में
const openai = new OpenAI({
apiKey: process.env.AIGEN_KEY,
baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});
बिल में क्या बदला
- चैट (GPT-4o → मिश्रित GPT-4o + Claude Sonnet कार्य के आधार पर): -22%
- एजेंटिक कोडिंग (Claude Opus पर स्थानांतरित): +8%, लेकिन इवैल्स में 15 अंक सुधार हुआ
- लंबे संदर्भ विश्लेषण (Gemini 3 Pro पर स्थानांतरित): -40%
- इमेज जनरेशन (DALL-E 3 से Nano Banana पर स्थानांतरित): -65%
मासिक बिल पर कुल प्रभाव: -28%. प्रत्येक सतह पर बेहतर मॉडल चयन + अपस्ट्रीम एग्रीगेटर्स से कम प्रति-टोकन दरें जिन्हें हमें सीधे बातचीत नहीं करनी पड़ी।
तीन चीजें जो गलत हुईं
- स्ट्रीमिंग SSE फॉर्मेट अंतर. Claude OpenAI से थोड़ा अलग स्ट्रीम करता है। हमारे क्लाइंट-साइड बफर लॉजिक ने लगभग 10 मिनट के लिए काम करना बंद कर दिया जब तक कि हमने एक संगतता शिम नहीं जोड़ा।
- टोकन गिनती. विभिन्न मॉडल अलग-अलग तरीके से टोकन बनाते हैं। हमारे आंतरिक "प्रति वार्तालाप उपयोग किए गए टोकन" मीट्रिक को प्रति मॉडल पुनः-कैलिब्रेट करने की आवश्यकता थी।
- मॉडल नाम पर आधारित कैशिंग. हमारे प्रॉम्प्ट कैश ने
gpt-4oको कुंजी के रूप में उपयोग किया। जब हमने कुछ अनुरोधों को Claude पर रूट करना शुरू किया, तो हमें स्थिर कैश हिट्स मिलीं। सबक: हमेशा कैश कुंजियों में मॉडल शामिल करें।
क्या हम इसे फिर से करेंगे?
हाँ — तीन कारणों से जो लागत से संबंधित नहीं हैं।
- वैकल्पिकता. जब OpenAI ने 3 अप्रैल को 40 मिनट का आउटेज किया, तो हमारी चैट सतह चलती रही क्योंकि ट्रैफिक स्वतः Anthropic और Gemini पर फेलओवर हो गया। यह अकेले ही माइग्रेशन के लायक है।
- मॉडल समानता समाप्त हो गई है. 2026 में कोई "सर्वश्रेष्ठ मॉडल" नहीं है। प्रत्येक कार्य के लिए एक सर्वश्रेष्ठ मॉडल है। एग्रीगेशन वास्तव में उस तथ्य का उपयोग करने का तरीका है।
- एक बिल. वित्त ने इसे इंजीनियरिंग से अधिक चाहा। एक चालान, एक विक्रेता संबंध, 12 प्रदाताओं के लिए एक अनुबंध।
यदि आप किसी एकल प्रदाता पर कोई सार्थक मात्रा चला रहे हैं, तो स्विच पहले महीने में ही अपने लिए भुगतान करता है।