حتى أواخر 2025، كنا ندير كل ما يتعلق بالدردشة عبر OpenAI مباشرة. حساب واحد، مفتاح واحد، فاتورة واحدة. في يناير 2026، انتقلنا إلى مجمع متعدد النماذج. إليك ما حدث بالفعل.
ما كان لدينا
- OpenAI مستوى المؤسسات — $~$8k/شهريًا عبر جميع الأسطح
- جميع إكمالات الدردشة على
gpt-4oأوgpt-4o-mini - نموذج تضمين واحد، نموذج صورة واحد (DALL-E 3)
- تكامل SDK مباشر في أربع خدمات
ما الذي دفعنا للتحرك
- Claude Opus 4.6 كان يسجل بشكل ملحوظ أفضل في تقييمات الترميز الوكيل لدينا
- Gemini 3 Pro أصبح الفائز الواضح لتحليل المستندات طويلة السياق
- أردنا اختبار النماذج مفتوحة المصدر (DeepSeek, Llama 4) دون إنشاء بنية تحتية للاستدلال
- تشغيل خمسة مزودين يعني خمسة عقود، خمسة دورات فواتير، خمسة لوحات تحكم حدود السرعة
الهجرة
انتقلنا إلى مجمع متوافق مع OpenAI (هذا في الواقع — نحن نستخدم منتجنا الخاص في الإنتاج). كان التغيير بالكامل هو استبدال baseURL وapiKey في SDK. كان الفرق في الكود 8 أسطر عبر الخدمات الأربع.
// قبل
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });
// بعد
const openai = new OpenAI({
apiKey: process.env.AIGEN_KEY,
baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});
ما الذي تغير في الفاتورة
- الدردشة (GPT-4o → مزيج GPT-4o + Claude Sonnet بناءً على المهمة): -22%
- الترميز الوكيل (انتقل إلى Claude Opus): +8%، لكن التقييمات تحسنت 15 نقطة
- تحليل طويل السياق (انتقل إلى Gemini 3 Pro): -40%
- توليد الصور (انتقل من DALL-E 3 إلى Nano Banana): -65%
التأثير الصافي على الفاتورة الشهرية: -28%. اختيار نموذج أفضل على كل سطح + معدلات أقل لكل رمز من المجمعات العلوية التي لا نحتاج إلى التفاوض معها مباشرة.
ثلاثة أشياء حدثت بشكل خاطئ
- اختلافات في تنسيق SSE المتدفق. Claude يبث بشكل مختلف قليلاً عن OpenAI. منطق المخزن المؤقت على جانب العميل لدينا تعطل لمدة 10 دقائق حتى أضفنا طبقة توافق.
- عد الرموز. النماذج المختلفة تقوم بتقسيم الرموز بشكل مختلف. كان علينا إعادة معايرة مقياس "الرموز المستخدمة لكل محادثة" الداخلي لدينا لكل نموذج.
- التخزين المؤقت بناءً على اسم النموذج. كان مخزن الطلبات المؤقت لدينا يستخدم
gpt-4oكمفتاح. عندما بدأنا في توجيه بعض الطلبات إلى Claude، حصلنا على نتائج مؤقتة قديمة. الدرس: يجب دائمًا تضمين النموذج في مفاتيح التخزين المؤقت.
هل سنفعلها مرة أخرى؟
نعم — لثلاثة أسباب غير متعلقة بالتكلفة.
- الاختيارية. عندما كان هناك انقطاع لمدة 40 دقيقة في OpenAI في 3 أبريل، استمرت واجهة الدردشة لدينا في العمل لأن الحركة انتقلت تلقائيًا إلى Anthropic وGemini. هذا وحده يستحق الانتقال.
- تكافؤ النماذج انتهى. لا يوجد "أفضل نموذج" في 2026. هناك أفضل نموذج لكل مهمة. التجميع هو الطريقة التي تستخدم بها هذه الحقيقة فعليًا.
- فاتورة واحدة. المالية أرادت هذا أكثر من الهندسة. فاتورة واحدة، علاقة واحدة مع البائع، عقد واحد لـ 12 مزودًا.
إذا كنت تدير أي حجم مهم على مزود واحد، فإن التحول يدفع لنفسه في الشهر الأول.