עד סוף 2025 ניהלנו את כל מה שקשור לצ'אט ישירות דרך OpenAI. חשבון אחד, מפתח אחד, חשבון אחד. בינואר 2026 עברנו לאגרגטור רב-מודלים. הנה מה שקרה בפועל.
מה היה לנו
- OpenAI enterprise tier — $~$8k/חודש על כל המשטחים
- כל השלמות הצ'אט על
gpt-4oאוgpt-4o-mini - מודל הטמעה אחד, מודל תמונה אחד (DALL-E 3)
- אינטגרציית SDK ישירה בארבעה שירותים
מה גרם למעבר
- Claude Opus 4.6 קיבל ציונים טובים יותר באופן ניכר בהערכות הקוד האגנטי שלנו
- Gemini 3 Pro הפך למנצח ברור בניתוח מסמכים עם הקשר ארוך
- רצינו לבדוק מודלים בקוד פתוח (DeepSeek, Llama 4) בלי להקים תשתית הסקה
- ניהול חמישה ספקים משמעותו חמישה חוזים, חמישה מחזורי חיוב, חמישה לוחות מחוונים של מגבלות קצב
ההגירה
עברנו לאגרגטור תואם OpenAI (זה בעצם — אנחנו משתמשים במוצר שלנו בייצור). כל השינוי היה החלפת baseURL ו-apiKey ב-SDK. ההבדל בקוד היה 8 שורות בארבעת השירותים.
// לפני
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });
// אחרי
const openai = new OpenAI({
apiKey: process.env.AIGEN_KEY,
baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});
מה השתנה בחשבון
- צ'אט (GPT-4o → מעורב GPT-4o + Claude Sonnet לפי משימה): -22%
- קידוד אגנטי (עבר ל-Claude Opus): +8%, אבל ההערכות השתפרו ב-15 נקודות
- ניתוח הקשר ארוך (עבר ל-Gemini 3 Pro): -40%
- יצירת תמונות (עבר מ-DALL-E 3 ל-Nano Banana): -65%
השפעה נטו על החשבון החודשי: -28%. בחירת מודל טובה יותר על כל משטח + שיעורי תשלום נמוכים יותר ליחידת טוקן מהאגרגטורים העליונים שלא צריך לנהל איתם משא ומתן ישיר.
שלושה דברים שהשתבשו
- הבדלים בפורמט SSE סטרימינג. Claude סטרים מעט שונה מ-OpenAI. לוגיקת הבופר בצד הלקוח שלנו נשברה לכ-10 דקות עד שהוספנו שכבת תאימות.
- ספירת טוקנים. מודלים שונים מבצעים טוקניזציה בצורה שונה. המדד הפנימי שלנו "טוקנים בשימוש לכל שיחה" נדרש לכיול מחדש לכל מודל.
- מטמון מבוסס על שם מודל. המטמון שלנו השתמש ב-
gpt-4oכמפתח. כשהתחלנו לנתב חלק מהבקשות ל-Claude, קיבלנו פגיעות מטמון ישנות. לקח: תמיד לכלול את המודל במפתחות המטמון.
האם היינו עושים זאת שוב?
כן — משלוש סיבות שאינן קשורות לעלות.
- אופציונליות. כש-OpenAI חוו השבתה של 40 דקות ב-3 באפריל, משטח הצ'אט שלנו המשיך לפעול כי התנועה עברה אוטומטית ל-Anthropic ו-Gemini. זה לבדו שווה את ההגירה.
- שוויון מודלים נגמר. אין "המודל הטוב ביותר" ב-2026. יש מודל הטוב ביותר לכל משימה. אגרגציה היא הדרך להשתמש בעובדה זו בפועל.
- חשבון אחד. הפיננסים רצו את זה יותר מההנדסה. חשבונית אחת, קשר ספק אחד, חוזה אחד ל-12 ספקים.
אם אתם מריצים כל נפח משמעותי על ספק יחיד, המעבר מחזיר את עצמו כבר בחודש הראשון.