עד סוף 2025 ניהלנו את כל מה שקשור לצ'אט ישירות דרך OpenAI. חשבון אחד, מפתח אחד, חשבון אחד. בינואר 2026 עברנו לאגרגטור רב-מודלים. הנה מה שקרה בפועל.

מה היה לנו

  • OpenAI enterprise tier — $~$8k/חודש על כל המשטחים
  • כל השלמות הצ'אט על gpt-4o או gpt-4o-mini
  • מודל הטמעה אחד, מודל תמונה אחד (DALL-E 3)
  • אינטגרציית SDK ישירה בארבעה שירותים

מה גרם למעבר

  • Claude Opus 4.6 קיבל ציונים טובים יותר באופן ניכר בהערכות הקוד האגנטי שלנו
  • Gemini 3 Pro הפך למנצח ברור בניתוח מסמכים עם הקשר ארוך
  • רצינו לבדוק מודלים בקוד פתוח (DeepSeek, Llama 4) בלי להקים תשתית הסקה
  • ניהול חמישה ספקים משמעותו חמישה חוזים, חמישה מחזורי חיוב, חמישה לוחות מחוונים של מגבלות קצב

ההגירה

עברנו לאגרגטור תואם OpenAI (זה בעצם — אנחנו משתמשים במוצר שלנו בייצור). כל השינוי היה החלפת baseURL ו-apiKey ב-SDK. ההבדל בקוד היה 8 שורות בארבעת השירותים.

// לפני
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });

// אחרי
const openai = new OpenAI({
  apiKey: process.env.AIGEN_KEY,
  baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});

מה השתנה בחשבון

  • צ'אט (GPT-4o → מעורב GPT-4o + Claude Sonnet לפי משימה): -22%
  • קידוד אגנטי (עבר ל-Claude Opus): +8%, אבל ההערכות השתפרו ב-15 נקודות
  • ניתוח הקשר ארוך (עבר ל-Gemini 3 Pro): -40%
  • יצירת תמונות (עבר מ-DALL-E 3 ל-Nano Banana): -65%

השפעה נטו על החשבון החודשי: -28%. בחירת מודל טובה יותר על כל משטח + שיעורי תשלום נמוכים יותר ליחידת טוקן מהאגרגטורים העליונים שלא צריך לנהל איתם משא ומתן ישיר.

שלושה דברים שהשתבשו

  • הבדלים בפורמט SSE סטרימינג. Claude סטרים מעט שונה מ-OpenAI. לוגיקת הבופר בצד הלקוח שלנו נשברה לכ-10 דקות עד שהוספנו שכבת תאימות.
  • ספירת טוקנים. מודלים שונים מבצעים טוקניזציה בצורה שונה. המדד הפנימי שלנו "טוקנים בשימוש לכל שיחה" נדרש לכיול מחדש לכל מודל.
  • מטמון מבוסס על שם מודל. המטמון שלנו השתמש ב-gpt-4o כמפתח. כשהתחלנו לנתב חלק מהבקשות ל-Claude, קיבלנו פגיעות מטמון ישנות. לקח: תמיד לכלול את המודל במפתחות המטמון.

האם היינו עושים זאת שוב?

כן — משלוש סיבות שאינן קשורות לעלות.

  • אופציונליות. כש-OpenAI חוו השבתה של 40 דקות ב-3 באפריל, משטח הצ'אט שלנו המשיך לפעול כי התנועה עברה אוטומטית ל-Anthropic ו-Gemini. זה לבדו שווה את ההגירה.
  • שוויון מודלים נגמר. אין "המודל הטוב ביותר" ב-2026. יש מודל הטוב ביותר לכל משימה. אגרגציה היא הדרך להשתמש בעובדה זו בפועל.
  • חשבון אחד. הפיננסים רצו את זה יותר מההנדסה. חשבונית אחת, קשר ספק אחד, חוזה אחד ל-12 ספקים.

אם אתם מריצים כל נפח משמעותי על ספק יחיד, המעבר מחזיר את עצמו כבר בחודש הראשון.