למה עברנו מ-OpenAI ישיר לאגרגטור רב-מודלים

המספרים האמיתיים על המעבר מ-OpenAI בלבד ל-API מאוגד. השהייה, אמינות, השפעה על החשבון ושלושת הדברים שהשתבשו.

עד סוף 2025 ניהלנו את כל מה שקשור לצ'אט ישירות דרך OpenAI. חשבון אחד, מפתח אחד, חשבון אחד. בינואר 2026 עברנו לאגרגטור רב-מודלים. הנה מה שקרה בפועל.

מה היה לנו

OpenAI enterprise tier — $~$8k/חודש על כל המשטחים
כל השלמות הצ'אט על gpt-4o או gpt-4o-mini
מודל הטמעה אחד, מודל תמונה אחד (DALL-E 3)
אינטגרציית SDK ישירה בארבעה שירותים

מה גרם למעבר

Claude Opus 4.6 קיבל ציונים טובים יותר באופן ניכר בהערכות הקוד האגנטי שלנו
Gemini 3 Pro הפך למנצח ברור בניתוח מסמכים עם הקשר ארוך
רצינו לבדוק מודלים בקוד פתוח (DeepSeek, Llama 4) בלי להקים תשתית הסקה
ניהול חמישה ספקים משמעותו חמישה חוזים, חמישה מחזורי חיוב, חמישה לוחות מחוונים של מגבלות קצב

ההגירה

עברנו לאגרגטור תואם OpenAI (זה בעצם — אנחנו משתמשים במוצר שלנו בייצור). כל השינוי היה החלפת baseURL ו-apiKey ב-SDK. ההבדל בקוד היה 8 שורות בארבעת השירותים.

// לפני
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });

// אחרי
const openai = new OpenAI({
  apiKey: process.env.AIGEN_KEY,
  baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});

מה השתנה בחשבון

צ'אט (GPT-4o → מעורב GPT-4o + Claude Sonnet לפי משימה): -22%
קידוד אגנטי (עבר ל-Claude Opus): +8%, אבל ההערכות השתפרו ב-15 נקודות
ניתוח הקשר ארוך (עבר ל-Gemini 3 Pro): -40%
יצירת תמונות (עבר מ-DALL-E 3 ל-Nano Banana): -65%

השפעה נטו על החשבון החודשי: -28%. בחירת מודל טובה יותר על כל משטח + שיעורי תשלום נמוכים יותר ליחידת טוקן מהאגרגטורים העליונים שלא צריך לנהל איתם משא ומתן ישיר.

שלושה דברים שהשתבשו

הבדלים בפורמט SSE סטרימינג. Claude סטרים מעט שונה מ-OpenAI. לוגיקת הבופר בצד הלקוח שלנו נשברה לכ-10 דקות עד שהוספנו שכבת תאימות.
ספירת טוקנים. מודלים שונים מבצעים טוקניזציה בצורה שונה. המדד הפנימי שלנו "טוקנים בשימוש לכל שיחה" נדרש לכיול מחדש לכל מודל.
מטמון מבוסס על שם מודל. המטמון שלנו השתמש ב-gpt-4o כמפתח. כשהתחלנו לנתב חלק מהבקשות ל-Claude, קיבלנו פגיעות מטמון ישנות. לקח: תמיד לכלול את המודל במפתחות המטמון.

האם היינו עושים זאת שוב?

כן — משלוש סיבות שאינן קשורות לעלות.

אופציונליות. כש-OpenAI חוו השבתה של 40 דקות ב-3 באפריל, משטח הצ'אט שלנו המשיך לפעול כי התנועה עברה אוטומטית ל-Anthropic ו-Gemini. זה לבדו שווה את ההגירה.
שוויון מודלים נגמר. אין "המודל הטוב ביותר" ב-2026. יש מודל הטוב ביותר לכל משימה. אגרגציה היא הדרך להשתמש בעובדה זו בפועל.
חשבון אחד. הפיננסים רצו את זה יותר מההנדסה. חשבונית אחת, קשר ספק אחד, חוזה אחד ל-12 ספקים.

אם אתם מריצים כל נפח משמעותי על ספק יחיד, המעבר מחזיר את עצמו כבר בחודש הראשון.

למה עברנו מ-OpenAI ישיר לאגרגטור רב-מודלים — ומה זה עלה לנו

מה היה לנו

מה גרם למעבר

ההגירה

מה השתנה בחשבון

שלושה דברים שהשתבשו

האם היינו עושים זאת שוב?

קראו בהמשך

Veo 3.1 מול Runway Aleph — איזה מודל וידאו מבוסס AI כדאי לבחור ב-2026?

Flux Kontext Pro מול Nano Banana מול 4o Image — מדד יצירת התמונות של 2026

שילוב מוזיקה מבוססת AI באפליקציה שלך עם Suno v4.5 — מדריך אינטגרציה ב-30 דקות

משלמים רק על קריאות, שום דבר נוסף.