Zakaj smo prešli z neposrednega OpenAI na večmodelnega agregatorja

Pravi podatki o prehodu z OpenAI na agregirano API. Zakaj smo to storili, vpliv na zakasnitev, zanesljivost, račun in tri stvari, ki so šle narobe.

Do konca leta 2025 smo vse, kar je povezano s klepetom, izvajali neposredno prek OpenAI. En račun, en ključ, en račun. Januarja 2026 smo prešli na večmodelnega agregatorja. Tukaj je, kaj se je dejansko zgodilo.

Kaj smo imeli

OpenAI podjetniški nivo — $~$8k/mesec na vseh površinah
Vsi klepeti zaključeni na gpt-4o ali gpt-4o-mini
En model za vdelavo, en model za slike (DALL-E 3)
Neposredna integracija SDK v štirih storitvah

Kaj je sprožilo premik

Claude Opus 4.6 je dosegal opazno boljše rezultate na naših evalvacijah kodiranja agentov
Gemini 3 Pro je postal jasen zmagovalec za analizo dokumentov z dolgim kontekstom
Želeli smo preizkusiti odprtokodne modele (DeepSeek, Llama 4) brez postavljanja infrastrukture za sklepanje
Upravljanje petih ponudnikov je pomenilo pet pogodb, pet obračunskih ciklov, pet nadzornih plošč za omejitve hitrosti

Migracija

Prešli smo na OpenAI-kompatibilnega agregatorja (pravzaprav tega — uporabljamo naš izdelek v produkciji). Celotna sprememba je bila zamenjava baseURL in apiKey v SDK. Razlika v kodi je bila 8 vrstic čez štiri storitve.

// Pred
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });

// Po
const openai = new OpenAI({
  apiKey: process.env.AIGEN_KEY,
  baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});

Kaj se je spremenilo na računu

Klepet (GPT-4o → mešan GPT-4o + Claude Sonnet glede na nalogo): -22%
Kodiranje agentov (prehod na Claude Opus): +8%, vendar so se evalvacije izboljšale za 15 točk
Analiza dolgih kontekstov (prehod na Gemini 3 Pro): -40%
Generiranje slik (prehod z DALL-E 3 na Nano Banana): -65%

Net učinek na mesečni račun: -28%. Boljša izbira modela na vsaki površini + nižje cene na žeton od zgornjih agregatorjev, s katerimi se nam ni treba neposredno pogajati.

Tri stvari, ki so šle narobe

Razlike v formatu pretakanja SSE. Claude pretaka nekoliko drugače kot OpenAI. Naša logika medpomnilnika na strani odjemalca je bila pokvarjena približno 10 minut, dokler nismo dodali združljivega vmesnika.
Štetje žetonov. Različni modeli žetone različno kodirajo. Naša notranja metrika "žetoni uporabljeni na pogovor" je morala biti ponovno kalibrirana za vsak model.
Predpomnjenje na podlagi imena modela. Naš predpomnilnik pozivov je uporabljal gpt-4o kot ključ. Ko smo začeli usmerjati nekatere zahteve na Claude, smo dobili zastarele zadetke predpomnilnika. Lekcija: vedno vključite model v ključe predpomnilnika.

Bi to storili znova?

Da — iz treh razlogov, ki niso povezani s stroški.

Opcionalnost. Ko je imel OpenAI 40-minutni izpad 3. aprila, je naša klepetalna površina še naprej delovala, ker se je promet samodejno preusmeril na Anthropic in Gemini. To samo po sebi je vredno migracije.
Pariteta modelov je končana. Leta 2026 ni več "najboljšega modela". Obstaja najboljši model za vsako nalogo. Agregacija je način, kako dejansko uporabiti to dejstvo.
En račun. Finance so to želele bolj kot inženiring. En račun, en odnos z dobaviteljem, ena pogodba za 12 ponudnikov.

Če imate kakršen koli pomemben obseg pri enem ponudniku, se prehod izplača že prvi mesec.

Zakaj smo prešli z neposrednega OpenAI na večmodelnega agregatorja — in kaj nas je to stalo

Kaj smo imeli

Kaj je sprožilo premik

Migracija

Kaj se je spremenilo na računu

Tri stvari, ki so šle narobe

Bi to storili znova?

Preberi naprej

Veo 3.1 vs Runway Aleph — kateri AI video model izbrati leta 2026?

Flux Kontext Pro vs Nano Banana vs 4o Image — referenčni test generiranja slik za leto 2026

Dodajanje AI glasbe v vašo aplikacijo s Suno v4.5 — 30-minutni vodič za integracijo

Plačujete samo klice. Nič več.