Do konca leta 2025 smo vse, kar je povezano s klepetom, izvajali neposredno prek OpenAI. En račun, en ključ, en račun. Januarja 2026 smo prešli na večmodelnega agregatorja. Tukaj je, kaj se je dejansko zgodilo.

Kaj smo imeli

  • OpenAI podjetniški nivo — $~$8k/mesec na vseh površinah
  • Vsi klepeti zaključeni na gpt-4o ali gpt-4o-mini
  • En model za vdelavo, en model za slike (DALL-E 3)
  • Neposredna integracija SDK v štirih storitvah

Kaj je sprožilo premik

  • Claude Opus 4.6 je dosegal opazno boljše rezultate na naših evalvacijah kodiranja agentov
  • Gemini 3 Pro je postal jasen zmagovalec za analizo dokumentov z dolgim kontekstom
  • Želeli smo preizkusiti odprtokodne modele (DeepSeek, Llama 4) brez postavljanja infrastrukture za sklepanje
  • Upravljanje petih ponudnikov je pomenilo pet pogodb, pet obračunskih ciklov, pet nadzornih plošč za omejitve hitrosti

Migracija

Prešli smo na OpenAI-kompatibilnega agregatorja (pravzaprav tega — uporabljamo naš izdelek v produkciji). Celotna sprememba je bila zamenjava baseURL in apiKey v SDK. Razlika v kodi je bila 8 vrstic čez štiri storitve.

// Pred
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });

// Po
const openai = new OpenAI({
  apiKey: process.env.AIGEN_KEY,
  baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});

Kaj se je spremenilo na računu

  • Klepet (GPT-4o → mešan GPT-4o + Claude Sonnet glede na nalogo): -22%
  • Kodiranje agentov (prehod na Claude Opus): +8%, vendar so se evalvacije izboljšale za 15 točk
  • Analiza dolgih kontekstov (prehod na Gemini 3 Pro): -40%
  • Generiranje slik (prehod z DALL-E 3 na Nano Banana): -65%

Net učinek na mesečni račun: -28%. Boljša izbira modela na vsaki površini + nižje cene na žeton od zgornjih agregatorjev, s katerimi se nam ni treba neposredno pogajati.

Tri stvari, ki so šle narobe

  • Razlike v formatu pretakanja SSE. Claude pretaka nekoliko drugače kot OpenAI. Naša logika medpomnilnika na strani odjemalca je bila pokvarjena približno 10 minut, dokler nismo dodali združljivega vmesnika.
  • Štetje žetonov. Različni modeli žetone različno kodirajo. Naša notranja metrika "žetoni uporabljeni na pogovor" je morala biti ponovno kalibrirana za vsak model.
  • Predpomnjenje na podlagi imena modela. Naš predpomnilnik pozivov je uporabljal gpt-4o kot ključ. Ko smo začeli usmerjati nekatere zahteve na Claude, smo dobili zastarele zadetke predpomnilnika. Lekcija: vedno vključite model v ključe predpomnilnika.

Bi to storili znova?

Da — iz treh razlogov, ki niso povezani s stroški.

  • Opcionalnost. Ko je imel OpenAI 40-minutni izpad 3. aprila, je naša klepetalna površina še naprej delovala, ker se je promet samodejno preusmeril na Anthropic in Gemini. To samo po sebi je vredno migracije.
  • Pariteta modelov je končana. Leta 2026 ni več "najboljšega modela". Obstaja najboljši model za vsako nalogo. Agregacija je način, kako dejansko uporabiti to dejstvo.
  • En račun. Finance so to želele bolj kot inženiring. En račun, en odnos z dobaviteljem, ena pogodba za 12 ponudnikov.

Če imate kakršen koli pomemben obseg pri enem ponudniku, se prehod izplača že prvi mesec.