Do konca leta 2025 smo vse, kar je povezano s klepetom, izvajali neposredno prek OpenAI. En račun, en ključ, en račun. Januarja 2026 smo prešli na večmodelnega agregatorja. Tukaj je, kaj se je dejansko zgodilo.
Kaj smo imeli
- OpenAI podjetniški nivo — $~$8k/mesec na vseh površinah
- Vsi klepeti zaključeni na
gpt-4oaligpt-4o-mini - En model za vdelavo, en model za slike (DALL-E 3)
- Neposredna integracija SDK v štirih storitvah
Kaj je sprožilo premik
- Claude Opus 4.6 je dosegal opazno boljše rezultate na naših evalvacijah kodiranja agentov
- Gemini 3 Pro je postal jasen zmagovalec za analizo dokumentov z dolgim kontekstom
- Želeli smo preizkusiti odprtokodne modele (DeepSeek, Llama 4) brez postavljanja infrastrukture za sklepanje
- Upravljanje petih ponudnikov je pomenilo pet pogodb, pet obračunskih ciklov, pet nadzornih plošč za omejitve hitrosti
Migracija
Prešli smo na OpenAI-kompatibilnega agregatorja (pravzaprav tega — uporabljamo naš izdelek v produkciji). Celotna sprememba je bila zamenjava baseURL in apiKey v SDK. Razlika v kodi je bila 8 vrstic čez štiri storitve.
// Pred
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });
// Po
const openai = new OpenAI({
apiKey: process.env.AIGEN_KEY,
baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});
Kaj se je spremenilo na računu
- Klepet (GPT-4o → mešan GPT-4o + Claude Sonnet glede na nalogo): -22%
- Kodiranje agentov (prehod na Claude Opus): +8%, vendar so se evalvacije izboljšale za 15 točk
- Analiza dolgih kontekstov (prehod na Gemini 3 Pro): -40%
- Generiranje slik (prehod z DALL-E 3 na Nano Banana): -65%
Net učinek na mesečni račun: -28%. Boljša izbira modela na vsaki površini + nižje cene na žeton od zgornjih agregatorjev, s katerimi se nam ni treba neposredno pogajati.
Tri stvari, ki so šle narobe
- Razlike v formatu pretakanja SSE. Claude pretaka nekoliko drugače kot OpenAI. Naša logika medpomnilnika na strani odjemalca je bila pokvarjena približno 10 minut, dokler nismo dodali združljivega vmesnika.
- Štetje žetonov. Različni modeli žetone različno kodirajo. Naša notranja metrika "žetoni uporabljeni na pogovor" je morala biti ponovno kalibrirana za vsak model.
- Predpomnjenje na podlagi imena modela. Naš predpomnilnik pozivov je uporabljal
gpt-4okot ključ. Ko smo začeli usmerjati nekatere zahteve na Claude, smo dobili zastarele zadetke predpomnilnika. Lekcija: vedno vključite model v ključe predpomnilnika.
Bi to storili znova?
Da — iz treh razlogov, ki niso povezani s stroški.
- Opcionalnost. Ko je imel OpenAI 40-minutni izpad 3. aprila, je naša klepetalna površina še naprej delovala, ker se je promet samodejno preusmeril na Anthropic in Gemini. To samo po sebi je vredno migracije.
- Pariteta modelov je končana. Leta 2026 ni več "najboljšega modela". Obstaja najboljši model za vsako nalogo. Agregacija je način, kako dejansko uporabiti to dejstvo.
- En račun. Finance so to želele bolj kot inženiring. En račun, en odnos z dobaviteljem, ena pogodba za 12 ponudnikov.
Če imate kakršen koli pomemben obseg pri enem ponudniku, se prehod izplača že prvi mesec.