Miks me vahetasime OpenAI otsekasutuse mitme mudeli agregaatori vastu — ja mis see meile maksma läks

Tõelised numbrid OpenAI-lt ainult agregaatori API-le üleminekul. Latentsus, töökindlus, kulude mõju ja kolm asja, mis läksid valesti.

Kuni 2025. aasta lõpuni kasutasime kõiki vestlusega seotud teenuseid otse OpenAI kaudu. Üks konto, üks võti, üks arve. 2026. aasta jaanuaris migreerusime mitme mudeli agregaatorile. Siin on, mis tegelikult juhtus.

Mida me kasutasime

OpenAI ettevõtte tasand — ~$8k/kuu kõigi teenuste peale
Kõik vestluse lõpetamised gpt-4o või gpt-4o-mini abil
Üks sisendmudel, üks pildimudel (DALL-E 3)
Otsene SDK integratsioon neljas teenuses

Miks me liikusime

Claude Opus 4.6 saavutas meie agentse kodeerimise hindamistel märgatavalt paremaid tulemusi
Gemini 3 Pro osutus parimaks pika konteksti dokumendianalüüsiks
Soovisime testida avatud lähtekoodiga mudeleid (DeepSeek, Llama 4) ilma, et peaksime püstitama järelduste infrastruktuuri
Viie teenusepakkuja haldamine tähendas viit lepingut, viit arveldustsüklit, viit kiirusepiirangute juhtpaneeli

Migratsioon

Vahetasime OpenAI-ga ühilduva agregaatori vastu (tegelikult selle vastu — kasutame oma toodet tootmises). Kogu muudatus seisnes baseURL ja apiKey asendamises SDK-s. Koodimuudatus oli 8 rida nelja teenuse peale kokku.

// Enne
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });

// Pärast
const openai = new OpenAI({
  apiKey: process.env.AIGEN_KEY,
  baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});

Mis muutus arvel

Vestlus (GPT-4o → segatud GPT-4o + Claude Sonnet vastavalt ülesandele): -22%
Agentne kodeerimine (liikus Claude Opus'ile): +8%, kuid hindamised paranesid 15 punkti võrra
Pika konteksti analüüs (liikus Gemini 3 Pro'le): -40%
Pildigeneratsioon (liikus DALL-E 3 pealt Nano Banana peale): -65%

Kogumõju igakuisel arvel: -28%. Parem mudelivalik igas kategoorias + madalamad märgiratesid agregaatorite kaudu, kellega me ei pea otse läbirääkimisi pidama.

Kolm asja, mis läksid valesti

Streaming SSE formaadi erinevused. Claude voogedastab veidi erinevalt OpenAI-st. Meie kliendipoolne puhvri loogika lakkas töötamast umbes 10 minutiks, kuni lisasime ühilduvuse shim'i.
Märgiarvestus. Erinevad mudelid tokeniseerivad erinevalt. Meie sisemine "kasutatud märgid vestluse kohta" mõõdik tuli iga mudeli jaoks uuesti kalibreerida.
Vahemälu, mis põhineb mudeli nimel. Meie prompt-vahemälu kasutas võtmena gpt-4o. Kui hakkasime osa päringuid Claude'ile suunama, saime aegunud vahemälu tabamusi. Õppetund: alati lisage mudel vahemälu võtmetesse.

Kas teeksime seda uuesti?

Jah — kolmel põhjusel, mis ei ole seotud kuludega.

Valikuvabadus. Kui OpenAI-l oli 3. aprillil 40-minutiline katkestus, jätkas meie vestlusteenus tööd, kuna liiklus suunati automaatselt Anthropic'ule ja Gemini'le. See üksi õigustab migratsiooni.
Mudelite pariteet on läbi. Aastal 2026 ei ole "parimat mudelit". On parim mudel iga ülesande jaoks. Agregatsioon on viis, kuidas seda fakti tegelikult ära kasutada.
Üks arve. Finantsosakond soovis seda rohkem kui insenerid. Üks arve, üks müüjasuhe, üks leping 12 teenusepakkujale.

Kui kasutate märkimisväärset mahtu ühe teenusepakkuja kaudu, tasub üleminek end esimese kuuga ära.

Miks me vahetasime OpenAI otsekasutuse mitme mudeli agregaatori vastu — ja mis see meile maksma läks

Mida me kasutasime

Miks me liikusime

Migratsioon

Mis muutus arvel

Kolm asja, mis läksid valesti

Kas teeksime seda uuesti?

Loe edasi

Veo 3.1 vs Runway Aleph — millist AI videomudelit kasutada 2026. aastal?

Flux Kontext Pro vs Nano Banana vs 4o Image — 2026. aasta pildigeneratsiooni võrdlus

AI-muusika lisamine oma rakendusse Suno v4.5-ga — 30-minutiline integreerimisjuhend

Maksad ainult selle eest, mida kasutad.