Kuni 2025. aasta lõpuni kasutasime kõiki vestlusega seotud teenuseid otse OpenAI kaudu. Üks konto, üks võti, üks arve. 2026. aasta jaanuaris migreerusime mitme mudeli agregaatorile. Siin on, mis tegelikult juhtus.
Mida me kasutasime
- OpenAI ettevõtte tasand — ~$8k/kuu kõigi teenuste peale
- Kõik vestluse lõpetamised
gpt-4ovõigpt-4o-miniabil - Üks sisendmudel, üks pildimudel (DALL-E 3)
- Otsene SDK integratsioon neljas teenuses
Miks me liikusime
- Claude Opus 4.6 saavutas meie agentse kodeerimise hindamistel märgatavalt paremaid tulemusi
- Gemini 3 Pro osutus parimaks pika konteksti dokumendianalüüsiks
- Soovisime testida avatud lähtekoodiga mudeleid (DeepSeek, Llama 4) ilma, et peaksime püstitama järelduste infrastruktuuri
- Viie teenusepakkuja haldamine tähendas viit lepingut, viit arveldustsüklit, viit kiirusepiirangute juhtpaneeli
Migratsioon
Vahetasime OpenAI-ga ühilduva agregaatori vastu (tegelikult selle vastu — kasutame oma toodet tootmises). Kogu muudatus seisnes baseURL ja apiKey asendamises SDK-s. Koodimuudatus oli 8 rida nelja teenuse peale kokku.
// Enne
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });
// Pärast
const openai = new OpenAI({
apiKey: process.env.AIGEN_KEY,
baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});
Mis muutus arvel
- Vestlus (GPT-4o → segatud GPT-4o + Claude Sonnet vastavalt ülesandele): -22%
- Agentne kodeerimine (liikus Claude Opus'ile): +8%, kuid hindamised paranesid 15 punkti võrra
- Pika konteksti analüüs (liikus Gemini 3 Pro'le): -40%
- Pildigeneratsioon (liikus DALL-E 3 pealt Nano Banana peale): -65%
Kogumõju igakuisel arvel: -28%. Parem mudelivalik igas kategoorias + madalamad märgiratesid agregaatorite kaudu, kellega me ei pea otse läbirääkimisi pidama.
Kolm asja, mis läksid valesti
- Streaming SSE formaadi erinevused. Claude voogedastab veidi erinevalt OpenAI-st. Meie kliendipoolne puhvri loogika lakkas töötamast umbes 10 minutiks, kuni lisasime ühilduvuse shim'i.
- Märgiarvestus. Erinevad mudelid tokeniseerivad erinevalt. Meie sisemine "kasutatud märgid vestluse kohta" mõõdik tuli iga mudeli jaoks uuesti kalibreerida.
- Vahemälu, mis põhineb mudeli nimel. Meie prompt-vahemälu kasutas võtmena
gpt-4o. Kui hakkasime osa päringuid Claude'ile suunama, saime aegunud vahemälu tabamusi. Õppetund: alati lisage mudel vahemälu võtmetesse.
Kas teeksime seda uuesti?
Jah — kolmel põhjusel, mis ei ole seotud kuludega.
- Valikuvabadus. Kui OpenAI-l oli 3. aprillil 40-minutiline katkestus, jätkas meie vestlusteenus tööd, kuna liiklus suunati automaatselt Anthropic'ule ja Gemini'le. See üksi õigustab migratsiooni.
- Mudelite pariteet on läbi. Aastal 2026 ei ole "parimat mudelit". On parim mudel iga ülesande jaoks. Agregatsioon on viis, kuidas seda fakti tegelikult ära kasutada.
- Üks arve. Finantsosakond soovis seda rohkem kui insenerid. Üks arve, üks müüjasuhe, üks leping 12 teenusepakkujale.
Kui kasutate märkimisväärset mahtu ühe teenusepakkuja kaudu, tasub üleminek end esimese kuuga ära.