Vuoden 2025 loppuun asti ajoimme kaikki chat-toiminnot suoraan OpenAI:n kautta. Yksi tili, yksi avain, yksi lasku. Tammikuussa 2026 siirryimme monimalliseen aggregaattoriin. Tässä on, mitä oikeasti tapahtui.
Mitä meillä oli
- OpenAI yritystaso — $~$8k/kuukausi kaikilla alustoilla
- Kaikki chat-päätökset
gpt-4otaigpt-4o-mini - Yksi upotusmalli, yksi kuvamalli (DALL-E 3)
- Suora SDK-integraatio neljässä palvelussa
Mikä laukaisi siirron
- Claude Opus 4.6 sai huomattavasti parempia tuloksia agenttiohjelmointiarvioinneissamme
- Gemini 3 Pro oli selkeä voittaja pitkäkontekstisessa asiakirja-analyysissä
- Halusimme testata avoimen lähdekoodin malleja (DeepSeek, Llama 4) ilman inferenssi-infrastruktuurin pystyttämistä
- Viiden palveluntarjoajan käyttö tarkoitti viittä sopimusta, viittä laskutuskierrosta, viittä nopeusrajoitustaulua
Siirtyminen
Vaihdoimme OpenAI-yhteensopivaan aggregaattoriin (tähän, itse asiassa — käytämme omaa tuotettamme tuotannossa). Koko muutos oli baseURL ja apiKey vaihtaminen SDK:ssa. Koodiero oli 8 riviä neljässä palvelussa.
// Ennen
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });
// Jälkeen
const openai = new OpenAI({
apiKey: process.env.AIGEN_KEY,
baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});
Mitä muuttui laskussa
- Chat (GPT-4o → sekoitus GPT-4o + Claude Sonnet tehtävän mukaan): -22%
- Agenttiohjelmointi (siirtyi Claude Opus:iin): +8%, mutta arvioinnit paranivat 15 pistettä
- Pitkäkontekstinen analyysi (siirtyi Gemini 3 Pro:hon): -40%
- Kuvagenerointi (siirtyi DALL-E 3:sta Nano Banana:an): -65%
Nettovaikutus kuukausilaskuun: -28%. Parempi mallivalinta jokaisella alustalla + alhaisemmat per-token hinnat ylävirran aggregaattoreilta, joita meidän ei tarvitse neuvotella suoraan.
Kolme asiaa, jotka menivät pieleen
- Streaming SSE -muotoerot. Claude striimaa hieman eri tavalla kuin OpenAI. Asiakaspuolen puskurointilogiikkamme rikkoutui noin 10 minuutiksi, kunnes lisäsimme yhteensopivuuskerroksen.
- Token-laskenta. Eri mallit tokenoivat eri tavoin. Sisäinen "keskustelussa käytetyt tokenit" -mittarimme piti kalibroida uudelleen mallikohtaisesti.
- Välimuisti mallinimen perusteella. Kehotemuisteemme käytti
gpt-4oavaimena. Kun aloitimme joidenkin pyyntöjen reitittämisen Claude:lle, saimme vanhentuneita välimuistiosumia. Oppitunti: sisällytä aina malli välimuistiavaimiin.
Tekisimmekö sen uudelleen?
Kyllä — kolmesta syystä, jotka eivät liity kustannuksiin.
- Valinnaisuus. Kun OpenAI:lla oli 40 minuutin katkos 3. huhtikuuta, chat-alustamme jatkoi toimintaansa, koska liikenne siirtyi automaattisesti Anthropic:iin ja Gemini:iin. Jo pelkästään se on siirtymisen arvoinen.
- Mallipariteetti on ohi. Vuonna 2026 ei ole "parasta mallia". On paras malli jokaiseen tehtävään. Aggregointi on tapa hyödyntää tätä tosiasiaa.
- Yksi lasku. Talousosasto halusi tätä enemmän kuin insinöörit. Yksi lasku, yksi toimittajasuhde, yksi sopimus 12 palveluntarjoajalle.
Jos käytät merkittävää volyymia yhdellä palveluntarjoajalla, vaihto maksaa itsensä takaisin ensimmäisen kuukauden aikana.