Vuoden 2025 loppuun asti ajoimme kaikki chat-toiminnot suoraan OpenAI:n kautta. Yksi tili, yksi avain, yksi lasku. Tammikuussa 2026 siirryimme monimalliseen aggregaattoriin. Tässä on, mitä oikeasti tapahtui.

Mitä meillä oli

  • OpenAI yritystaso — $~$8k/kuukausi kaikilla alustoilla
  • Kaikki chat-päätökset gpt-4o tai gpt-4o-mini
  • Yksi upotusmalli, yksi kuvamalli (DALL-E 3)
  • Suora SDK-integraatio neljässä palvelussa

Mikä laukaisi siirron

  • Claude Opus 4.6 sai huomattavasti parempia tuloksia agenttiohjelmointiarvioinneissamme
  • Gemini 3 Pro oli selkeä voittaja pitkäkontekstisessa asiakirja-analyysissä
  • Halusimme testata avoimen lähdekoodin malleja (DeepSeek, Llama 4) ilman inferenssi-infrastruktuurin pystyttämistä
  • Viiden palveluntarjoajan käyttö tarkoitti viittä sopimusta, viittä laskutuskierrosta, viittä nopeusrajoitustaulua

Siirtyminen

Vaihdoimme OpenAI-yhteensopivaan aggregaattoriin (tähän, itse asiassa — käytämme omaa tuotettamme tuotannossa). Koko muutos oli baseURL ja apiKey vaihtaminen SDK:ssa. Koodiero oli 8 riviä neljässä palvelussa.

// Ennen
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });

// Jälkeen
const openai = new OpenAI({
  apiKey: process.env.AIGEN_KEY,
  baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});

Mitä muuttui laskussa

  • Chat (GPT-4o → sekoitus GPT-4o + Claude Sonnet tehtävän mukaan): -22%
  • Agenttiohjelmointi (siirtyi Claude Opus:iin): +8%, mutta arvioinnit paranivat 15 pistettä
  • Pitkäkontekstinen analyysi (siirtyi Gemini 3 Pro:hon): -40%
  • Kuvagenerointi (siirtyi DALL-E 3:sta Nano Banana:an): -65%

Nettovaikutus kuukausilaskuun: -28%. Parempi mallivalinta jokaisella alustalla + alhaisemmat per-token hinnat ylävirran aggregaattoreilta, joita meidän ei tarvitse neuvotella suoraan.

Kolme asiaa, jotka menivät pieleen

  • Streaming SSE -muotoerot. Claude striimaa hieman eri tavalla kuin OpenAI. Asiakaspuolen puskurointilogiikkamme rikkoutui noin 10 minuutiksi, kunnes lisäsimme yhteensopivuuskerroksen.
  • Token-laskenta. Eri mallit tokenoivat eri tavoin. Sisäinen "keskustelussa käytetyt tokenit" -mittarimme piti kalibroida uudelleen mallikohtaisesti.
  • Välimuisti mallinimen perusteella. Kehotemuisteemme käytti gpt-4o avaimena. Kun aloitimme joidenkin pyyntöjen reitittämisen Claude:lle, saimme vanhentuneita välimuistiosumia. Oppitunti: sisällytä aina malli välimuistiavaimiin.

Tekisimmekö sen uudelleen?

Kyllä — kolmesta syystä, jotka eivät liity kustannuksiin.

  • Valinnaisuus. Kun OpenAI:lla oli 40 minuutin katkos 3. huhtikuuta, chat-alustamme jatkoi toimintaansa, koska liikenne siirtyi automaattisesti Anthropic:iin ja Gemini:iin. Jo pelkästään se on siirtymisen arvoinen.
  • Mallipariteetti on ohi. Vuonna 2026 ei ole "parasta mallia". On paras malli jokaiseen tehtävään. Aggregointi on tapa hyödyntää tätä tosiasiaa.
  • Yksi lasku. Talousosasto halusi tätä enemmän kuin insinöörit. Yksi lasku, yksi toimittajasuhde, yksi sopimus 12 palveluntarjoajalle.

Jos käytät merkittävää volyymia yhdellä palveluntarjoajalla, vaihto maksaa itsensä takaisin ensimmäisen kuukauden aikana.