Neden doğrudan OpenAI'den çoklu model toplayıcısına geçtik — ve bu bize neye mal oldu

OpenAI'den yalnızca birleştirilmiş bir API'ye geçişin gerçek rakamları. Gecikme, güvenilirlik, fatura etkisi ve yanlış giden üç şey.

2025'in sonlarına kadar tüm sohbetle ilgili işlemleri doğrudan OpenAI üzerinden yürüttük. Bir hesap, bir anahtar, bir fatura. Ocak 2026'da çoklu model toplayıcısına geçtik. İşte gerçekten olanlar.

Ne vardı

OpenAI kurumsal katmanı — tüm yüzeylerde aylık yaklaşık $8k
Tüm sohbet tamamlamaları gpt-4o veya gpt-4o-mini üzerinde
Bir gömme modeli, bir görüntü modeli (DALL-E 3)
Dört hizmette doğrudan SDK entegrasyonu

Geçişi tetikleyen neydi

Claude Opus 4.6, ajan kodlama değerlendirmelerimizde belirgin şekilde daha iyi puan alıyordu
Gemini 3 Pro, uzun bağlamlı belge analizinde açık ara kazanan oldu
Derin öğrenme modellerini (DeepSeek, Llama 4) kendi çıkarım altyapısını kurmadan test etmek istedik
Beş sağlayıcı çalıştırmak, beş sözleşme, beş fatura döngüsü, beş hız sınırı kontrol paneli anlamına geliyordu

Geçiş

OpenAI uyumlu bir toplayıcıya geçtik (aslında bu, kendi ürünümüzü üretimde kullanıyoruz). Tüm değişiklik, SDK'daki baseURL ve apiKey'i değiştirmekti. Kod farkı dört hizmette 8 satırdı.

// Önce
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });

// Sonra
const openai = new OpenAI({
  apiKey: process.env.AIGEN_KEY,
  baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});

Faturada ne değişti

Sohbet (GPT-4o → görev bazlı karışık GPT-4o + Claude Sonnet): -22%
Ajan kodlama (Claude Opus'a taşındı): +8%, ancak değerlendirmeler 15 puan iyileşti
Uzun bağlam analizi (Gemini 3 Pro'ya taşındı): -40%
Görüntü oluşturma (DALL-E 3'ten Nano Banana'ya taşındı): -65%

Aylık faturadaki net etki: -28%. Her yüzeyde daha iyi model seçimi + doğrudan pazarlık yapmamız gerekmeyen üst düzey toplayıcılardan daha düşük token başı oranlar.

Yanlış giden üç şey

Akış SSE formatı farklılıkları. Claude, OpenAI'den biraz farklı akış yapıyor. İstemci tarafı tampon mantığımız, uyumluluk şimi ekleyene kadar yaklaşık 10 dakika boyunca bozuldu.
Token sayımı. Farklı modeller farklı şekilde tokenleştiriyor. İçsel "konuşma başına kullanılan token" metriklerimiz her model için yeniden kalibre edilmeliydi.
Model adına göre önbellekleme. İpucu önbelleğimiz gpt-4o'yu anahtar olarak kullanıyordu. Bazı istekleri Claude'a yönlendirmeye başladığımızda, bayat önbellek isabetleri aldık. Ders: her zaman önbellek anahtarlarında modeli dahil edin.

Tekrar yapar mıyız?

Evet — maliyetle ilgisi olmayan üç nedenden dolayı.

Seçeneklilik. OpenAI, 3 Nisan'da 40 dakikalık bir kesinti yaşadığında, sohbet yüzeyimiz çalışmaya devam etti çünkü trafik otomatik olarak Anthropic ve Gemini'ye geçti. Bu tek başına geçişe değer.
Model eşitliği sona erdi. 2026'da "en iyi model" yok. Her görev için en iyi model var. Toplama, bu gerçeği gerçekten kullanmanın yoludur.
Tek fatura. Finans, mühendislikten daha çok bunu istedi. Tek fatura, tek satıcı ilişkisi, 12 sağlayıcı için tek sözleşme.

Tek bir sağlayıcıda anlamlı bir hacim çalıştırıyorsanız, değişiklik ilk ay kendini amorti eder.

Neden doğrudan OpenAI'den çoklu model toplayıcısına geçtik — ve bu bize neye mal oldu

Ne vardı

Geçişi tetikleyen neydi

Geçiş

Faturada ne değişti

Yanlış giden üç şey

Tekrar yapar mıyız?

Sıradaki

Veo 3.1 vs Runway Aleph — 2026'da hangi AI video modelini kullanmalısınız?

Flux Kontext Pro vs Nano Banana vs 4o Image — 2026 Görüntü Üretim Kıyaslaması

Uygulamanızda Suno v4.5 ile AI müzik sunma — 30 dakikalık entegrasyon rehberi

Sadece kullandığınız çağrı kadar ödersiniz.