2025'in sonlarına kadar tüm sohbetle ilgili işlemleri doğrudan OpenAI üzerinden yürüttük. Bir hesap, bir anahtar, bir fatura. Ocak 2026'da çoklu model toplayıcısına geçtik. İşte gerçekten olanlar.
Ne vardı
- OpenAI kurumsal katmanı — tüm yüzeylerde aylık yaklaşık $8k
- Tüm sohbet tamamlamaları
gpt-4oveyagpt-4o-miniüzerinde - Bir gömme modeli, bir görüntü modeli (DALL-E 3)
- Dört hizmette doğrudan SDK entegrasyonu
Geçişi tetikleyen neydi
- Claude Opus 4.6, ajan kodlama değerlendirmelerimizde belirgin şekilde daha iyi puan alıyordu
- Gemini 3 Pro, uzun bağlamlı belge analizinde açık ara kazanan oldu
- Derin öğrenme modellerini (DeepSeek, Llama 4) kendi çıkarım altyapısını kurmadan test etmek istedik
- Beş sağlayıcı çalıştırmak, beş sözleşme, beş fatura döngüsü, beş hız sınırı kontrol paneli anlamına geliyordu
Geçiş
OpenAI uyumlu bir toplayıcıya geçtik (aslında bu, kendi ürünümüzü üretimde kullanıyoruz). Tüm değişiklik, SDK'daki baseURL ve apiKey'i değiştirmekti. Kod farkı dört hizmette 8 satırdı.
// Önce
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });
// Sonra
const openai = new OpenAI({
apiKey: process.env.AIGEN_KEY,
baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});
Faturada ne değişti
- Sohbet (GPT-4o → görev bazlı karışık GPT-4o + Claude Sonnet): -22%
- Ajan kodlama (Claude Opus'a taşındı): +8%, ancak değerlendirmeler 15 puan iyileşti
- Uzun bağlam analizi (Gemini 3 Pro'ya taşındı): -40%
- Görüntü oluşturma (DALL-E 3'ten Nano Banana'ya taşındı): -65%
Aylık faturadaki net etki: -28%. Her yüzeyde daha iyi model seçimi + doğrudan pazarlık yapmamız gerekmeyen üst düzey toplayıcılardan daha düşük token başı oranlar.
Yanlış giden üç şey
- Akış SSE formatı farklılıkları. Claude, OpenAI'den biraz farklı akış yapıyor. İstemci tarafı tampon mantığımız, uyumluluk şimi ekleyene kadar yaklaşık 10 dakika boyunca bozuldu.
- Token sayımı. Farklı modeller farklı şekilde tokenleştiriyor. İçsel "konuşma başına kullanılan token" metriklerimiz her model için yeniden kalibre edilmeliydi.
- Model adına göre önbellekleme. İpucu önbelleğimiz
gpt-4o'yu anahtar olarak kullanıyordu. Bazı istekleri Claude'a yönlendirmeye başladığımızda, bayat önbellek isabetleri aldık. Ders: her zaman önbellek anahtarlarında modeli dahil edin.
Tekrar yapar mıyız?
Evet — maliyetle ilgisi olmayan üç nedenden dolayı.
- Seçeneklilik. OpenAI, 3 Nisan'da 40 dakikalık bir kesinti yaşadığında, sohbet yüzeyimiz çalışmaya devam etti çünkü trafik otomatik olarak Anthropic ve Gemini'ye geçti. Bu tek başına geçişe değer.
- Model eşitliği sona erdi. 2026'da "en iyi model" yok. Her görev için en iyi model var. Toplama, bu gerçeği gerçekten kullanmanın yoludur.
- Tek fatura. Finans, mühendislikten daha çok bunu istedi. Tek fatura, tek satıcı ilişkisi, 12 sağlayıcı için tek sözleşme.
Tek bir sağlayıcıda anlamlı bir hacim çalıştırıyorsanız, değişiklik ilk ay kendini amorti eder.