Hingga akhir 2025 kami menjalankan semua yang terkait chat melalui OpenAI secara langsung. Satu akun, satu kunci, satu tagihan. Pada Januari 2026 kami bermigrasi ke agregator multi-model. Inilah yang sebenarnya terjadi.
Apa yang kami miliki
- Tingkat perusahaan OpenAI — $~$8k/bulan di semua permukaan
- Semua penyelesaian chat pada
gpt-4oataugpt-4o-mini - Satu model embedding, satu model gambar (DALL-E 3)
- Integrasi SDK langsung dalam empat layanan
Apa yang memicu perpindahan
- Claude Opus 4.6 mencetak skor yang lebih baik pada evaluasi pengkodean agen kami
- Gemini 3 Pro menjadi pemenang jelas untuk analisis dokumen konteks panjang
- Kami ingin menguji model sumber terbuka (DeepSeek, Llama 4) tanpa membangun infrastruktur inferensi
- Menjalankan lima penyedia berarti lima kontrak, lima siklus penagihan, lima dasbor batas laju
Migrasi
Kami beralih ke agregator yang kompatibel dengan OpenAI (yang ini, sebenarnya — kami menggunakan produk kami sendiri dalam produksi). Seluruh perubahan adalah mengganti baseURL dan apiKey dalam SDK. Perbedaan kode adalah 8 baris di empat layanan.
// Sebelum
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });
// Sesudah
const openai = new OpenAI({
apiKey: process.env.AIGEN_KEY,
baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});
Apa yang berubah dalam tagihan
- Chat (GPT-4o → campuran GPT-4o + Claude Sonnet berdasarkan tugas): -22%
- Pengkodean agen (berpindah ke Claude Opus): +8%, tetapi evaluasi meningkat 15 poin
- Analisis konteks panjang (berpindah ke Gemini 3 Pro): -40%
- Generasi gambar (berpindah dari DALL-E 3 ke Nano Banana): -65%
Dampak bersih pada tagihan bulanan: -28%. Pilihan model yang lebih baik pada setiap permukaan + tarif per-token yang lebih rendah dari agregator hulu yang tidak perlu kami negosiasikan langsung.
Tiga hal yang salah
- Perbedaan format streaming SSE. Claude mengalirkan sedikit berbeda dari OpenAI. Logika buffer sisi klien kami rusak selama sekitar 10 menit hingga kami menambahkan shim kompatibilitas.
- Penghitungan token. Model yang berbeda melakukan tokenisasi secara berbeda. Metrik internal kami "token yang digunakan per percakapan" perlu dikalibrasi ulang per model.
- Caching berdasarkan nama model. Cache prompt kami menggunakan
gpt-4osebagai kunci. Ketika kami mulai mengarahkan beberapa permintaan ke Claude, kami mendapatkan cache hit yang usang. Pelajaran: selalu sertakan model dalam kunci cache.
Apakah kami akan melakukannya lagi?
Ya — untuk tiga alasan yang tidak terkait dengan biaya.
- Opsionalitas. Ketika OpenAI mengalami gangguan 40 menit pada 3 April, permukaan chat kami tetap berjalan karena lalu lintas gagal ke Anthropic dan Gemini secara otomatis. Itu saja sudah sepadan dengan migrasi.
- Kesetaraan model sudah berakhir. Tidak ada "model terbaik" pada 2026. Ada model terbaik untuk setiap tugas. Agregasi adalah cara Anda benar-benar menggunakan fakta itu.
- Satu tagihan. Keuangan menginginkan ini lebih dari yang diinginkan oleh teknik. Satu faktur, satu hubungan vendor, satu kontrak untuk 12 penyedia.
Jika Anda menjalankan volume yang berarti pada satu penyedia, peralihan ini membayar sendiri di bulan pertama.