Cho đến cuối năm 2025, chúng tôi đã chạy mọi thứ liên quan đến chat thông qua OpenAI trực tiếp. Một tài khoản, một khóa, một hóa đơn. Tháng 1 năm 2026, chúng tôi đã chuyển sang một bộ tổng hợp đa mô hình. Đây là những gì thực sự đã xảy ra.
Những gì chúng tôi có
- OpenAI enterprise tier — $~$8k/tháng trên tất cả các bề mặt
- Tất cả các hoàn thành chat trên
gpt-4ohoặcgpt-4o-mini - Một mô hình nhúng, một mô hình hình ảnh (DALL-E 3)
- Tích hợp SDK trực tiếp trong bốn dịch vụ
Điều gì đã kích hoạt sự chuyển đổi
- Claude Opus 4.6 đạt điểm cao hơn đáng kể trong các đánh giá mã hóa agentic của chúng tôi
- Gemini 3 Pro trở thành người chiến thắng rõ ràng cho phân tích tài liệu dài
- Chúng tôi muốn thử nghiệm các mô hình mã nguồn mở (DeepSeek, Llama 4) mà không cần thiết lập cơ sở hạ tầng suy luận
- Chạy năm nhà cung cấp có nghĩa là năm hợp đồng, năm chu kỳ thanh toán, năm bảng điều khiển giới hạn tốc độ
Quá trình di chuyển
Chúng tôi đã chuyển sang một bộ tổng hợp tương thích với OpenAI (thực tế là cái này — chúng tôi sử dụng sản phẩm của chính mình trong sản xuất). Toàn bộ thay đổi là thay thế baseURL và apiKey trong SDK. Sự khác biệt mã là 8 dòng trên bốn dịch vụ.
// Trước
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });
// Sau
const openai = new OpenAI({
apiKey: process.env.AIGEN_KEY,
baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});
Những gì thay đổi trong hóa đơn
- Chat (GPT-4o → kết hợp GPT-4o + Claude Sonnet dựa trên nhiệm vụ): -22%
- Mã hóa agentic (chuyển sang Claude Opus): +8%, nhưng đánh giá cải thiện 15 điểm
- Phân tích ngữ cảnh dài (chuyển sang Gemini 3 Pro): -40%
- Tạo hình ảnh (chuyển từ DALL-E 3 sang Nano Banana): -65%
Hiệu ứng ròng trên hóa đơn hàng tháng: -28%. Lựa chọn mô hình tốt hơn trên mỗi bề mặt + tỷ lệ mỗi token thấp hơn từ các nhà tổng hợp thượng nguồn mà chúng tôi không phải thương lượng trực tiếp.
Ba điều đã sai
- Sự khác biệt định dạng SSE streaming. Claude stream hơi khác so với OpenAI. Logic bộ đệm phía khách hàng của chúng tôi bị hỏng trong khoảng 10 phút cho đến khi chúng tôi thêm một shim tương thích.
- Đếm token. Các mô hình khác nhau token hóa khác nhau. Chỉ số "tokens đã sử dụng mỗi cuộc trò chuyện" nội bộ của chúng tôi cần được hiệu chỉnh lại theo từng mô hình.
- Bộ nhớ đệm dựa trên tên mô hình. Bộ nhớ đệm prompt của chúng tôi sử dụng
gpt-4olàm khóa. Khi chúng tôi bắt đầu định tuyến một số yêu cầu đến Claude, chúng tôi nhận được các hit bộ nhớ đệm cũ. Bài học: luôn bao gồm mô hình trong các khóa bộ nhớ đệm.
Chúng tôi có làm lại không?
Có — vì ba lý do không liên quan đến chi phí.
- Tùy chọn. Khi OpenAI gặp sự cố ngừng hoạt động 40 phút vào ngày 3 tháng 4, bề mặt chat của chúng tôi vẫn hoạt động vì lưu lượng đã tự động chuyển sang Anthropic và Gemini. Điều đó thôi đã đáng để di chuyển.
- Sự ngang bằng mô hình đã kết thúc. Không có "mô hình tốt nhất" vào năm 2026. Có một mô hình tốt nhất cho mỗi nhiệm vụ. Tổng hợp là cách bạn thực sự sử dụng thực tế đó.
- Một hóa đơn. Bộ phận tài chính muốn điều này hơn là kỹ thuật. Một hóa đơn, một mối quan hệ nhà cung cấp, một hợp đồng cho 12 nhà cung cấp.
Nếu bạn đang chạy bất kỳ khối lượng đáng kể nào trên một nhà cung cấp duy nhất, sự chuyển đổi sẽ tự trả tiền trong tháng đầu tiên.