จนถึงปลายปี 2025 เราใช้ OpenAI โดยตรงสำหรับทุกอย่างที่เกี่ยวข้องกับการแชท บัญชีเดียว คีย์เดียว บิลเดียว ในเดือนมกราคม 2026 เราได้ย้ายไปยังผู้รวบรวมหลายโมเดล นี่คือสิ่งที่เกิดขึ้นจริง
สิ่งที่เรามี
- OpenAI ระดับองค์กร — $~$8k/เดือนในทุกพื้นผิว
- การเติมเต็มการแชททั้งหมดบน
gpt-4oหรือgpt-4o-mini - โมเดลฝังตัวหนึ่ง โมเดลภาพหนึ่ง (DALL-E 3)
- การผสานรวม SDK โดยตรงในสี่บริการ
สิ่งที่กระตุ้นการย้าย
- Claude Opus 4.6 ทำคะแนนได้ดีกว่าอย่างเห็นได้ชัดในการประเมินการเขียนโค้ดของเรา
- Gemini 3 Pro กลายเป็นผู้ชนะที่ชัดเจนสำหรับการวิเคราะห์เอกสารที่มีบริบทยาว
- เราต้องการทดสอบโมเดลโอเพ่นซอร์ส (DeepSeek, Llama 4) โดยไม่ต้องตั้งค่าโครงสร้างพื้นฐานการอนุมาน
- การใช้ผู้ให้บริการห้ารายหมายถึงสัญญาห้าฉบับ รอบบิลห้ารอบ แดชบอร์ดจำกัดอัตราห้ารายการ
การย้ายถิ่น
เราเปลี่ยนไปใช้ผู้รวบรวมที่เข้ากันได้กับ OpenAI (อันนี้เอง — เราใช้ผลิตภัณฑ์ของเราเองในการผลิต) การเปลี่ยนแปลงทั้งหมดคือการแทนที่ baseURL และ apiKey ใน SDK ความแตกต่างของโค้ดคือ 8 บรรทัดในสี่บริการ
// ก่อน
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });
// หลังจาก
const openai = new OpenAI({
apiKey: process.env.AIGEN_KEY,
baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});
สิ่งที่เปลี่ยนแปลงในบิล
- แชท (GPT-4o → ผสม GPT-4o + Claude Sonnet ตามงาน): -22%
- การเขียนโค้ดเชิงตัวแทน (ย้ายไปที่ Claude Opus): +8% แต่การประเมินดีขึ้น 15 คะแนน
- การวิเคราะห์บริบทยาว (ย้ายไปที่ Gemini 3 Pro): -40%
- การสร้างภาพ (ย้ายจาก DALL-E 3 ไปที่ Nano Banana): -65%
ผลกระทบสุทธิต่อบิลรายเดือน: -28% การเลือกโมเดลที่ดีกว่าในแต่ละพื้นผิว + อัตราต่อโทเค็นที่ต่ำกว่าจากผู้รวบรวมต้นน้ำที่เราไม่ต้องเจรจาโดยตรง
สามสิ่งที่ผิดพลาด
- ความแตกต่างของรูปแบบการสตรีม SSE Claude สตรีมแตกต่างจาก OpenAI เล็กน้อย ตรรกะบัฟเฟอร์ฝั่งลูกค้าของเราพังประมาณ 10 นาทีจนกว่าเราจะเพิ่มชิมความเข้ากันได้
- การนับโทเค็น โมเดลต่าง ๆ แปลงเป็นโทเค็นต่างกัน เมตริก "โทเค็นที่ใช้ต่อการสนทนา" ภายในของเราจำเป็นต้องปรับเทียบใหม่ต่อโมเดล
- การแคชที่ใช้ชื่อโมเดลเป็นคีย์ แคชพรอมต์ของเราใช้
gpt-4oเป็นคีย์ เมื่อเราเริ่มส่งคำขอบางส่วนไปที่ Claude เราได้รับการเข้าถึงแคชที่ล้าสมัย บทเรียน: ควรรวมโมเดลในคีย์แคชเสมอ
เราจะทำอีกครั้งหรือไม่?
ใช่ — ด้วยเหตุผลสามประการที่ไม่เกี่ยวข้องกับค่าใช้จ่าย
- ความยืดหยุ่น เมื่อ OpenAI มีการหยุดทำงาน 40 นาทีในวันที่ 3 เมษายน พื้นผิวการแชทของเรายังคงทำงานต่อเนื่องเพราะการจราจรล้มเหลวไปที่ Anthropic และ Gemini โดยอัตโนมัติ นั่นเพียงพอสำหรับการย้ายถิ่น
- ความเท่าเทียมของโมเดลสิ้นสุดลงแล้ว ไม่มี "โมเดลที่ดีที่สุด" ในปี 2026 มีโมเดลที่ดีที่สุดสำหรับแต่ละงาน การรวบรวมคือวิธีที่คุณใช้ข้อเท็จจริงนั้นจริง ๆ
- บิลเดียว ฝ่ายการเงินต้องการสิ่งนี้มากกว่าฝ่ายวิศวกรรม ใบแจ้งหนี้หนึ่งใบ ความสัมพันธ์กับผู้ขายหนึ่งราย สัญญาหนึ่งฉบับสำหรับผู้ให้บริการ 12 ราย
หากคุณใช้งานปริมาณที่มีความหมายใด ๆ กับผู้ให้บริการรายเดียว การเปลี่ยนแปลงจะคุ้มค่าตั้งแต่เดือนแรก