จนถึงปลายปี 2025 เราใช้ OpenAI โดยตรงสำหรับทุกอย่างที่เกี่ยวข้องกับการแชท บัญชีเดียว คีย์เดียว บิลเดียว ในเดือนมกราคม 2026 เราได้ย้ายไปยังผู้รวบรวมหลายโมเดล นี่คือสิ่งที่เกิดขึ้นจริง

สิ่งที่เรามี

  • OpenAI ระดับองค์กร — $~$8k/เดือนในทุกพื้นผิว
  • การเติมเต็มการแชททั้งหมดบน gpt-4o หรือ gpt-4o-mini
  • โมเดลฝังตัวหนึ่ง โมเดลภาพหนึ่ง (DALL-E 3)
  • การผสานรวม SDK โดยตรงในสี่บริการ

สิ่งที่กระตุ้นการย้าย

  • Claude Opus 4.6 ทำคะแนนได้ดีกว่าอย่างเห็นได้ชัดในการประเมินการเขียนโค้ดของเรา
  • Gemini 3 Pro กลายเป็นผู้ชนะที่ชัดเจนสำหรับการวิเคราะห์เอกสารที่มีบริบทยาว
  • เราต้องการทดสอบโมเดลโอเพ่นซอร์ส (DeepSeek, Llama 4) โดยไม่ต้องตั้งค่าโครงสร้างพื้นฐานการอนุมาน
  • การใช้ผู้ให้บริการห้ารายหมายถึงสัญญาห้าฉบับ รอบบิลห้ารอบ แดชบอร์ดจำกัดอัตราห้ารายการ

การย้ายถิ่น

เราเปลี่ยนไปใช้ผู้รวบรวมที่เข้ากันได้กับ OpenAI (อันนี้เอง — เราใช้ผลิตภัณฑ์ของเราเองในการผลิต) การเปลี่ยนแปลงทั้งหมดคือการแทนที่ baseURL และ apiKey ใน SDK ความแตกต่างของโค้ดคือ 8 บรรทัดในสี่บริการ

// ก่อน
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });

// หลังจาก
const openai = new OpenAI({
  apiKey: process.env.AIGEN_KEY,
  baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});

สิ่งที่เปลี่ยนแปลงในบิล

  • แชท (GPT-4o → ผสม GPT-4o + Claude Sonnet ตามงาน): -22%
  • การเขียนโค้ดเชิงตัวแทน (ย้ายไปที่ Claude Opus): +8% แต่การประเมินดีขึ้น 15 คะแนน
  • การวิเคราะห์บริบทยาว (ย้ายไปที่ Gemini 3 Pro): -40%
  • การสร้างภาพ (ย้ายจาก DALL-E 3 ไปที่ Nano Banana): -65%

ผลกระทบสุทธิต่อบิลรายเดือน: -28% การเลือกโมเดลที่ดีกว่าในแต่ละพื้นผิว + อัตราต่อโทเค็นที่ต่ำกว่าจากผู้รวบรวมต้นน้ำที่เราไม่ต้องเจรจาโดยตรง

สามสิ่งที่ผิดพลาด

  • ความแตกต่างของรูปแบบการสตรีม SSE Claude สตรีมแตกต่างจาก OpenAI เล็กน้อย ตรรกะบัฟเฟอร์ฝั่งลูกค้าของเราพังประมาณ 10 นาทีจนกว่าเราจะเพิ่มชิมความเข้ากันได้
  • การนับโทเค็น โมเดลต่าง ๆ แปลงเป็นโทเค็นต่างกัน เมตริก "โทเค็นที่ใช้ต่อการสนทนา" ภายในของเราจำเป็นต้องปรับเทียบใหม่ต่อโมเดล
  • การแคชที่ใช้ชื่อโมเดลเป็นคีย์ แคชพรอมต์ของเราใช้ gpt-4o เป็นคีย์ เมื่อเราเริ่มส่งคำขอบางส่วนไปที่ Claude เราได้รับการเข้าถึงแคชที่ล้าสมัย บทเรียน: ควรรวมโมเดลในคีย์แคชเสมอ

เราจะทำอีกครั้งหรือไม่?

ใช่ — ด้วยเหตุผลสามประการที่ไม่เกี่ยวข้องกับค่าใช้จ่าย

  • ความยืดหยุ่น เมื่อ OpenAI มีการหยุดทำงาน 40 นาทีในวันที่ 3 เมษายน พื้นผิวการแชทของเรายังคงทำงานต่อเนื่องเพราะการจราจรล้มเหลวไปที่ Anthropic และ Gemini โดยอัตโนมัติ นั่นเพียงพอสำหรับการย้ายถิ่น
  • ความเท่าเทียมของโมเดลสิ้นสุดลงแล้ว ไม่มี "โมเดลที่ดีที่สุด" ในปี 2026 มีโมเดลที่ดีที่สุดสำหรับแต่ละงาน การรวบรวมคือวิธีที่คุณใช้ข้อเท็จจริงนั้นจริง ๆ
  • บิลเดียว ฝ่ายการเงินต้องการสิ่งนี้มากกว่าฝ่ายวิศวกรรม ใบแจ้งหนี้หนึ่งใบ ความสัมพันธ์กับผู้ขายหนึ่งราย สัญญาหนึ่งฉบับสำหรับผู้ให้บริการ 12 ราย

หากคุณใช้งานปริมาณที่มีความหมายใด ๆ กับผู้ให้บริการรายเดียว การเปลี่ยนแปลงจะคุ้มค่าตั้งแต่เดือนแรก