Μέχρι τα τέλη του 2025, εκτελούσαμε όλα τα σχετικά με το chat μέσω του OpenAI άμεσα. Ένας λογαριασμός, ένα κλειδί, ένας λογαριασμός. Τον Ιανουάριο του 2026 μεταβήκαμε σε έναν πολυμοντέλο συγκεντρωτή. Ιδού τι συνέβη πραγματικά.
Τι είχαμε
- Επιχειρηματικό επίπεδο OpenAI — $~$8k/μήνα σε όλες τις επιφάνειες
- Όλες οι ολοκληρώσεις chat στο
gpt-4oήgpt-4o-mini - Ένα μοντέλο ενσωμάτωσης, ένα μοντέλο εικόνας (DALL-E 3)
- Άμεση ενσωμάτωση SDK σε τέσσερις υπηρεσίες
Τι προκάλεσε τη μετακίνηση
- Το Claude Opus 4.6 είχε αισθητά καλύτερη απόδοση στις αξιολογήσεις κωδικοποίησης πρακτόρων μας
- Το Gemini 3 Pro έγινε ο ξεκάθαρος νικητής για την ανάλυση εγγράφων μεγάλης διάρκειας
- Θέλαμε να δοκιμάσουμε μοντέλα ανοιχτού κώδικα (DeepSeek, Llama 4) χωρίς να στήσουμε υποδομή πρόβλεψης
- Η λειτουργία με πέντε παρόχους σήμαινε πέντε συμβόλαια, πέντε κύκλους χρέωσης, πέντε πίνακες ορίων ρυθμού
Η μετανάστευση
Μεταβήκαμε σε έναν συγκεντρωτή συμβατό με OpenAI (αυτόν εδώ, στην πραγματικότητα — χρησιμοποιούμε το δικό μας προϊόν στην παραγωγή). Η όλη αλλαγή ήταν η αντικατάσταση του baseURL και του apiKey στο SDK. Η διαφορά κώδικα ήταν 8 γραμμές στις τέσσερις υπηρεσίες.
// Πριν
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });
// Μετά
const openai = new OpenAI({
apiKey: process.env.AIGEN_KEY,
baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});
Τι άλλαξε στον λογαριασμό
- Chat (GPT-4o → μικτό GPT-4o + Claude Sonnet ανάλογα με την εργασία): -22%
- Κωδικοποίηση πρακτόρων (μεταφορά στο Claude Opus): +8%, αλλά οι αξιολογήσεις βελτιώθηκαν κατά 15 μονάδες
- Ανάλυση μεγάλου περιεχομένου (μεταφορά στο Gemini 3 Pro): -40%
- Δημιουργία εικόνας (μεταφορά από DALL-E 3 στο Nano Banana): -65%
Καθαρή επίδραση στον μηνιαίο λογαριασμό: -28%. Καλύτερη επιλογή μοντέλου σε κάθε επιφάνεια + χαμηλότερες τιμές ανά token από συγκεντρωτές ανάντη που δεν χρειάζεται να διαπραγματευτούμε άμεσα.
Τρία πράγματα που πήγαν στραβά
- Διαφορές στη μορφή ροής SSE. Το Claude ρέει ελαφρώς διαφορετικά από το OpenAI. Η λογική buffer στην πλευρά του πελάτη μας έσπασε για περίπου 10 λεπτά μέχρι να προσθέσουμε ένα συμβατότητα shim.
- Καταμέτρηση token. Τα διαφορετικά μοντέλα κάνουν tokenize διαφορετικά. Η εσωτερική μας μέτρηση "tokens που χρησιμοποιήθηκαν ανά συνομιλία" χρειάστηκε να επαναρυθμιστεί ανά μοντέλο.
- Κρυφή μνήμη με κλειδί στο όνομα του μοντέλου. Η κρυφή μνήμη προτροπών μας χρησιμοποιούσε το
gpt-4oως κλειδί. Όταν αρχίσαμε να δρομολογούμε κάποιες αιτήσεις στο Claude, είχαμε παλιές επιτυχίες κρυφής μνήμης. Μάθημα: πάντα να περιλαμβάνετε το μοντέλο στα κλειδιά της κρυφής μνήμης.
Θα το κάναμε ξανά;
Ναι — για τρεις λόγους που δεν σχετίζονται με το κόστος.
- Επιλογή. Όταν το OpenAI είχε διακοπή 40 λεπτών στις 3 Απριλίου, η επιφάνεια συνομιλίας μας συνέχισε να λειτουργεί επειδή η κυκλοφορία μεταφέρθηκε αυτόματα στην Anthropic και το Gemini. Αυτό μόνο αξίζει τη μετανάστευση.
- Η ισοτιμία μοντέλων έχει τελειώσει. Δεν υπάρχει "το καλύτερο μοντέλο" το 2026. Υπάρχει το καλύτερο μοντέλο για κάθε εργασία. Η συγκέντρωση είναι ο τρόπος που χρησιμοποιείτε πραγματικά αυτό το γεγονός.
- Ένας λογαριασμός. Τα οικονομικά το ήθελαν περισσότερο από την μηχανική. Ένα τιμολόγιο, μία σχέση με προμηθευτή, ένα συμβόλαιο για 12 παρόχους.
Αν εκτελείτε οποιοδήποτε σημαντικό όγκο σε έναν μόνο πάροχο, η αλλαγή αποδίδει από τον πρώτο μήνα.