Bis Ende 2025 lief alles Chat-bezogene bei uns direkt über OpenAI. Ein Konto, ein Schlüssel, eine Rechnung. Im Januar 2026 sind wir zu einem Multi-Modell-Aggregator gewechselt. Hier ist, was tatsächlich passiert ist.

Was wir hatten

  • OpenAI Enterprise-Tarif – ~$8k/Monat über alle Oberflächen
  • Alle Chat-Completions auf gpt-4o oder gpt-4o-mini
  • Ein Embedding-Modell, ein Bildmodell (DALL-E 3)
  • Direkte SDK-Integration in vier Diensten

Was den Wechsel ausgelöst hat

  • Claude Opus 4.6 erzielte deutlich bessere Ergebnisse bei unseren agentischen Coding-Evaluierungen
  • Gemini 3 Pro wurde der klare Gewinner für die Analyse von Langkontext-Dokumenten
  • Wir wollten Open-Source-Modelle (DeepSeek, Llama 4) testen, ohne eigene Inferenz-Infrastruktur aufzubauen
  • Fünf Anbieter bedeuteten fünf Verträge, fünf Abrechnungszyklen, fünf Rate-Limit-Dashboards

Die Migration

Wir sind zu einem OpenAI-kompatiblen Aggregator gewechselt (zu diesem hier – wir nutzen unser eigenes Produkt in der Produktion). Die gesamte Änderung bestand darin, baseURL und apiKey im SDK zu ersetzen. Der Code-Diff betrug 8 Zeilen über die vier Dienste hinweg.

// Vorher
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });

// Nachher
const openai = new OpenAI({
  apiKey: process.env.AIGEN_KEY,
  baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});

Was sich bei den Kosten geändert hat

  • Chat (GPT-4o → gemischtes GPT-4o + Claude Sonnet je nach Aufgabe): -22%
  • Agentisches Coding (Wechsel zu Claude Opus): +8%, aber Evaluierungen verbesserten sich um 15 Punkte
  • Langkontext-Analyse (Wechsel zu Gemini 3 Pro): -40%
  • Bilderzeugung (Wechsel von DALL-E 3 zu Nano Banana): -65%

Nettoeffekt auf die monatliche Rechnung: -28%. Bessere Modellwahl für jede Oberfläche + niedrigere Tokenpreise von Aggregatoren, mit denen wir nicht direkt verhandeln müssen.

Drei Dinge, die schiefgelaufen sind

  • Unterschiede im Streaming-SSE-Format. Claude streamt leicht anders als OpenAI. Unsere clientseitige Pufferlogik brach für etwa 10 Minuten, bis wir einen Kompatibilitätsshim hinzugefügt haben.
  • Tokenzählung. Verschiedene Modelle tokenisieren unterschiedlich. Unsere interne Metrik "verwendete Tokens pro Konversation" musste pro Modell neu kalibriert werden.
  • Caching basierend auf Modellnamen. Unser Prompt-Cache nutzte gpt-4o als Schlüssel. Als wir begannen, einige Anfragen an Claude zu leiten, erhielten wir veraltete Cache-Treffer. Lektion: Immer das Modell im Cache-Schlüssel einbeziehen.

Würden wir es wieder tun?

Ja – aus drei Gründen, die nichts mit den Kosten zu tun haben.

  • Optionalität. Als OpenAI am 3. April einen 40-minütigen Ausfall hatte, lief unsere Chat-Oberfläche weiter, weil der Traffic automatisch auf Anthropic und Gemini umgeleitet wurde. Das allein ist den Wechsel wert.
  • Modellparität ist vorbei. Es gibt kein "bestes Modell" mehr im Jahr 2026. Es gibt ein bestes Modell für jede Aufgabe. Aggregation ist der Weg, dies tatsächlich zu nutzen.
  • Eine Rechnung. Das wollte die Finanzabteilung mehr als die Technik. Eine Rechnung, eine Anbieterbeziehung, ein Vertrag für 12 Anbieter.

Wenn Sie ein nennenswertes Volumen bei einem einzelnen Anbieter betreiben, amortisiert sich der Wechsel im ersten Monat.