Warum wir von direktem OpenAI zu einem Multi-Modell-Aggregator gewechselt sind – und was es uns gekostet hat

Die echten Zahlen zum Wechsel von OpenAI-only zu einer aggregierten API. Latenz, Zuverlässigkeit, Kosten und die drei Dinge, die schiefgelaufen sind.

Bis Ende 2025 lief alles Chat-bezogene bei uns direkt über OpenAI. Ein Konto, ein Schlüssel, eine Rechnung. Im Januar 2026 sind wir zu einem Multi-Modell-Aggregator gewechselt. Hier ist, was tatsächlich passiert ist.

Was wir hatten

OpenAI Enterprise-Tarif – ~$8k/Monat über alle Oberflächen
Alle Chat-Completions auf gpt-4o oder gpt-4o-mini
Ein Embedding-Modell, ein Bildmodell (DALL-E 3)
Direkte SDK-Integration in vier Diensten

Was den Wechsel ausgelöst hat

Claude Opus 4.6 erzielte deutlich bessere Ergebnisse bei unseren agentischen Coding-Evaluierungen
Gemini 3 Pro wurde der klare Gewinner für die Analyse von Langkontext-Dokumenten
Wir wollten Open-Source-Modelle (DeepSeek, Llama 4) testen, ohne eigene Inferenz-Infrastruktur aufzubauen
Fünf Anbieter bedeuteten fünf Verträge, fünf Abrechnungszyklen, fünf Rate-Limit-Dashboards

Die Migration

Wir sind zu einem OpenAI-kompatiblen Aggregator gewechselt (zu diesem hier – wir nutzen unser eigenes Produkt in der Produktion). Die gesamte Änderung bestand darin, baseURL und apiKey im SDK zu ersetzen. Der Code-Diff betrug 8 Zeilen über die vier Dienste hinweg.

// Vorher
const openai = new OpenAI({ apiKey: process.env.OPENAI_KEY });

// Nachher
const openai = new OpenAI({
  apiKey: process.env.AIGEN_KEY,
  baseURL: 'https://aimarcus.eu/aigenerate/api/v1',
});

Was sich bei den Kosten geändert hat

Chat (GPT-4o → gemischtes GPT-4o + Claude Sonnet je nach Aufgabe): -22%
Agentisches Coding (Wechsel zu Claude Opus): +8%, aber Evaluierungen verbesserten sich um 15 Punkte
Langkontext-Analyse (Wechsel zu Gemini 3 Pro): -40%
Bilderzeugung (Wechsel von DALL-E 3 zu Nano Banana): -65%

Nettoeffekt auf die monatliche Rechnung: -28%. Bessere Modellwahl für jede Oberfläche + niedrigere Tokenpreise von Aggregatoren, mit denen wir nicht direkt verhandeln müssen.

Drei Dinge, die schiefgelaufen sind

Unterschiede im Streaming-SSE-Format. Claude streamt leicht anders als OpenAI. Unsere clientseitige Pufferlogik brach für etwa 10 Minuten, bis wir einen Kompatibilitätsshim hinzugefügt haben.
Tokenzählung. Verschiedene Modelle tokenisieren unterschiedlich. Unsere interne Metrik "verwendete Tokens pro Konversation" musste pro Modell neu kalibriert werden.
Caching basierend auf Modellnamen. Unser Prompt-Cache nutzte gpt-4o als Schlüssel. Als wir begannen, einige Anfragen an Claude zu leiten, erhielten wir veraltete Cache-Treffer. Lektion: Immer das Modell im Cache-Schlüssel einbeziehen.

Würden wir es wieder tun?

Ja – aus drei Gründen, die nichts mit den Kosten zu tun haben.

Optionalität. Als OpenAI am 3. April einen 40-minütigen Ausfall hatte, lief unsere Chat-Oberfläche weiter, weil der Traffic automatisch auf Anthropic und Gemini umgeleitet wurde. Das allein ist den Wechsel wert.
Modellparität ist vorbei. Es gibt kein "bestes Modell" mehr im Jahr 2026. Es gibt ein bestes Modell für jede Aufgabe. Aggregation ist der Weg, dies tatsächlich zu nutzen.
Eine Rechnung. Das wollte die Finanzabteilung mehr als die Technik. Eine Rechnung, eine Anbieterbeziehung, ein Vertrag für 12 Anbieter.

Wenn Sie ein nennenswertes Volumen bei einem einzelnen Anbieter betreiben, amortisiert sich der Wechsel im ersten Monat.

Warum wir von direktem OpenAI zu einem Multi-Modell-Aggregator gewechselt sind – und was es uns gekostet hat

Was wir hatten

Was den Wechsel ausgelöst hat

Die Migration

Was sich bei den Kosten geändert hat

Drei Dinge, die schiefgelaufen sind

Würden wir es wieder tun?

Weiterlesen

Veo 3.1 vs Runway Aleph — Welches KI-Videomodell sollten Sie 2026 nutzen?

Flux Kontext Pro vs Nano Banana vs 4o Image — der Bildgenerierungs-Benchmark 2026

KI-Musik in Ihre App integrieren mit Suno v4.5 – 30-Minuten-Integrationsleitfaden

Sie zahlen nur für das, was Sie aufrufen.