OpenAI halbiert Inferenzkosten: Jalapeño-Chip senkt Ausgaben um 50%
30.06.2026 - 19:34:40 | boerse-global.de
OpenAI hat die Betriebskosten seiner KI-Modelle halbiert – ein entscheidender Schritt für die Profitabilität des Unternehmens. Die im Juni 2026 eingeführten Optimierungen senken die sogenannten Inferenzkosten für bestimmte Modelle um 50 Prozent. Angesichts explodierender Rechenanforderungen ist das ein echter Meilenstein.
„Jalapeño“: Maßgeschneiderter Chip für mehr Effizienz
Im Zentrum der Kostensenkung steht eine Neuausrichtung der Hardware-Strategie. Statt auf teure Standard-Grafikprozessoren zu setzen, hat OpenAI gemeinsam mit Broadcom einen eigenen Chip entwickelt. Der „Jalapeño“ genannte ASIC (anwendungsspezifischer integrierter Schaltkreis) ist ausschließlich für die Ausgabe von KI-Modellen optimiert. Die Entwicklung dauerte neun Monate – das Ergebnis: eine Kostenreduktion von 30 bis 50 Prozent.
Parallel dazu haben die Ingenieure die bestehende Server-Infrastruktur besser ausgenutzt. So konnte der Traffic von nicht eingeloggten ChatGPT-Nutzern auf einen Bruchteil der bisherigen Rechenleistung umgeleitet werden – nur noch wenige Hundert Grafikkarten sind dafür nötig.
Die Effizienzgewinne sind Teil eines ehrgeizigen Finanzplans. Im ersten Quartal 2026 lag die Bruttomarge bei 39 Prozent. Bis Jahresende soll sie auf 52 Prozent steigen.
Drei-Stufen-Modell: GPT-5.6 wird günstiger
Mit der limitierten Vorschau von GPT-5.6 führt OpenAI ein abgestuftes Modell-System ein. Der Flaggschiff-Ansatz heißt „Sol“. Die Stufe „Terra“ bietet die Leistung des Vorgängers GPT-5.5 – aber zur Hälfte der Kosten. „Luna“ wiederum ist auf maximale Geschwindigkeit und niedrigste Preise für Massenanwendungen ausgelegt.
Neue API-Preismodelle mit Rabatten für zwischengespeicherte Anfragen (Prompt Caching) sollen externe Entwickler dazu bewegen, Ressourcen sparsamer zu nutzen.
Warum so viele Deutsche ChatGPT nutzen – aber kaum einer weiß, wie man es richtig anwendet: Ein kostenloser Ratgeber zeigt, wie Sie die KI sofort für Ihren Alltag nutzen können – ganz ohne Vorkenntnisse. Kostenlosen PDF-Report mit fertigen Anleitungen jetzt herunterladen
99,8 Prozent aller Texte stammen von Codex
Intern ist OpenAI längst von automatisierten Tools abhängig. Das Programmierwerkzeug Codex erzeugt inzwischen 99,8 Prozent aller wöchentlichen Ausgabe-Token im Unternehmen. Der durchschnittliche Mitarbeiter generiert mehr als 85 Prozent seiner Texte über das System. Besonders bemerkenswert: In den Abteilungen Recht, Finanzen und Personal ist die Nutzung seit August 2025 um das 137-fache gestiegen.
Doch die hohe Abhängigkeit birgt Risiken. Ende Juni 2026 richtete OpenAI einen internen „Krisenstab“ ein, um zu klären, warum Codex-Guthaben schneller als erwartet aufgebraucht waren. Die Limits wurden vorübergehend für alle Nutzer zurückgesetzt. Der Verdacht: Die Anti-Missbrauchssysteme drosselten versehentlich den legitimen internen Verkehr.
„Caveman“-Plugin gegen überflüssige Token
Um die sogenannte Token-Aufblähung zu bekämpfen, setzen Entwickler bei OpenAI und anderen Tech-Riesen auf ein ungewöhnliches Werkzeug: das „Caveman“-Plugin. Es zwingt die KI-Modelle zu kürzeren, knapperen Antworten. Ergebnis: 65 bis 75 Prozent weniger Token pro Ausgabe. Entwickelt wurde das Tool im April 2026 von Julius Brussee unter Mitwirkung eines OpenAI-Engineering-Direktors.
Diese einfachen ChatGPT-Befehle kennen die wenigsten – dabei erleichtern sie den Alltag enorm. Ein neuer Gratis-Report enthüllt die praktischsten Tricks für Einsteiger, um Zeit zu sparen und Aufgaben in Sekunden zu erledigen. Gratis-Ratgeber: ChatGPT als Alltagshelfer sichern
Der Markt dreht sich: Open Source auf dem Vormarsch
OpenAIs Kostenoffensive kommt zu einem strategisch günstigen Zeitpunkt. Immer mehr Unternehmen wenden sich von den teuersten KI-Modellen ab. Auf der Plattform OpenRouter stieg der Anteil von Open-Source-Token von 34 Prozent im Januar auf 65 Prozent im Juni 2026.
Der Druck zur Optimierung wirkt sich auch auf große Partnerschaften aus. Amazon prüft angeblich, ob es für bestimmte Aufgaben weiterhin auf OpenAI-Modelle setzt oder auf die hauseigene Nova-Reihe umschwenkt. Hintergrund: Der Hauptpartner Anthropic hat die Preise erhöht – und sich gleichzeitig zu Ausgaben von über 100 Milliarden Dollar bei Amazon Web Services für das nächste Jahrzehnt verpflichtet.
Während OpenAI an seiner Effizienzschraube dreht, kämpfen Wettbewerber mit Infrastruktur-Engpässen. Anfang 2026 musste Google den Zugang zu seinen Gemini-Modellen für Meta einschränken – schlichtweg wegen fehlender Rechenkapazität. Meta reagierte mit der Muse Spark-Initiative im April 2026, um die Abhängigkeit von externen Anbietern zu verringern.
