GLM-51-NVFP4, NVIDIAs

GLM-5.1-NVFP4: NVIDIAs 754-Milliarden-Modell spart Rechenleistung

30.05.2026 - 01:24:14 | boerse-global.de

NVIDIA stellt quantisiertes KI-Modell GLM-5.1-NVFP4 vor. Effizientere Rechenleistung durch Vier-Bit-Format und MoE-Architektur.

GLM-5.1-NVFP4: NVIDIAs 754-Milliarden-Modell spart Rechenleistung - Foto: über boerse-global.de
GLM-5.1-NVFP4: NVIDIAs 754-Milliarden-Modell spart Rechenleistung - Foto: über boerse-global.de

1-NVFP4 veröffentlicht. Es basiert auf der Architektur von Zhipu AI und ist auf Hugging Face verfügbar.

Spezialisierte Hardware für massive Modelle

GLM-5.1-NVFP4 ist eine quantisierte Version des GLM-5.1-Basismodells. Mit 754 Milliarden Parametern gehört es zu den größten Modellen am Markt. Technisch setzt es auf eine Mixture-of-Experts-Architektur (MoE) – pro Rechenschritt sind nur 40 Milliarden Parameter aktiv. Das spart Rechenleistung bei hoher Modellkapazität.

Anzeige: GLM-5.1-NVFP4 spart Rechenleistung durch Vier-Bit-Quantisierung – pro Schritt sind nur 40 Milliarden Parameter aktiv. Unser Leitfaden zeigt, wie Sie diese Technik für Ihre Infrastruktur nutzen. Jetzt Leitfaden zur KI-Effizienz anfordern

Die Besonderheit: NVIDIA Model Optimizer konvertierte das Modell in das NVFP4-Format. Dieses Vier-Bit-Fließkommaformat nutzt Speicherbandbreite und Rechenleistung moderner GPUs effizienter. Entwickelt ist GLM-5.1-NVFP4 vor allem für KI-Agenten, Chatbots und RAG-Systeme (Retrieval-Augmented Generation).

Branche setzt auf Effizienzgewinne

Parallel dazu zeigten Sakana AI und NVIDIA mit TwELL (Tile-wise ELLPACK) eine Methode zur Nutzung von Sparsity in Sprachmodellen. Bei einem Zwei-Milliarden-Parameter-Modell beschleunigte das die Inferenz um über 20 Prozent. Der Energieverbrauch sank um 17 Prozent – bei nahezu gleichbleibender Genauigkeit.

Auch das multimodale Modell Step-3.7-Flash von StepFun profitiert von NVFP4. Mit 198 Milliarden Parametern erreicht es im Cluster-Betrieb etwa 12 bis 14 Token pro Sekunde, wie Entwicklerforen Ende Mai 2026 berichteten.

Asiatischer Markt treibt Entwicklung

Zhipu AI, das Unternehmen hinter der GLM-Serie, verzeichnete in den letzten Maiwochen einen deutlichen Kursanstieg an der Hongkonger Börse. Der Konzern wurde in den Hang Seng Tech Index aufgenommen. Marktanalysen zufolge hat das Aufrufvolumen chinesischer KI-Modelle das Niveau der USA in diesem Zeitraum bereits übertroffen.

Anzeige: Energieverbrauch und Rechenkosten steigen – mit NVFP4 senken Sie beides um bis zu 17 Prozent. Der Leitfaden enthält eine Schritt-für-Schritt-Anleitung zur Modellquantisierung und einen Benchmark-Vergleich. Kostenlosen Effizienz-Leitfaden jetzt sichern

NVIDIA reagiert mit massiven Investitionen: Am 28. Mai 2026 kündigte das Unternehmen jährliche Investitionen von 150 Milliarden US-Dollar in Taiwan an. Das neue Hauptquartier in Taipeh soll bis 2030 fertiggestellt sein.

Lokale Infrastruktur für geschäftskritische Anwendungen

Das Thema technologische Souveränität gewinnt an Bedeutung. In Basel ging Ende Mai 2026 ein wassergekühlter Superrechner mit NVIDIA-H100-GPUs in Betrieb. Er ist speziell für lokale Sprachmodelle unter Schweizer Recht konzipiert. Solche Infrastrukturen ermöglichen den sicheren Einsatz von Modellen wie GLM-5.1-NVFP4 für geschäftskritische Anwendungen.

So schätzen die Börsenprofis Aktien ein!

<b>So schätzen die Börsenprofis Aktien ein!</b>
Seit 2005 liefert der Börsenbrief trading-notes verlässliche Anlage-Empfehlungen – dreimal pro Woche, direkt ins Postfach. 100% kostenlos. 100% Expertenwissen. Trage einfach deine E-Mail Adresse ein und verpasse ab heute keine Top-Chance mehr. Jetzt abonnieren.
Für. Immer. Kostenlos.
de | wissenschaft | 69445745 |