Google hat Gemma 4 veröffentlicht — das leistungsfähigste Open-Source-Sprachmodell, das Sie auf Ihrer eigenen Hardware laufen lassen können. Es kommt in vier Größen, von der Smartphone-tauglichen Variante bis zum 31-Milliarden-Parameter-Modell, das laut Arena-Ranking weltweit Platz 3 unter allen Open-Source-Modellen belegt. Was Gemma 4 von Vorgängern und Konkurrenz unterscheidet und für wen sich welches Modell lohnt.
Open-Source-Sprachmodelle haben in den vergangenen Monaten dramatisch aufgeholt. Was vor zwei Jahren nur über APIs und Cloud-Dienste verfügbar war, läuft mittlerweile auf dem eigenen Laptop — ohne dass Daten den Rechner verlassen müssen. Mit Gemma 4 setzt Google einen neuen Maßstab: Das Modell basiert auf derselben Forschung wie Gemini 3, ist aber vollständig quelloffen unter der Apache-2.0-Lizenz verfügbar. Das bedeutet: Sie können es kostenlos nutzen, kommerziell einsetzen und sogar eigene Varianten darauf aufbauen.
Die Bedeutung dieses Schritts wird deutlich, wenn man die Entwicklung der vergangenen zwei Jahre beträgt. Llama 3 von Meta war 2024 der erste große Sprung, Mistral folgte mit effizienten Modellen für den europischen Markt. Google hat mit den ersten Gemma-Modellen den Einstieg gewagt — und mit Gemma 4 nun das leistungsfähigste Open-Source-Modell auf dem Markt präsentiert. Die Downloads: Über 400 Millionen Mal wurde die Gemma-Familie bereits heruntergeladen.
Google veröffentlicht Gemma 4 in vier Modellgrößen, die jeweils für unterschiedliche Hardware und Anwendungsfälle optimiert sind:
Das „Effective 2B“ bringt echte KI-Fähigkeiten auf Smartphones und Kleinstgeräte. Es benötigt unter 2 GB Arbeitsspeicher und läuft damit auf praktisch jedem modernen Android-Smartphone, aber auch auf einem Raspberry Pi. Das Kontextfenster beträgt 128.000 Tokens — ausreichend, um ganze Bücher zu verarbeiten. Besonders stark: Die E2B-Variante unterstützt native Audioverarbeitung und ist damit ideal für Sprachassistenten, die lokal auf dem Gerät laufen sollen.
Was das praktisch bedeutet: Auf einem aktuellen Android-Smartphone können Sie einen privaten KI-Assistenten betreiben, der Ihre E-Mails zusammenfasst, Dokumente analysiert oder als Übersetzer fungiert — alles ohne Internetverbindung. Für Reisende in Regionen mit schlechter Konnektivität oder für Nutzer, die aus Datenschutzgründen keine Cloud-Dienste nutzen möchten, ist das ein Gamechanger. Die Audio-Funktion erlaubt es außerdem, dem Modell gesprochene Fragen zu stellen und Antworten per Sprachausgabe zu erhalten.
Das „Effective 4B“ ist für Laptops und Desktop-Rechner konzipiert. Es benötigt mindestens 4 GB RAM und bietet eine deutlich bessere Qualität als das E2B bei gleichem 128K-Kontextfenster. Für die meisten Entwickler und Power-User ist dieses Modell der Sweet Spot: Es läuft flüssig auf einer aktuellen Workstation und liefert Antworten, die qualitativ an deutlich größere Modelle herankommen.
Die 26-Milliarden-Parameter-Variante verwendet eine Mixture-of-Experts-Architektur (MoE). Das bedeutet: Obwohl das Modell 26 Milliarden Parameter hat, aktiviert es bei jeder Anfrage nur einen Bruchteil davon. Das Ergebnis: Fast die gleiche Qualität wie das 31B-Modell, aber mit deutlich geringeren Rechenkosten. Es belegt derzeit Platz 6 auf der Arena-AI-Text-Rangliste — und übertrifft dabei Modelle, die zwanzigmal so groß sind.
Das 31-Milliarden-Parameter-Modell ist der leistungsfähigste Vertreter der Familie. Es benötigt eine einzelne NVIDIA H100-GPU mit 80 GB VRAM — also professionelle Hardware, aber immer noch ein einzelner Beschleuniger, kein ganzer Server-Cluster. Auf der Arena-AI-Rangliste belegt es aktuell Platz 3 unter allen Open-Source-Modellen weltweit. Das Kontextfenster beträgt bei den großen Modellen 256.000 Tokens — genug, um komplette Code-Repositories oder hunderte Seiten Dokumentation auf einmal zu verarbeiten.
Die Frage, die sich viele stellen: Lohnt sich der Sprung von 26B auf 31B? Die Antwort hängt vom Anwendungsfall ab. Für die meisten Aufgaben — Chat, Code-Generierung, Dokumentenanalyse — liefert die 26B-MoE-Variante fast identische Ergebnisse bei deutlich geringeren Kosten. Das 31B-Modell lohnt sich vor allem dort, wo höchste Qualität zählt: bei komplexem Reasoning, mehrstufiger Logik und Aufgaben, die Frontier-Performance erfordern.
Einer der wichtigsten Vorteile von Gemma 4 ist die Skalierbarkeit. Je nach Budget und Anwendungsfall können Sie das passende Modell wählen:
Alle Modelle lassen sich über Ollama in wenigen Minuten lokal einrichten. Alternativ stehen Google AI Studio, Hugging Face, Kaggle und Vertex AI als Plattformen zur Verfügung — für alle, die lieber in der Cloud arbeiten möchten.

Das prominenteste Einsatzszenario: Ein KI-Chat, der vollständig auf dem eigenen Gerät läuft. Keine API-Kosten, keine Datenschutz-Bedenken, keine Internetverbindung nötig. Die kleineren Modelle (E2B, E4B) eignen sich besonders für Unternehmen, die sensible Daten nicht an externe Server senden dürfen — etwa im Gesundheitswesen, in der Finanzbranche oder im öffentlichen Dienst. Ein Arzt kann Patientendaten lokal analysieren lassen, ohne dass diese jemals einen Server verlassen. Ein Finanzberater kann Dokumente auswerten, ohne Cloud-Dienste zu nutzen. Der Datenschutz wird dabei nicht zur Einschränkung, sondern zum Feature.
Die Vorteile gegenüber Cloud-basierten Lösungen sind klar: Keine laufenden API-Kosten pro Anfrage, keine Latenzzeiten durch Netzwerkverbindungen und vor allem keine Abhängigkeit von externen Diensten. Wenn ein Cloud-Anbieter seine Preise ändert oder den Service einstellt, ist Ihr gesamter KI-Workflow betroffen. Mit Gemma 4 lokal betrieben, haben Sie die volle Kontrolle — und das einmalige Setup kostet nur Ihre Hardware.
Gemma 4 unterstützt hochwertige Code-Generierung und kann ganze Repositories im Kontextfenster verarbeiten. Ein lokaler Code-Assistent, der Ihren gesamten Projektcode kennt und Code-Vorschläge macht — ohne dass Ihr Code jemals einen Server verlässt. Für Entwickler, die mit proprietärem Code arbeiten, ein entscheidender Vorteil gegenüber Cloud-basierten Lösungen.
Gemma 4 unterstützt nativ Function Calling, strukturierte JSON-Ausgabe und System-Instructions. Das bedeutet: Sie können autonome Agenten bauen, die Tools und APIs aufrufen, Workflows ausführen und mehrstufige Aufgaben selbstständig lösen — alles lokal. Für Unternehmen, die KI-Agenten im Produktivbetrieb einsetzen wollen, ist das eine echte Alternative zu proprietären Modellen.
Ein praktisches Beispiel: Ein KI-Agent, der automatisch eingehende E-Mails liest, kategorisiert und passende Antworten entwirft — vollständig auf dem lokalen Server, ohne dass E-Mails einen Cloud-Dienst passieren. Oder ein Agent, der Datenbankabfragen ausführt, Reports generiert und diese per E-Mail versendet. Gemma 4 macht solche Workflows ohne externe Abhängigkeiten möglich.
Mit dem 256K-Kontextfenster der großen Modelle können Sie Hunderte Seiten Dokumentation, Verträge oder Fachartikel auf einmal einlesen und gezielt Fragen dazu stellen. Kombiniert mit einem Tool wie Obsidian entsteht ein lokales Wissensmanagement-System, das Ihr gesamtes Archiv versteht — ohne dass Daten das Haus verlassen.
Die E2B-Variante wurde speziell für mobile Geräte entwickelt. Sie unterstützt neben Text auch Bilder und Videos und kann direkt auf dem Smartphone laufen. Einsatzmöglichkeiten: privater Sprachassistent, Übersetzer ohne Internet, Bildanalyse oder intelligente Suche in der eigenen Foto-Bibliothek.
Google hat mit Gemma nicht nur ein Modell veröffentlicht, sondern ein ganzes Ökosystem geschaffen. Die Gemmaverse umfasst über 100.000 benutzerdefinierte Varianten des ursprünglichen Gemma-Modells — von spezialisierten Branchenmodellen bis hin zu regionalen Sprachversionen. Diese Varianten wurden von der Community auf den ursprünglichen Gemma-Modellen feinabgestimmt und decken Anwendungsfälle ab, die Google bei der Grundentwicklung nicht berücksichtigt hat.
Besonders interessant für europische Nutzer: Die Gemmaverse enthält bereits spezialisierte Modelle für verschiedene Branchen. Ein bulgarisches Sprachmodell, medizinische Assistenten für die Krebsforschung und juristische Analyse-Tools — alles auf Gemma aufgebaut. Mit der leistungsfähigeren Gemma-4-Basis werden solche Spezialmodelle noch besser in der Qualität. Für Unternehmen bedeutet das: Sie müssen nicht jedes Mal von Null anfangen, sondern können auf existierende Feinabstimmungen aufsetzen und diese anpassen.
Mit der Veröffentlichung von Gemma 4 stellt Google auch Sicherheitsrichtlinien bereit. Das Modell enthält Filter für schädliche Inhalte und kann über System-Instructions zusätzliche Grenzen gesetzt werden. Für den Einsatz in Unternehmen ist das relevant: Sie können definieren, welche Themen das Modell nicht behandeln soll und welche Antworten es nicht geben darf. Allerdings sind diese Filter — wie bei allen Open-Source-Modellen — letztlich anpassbar, was sowohl ein Vorteil als auch ein Risiko darstellt.
Die Apache-2.0-Lizenz enthält keine restriktiven Nutzungsbedingungen für kommerzielle Anwendungen. Im Gegensatz zu Modellen mit eingeschränkten Lizenzen können Unternehmen Gemma 4 ohne rechtliche Bedenken in ihre Produkte integrieren. Das ist ein wesentlicher Unterschied zu Modellen wie Llama, bei denen die kommerzielle Nutzung teilweise eingeschränkt ist.
Wer Gemma 4 lokal ausprobieren möchte, hat mehrere Einstiegspunkte. Der schnellste Weg führt über Ollama — ein Open-Source-Tool, das Sprachmodelle lokal installiert und betreibt. Ein einziger Befehl genügt, um das Modell herunterzuladen und zu starten. Auf einem aktuellen MacBook mit M-Chip läuft die E4B-Variante in Echtzeit, auf einer Workstation mit RTX 4090 sogar das 26B-MoE-Modell.
Für Nutzer, die keine Kommandozeile nutzen möchten, steht LM Studio bereit — eine grafische Anwendung, die Gemma 4 genauso einfach installiert wie eine normale Desktop-Software. Google AI Studio bietet zusätzlich eine browserbasierte Variante zum Testen, ohne dass überhaupt etwas installiert werden muss.
Wer das Modell feinabstimmen möchte, kann dafür Google Colab oder Kaggle Notebooks nutzen — beide Plattformen bieten kostenlose GPU-Rechenleistung. Die Hugging-Face-Bibliothek stellt fertige Fine-Tuning-Skripte bereit, die mit wenigen Zeilen Code angepasst werden können.
Die Wahl der Apache-2.0-Lizenz ist ein strategisches Signal von Google. Im Gegensatz zu Modellen wie Llama, die teilweise Einschränkungen für kommerzielle Nutzung haben, ist Gemma 4 vollständig offen: Jeder darf es nutzen, modifizieren, vertreiben und in eigene Produkte einbauen — auch in kommerzielle Anwendungen. Für Startups und Unternehmen, die auf KI setzen wollen, ohne von einem Anbieter abhängig zu sein, ist das ein entscheidender Faktor.
Die Open-Source-Gemeinschaft hat darauf bereits reagiert: Über 100.000 Varianten des ursprünglichen Gemma-Modells existieren bereits — von feinabgestimmten Branchenmodellen bis hin zu spezialisierten Sprachvarianten. Gemma 4 wird diese Entwicklung weiter beschleunigen, weil es eine leistungsfähigere Basis bietet.
Ein praktischer Vergleich: Bei einem proprietären Modell wie GPT-5 oder Claude Opus zahlen Sie pro Token — bei hohem Nutzungsaufkommen können das schnell hunderte Euro pro Monat werden. Gemma 4 lokal betrieben kostet einmalig die Hardware-Nutzung und danach nichts mehr. Für Unternehmen mit regelmäßigem KI-Bedarf amortisiert sich die Investition in eine GPU innerhalb weniger Monate.
Im direkten Vergleich zu anderen Open-Source-Modellen punktet Gemma 4 vor allem mit seinem Verhältnis aus Leistung und Hardware-Anforderungen. Die 31B-Variante übertrifft auf der Arena-Rangliste Modelle, die zwanzigmal so viele Parameter haben. Die MoE-Architektur des 26B-Modells liefert dabei fast die gleiche Qualität zu einem Bruchteil der Rechenkosten. Das hat praktische Konsequenzen: Wo ein 70-Milliarden-Parameter-Modell mehrere GPUs benötigt, läuft Gemma 4-31B auf einer einzigen H100 — das reduziert sowohl die Hardware-Kosten als auch den Energieverbrauch erheblich.
Im Vergleich zu Llama oder Mistral setzt Gemma 4 stärker auf Hardware-Effizienz und Multimodalität als auf reine Parameterzahl. Für Entwickler, die ein Modell auf dem eigenen Rechner laufen lassen wollen, ist das ein klarer Vorteil: Weniger VRAM bedeutet niedrigere Hardware-Kosten und geringeren Energieverbrauch. Während Meta mit Llama 4 auf deutlich größere Parameterzahlen setzt, optimiert Google darauf, aus jedem einzelnen Parameter mehr Leistung herauszuholen. Die MoE-Architektur des 26B-Modells ist dafür das beste Beispiel: Es aktiviert pro Anfrage nur einen Bruchteil seiner Parameter und erreicht trotzdem bessere Ergebnisse als deutlich größere Modelle.
Ein weiterer Unterschied: Multimodalität ist bei Gemma 4 nicht nachträglich eingebaut, sondern von Grund auf Teil der Architektur. Alle vier Modellgrößen verarbeiten Bilder und Videos nativ — bei Llama ist Multimodalität erst bei den größeren Varianten verfügbar, Mistral bietet sie gar nicht standardmäßig an.
Gemma 4 zeigt, dass Open-Source-Sprachmodelle nicht mehr nur ein Experimentierfeld sind, sondern eine ernsthafte Alternative zu proprietären Modellen. Die Apache-2.0-Lizenz macht es zum ersten Mal vollständig frei für kommerzielle Nutzung, die vier Modellgrößen decken alles vom Smartphone bis zur Workstation ab und die Leistung liegt auf dem Niveau deutlich größerer Konkurrenzprodukte. Mit über 400 Millionen Downloads und 100.000 Varianten in der Gemmaverse ist das Ökosystem bereits jetzt eines der aktivsten der KI-Welt.
Für Unternehmen, die datensensibel arbeiten oder keine laufenden API-Kosten haben wollen, ist Gemma 4 derzeit die interessanteste Option auf dem Markt. Für Entwickler bedeutet es: KI-Frontier-Leistung auf dem eigenen Schreibtisch — ohne Cloud, ohne Abo, ohne Abhängigkeit. Wer Gemma 4 ausprobieren will, findet es auf Google AI Studio, Hugging Face und Kaggle — kostenlos und ohne Anmeldung.
Um Ihnen ein optimales Erlebnis zu bieten, verwenden wir Technologien wie Cookies, um Geräteinformationen zu speichern und/oder darauf zuzugreifen. Wenn Sie diesen Technologien zustimmen, können wir Daten wie Ihr Surfverhalten oder eindeutige IDs auf dieser Website verarbeiten. Wenn Sie Ihre Zustimmung nicht erteilen oder widerrufen, können bestimmte Merkmale und Funktionen beeinträchtigt werden.