Llama 3.1 405B übertrifft GPT-4o und Claude 3.5 Sonnet

In den vergangenen Tagen haben wir bedeutende Entwicklungen in der Welt der Künstlichen Intelligenz erlebt. Llama 3.1 405B, GPT-4o und Claude 3.5 Sonnet gehören zu den neuesten und leistungsfähigsten Modellen. Besonders bemerkenswert ist dabei Llama 3.1 405B, das sich als erstes Open-Source-Modell mit führenden proprietären KI-Modellen messen kann.

Was ist Llama 3.1 405B?

Meta hat kürzlich die Einführung von Llama 3.1 bekannt gegeben, dem bislang größten Open-Source-KI-Modell. Dieses Modell übertrifft in mehreren Benchmark-Tests sowohl OpenAIs GPT-4o als auch Anthropics Claude 3.5 Sonnet. Llama 3.1 405B ist ein bedeutender Schritt in der Entwicklung von Künstlicher Intelligenz, da es zahlreiche Fähigkeiten wie allgemeines Wissen, Steuerbarkeit, Mathematik, Werkzeugnutzung und mehrsprachige Übersetzung aufweist.

Das Modell wurde mit über 15 Billionen Tokens trainiert und nutzt über 16.000 H100-GPUs, was es zur ersten Llama-Version macht, die in diesem Umfang trainiert wurde. Zu den verbesserten Fähigkeiten gehören eine Kontextlänge von 128.000, verbesserte logische und programmiertechnische Fähigkeiten sowie ein verbessertes mehrsprachiges Verständnis.

Wesentliche Funktionen von Llama 3.1 405B

Werkzeugnutzung und Multilingualität

Llama 3.1 unterstützt die Werkzeugnutzung im „Zero-Shot“-Modus, was bedeutet, dass das Modell ohne spezifisches Training auf neue Werkzeuge zugreifen kann. Zudem ist das Modell in der Lage, mehrere Sprachen zu verarbeiten und zu verstehen, da etwa 50% der vortrainierten Daten aus mehrsprachigen Tokens bestehen.

Programmieren und logisches Denken

Llama 3.1 zeigt starke Fähigkeiten in der Programmierung, indem es hochwertigen Code generiert und ein tiefes Verständnis für Syntax und Logik aufweist. Es kann komplexe Code-Strukturen erstellen und verschiedene Programmieraufgaben erfolgreich bewältigen. Zudem zeichnet sich das Modell durch hervorragende Fähigkeiten im logischen Denken, Problemlösen und Analysieren aus. Im Vergleich dazu bieten GPT-4o und Claude 3.5 Sonnet ebenfalls korrekte und funktionale Lösungen, sind jedoch oft weniger direkt und effizient in ihrer Herangehensweise.

Multimodale Modelle

Meta arbeitet derzeit an multimodalen Modellen, die Bild- und Videoerkennung sowie Sprachverständnis unterstützen. Diese Modelle befinden sich jedoch noch in der Entwicklungsphase und sind bislang nicht weit verbreitet.

Benchmark-Ergebnisse

Meta verglich Llama 3.1 405B mit Modellen wie GPT-4, GPT-4o und Claude 3.5 Sonnet. Die Ergebnisse zeigten, dass Llama 3.1 in Bereichen wie mathematischem und komplexem logischen Denken sowie mehrsprachiger Unterstützung besser abschnitt als GPT-4o und Claude 3.5 Sonnet. Besonders hervorzuheben ist die Fähigkeit von Llama 3.1, lange Texte zu verarbeiten, was ihm in der Bewertung 95,2 Punkte einbrachte.

In der Werkzeugnutzung ist Llama 3.1 405B jedoch bisher nicht so leistungsfähig wie Claude 3.5 Sonnet. Obwohl es in Bereichen wie Multi-Task Language Understanding, Human Eval und MATH etwas hinter den geschlossenen Modellen zurückbleibt, ist der Unterschied in den Ergebnissen nicht signifikant.

Kategorie	Benchmark	Llama 3.1 8B	Gemma 2 9B IT	Mistral 7B Instruct	Llama 3.1 70B	Mixtral 8x22B Instruct	GPT 3.5 Turbo
General	MMLU (0-shot, CoT)	73.0	72.3 (5-shot, non-CoT)	60.5	86.0	79.9	69.8
	MMLU PRO (5-shot, CoT)	48.3	–	36.9	66.4	56.3	49.2
	IFEval	80.4	73.6	57.6	87.5	72.7	69.9
Code	HumanEval (0-shot)	72.6	54.3	40.2	80.5	75.6	68.0
	MBPP EvalPlus (base) (0-shot)	72.8	71.7	49.5	86.0	78.6	82.0
Math	GSM8K (8-shot, CoT)	84.5	76.7	53.2	95.1	88.2	81.6
	MATH (0-shot, CoT)	51.9	44.3	13.0	68.0	54.1	43.1
Reasoning	ARC Challenge (0-shot)	83.4	87.6	74.2	94.8	88.7	83.7
	GPOQA (0-shot, CoT)	32.8	–	28.8	46.7	33.3	30.8
Tool use	BFCL	76.1	–	60.4	84.8	–	85.9
	Nexus	38.5	30.0	24.7	56.7	48.5	37.2
Long context	ZeroSCROLLS/QuALITY	81.0	–	–	90.5	–	–
	InfiniteBench/En.MC	65.1	–	–	78.2	–	–
	NIH/Multi-needle	98.8	–	–	97.5	–	–
Multilingual	Multilingual MGSM (0-shot)	68.9	53.2	29.9	86.9	71.1	51.4

Kategorie	Benchmark	Llama 3.1 405B	Nemotron 4 340B Instruct	GPT-4 (0125)	GPT-4 Omni	Claude 3.5 Sonnet
General	MMLU (0-shot, CoT)	88.6	78.7 (non-CoT)	85.4	88.7	88.3
	MMLU PRO (5-shot, CoT)	73.3	62.7	64.8	74.0	77.0
	IFEval	88.6	85.1	84.3	85.6	88.0
Code	HumanEval (0-shot)	89.0	73.2	86.6	90.2	92.0
	MBPP EvalPlus (base) (0-shot)	88.6	72.8	83.6	87.8	90.5
Math	GSM8K (8-shot, CoT)	96.8	92.3 (0-shot)	94.2	96.1	96.4 (0-shot)
	MATH (0-shot, CoT)	73.8	41.1	64.5	76.6	71.1
Reasoning	ARC Challenge (0-shot)	96.9	94.6	96.4	96.7	96.7
	GPOQA (0-shot, CoT)	51.1	–	41.4	53.6	59.4
Tool use	BFCL	88.5	86.5	88.3	80.5	90.2
	Nexus	58.7	50.3	–	56.1	45.7
Long context	ZeroSCROLLS/QuALITY	95.2	–	95.2	90.5	90.5
	InfiniteBench/En.MC	83.4	–	72.1	82.5	–
	NIH/Multi-needle	98.1	–	100.0	100.0	90.8
Multilingual	Multilingual MGSM (0-shot)	91.6	85.9	85.9	90.5	91.6

Lokale Nutzung von Llama 3.1 405B

Um Llama 3.1 lokal zu nutzen, empfiehlt sich der Einsatz von Ollama. Es ermöglicht eine schnelle und einfache Implementierung von lokalen Sprachmodellen. Hier sind die Schritte, um Llama 3.1 8B zu nutzen:

Ollama herunterladen und installieren.
Terminal öffnen und den Befehl ollama run llama3.1-8b ausführen.

Groq hostet derzeit die Llama 3.1 Modelle, einschließlich der 70B und 8B Modelle. Die 405B-Version wurde aufgrund hoher Nachfrage und Serverproblemen vorübergehend entfernt.

Vergleich: Llama 3.1 405B vs. Claude 3.5 Sonnet vs. GPT-4o

Beim Vergleich der Programmierfähigkeiten zeigt sich, dass Llama 3.1 405B in der Lage ist, hochwertige und effiziente Lösungen für komplexe Probleme zu liefern. Während GPT-4o und Claude 3.5 Sonnet ebenfalls korrekte Lösungen bieten, ist die Herangehensweise von Llama 3.1 oft direkter und effizienter.

In Bezug auf mathematische Fähigkeiten schnitt Llama 3.1 ebenfalls gut ab. Ein klassisches Wahrscheinlichkeitsproblem, bei dem eine Wahrscheinlichkeit berechnet werden sollte, wurde von allen drei Modellen korrekt gelöst. Llama 3.1 bot jedoch die detaillierteste und gründlichste Erklärung, während GPT-4o und Claude 3.5 Sonnet klarere, aber weniger ausführliche Antworten lieferten.

Fazit

Die Einführung von Llama 3.1, insbesondere das leistungsstarke 405B-Modell, hat die Entwicklung von Open-Source-Sprachmodellen erheblich vorangebracht. Zum ersten Mal sind die Leistungen von Open-Source-Modellen nahezu auf Augenhöhe mit geschlossenen kommerziellen Modellen. Dies deutet darauf hin, dass Meta’s Llama-Serie in Zukunft eine führende Rolle bei der Entwicklung von Open-Source-Sprachmodellen spielen könnte.

Die Digitalisierung der künstlichen Intelligenz schreitet voran, und Modelle wie Llama 3.1 405B könnten eine bedeutende Rolle in neuen Geschäftsmodellen spielen. Die Nutzung von großen Datenmengen, effizienten ERP-Systemen und fortschrittlichen Suchmaschinenoptimierungen wird durch solche leistungsstarken KI-Modelle weiter revolutioniert.