
Mach Platz LLaMA: Tencents Neues Open LLM ist Bereit für Selbsthosting

Tencent hat gerade ein neues Open-Source-Modell namens Hunyuan-A13B-Instruct veröffentlicht. Es hat offene Gewichte (nicht sicher über den Code) und läuft lokal (naja, wenn du eine B200 GPU hast). Wenn du neugierig bist, wie es funktioniert, und es selbst ausprobieren möchtest, erfährst du hier, wie du es in wenigen Minuten auf einer gemieteten GPU einrichtest.
Was ist Hunyuan-A13B?
Hunyuan-A13B ist ein Mixture-of-Experts (MoE)-Modell mit 80 Milliarden Gesamtparametern, von denen jedoch nur 13 Milliarden aktiv sind. Das bedeutet, dass die Inferenz viel günstiger ist als bei einem vollen dichten Modell.
Mixture-of-Experts (MoE) ist eine neuronale Netzwerkarchitektur, bei der nur ein Teil der spezialisierten "Expert"-Sub-Netzwerke für jede Eingabe aktiviert wird, was die Rechenleistung reduziert und die Modellkapazität erhöht. Ein Gate-Mechanismus wählt dynamisch aus, welche Experten basierend auf der Eingabe verwendet werden, sodass das Modell effizient skalieren kann, ohne immer alle Parameter zu verwenden.
Einige Highlights:
- Unterstützt 256k Kontext von Haus aus
- Schnelle und langsame Denkmuster
- Grouped Query Attention (GQA) für effizientere Inferenz
- Agentenorientierte Feinabstimmung, mit Benchmark-Ergebnissen auf BFCL-v3 und τ-Bench
- Quantisierungsunterstützung, einschließlich GPTQ
Bisher sieht es wie ein solider Kandidat für lokale Experimente aus, besonders für langanhaltende oder agentenähnliche Aufgaben. Ich teste noch, wie es im Vergleich zu anderen Modellen wie LLaMA 3, Mixtral und Claude 3 abschneidet.
Schritt 1: Erstelle eine RunPod Instanz
Der einfachste Weg, es auszuprobieren, ist RunPod (Dieser Link gibt dir zwischen $5 und $500 Credits!). Du benötigst:
- Ein 300 GB Netzwerkvolumen
- Eine B200 GPU (ich glaube nicht, dass weniger funktioniert, du benötigst ~150GB VRAM)
- Ein unterstütztes PyTorch-Image
Erstelle ein Netzwerkvolumen
- Region: nutze eine, wo B200 verfügbar ist (derzeit
eu-ro-1
) - Größe: 300 GB
- Kosten: ca. $21/Monat (abrechnung auch wenn ungenutzt)
Erstelle ein Pod
- GPU-Typ: B200
- Image:
runpod/pytorch:2.8.0-py3.11-cuda12.8.1-cudnn-devel-ubuntu22.04
⚠️ Frühere Versionen funktionierten bei meinem Testen nicht - GPU-Anzahl: 1
- Aktiviere SSH + Jupyter
- Verbinde dein Netzwerkvolumen
Schritt 2: Installiere Abhängigkeiten
Im Notebook-Terminal:
%pip install transformers tiktoken accelerate gptqmodel optimum
Schritt 3: Lade das Modell
Lege den Cache-Pfad fest, sodass Downloads ins gemountete Volumen statt ins Standard-Root-Verzeichnis gehen:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
import os
import re
os.environ['HF_HOME'] = '/workspace/hf-cache'
model_path = 'tencent/Hunyuan-A13B-Instruct'
tokenizer = AutoTokenizer.from_pretrained(model_path, local_files_only=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, cache_dir='/workspace/hf-cache/', local_files_only=False, device_map="auto", torch_dtype=torch.bfloat16, trust_remote_code=True)
messages = [
{
"role": "user",
"content": "What does the frog say?"
},
]
tokenized_chat = tokenizer.apply_chat_template(messages, tokenize=True, return_tensors="pt",
enable_thinking=True
)
outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=5000)
output_text = tokenizer.decode(outputs[0])
print(output_text)
Anmerkungen:
- Der erste Lauf wird ~150 GB an Gewichten herunterladen
- VRAM-Nutzung beträgt ~153 GB während der Inferenz
- Das Laden in den VRAM dauert ein paar Minuten
- Wenn die GPU-Auslastung (nicht nur VRAM) steigt, läuft es
- Du kannst
device_map="cpu"
einstellen, wenn du nur auf der CPU testen möchtest. Stelle sicher, dass du etwa 200 GB RAM und eine gute CPU hast
Kosten
- B200-Pod: $6.39/Stunde
- Netzwerkvolumen: $21/Monat, auch wenn es nicht genutzt wird
- Vorschlag: Fahre das Pod runter, wenn es nicht benutzt wird x)
Tooling Hinweise
llama.cpp
Unterstützung ist noch nicht vorhanden. PR in Arbeit: #14425- Funktioniert gut in Python mit
transformers
undbfloat16
Benchmark
Die offiziellen Benchmarks sind auf Hugging Face verfügbar und wurden vom TRT-LLM-Backend evaluiert.
Modell | Hunyuan-Large | Qwen2.5-72B | Qwen3-A22B | Hunyuan-A13B |
---|---|---|---|---|
MMLU | 88.40 | 86.10 | 87.81 | 88.17 |
MMLU-Pro | 60.20 | 58.10 | 68.18 | 67.23 |
MMLU-Redux | 87.47 | 83.90 | 87.40 | 87.67 |
BBH | 86.30 | 85.80 | 88.87 | 87.56 |
SuperGPQA | 38.90 | 36.20 | 44.06 | 41.32 |
EvalPlus | 75.69 | 65.93 | 77.60 | 78.64 |
MultiPL-E | 59.13 | 60.50 | 65.94 | 69.33 |
MBPP | 72.60 | 76.00 | 81.40 | 83.86 |
CRUX-I | 57.00 | 57.63 | - | 70.13 |
CRUX-O | 60.63 | 66.20 | 79.00 | 77.00 |
MATH | 69.80 | 62.12 | 71.84 | 72.35 |
CMATH | 91.30 | 84.80 | - | 91.17 |
GSM8k | 92.80 | 91.50 | 94.39 | 91.83 |
GPQA | 25.18 | 45.90 | 47.47 | 49.12 |
Hunyuan-A13B-Instruct hat über mehrere Benchmarks hinweg hoch konkurrierende Leistungen erreicht, insbesondere in Mathematik, Wissenschaft, Agentendomänen und mehr. Wir haben es mit mehreren leistungsstarken Modellen verglichen, und die Ergebnisse sind unten gezeigt. - Tencent
Thema | Bench | OpenAI-o1-1217 | DeepSeek R1 | Qwen3-A22B | Hunyuan-A13B-Instruct |
---|---|---|---|---|---|
Mathematik | AIME 2024 AIME 2025 MATH | 74.3 79.2 96.4 | 79.8 70 94.9 | 85.7 81.5 94.0 | 87.3 76.8 94.3 |
Wissenschaft | GPQA-Diamond OlympiadBench | 78 83.1 | 71.5 82.4 | 71.1 85.7 | 71.2 82.7 |
Programmieren | Livecodebench Fullstackbench ArtifactsBench | 63.9 64.6 38.6 | 65.9 71.6 44.6 | 70.7 65.6 44.6 | 63.9 67.8 43 |
Schlussfolgerung | BBH DROP ZebraLogic | 80.4 90.2 81 | 83.7 92.2 78.7 | 88.9 90.3 80.3 | 89.1 91.1 84.7 |
Instruktionen Folgen | IF-Eval SysBench | 91.8 82.5 | 88.3 77.7 | 83.4 74.2 | 84.7 76.1 |
Text Erstellung | LengthCtrl InsCtrl | 60.1 74.8 | 55.9 69 | 53.3 73.7 | 55.4 71.9 |
NLU | ComplexNLU Word-Task | 64.7 67.1 | 64.5 76.3 | 59.8 56.4 | 61.2 62.9 |
Agent | BDCL v3 τ-Bench ComplexFuncBench C3-Bench | 67.8 60.4 47.6 58.8 | 56.9 43.8 41.1 55.3 | 70.8 44.6 40.6 51.7 | 78.3 54.7 61.2 63.5 |
Fazit
Dies ist eines der interessanteren offenen MoE-Modelle, die derzeit verfügbar sind. Es unterstützt lange Kontexte, hat einige durchdachte Designentscheidungen, und es ist leicht genug auszuführen. Ich bewerte noch, wie gut es tatsächlich ist, insbesondere im Vergleich zu Modellen wie Mistral Magistral und anderen aktuellen Modellen. Wenn du es selbst testen möchtest, bringt dich diese Einrichtung schnell ans Ziel.
Prost,
Jonas, Mitgründer von sliplane.io