Rıfkı-V3 Technischer Bericht
1. Überblick
Rıfkı-V3 ist ein leistungsstarkes Mixture-of-Experts (MoE) Sprachmodell mit 671B Gesamtparametern und 37B aktiven Parametern pro Token. Inspiriert von der DeepSeek-V3-Architektur verwendet Rıfkı Multi-head Latent Attention (MLA) und DeepSeekMoE-Architekturen, um eine hochleistungsfähige Inferenz bei gleichzeitiger Beibehaltung wirtschaftlicher Trainingskosten zu erreichen. Die Verwendung von FP8-Mixed-Precision-Training stabilisiert das Modell weiter.
2. Architektur Zusammenfassung
Die Rıfkı-Modellarchitektur baut auf dem Transformer-Framework auf, mit wesentlichen Optimierungen für Effizienz im großen Maßstab.
Multi-head Latent Attention (MLA)
Traditionelles Key-Value (KV) Caching in Transformern verbraucht erheblichen Speicher. Rıfkı nutzt die MLA-Technologie, um den KV-Cache zu komprimieren, wodurch der Speicheraufwand während der Generierung erheblich reduziert wird und längere Kontextfenster von bis zu 128.000 Token ermöglicht werden.
DeepSeekMoE Mixture-of-Experts
Anstatt alle Parameter für jeden Token zu aktivieren, verwendet Rıfkı einen MoE-Router, um nur die relevantesten Experten auszuwählen. Dies stellt sicher, dass für jeden Token nur 37 Mrd. Parameter von insgesamt 671 Mrd. aktiv sind, was die Rechenkosten im Vergleich zu dichten Modellen um 90 % reduziert.
3. Benchmarks
Rıfkı-V3 wurde in Standard-Benchmarks wie MMLU, GSM8K und HumanEval rigoros getestet.
4. Verwendung
API-Integration
Rıfkı bietet einen OpenAI-kompatiblen API-Endpunkt.
Lokal Ausführen
Sie können Rıfkı lokal mit Standard-Inferenz-Engines wie vLLM oder SGLang ausführen.
Zitieren
Wenn Sie Rıfkı in Ihrer Forschung verwenden, zitieren Sie bitte: