Rıfkı-V3 Technischer Bericht

Veröffentlicht: 2025-01-01 Version: 3.1 (Dynamic) Team: Proje Rıfkı Core

1. Überblick

Rıfkı-V3 ist ein leistungsstarkes Mixture-of-Experts (MoE) Sprachmodell mit 671B Gesamtparametern und 37B aktiven Parametern pro Token. Inspiriert von der DeepSeek-V3-Architektur verwendet Rıfkı Multi-head Latent Attention (MLA) und DeepSeekMoE-Architekturen, um eine hochleistungsfähige Inferenz bei gleichzeitiger Beibehaltung wirtschaftlicher Trainingskosten zu erreichen. Die Verwendung von FP8-Mixed-Precision-Training stabilisiert das Modell weiter.

Hauptmerkmal: Rıfkı-V3 zeigt außergewöhnliche Leistungen in Mathematik-, Code- und Argumentationsaufgaben und konkurriert mit geschlossenen Frontier-Modellen.

2. Architektur Zusammenfassung

Die Rıfkı-Modellarchitektur baut auf dem Transformer-Framework auf, mit wesentlichen Optimierungen für Effizienz im großen Maßstab.

Multi-head Latent Attention (MLA)

Traditionelles Key-Value (KV) Caching in Transformern verbraucht erheblichen Speicher. Rıfkı nutzt die MLA-Technologie, um den KV-Cache zu komprimieren, wodurch der Speicheraufwand während der Generierung erheblich reduziert wird und längere Kontextfenster von bis zu 128.000 Token ermöglicht werden.

DeepSeekMoE Mixture-of-Experts

Anstatt alle Parameter für jeden Token zu aktivieren, verwendet Rıfkı einen MoE-Router, um nur die relevantesten Experten auszuwählen. Dies stellt sicher, dass für jeden Token nur 37 Mrd. Parameter von insgesamt 671 Mrd. aktiv sind, was die Rechenkosten im Vergleich zu dichten Modellen um 90 % reduziert.

3. Benchmarks

Rıfkı-V3 wurde in Standard-Benchmarks wie MMLU, GSM8K und HumanEval rigoros getestet.

4. Verwendung

API-Integration

Rıfkı bietet einen OpenAI-kompatiblen API-Endpunkt.

Lokal Ausführen

Sie können Rıfkı lokal mit Standard-Inferenz-Engines wie vLLM oder SGLang ausführen.

Zitieren

Wenn Sie Rıfkı in Ihrer Forschung verwenden, zitieren Sie bitte: