Mixtral 8x22B
Prezentare generală
Mixtral 8x22B este un nou model de limbaj mare (LLM) deschis lansat de Mistral AI. Mixtral 8x22B este caracterizat ca un model sparse mixture-of-experts cu 39B parametri activi din un total de 141B parametri.
Capacități
Mixtral 8x22B este antrenat să fie un model eficient din punct de vedere al costurilor cu capacități care includ:
- Înțelegerea multilingvă
- Raționamentul matematic
- Generarea de cod
- Suportul nativ pentru apelarea funcțiilor
- Suportul pentru ieșiri constrânse
Modelul suportă o fereastră de context de 64K tokeni care permite o recuperare performantă a informațiilor pe documente mari.
Mistral AI susține că Mixtral 8x22B oferă unul dintre cele mai bune rapoarte performanță-cost pentru modelele comunitare și este semnificativ rapid datorită activărilor sparse.
Sursa: Blog Mistral AI
Rezultate
Performanța pe Benchmark-uri de Raționament și Cunoștințe
Conform rezultatelor oficiale raportate, Mixtral 8x22B (cu 39B parametri activi) depășește modelele deschise de ultimă generație precum:
- Command R+
- Llama 2 70B
pe mai multe benchmark-uri de raționament și cunoștințe precum:
- MMLU
- HellaS
- TriQA
- NaturalQA
și multe altele.
Sursa: Blog Mistral AI
Performanța pe Sarcini de Codare și Matematică
Mixtral 8x22B depășește toate modelele deschise pe sarcinile de codare și matematică când este evaluat pe benchmark-uri precum:
- GSM8K
- HumanEval
- Math
Se raportează că Mixtral 8x22B Instruct realizează un scor de 90% pe GSM8K (maj@8).
Sursa: Blog Mistral AI
Utilizare
Mai multe informații despre Mixtral 8x22B și cum să-l folosești găsești în documentația oficială Mistral AI.
Licență
Modelul este lansat sub o licență Apache 2.0.
Puncte Cheie
- Model sparse mixture-of-experts cu 39B parametri activi
- Fereastră de context de 64K tokeni
- Performanță superioară pe benchmark-uri de raționament și cunoștințe
- Excelent pe sarcinile de codare și matematică (90% pe GSM8K)
- Licență deschisă Apache 2.0
- Raport performanță-cost optim pentru modelele comunitare
