Skip to content

Mixtral 8x22B

Prezentare generală

Mixtral 8x22B este un nou model de limbaj mare (LLM) deschis lansat de Mistral AI. Mixtral 8x22B este caracterizat ca un model sparse mixture-of-experts cu 39B parametri activi din un total de 141B parametri.

Capacități

Mixtral 8x22B este antrenat să fie un model eficient din punct de vedere al costurilor cu capacități care includ:

  • Înțelegerea multilingvă
  • Raționamentul matematic
  • Generarea de cod
  • Suportul nativ pentru apelarea funcțiilor
  • Suportul pentru ieșiri constrânse

Modelul suportă o fereastră de context de 64K tokeni care permite o recuperare performantă a informațiilor pe documente mari.

Mistral AI susține că Mixtral 8x22B oferă unul dintre cele mai bune rapoarte performanță-cost pentru modelele comunitare și este semnificativ rapid datorită activărilor sparse.

Performanța Mixtral 8x22BSursa: Blog Mistral AI

Rezultate

Performanța pe Benchmark-uri de Raționament și Cunoștințe

Conform rezultatelor oficiale raportate, Mixtral 8x22B (cu 39B parametri activi) depășește modelele deschise de ultimă generație precum:

  • Command R+
  • Llama 2 70B

pe mai multe benchmark-uri de raționament și cunoștințe precum:

  • MMLU
  • HellaS
  • TriQA
  • NaturalQA

și multe altele.

Performanța de Raționament și Cunoștințe Mixtral 8x22BSursa: Blog Mistral AI

Performanța pe Sarcini de Codare și Matematică

Mixtral 8x22B depășește toate modelele deschise pe sarcinile de codare și matematică când este evaluat pe benchmark-uri precum:

  • GSM8K
  • HumanEval
  • Math

Se raportează că Mixtral 8x22B Instruct realizează un scor de 90% pe GSM8K (maj@8).

Performanța de Raționament și Cunoștințe Mixtral 8x22BSursa: Blog Mistral AI

Utilizare

Mai multe informații despre Mixtral 8x22B și cum să-l folosești găsești în documentația oficială Mistral AI.

Licență

Modelul este lansat sub o licență Apache 2.0.

Puncte Cheie

  1. Model sparse mixture-of-experts cu 39B parametri activi
  2. Fereastră de context de 64K tokeni
  3. Performanță superioară pe benchmark-uri de raționament și cunoștințe
  4. Excelent pe sarcinile de codare și matematică (90% pe GSM8K)
  5. Licență deschisă Apache 2.0
  6. Raport performanță-cost optim pentru modelele comunitare