Mixtral 8x22B

Prezentare generală

Mixtral 8x22B este un nou model de limbaj mare (LLM) deschis lansat de Mistral AI. Mixtral 8x22B este caracterizat ca un model sparse mixture-of-experts cu 39B parametri activi din un total de 141B parametri.

Capacități

Mixtral 8x22B este antrenat să fie un model eficient din punct de vedere al costurilor cu capacități care includ:

Înțelegerea multilingvă
Raționamentul matematic
Generarea de cod
Suportul nativ pentru apelarea funcțiilor
Suportul pentru ieșiri constrânse

Modelul suportă o fereastră de context de 64K tokeni care permite o recuperare performantă a informațiilor pe documente mari.

Mistral AI susține că Mixtral 8x22B oferă unul dintre cele mai bune rapoarte performanță-cost pentru modelele comunitare și este semnificativ rapid datorită activărilor sparse.

Performanța Mixtral 8x22B Sursa: Blog Mistral AI

Rezultate

Performanța pe Benchmark-uri de Raționament și Cunoștințe

Conform rezultatelor oficiale raportate, Mixtral 8x22B (cu 39B parametri activi) depășește modelele deschise de ultimă generație precum:

Command R+
Llama 2 70B

pe mai multe benchmark-uri de raționament și cunoștințe precum:

MMLU
HellaS
TriQA
NaturalQA

și multe altele.

Performanța de Raționament și Cunoștințe Mixtral 8x22B Sursa: Blog Mistral AI

Performanța pe Sarcini de Codare și Matematică

Mixtral 8x22B depășește toate modelele deschise pe sarcinile de codare și matematică când este evaluat pe benchmark-uri precum:

GSM8K
HumanEval
Math

Se raportează că Mixtral 8x22B Instruct realizează un scor de 90% pe GSM8K (maj@8).

Performanța de Raționament și Cunoștințe Mixtral 8x22B Sursa: Blog Mistral AI

Utilizare

Mai multe informații despre Mixtral 8x22B și cum să-l folosești găsești în documentația oficială Mistral AI.

Licență

Modelul este lansat sub o licență Apache 2.0.

Puncte Cheie

Model sparse mixture-of-experts cu 39B parametri activi
Fereastră de context de 64K tokeni
Performanță superioară pe benchmark-uri de raționament și cunoștințe
Excelent pe sarcinile de codare și matematică (90% pe GSM8K)
Licență deschisă Apache 2.0
Raport performanță-cost optim pentru modelele comunitare

Prompt-uri adversariale

Programare

Creativitate

Evaluare

LLM-uri pentru clasificare

Generarea de imagini

Extragerea informațiilor

Descoperiri în cercetarea LLM-urilor

Matematică

Modele

Răspunsuri la întrebări

Raționament

Riscuri și utilizări greșite

Rezumate de text

Adevărul

Mixtral 8x22B

Prezentare generală

Capacități

Rezultate

Performanța pe Benchmark-uri de Raționament și Cunoștințe

Performanța pe Sarcini de Codare și Matematică

Utilizare

Licență

Puncte Cheie

Mixtral 8x22B ​

Prezentare generală ​

Capacități ​

Rezultate ​

Performanța pe Benchmark-uri de Raționament și Cunoștințe ​

Performanța pe Sarcini de Codare și Matematică ​

Utilizare ​

Licență ​

Puncte Cheie ​

Mixtral 8x22B

Prezentare generală

Capacități

Rezultate

Performanța pe Benchmark-uri de Raționament și Cunoștințe

Performanța pe Sarcini de Codare și Matematică

Utilizare

Licență

Puncte Cheie