Skip to content

LLaMA: Modele de fundație de limbaj deschise și eficiente

Prezentare generală

Notă: Această secțiune este în curs de dezvoltare intensivă.

Ce este nou?

Această lucrare introduce o colecție de modele de fundație de limbaj care variază de la 7B la 65B de parametri.

Datele de antrenament

Modelele sunt antrenate pe trilioane de tokeni cu seturi de date disponibile public.

Contextul de cercetare

Lucrarea lui (Hoffman et al. 2022) arată că având în vedere un buget de computație, modelele mai mici antrenate pe mult mai multe date pot obține performanță mai bună decât omologii mai mari. Această lucrare recomandă antrenarea modelelor de 10B pe 200B de tokeni.

Descoperirea cheie: Cu toate acestea, lucrarea LLaMA găsește că performanța unui model de 7B continuă să se îmbunătățească chiar și după 1T de tokeni.

Focusul de cercetare

Prezentarea generală a cercetării LLaMA

Această lucrare se concentrează pe antrenarea modelelor (LLaMA) care obțin cea mai bună performanță posibilă la diverse bugete de inferență, prin antrenarea pe mai mulți tokeni.

Capacități și rezultate cheie

Compararea performanței

LLaMA-13B depășește GPT-3(175B) pe multe benchmark-uri în ciuda faptului că este:

  • De 10 ori mai mic
  • Posibil de rulat pe un singur GPU

LLaMA 65B este competitiv cu modele precum:

  • Chinchilla-70B
  • PaLM-540B

Resurse

Lucrarea

LLaMA: Modele de fundație de limbaj deschise și eficiente

Codul

Repository GitHub

Referințe

Aprilie 2023

Martie 2023

Învățăminte cheie

  1. Scalarea eficientă: Modelele mai mici antrenate pe mai multe date pot depăși omologii mai mari
  2. Îmbunătățirea continuă: Performanța modelului de 7B se îmbunătățește chiar și după 1T de tokeni
  3. Cost-eficient: LLaMA-13B depășește GPT-3(175B) în timp ce este de 10 ori mai mic
  4. Compatibil cu GPU-ul unic: LLaMA-13B poate rula pe un singur GPU
  5. Performanță competitivă: LLaMA 65B competă cu modelele de top
  6. Fundația deschisă: Oferă baza pentru multe modele și aplicații derivate

Subiecte conexe