Skip to content

Scalarea modelelor de limbaj fine-tunate pentru instrucțiuni

Prezentare generală

Această lucrare explorează beneficiile scalării fine-tuning-ului pentru instrucțiuni și cum îmbunătățește performanța pe o varietate de modele (PaLM, T5), configurații de promptare (zero-shot, few-shot, CoT) și benchmark-uri (MMLU, TyDiQA). Aceasta este explorată cu următoarele aspecte: scalarea numărului de sarcini (1.8K sarcini), scalarea dimensiunii modelului și fine-tuning-ul pe date chain-of-thought (9 seturi de date folosite).

Prezentarea generală a cercetării FLAN

Procedura de fine-tuning

Scalarea sarcinilor

  • 1.8K sarcini au fost formulate ca instrucțiuni și folosite pentru fine-tuning-ul modelului
  • Folosește atât cu cât și fără exemple, și cu cât și fără CoT
  • Sarcinile de fine-tuning și sarcinile reținute sunt arătate mai jos:

Distribuția sarcinilor FLAN

Capacități și rezultate cheie

Îmbunătățirile performanței

  • Fine-tuning-ul pentru instrucțiuni scalează bine cu numărul de sarcini și dimensiunea modelului
  • Aceasta sugerează necesitatea de a scala mai departe numărul de sarcini și dimensiunea modelului
  • Adăugarea seturilor de date CoT în fine-tuning permite performanță bună pe sarcinile de raționament

Capacități multilingve

  • Flan-PaLM are abilități multilingve îmbunătățite
  • Îmbunătățire de 14.9% pe TyDiQA one-shot
  • Îmbunătățire de 8.1% pe raționamentul aritmetic în limbi sub-reprezentate

Calitatea generării

  • Plan-PaLM performează bine pe întrebări de generare deschise
  • Aceasta este un indicator bun pentru utilizabilitatea îmbunătățită
  • Îmbunătățește performanța pe benchmark-urile AI responsabil (RAI)

Compararea modelelor

  • Modelele Flan-T5 fine-tunate pentru instrucțiuni demonstrează capacități puternice few-shot
  • Depășește checkpoint-urile publice precum T5

Analiza scalării

Scalarea sarcinilor și dimensiunii modelului

Rezultatele când se scalează numărul de sarcini de fine-tuning și dimensiunea modelului: scalarea atât a dimensiunii modelului cât și a numărului de sarcini de fine-tuning este așteptată să continue să îmbunătățească performanța, deși scalarea numărului de sarcini are randamente diminuate.

Rezultatele de scalare FLAN

Fine-tuning CoT vs Non-CoT

Rezultatele când se face fine-tuning cu date non-CoT și CoT: Fine-tuning-ul comun pe date non-CoT și CoT îmbunătățește performanța pe ambele evaluări, comparat cu fine-tuning-ul doar pe una sau alta.

FLAN CoT vs Non-CoT

Auto-consistența cu CoT

În plus, auto-consistența combinată cu CoT obține rezultate SoTA pe mai multe benchmark-uri. CoT + auto-consistența îmbunătățește, de asemenea, semnificativ rezultatele pe benchmark-uri care implică probleme de matematică (de ex., MGSM, GSM8K).

Rezultatele auto-consistenței FLAN

Chain-of-Thought Zero-Shot

Activarea și performanța

Fine-tuning-ul CoT deblochează raționamentul zero-shot, activat de fraza "să gândim pas cu pas", pe sarcinile BIG-Bench. În general, zero-shot CoT Flan-PaLM depășește zero-shot CoT PaLM fără fine-tuning.

FLAN Zero-Shot CoT

Demonstrațiile zero-shot

Mai jos sunt câteva demonstrații de zero-shot CoT pentru PaLM și Flan-PaLM în sarcini nevăzute.

Exemplele FLAN Zero-Shot

Capacități zero-shot suplimentare

Mai jos sunt mai multe exemple pentru promptarea zero-shot. Arată cum modelul PaLM se luptă cu repetițiile și nu răspunde la instrucțiuni în setarea zero-shot unde Flan-PaLM este capabil să performeze bine. Exemplele few-shot pot atenua aceste erori.

Performanța FLAN Zero-Shot

Exemple de întrebări deschise

Mai jos sunt câteva exemple care demonstrează mai multe capacități zero-shot ale modelului Flan-PALM pe mai multe tipuri diferite de întrebări deschise provocatoare:

Exemplele FLAN deschise 1

Exemplele FLAN deschise 2

Exemplele FLAN deschise 3

Încearcă-l

Puteți încerca modelele Flan-T5 pe Hugging Face Hub.

Învățăminte cheie

  1. Fine-tuning-ul pentru instrucțiuni scalează eficient atât cu numărul de sarcini cât și cu dimensiunea modelului
  2. Integrarea CoT îmbunătățește semnificativ capacitățile de raționament
  3. Performanța multilingvă arată îmbunătățiri substanțiale
  4. Raționamentul zero-shot este deblocat prin fine-tuning-ul corespunzător
  5. Auto-consistența combinată cu CoT obține rezultate de top
  6. Generarea deschisă este îmbunătățită semnificativ

Subiecte conexe