Skip to content

Colecția LLM

Prezentare generală

Această secțiune constă într-o colecție și rezumat al modelelor de limbaj mari (LLM-uri) notabile și fundamentale. Colecția oferă o prezentare comprehensivă a modelelor lansate din 2018 până în 2023, inclusiv specificațiile, capacitățile și cazurile de utilizare ale acestora.

Colecția de modele

Modelele din 2023

ModelData lansăriiDimensiunea (B)Checkpoint-uriDescrierea
Falcon LLMSep 20237, 40, 180Falcon-7B, Falcon-40B, Falcon-180BFalcon LLM este un model de fundație de limbaj mare (LLM) cu 180 de miliarde de parametri antrenat pe 3500 de miliarde de tokeni. TII a lansat acum Falcon LLM – un model de 180B.
Mistral-7B-v0.1Sep 20237Mistral-7B-v0.1Mistral-7B-v0.1 este un model generativ de text pre-antrenat cu 7 miliarde de parametri. Modelul este bazat pe o arhitectură transformer cu caracteristici precum Grouped-Query Attention, Byte-fallback BPE tokenizer și Sliding-Window Attention.
CodeLlamaAug 20237, 13, 34CodeLlama-7B, CodeLlama-13B, CodeLlama-34BFamilia Code Llama este concepută pentru sinteza și înțelegerea generală a codului. Este specific fine-tunat pentru urmărirea instrucțiunilor și implementarea mai sigură. Modelele sunt auto-regresive și folosesc o arhitectură transformer optimizată. Sunt destinate utilizării comerciale și de cercetare în engleză și limbile de programare relevante.
Llama-2Jul 20237, 13, 70Llama-2-7B, Llama-2-13B, Llama-2-70BLLaMA-2, dezvoltat de Meta AI, a fost lansat în iulie 2023 cu modele de 7, 13 și 70 de miliarde de parametri. Menține o arhitectură similară cu LLaMA-1 dar folosește 40% mai multe date de antrenament. LLaMA-2 include modele de fundație și modele fine-tunate pentru dialog, cunoscute ca LLaMA-2 Chat, și este disponibil pentru multe utilizări comerciale, cu unele restricții.
XGen-7B-8KJul 20237XGen-7B-8KXGen-7B-8K, dezvoltat de Salesforce AI Research, este un model de limbaj de 7B parametri.
Claude-2Jul 2023130-Claude 2 este un LLM de fundație construit de Anthropic, conceput să fie mai sigur și mai "dirijabil" decât versiunea sa anterioară. Este conversațional și poate fi folosit pentru o varietate de sarcini precum suportul clienților, Q&A și multe altele. Poate procesa cantități mari de text și este bine adaptat pentru aplicațiile care necesită gestionarea datelor extensive, precum documente, email-uri, FAQ-uri și transcrieri de chat.
TuluJun 20237, 13, 30, 65Tulu-7B, Tulu-13B, Tulu-30B, Tulu-65BTulu este o familie de modele dezvoltată de Allen Institute for AI. Modelele sunt modele LLaMa care au fost fine-tunate pe un amestec de seturi de date de instrucțiuni, inclusiv FLAN V2, CoT, Dolly, Open Assistant 1, GPT4-Alpaca, Code-Alpaca și ShareGPT. Sunt concepute să urmeze instrucțiuni complexe pe diverse sarcini NLP.
ChatGLM2-6BJun 20236ChatGLM2-6BChatGLM2-6B este versiunea de a doua generație a modelului de chat open-source bilingv (chineză-engleză) ChatGLM-6B. Are performanță îmbunătățită, capacități de context mai lungi, inferență mai eficientă și o licență deschisă pentru utilizarea academică și comercială. Modelul folosește o funcție obiectivă hibridă și a fost antrenat cu 1.4T tokeni bilingvi. Arată îmbunătățiri substanțiale de performanță pe diverse seturi de date comparat cu omologul său de prima generație.
Nous-Hermes-13BJun 202313Nous-Hermes-13BNous-Hermes-13B este un model de limbaj fine-tunat de Nous Research pe peste 300.000 de instrucțiuni.
Baize-v2May 20237, 13Baize-v2-13BBaize-v2 este un model de chat open-source dezvoltat de UCSD și Sun Yat-Sen University, fine-tunat cu LoRA și antrenat cu fine-tuning supervizat (SFT) și auto-distilarea cu feedback (SDF).
RWKV-4-RavenMay 20231.5, 3, 7, 14RWKV-4-RavenRWKV-4-Raven este o serie de modele. Aceste modele sunt fine-tunate pe diverse seturi de date precum Alpaca, CodeAlpaca, Guanaco, GPT4All și ShareGPT. Urmăresc o arhitectură 100% RNN pentru modelul de limbaj.
GuanacoMay 20237, 13, 33, 65Guanaco-7B, Guanaco-13B, Guanaco-33B, Guanaco-65BModelele Guanaco sunt chatbot-uri open-source fine-tunate prin fine-tuning QLoRA de 4 biți ale modelelor de bază LLaMA pe setul de date OASST1. Sunt destinate scopurilor de cercetare. Modelele permit experimentarea ieftină și locală cu sisteme de chatbot de înaltă calitate.
PaLM 2May 2023--Un model de limbaj care are capacități multilingve și de raționament mai bune și este mai eficient computațional decât predecesorul său PaLM.
GorillaMay 20237GorillaGorilla: Model de limbaj mare conectat cu API-uri masive
RedPajama-INCITEMay 20233, 7RedPajama-INCITEO familie de modele inclusiv modele de bază, fine-tunate pentru instrucțiuni și modele de chat.
LIMAMay 202365-Un model de limbaj LLaMa de 65B parametri fine-tunat cu pierderea supervizată standard pe doar 1.000 de prompturi și răspunsuri cu grijă curățate, fără nicio învățare prin întărire sau modelarea preferințelor umane.
Replit CodeMay 20233Replit Codemodelul replit-code-v1-3b este un LLM de 2.7B antrenat pe 20 de limbi din setul de date Stack Dedup v1.2.
h2oGPTMay 20237, 12, 20, 40h2oGPTh2oGPT este un framework de fine-tuning LLM și UI de chatbot cu capacități de întrebare-răspuns pentru document(e).
CodeGen2May 20231, 3, 7, 16CodeGen2Modele de cod pentru sinteza programelor.
CodeT5 and CodeT5+May 202316CodeT5Modelele CodeT5 și CodeT5+ pentru înțelegerea și generarea codului de la Salesforce Research.
StarCoderMay 202315StarCoderStarCoder: Un LLM de top pentru cod
MPTMay 20237, 30MPT-7B, MPT-30BModelele MosaicML MPT sunt LLM-uri open-source, licențiate comercial, oferind soluții AI personalizabile optimizate pentru diverse sarcini NLP.
DLiteMay 20230.124 - 1.5DLite-v2-1.5BModele ușoare de urmărire a instrucțiunilor care expun interactivitatea de tip ChatGPT.
WizardLMApr 202370, 30, 13WizardLM-13B, WizardLM-30B, WizardLM-70BWizardLM este o familie de modele de limbaj mari concepute să urmeze instrucțiuni complexe. Modelele performează bine în codare, raționament matematic și conversații deschise. Modelele sunt prietenoase cu licențele și adoptă un format de prompt de la Vicuna pentru conversații multi-turn. Modelele sunt dezvoltate de WizardLM Team, concepute pentru diverse sarcini NLP.
FastChat-T5-3BApr 20233FastChat-T5-3BFastChat-T5 este un chatbot open-source antrenat prin fine-tuning-ul Flan-t5-xl (3B parametri) pe conversații împărtășite de utilizatori colectate de la ShareGPT. Se bazează pe o arhitectură transformer encoder-decoder și poate genera răspunsuri autoregresive la inputurile utilizatorilor.
GPT4All-13B-SnoozyApr 202313GPT4All-13B-SnoozyGPT4All-13B-Snoozy este un chatbot licențiat GPL antrenat pe un corpus masiv curat de interacțiuni de asistent inclusiv probleme cu cuvinte, dialog multi-turn, cod, poezii, cântece și povești. A fost fine-tunat de la LLama 13B și este dezvoltat de Nomic AI. Modelul este conceput pentru datele de interacțiune de tip asistent și este primar în engleză.
Koala-13BApr 202313Koala-13BKoala-13B este un chatbot creat de Berkeley AI Research (BAIR). Este fine-tunat pe LLaMA al lui Meta și se concentrează pe datele de dialog scrape-uite de pe web. Modelul își propune să echilibreze performanța și costul, oferind o alternativă mai ușoară, open-source la modele precum ChatGPT. A fost antrenat pe date de interacțiune care includ conversații cu modele foarte capabile cu sursă închisă precum ChatGPT.
OpenAssistant (Llama family)Apr 202330, 70Llama2-30b-oasst, Llama2-70b-oasstModelele OpenAssistant-LLaMA sunt modele de limbaj din lucrarea OpenAssistant pe modelele Llama. Suportă inferența CPU + GPU folosind formatul GGML și își propune să ofere o alternativă open-source pentru sarcinile de urmărire a instrucțiunilor.
DollyApr 20233, 7, 12Dolly-v2-3B, Dolly-v2-7B, Dolly-v2-12BUn LLM de urmărire a instrucțiunilor, fine-tunat pe un set de date de instrucțiuni generate de oameni licențiat pentru cercetare și utilizare comercială.
StableLMApr 20233, 7StableLM-Alpha-3B, StableLM-Alpha-7BSeria StableLM de modele de limbaj de la Stability AI
PythiaApr 20230.070 - 12PythiaO suită de 16 LLM-uri toate antrenate pe date publice văzute în exact aceeași ordine și variind în dimensiune de la 70M la 12B parametri.
Open Assistant (Pythia Family)Mar 202312Open AssistantOpenAssistant este un asistent bazat pe chat care înțelege sarcinile, poate interacționa cu sisteme terțe și recupera informații dinamic pentru a face acest lucru.
Med-PaLM 2Mar 2023--Spre răspunsul la întrebări medicale la nivel de expert cu modelele de limbaj mari
ChatGLM-6BMar 20236ChatGLM-6BChatGLM-6B este un model de dialog open-source, bilingv chineză-engleză bazat pe arhitectura General Language Model (GLM) cu 6.2 miliarde de parametri. În ciuda dimensiunii mici care cauzează unele probleme de logică factuală sau matematică, este adept pentru sarcini de întrebare-răspuns chinezești, sumarizare și conversaționale datorită antrenamentului său pe peste 1 trilion de tokeni englezi și chinezești.
GPT-3.5-turboMar 2023175-GPT-3.5-Turbo este modelul de limbaj avansat al OpenAI optimizat pentru chat dar funcționează, de asemenea, bine pentru sarcinile tradiționale de completare. Oferă performanță mai bună pe toate aspectele comparat cu GPT-3 și este de 10 ori mai ieftin per token.
VicunaMar 20237, 13, 33Vicuna-7B, Vicuna-13BVicuna este o familie de modele de limbaj auto-regresive bazate pe arhitectura transformer. Este fine-tunat de la LLaMA și destinat primar pentru cercetarea pe modelele de limbaj mari și chatbot-uri. Este dezvoltat de LMSYS și are o licență non-comercială.
Alpaca-13BMar 202313-Alpaca este un model de limbaj de urmărire a instrucțiunilor fine-tunat de la LLaMA 7B al lui Meta. Este conceput pentru cercetarea academică pentru a aborda probleme precum dezinformarea și toxicitatea. Alpaca este antrenat pe 52K demonstrații de urmărire a instrucțiunilor și își propune să fie o opțiune mai accesibilă pentru studiul academic. Nu este destinat utilizării comerciale din cauza problemelor de licențiere și siguranță.
Claude-1Mar 2023137-Claude este un model de fundație de limbaj mare (LLM) construit de Anthropic. Este conceput să fie un asistent AI de ajutor, cinstit și inofensiv. Poate executa o gamă largă de sarcini conversaționale și de procesare text și este accesibil printr-o interfață de chat și API.
Cerebras-GPTMar 20230.111 - 13Cerebras-GPTCerebras-GPT: Modele de limbaj optimale de calcul deschise antrenate pe cluster-ul Cerebras Wafer-Scale
BloombergGPTMar 202350-BloombergGPT: Un model de limbaj mare pentru finanțe
PanGu-ΣMar 20231085-PanGu-Σ: Spre modelul de limbaj cu un trilion de parametri cu computația eterogenă rară
GPT-4Mar 2023--Raportul tehnic GPT-4
LLaMAFeb 20237, 13, 33, 65LLaMALLaMA: Modele de fundație de limbaj deschise și eficiente
ChatGPTNov 2022--Un model numit ChatGPT care interacționează într-un mod conversațional. Formatul de dialog face posibil ca ChatGPT să răspundă la întrebări de urmărire, să-și recunoască greșelile, să conteste premisele incorecte și să respingă cererile inadecvate.

Modelele din 2022

ModelData lansăriiDimensiunea (B)Checkpoint-uriDescrierea
GalacticaNov 20220.125 - 120GalacticaGalactica: Un model de limbaj mare pentru știință
mT0Nov 202213mT0-xxlGeneralizarea crosslinguală prin fine-tuning multitask
BLOOMNov 2022176BLOOMBLOOM: Un model de limbaj multilingv de 176B parametri cu acces deschis
U-PaLMOct 2022540-Transcenderea legilor de scalare cu 0.1% computație extra
UL2Oct 202220UL2, Flan-UL2UL2: Unificarea paradigmelor de învățare a limbajului
SparrowSep 202270-Îmbunătățirea alinierii agenților de dialog prin judecăți umane țintite
Flan-T5Oct 202211Flan-T5-xxlScalarea modelelor de limbaj fine-tunate pentru instrucțiuni
AlexaTMAug 202220-AlexaTM 20B: Învățarea cu câteva exemple folosind un model seq2seq multilingv la scară mare
GLM-130BOct 2022130GLM-130BGLM-130B: Un model bilingv pre-antrenat deschis
OPT-IMLDec 202230, 175OPT-IMLOPT-IML: Scalarea meta-învățării instrucțiunilor modelelor de limbaj prin lentea generalizării
OPTMay 2022175OPT-13B, OPT-66BOPT: Modele de limbaj transformer pre-antrenate deschise
PaLMApr 2022540-PaLM: Scalarea modelării limbajului cu Pathways
Tk-InstructApr 202211Tk-Instruct-11BSuper-NaturalInstructions: Generalizarea prin instrucțiuni declarative pe 1600+ sarcini NLP
GPT-NeoX-20BApr 202220GPT-NeoX-20BGPT-NeoX-20B: Un model de limbaj autoregresiv open-source
ChinchillaMar 202270-Arată că pentru un buget de computație, cele mai bune performanțe nu sunt obținute de modelele cele mai mari ci de modelele mai mici antrenate pe mai multe date.
InstructGPTMar 2022175-Antrenarea modelelor de limbaj să urmeze instrucțiuni cu feedback-ul uman
CodeGenMar 20220.350 - 16CodeGenCodeGen: Un model de limbaj mare deschis pentru cod cu sinteza de programe multi-turn
AlphaCodeFeb 202241-Generarea de cod la nivel de competiție cu AlphaCode
MT-NLGJan 2022530-Folosirea DeepSpeed și Megatron pentru a antrena Megatron-Turing NLG 530B, un model generativ de limbaj la scară mare
LaMDAJan 2022137-LaMDA: Modele de limbaj pentru aplicații de dialog
GLaMDec 20211200-GLaM: Scalarea eficientă a modelelor de limbaj cu Mixture-of-Experts
GopherDec 2021280-Scalarea modelelor de limbaj: Metode, analiză și perspective din antrenarea Gopher
WebGPTDec 2021175-WebGPT: Întrebare-răspuns asistat de browser cu feedback-ul uman
Yuan 1.0Oct 2021245-Yuan 1.0: Model de limbaj pre-antrenat la scară mare în învățarea zero-shot și few-shot
T0Oct 202111T0Antrenarea multitask promptată permite generalizarea zero-shot a sarcinilor
FLANSep 2021137Flan-T5Modelele de limbaj fine-tunate sunt învățători zero-shot
HyperCLOVASep 202182-Ce schimbări pot aduce modelele de limbaj la scară mare? Studiu intensiv pe HyperCLOVA: Transformere generative pre-antrenate coreene la scară de miliarde
ERNIE 3.0 TitanJul 202110-ERNIE 3.0 Titan: Explorarea pre-antrenamentului îmbunătățit cu cunoștințe la scară mare pentru înțelegerea și generarea limbajului
Jurassic-1Aug 2021178-Jurassic-1: Detalii tehnice și evaluare
ERNIE 3.0Jul 202110-ERNIE 3.0: Pre-antrenamentul îmbunătățit cu cunoștințe la scară mare pentru înțelegerea și generarea limbajului
CodexJul 202112-Evaluarea modelelor de limbaj mari antrenate pe cod
GPT-J-6BJun 20216GPT-J-6BUn model de generare text autoregresiv de 6 miliarde de parametri antrenat pe The Pile.
CPM-2Jun 2021198CPMCPM-2: Modele de limbaj pre-antrenate la scară mare cost-eficiente
PanGu-αApr 202113PanGu-αPanGu-α: Modele de limbaj chinezești autoregresive pre-antrenate la scară mare cu computația auto-paralelă
mT5Oct 202013mT5mT5: Un transformer pre-antrenat multilingv masiv
BARTJul 2020-BARTPre-antrenamentul denoising sequence-to-sequence pentru generarea, traducerea și înțelegerea limbajului natural
GShardJun 2020600-GShard: Scalarea modelelor gigant cu computația condițională și sharding-ul automat
GPT-3May 2020175-Modelele de limbaj sunt învățători few-shot
CTRLSep 20191.63CTRLCTRL: Un model transformer condițional pentru generarea controlabilă
ALBERTSep 20190.235ALBERTUn BERT ușor pentru învățarea auto-supervizată a reprezentărilor lingvistice
XLNetJun 2019-XLNetPre-antrenamentul autoregresiv generalizat pentru înțelegerea limbajului
T5Oct 20190.06 - 11Flan-T5Explorarea limitelor transfer learning-ului cu un model transformer unificat
GPT-2Nov 20191.5GPT-2Modelele de limbaj sunt învățători unsupervised multitask
RoBERTaJul 20190.125 - 0.355RoBERTaO abordare RoBERTa optimizată robust pentru pre-antrenament
BERTOct 2018-BERTReprezentările bidirecționale encoder din transformere
GPTJun 2018-GPTÎmbunătățirea înțelegerii limbajului prin pre-antrenamentul generativ

Perspective cheie

Tendințele dimensiunii modelelor

  • Era timpurie (2018-2020): Modelele variau de la milioane la sute de milioane de parametri
  • Era de creștere (2020-2022): Modelele s-au extins la miliarde și sute de miliarde de parametri
  • Era actuală (2022-2023): Modelele ajung acum la trilioane de parametri (de ex., PanGu-Σ cu 1085B)

Evoluția arhitecturii

  • Bazat pe transformer: Majoritatea modelelor folosesc arhitectura transformer cu diverse optimizări
  • Mixture-of-Experts: Modelele precum GLaM și PaLM folosesc MoE pentru scalarea eficientă
  • Multimodal: Modelele recente precum GPT-4 și Claude integrează multiple modalități

Zonele de specializare

  • Generarea de cod: CodeGen, CodeT5, StarCoder, AlphaCode
  • Multilingv: mT5, BLOOM, ChatGLM, HyperCLOVA
  • Urmărirea instrucțiunilor: FLAN, T0, Alpaca, Vicuna
  • Specific domeniului: BloombergGPT (Finanțe), Med-PaLM (Medical), Galactica (Știință)

Subiecte conexe

Sursele de date

Această secțiune este în curs de dezvoltare. Datele adoptate de la Papers with Code și lucrarea recentă de la Zhao et al. (2023).

Referințe

  • Zhao, Y., et al. (2023). "A Survey of Large Language Models." arXiv preprint.
  • Papers with Code: Large Language Models