Colecția LLM
Prezentare generală
Această secțiune constă într-o colecție și rezumat al modelelor de limbaj mari (LLM-uri) notabile și fundamentale. Colecția oferă o prezentare comprehensivă a modelelor lansate din 2018 până în 2023, inclusiv specificațiile, capacitățile și cazurile de utilizare ale acestora.
Colecția de modele
Modelele din 2023
| Model | Data lansării | Dimensiunea (B) | Checkpoint-uri | Descrierea |
|---|---|---|---|---|
| Falcon LLM | Sep 2023 | 7, 40, 180 | Falcon-7B, Falcon-40B, Falcon-180B | Falcon LLM este un model de fundație de limbaj mare (LLM) cu 180 de miliarde de parametri antrenat pe 3500 de miliarde de tokeni. TII a lansat acum Falcon LLM – un model de 180B. |
| Mistral-7B-v0.1 | Sep 2023 | 7 | Mistral-7B-v0.1 | Mistral-7B-v0.1 este un model generativ de text pre-antrenat cu 7 miliarde de parametri. Modelul este bazat pe o arhitectură transformer cu caracteristici precum Grouped-Query Attention, Byte-fallback BPE tokenizer și Sliding-Window Attention. |
| CodeLlama | Aug 2023 | 7, 13, 34 | CodeLlama-7B, CodeLlama-13B, CodeLlama-34B | Familia Code Llama este concepută pentru sinteza și înțelegerea generală a codului. Este specific fine-tunat pentru urmărirea instrucțiunilor și implementarea mai sigură. Modelele sunt auto-regresive și folosesc o arhitectură transformer optimizată. Sunt destinate utilizării comerciale și de cercetare în engleză și limbile de programare relevante. |
| Llama-2 | Jul 2023 | 7, 13, 70 | Llama-2-7B, Llama-2-13B, Llama-2-70B | LLaMA-2, dezvoltat de Meta AI, a fost lansat în iulie 2023 cu modele de 7, 13 și 70 de miliarde de parametri. Menține o arhitectură similară cu LLaMA-1 dar folosește 40% mai multe date de antrenament. LLaMA-2 include modele de fundație și modele fine-tunate pentru dialog, cunoscute ca LLaMA-2 Chat, și este disponibil pentru multe utilizări comerciale, cu unele restricții. |
| XGen-7B-8K | Jul 2023 | 7 | XGen-7B-8K | XGen-7B-8K, dezvoltat de Salesforce AI Research, este un model de limbaj de 7B parametri. |
| Claude-2 | Jul 2023 | 130 | - | Claude 2 este un LLM de fundație construit de Anthropic, conceput să fie mai sigur și mai "dirijabil" decât versiunea sa anterioară. Este conversațional și poate fi folosit pentru o varietate de sarcini precum suportul clienților, Q&A și multe altele. Poate procesa cantități mari de text și este bine adaptat pentru aplicațiile care necesită gestionarea datelor extensive, precum documente, email-uri, FAQ-uri și transcrieri de chat. |
| Tulu | Jun 2023 | 7, 13, 30, 65 | Tulu-7B, Tulu-13B, Tulu-30B, Tulu-65B | Tulu este o familie de modele dezvoltată de Allen Institute for AI. Modelele sunt modele LLaMa care au fost fine-tunate pe un amestec de seturi de date de instrucțiuni, inclusiv FLAN V2, CoT, Dolly, Open Assistant 1, GPT4-Alpaca, Code-Alpaca și ShareGPT. Sunt concepute să urmeze instrucțiuni complexe pe diverse sarcini NLP. |
| ChatGLM2-6B | Jun 2023 | 6 | ChatGLM2-6B | ChatGLM2-6B este versiunea de a doua generație a modelului de chat open-source bilingv (chineză-engleză) ChatGLM-6B. Are performanță îmbunătățită, capacități de context mai lungi, inferență mai eficientă și o licență deschisă pentru utilizarea academică și comercială. Modelul folosește o funcție obiectivă hibridă și a fost antrenat cu 1.4T tokeni bilingvi. Arată îmbunătățiri substanțiale de performanță pe diverse seturi de date comparat cu omologul său de prima generație. |
| Nous-Hermes-13B | Jun 2023 | 13 | Nous-Hermes-13B | Nous-Hermes-13B este un model de limbaj fine-tunat de Nous Research pe peste 300.000 de instrucțiuni. |
| Baize-v2 | May 2023 | 7, 13 | Baize-v2-13B | Baize-v2 este un model de chat open-source dezvoltat de UCSD și Sun Yat-Sen University, fine-tunat cu LoRA și antrenat cu fine-tuning supervizat (SFT) și auto-distilarea cu feedback (SDF). |
| RWKV-4-Raven | May 2023 | 1.5, 3, 7, 14 | RWKV-4-Raven | RWKV-4-Raven este o serie de modele. Aceste modele sunt fine-tunate pe diverse seturi de date precum Alpaca, CodeAlpaca, Guanaco, GPT4All și ShareGPT. Urmăresc o arhitectură 100% RNN pentru modelul de limbaj. |
| Guanaco | May 2023 | 7, 13, 33, 65 | Guanaco-7B, Guanaco-13B, Guanaco-33B, Guanaco-65B | Modelele Guanaco sunt chatbot-uri open-source fine-tunate prin fine-tuning QLoRA de 4 biți ale modelelor de bază LLaMA pe setul de date OASST1. Sunt destinate scopurilor de cercetare. Modelele permit experimentarea ieftină și locală cu sisteme de chatbot de înaltă calitate. |
| PaLM 2 | May 2023 | - | - | Un model de limbaj care are capacități multilingve și de raționament mai bune și este mai eficient computațional decât predecesorul său PaLM. |
| Gorilla | May 2023 | 7 | Gorilla | Gorilla: Model de limbaj mare conectat cu API-uri masive |
| RedPajama-INCITE | May 2023 | 3, 7 | RedPajama-INCITE | O familie de modele inclusiv modele de bază, fine-tunate pentru instrucțiuni și modele de chat. |
| LIMA | May 2023 | 65 | - | Un model de limbaj LLaMa de 65B parametri fine-tunat cu pierderea supervizată standard pe doar 1.000 de prompturi și răspunsuri cu grijă curățate, fără nicio învățare prin întărire sau modelarea preferințelor umane. |
| Replit Code | May 2023 | 3 | Replit Code | modelul replit-code-v1-3b este un LLM de 2.7B antrenat pe 20 de limbi din setul de date Stack Dedup v1.2. |
| h2oGPT | May 2023 | 7, 12, 20, 40 | h2oGPT | h2oGPT este un framework de fine-tuning LLM și UI de chatbot cu capacități de întrebare-răspuns pentru document(e). |
| CodeGen2 | May 2023 | 1, 3, 7, 16 | CodeGen2 | Modele de cod pentru sinteza programelor. |
| CodeT5 and CodeT5+ | May 2023 | 16 | CodeT5 | Modelele CodeT5 și CodeT5+ pentru înțelegerea și generarea codului de la Salesforce Research. |
| StarCoder | May 2023 | 15 | StarCoder | StarCoder: Un LLM de top pentru cod |
| MPT | May 2023 | 7, 30 | MPT-7B, MPT-30B | Modelele MosaicML MPT sunt LLM-uri open-source, licențiate comercial, oferind soluții AI personalizabile optimizate pentru diverse sarcini NLP. |
| DLite | May 2023 | 0.124 - 1.5 | DLite-v2-1.5B | Modele ușoare de urmărire a instrucțiunilor care expun interactivitatea de tip ChatGPT. |
| WizardLM | Apr 2023 | 70, 30, 13 | WizardLM-13B, WizardLM-30B, WizardLM-70B | WizardLM este o familie de modele de limbaj mari concepute să urmeze instrucțiuni complexe. Modelele performează bine în codare, raționament matematic și conversații deschise. Modelele sunt prietenoase cu licențele și adoptă un format de prompt de la Vicuna pentru conversații multi-turn. Modelele sunt dezvoltate de WizardLM Team, concepute pentru diverse sarcini NLP. |
| FastChat-T5-3B | Apr 2023 | 3 | FastChat-T5-3B | FastChat-T5 este un chatbot open-source antrenat prin fine-tuning-ul Flan-t5-xl (3B parametri) pe conversații împărtășite de utilizatori colectate de la ShareGPT. Se bazează pe o arhitectură transformer encoder-decoder și poate genera răspunsuri autoregresive la inputurile utilizatorilor. |
| GPT4All-13B-Snoozy | Apr 2023 | 13 | GPT4All-13B-Snoozy | GPT4All-13B-Snoozy este un chatbot licențiat GPL antrenat pe un corpus masiv curat de interacțiuni de asistent inclusiv probleme cu cuvinte, dialog multi-turn, cod, poezii, cântece și povești. A fost fine-tunat de la LLama 13B și este dezvoltat de Nomic AI. Modelul este conceput pentru datele de interacțiune de tip asistent și este primar în engleză. |
| Koala-13B | Apr 2023 | 13 | Koala-13B | Koala-13B este un chatbot creat de Berkeley AI Research (BAIR). Este fine-tunat pe LLaMA al lui Meta și se concentrează pe datele de dialog scrape-uite de pe web. Modelul își propune să echilibreze performanța și costul, oferind o alternativă mai ușoară, open-source la modele precum ChatGPT. A fost antrenat pe date de interacțiune care includ conversații cu modele foarte capabile cu sursă închisă precum ChatGPT. |
| OpenAssistant (Llama family) | Apr 2023 | 30, 70 | Llama2-30b-oasst, Llama2-70b-oasst | Modelele OpenAssistant-LLaMA sunt modele de limbaj din lucrarea OpenAssistant pe modelele Llama. Suportă inferența CPU + GPU folosind formatul GGML și își propune să ofere o alternativă open-source pentru sarcinile de urmărire a instrucțiunilor. |
| Dolly | Apr 2023 | 3, 7, 12 | Dolly-v2-3B, Dolly-v2-7B, Dolly-v2-12B | Un LLM de urmărire a instrucțiunilor, fine-tunat pe un set de date de instrucțiuni generate de oameni licențiat pentru cercetare și utilizare comercială. |
| StableLM | Apr 2023 | 3, 7 | StableLM-Alpha-3B, StableLM-Alpha-7B | Seria StableLM de modele de limbaj de la Stability AI |
| Pythia | Apr 2023 | 0.070 - 12 | Pythia | O suită de 16 LLM-uri toate antrenate pe date publice văzute în exact aceeași ordine și variind în dimensiune de la 70M la 12B parametri. |
| Open Assistant (Pythia Family) | Mar 2023 | 12 | Open Assistant | OpenAssistant este un asistent bazat pe chat care înțelege sarcinile, poate interacționa cu sisteme terțe și recupera informații dinamic pentru a face acest lucru. |
| Med-PaLM 2 | Mar 2023 | - | - | Spre răspunsul la întrebări medicale la nivel de expert cu modelele de limbaj mari |
| ChatGLM-6B | Mar 2023 | 6 | ChatGLM-6B | ChatGLM-6B este un model de dialog open-source, bilingv chineză-engleză bazat pe arhitectura General Language Model (GLM) cu 6.2 miliarde de parametri. În ciuda dimensiunii mici care cauzează unele probleme de logică factuală sau matematică, este adept pentru sarcini de întrebare-răspuns chinezești, sumarizare și conversaționale datorită antrenamentului său pe peste 1 trilion de tokeni englezi și chinezești. |
| GPT-3.5-turbo | Mar 2023 | 175 | - | GPT-3.5-Turbo este modelul de limbaj avansat al OpenAI optimizat pentru chat dar funcționează, de asemenea, bine pentru sarcinile tradiționale de completare. Oferă performanță mai bună pe toate aspectele comparat cu GPT-3 și este de 10 ori mai ieftin per token. |
| Vicuna | Mar 2023 | 7, 13, 33 | Vicuna-7B, Vicuna-13B | Vicuna este o familie de modele de limbaj auto-regresive bazate pe arhitectura transformer. Este fine-tunat de la LLaMA și destinat primar pentru cercetarea pe modelele de limbaj mari și chatbot-uri. Este dezvoltat de LMSYS și are o licență non-comercială. |
| Alpaca-13B | Mar 2023 | 13 | - | Alpaca este un model de limbaj de urmărire a instrucțiunilor fine-tunat de la LLaMA 7B al lui Meta. Este conceput pentru cercetarea academică pentru a aborda probleme precum dezinformarea și toxicitatea. Alpaca este antrenat pe 52K demonstrații de urmărire a instrucțiunilor și își propune să fie o opțiune mai accesibilă pentru studiul academic. Nu este destinat utilizării comerciale din cauza problemelor de licențiere și siguranță. |
| Claude-1 | Mar 2023 | 137 | - | Claude este un model de fundație de limbaj mare (LLM) construit de Anthropic. Este conceput să fie un asistent AI de ajutor, cinstit și inofensiv. Poate executa o gamă largă de sarcini conversaționale și de procesare text și este accesibil printr-o interfață de chat și API. |
| Cerebras-GPT | Mar 2023 | 0.111 - 13 | Cerebras-GPT | Cerebras-GPT: Modele de limbaj optimale de calcul deschise antrenate pe cluster-ul Cerebras Wafer-Scale |
| BloombergGPT | Mar 2023 | 50 | - | BloombergGPT: Un model de limbaj mare pentru finanțe |
| PanGu-Σ | Mar 2023 | 1085 | - | PanGu-Σ: Spre modelul de limbaj cu un trilion de parametri cu computația eterogenă rară |
| GPT-4 | Mar 2023 | - | - | Raportul tehnic GPT-4 |
| LLaMA | Feb 2023 | 7, 13, 33, 65 | LLaMA | LLaMA: Modele de fundație de limbaj deschise și eficiente |
| ChatGPT | Nov 2022 | - | - | Un model numit ChatGPT care interacționează într-un mod conversațional. Formatul de dialog face posibil ca ChatGPT să răspundă la întrebări de urmărire, să-și recunoască greșelile, să conteste premisele incorecte și să respingă cererile inadecvate. |
Modelele din 2022
| Model | Data lansării | Dimensiunea (B) | Checkpoint-uri | Descrierea |
|---|---|---|---|---|
| Galactica | Nov 2022 | 0.125 - 120 | Galactica | Galactica: Un model de limbaj mare pentru știință |
| mT0 | Nov 2022 | 13 | mT0-xxl | Generalizarea crosslinguală prin fine-tuning multitask |
| BLOOM | Nov 2022 | 176 | BLOOM | BLOOM: Un model de limbaj multilingv de 176B parametri cu acces deschis |
| U-PaLM | Oct 2022 | 540 | - | Transcenderea legilor de scalare cu 0.1% computație extra |
| UL2 | Oct 2022 | 20 | UL2, Flan-UL2 | UL2: Unificarea paradigmelor de învățare a limbajului |
| Sparrow | Sep 2022 | 70 | - | Îmbunătățirea alinierii agenților de dialog prin judecăți umane țintite |
| Flan-T5 | Oct 2022 | 11 | Flan-T5-xxl | Scalarea modelelor de limbaj fine-tunate pentru instrucțiuni |
| AlexaTM | Aug 2022 | 20 | - | AlexaTM 20B: Învățarea cu câteva exemple folosind un model seq2seq multilingv la scară mare |
| GLM-130B | Oct 2022 | 130 | GLM-130B | GLM-130B: Un model bilingv pre-antrenat deschis |
| OPT-IML | Dec 2022 | 30, 175 | OPT-IML | OPT-IML: Scalarea meta-învățării instrucțiunilor modelelor de limbaj prin lentea generalizării |
| OPT | May 2022 | 175 | OPT-13B, OPT-66B | OPT: Modele de limbaj transformer pre-antrenate deschise |
| PaLM | Apr 2022 | 540 | - | PaLM: Scalarea modelării limbajului cu Pathways |
| Tk-Instruct | Apr 2022 | 11 | Tk-Instruct-11B | Super-NaturalInstructions: Generalizarea prin instrucțiuni declarative pe 1600+ sarcini NLP |
| GPT-NeoX-20B | Apr 2022 | 20 | GPT-NeoX-20B | GPT-NeoX-20B: Un model de limbaj autoregresiv open-source |
| Chinchilla | Mar 2022 | 70 | - | Arată că pentru un buget de computație, cele mai bune performanțe nu sunt obținute de modelele cele mai mari ci de modelele mai mici antrenate pe mai multe date. |
| InstructGPT | Mar 2022 | 175 | - | Antrenarea modelelor de limbaj să urmeze instrucțiuni cu feedback-ul uman |
| CodeGen | Mar 2022 | 0.350 - 16 | CodeGen | CodeGen: Un model de limbaj mare deschis pentru cod cu sinteza de programe multi-turn |
| AlphaCode | Feb 2022 | 41 | - | Generarea de cod la nivel de competiție cu AlphaCode |
| MT-NLG | Jan 2022 | 530 | - | Folosirea DeepSpeed și Megatron pentru a antrena Megatron-Turing NLG 530B, un model generativ de limbaj la scară mare |
| LaMDA | Jan 2022 | 137 | - | LaMDA: Modele de limbaj pentru aplicații de dialog |
| GLaM | Dec 2021 | 1200 | - | GLaM: Scalarea eficientă a modelelor de limbaj cu Mixture-of-Experts |
| Gopher | Dec 2021 | 280 | - | Scalarea modelelor de limbaj: Metode, analiză și perspective din antrenarea Gopher |
| WebGPT | Dec 2021 | 175 | - | WebGPT: Întrebare-răspuns asistat de browser cu feedback-ul uman |
| Yuan 1.0 | Oct 2021 | 245 | - | Yuan 1.0: Model de limbaj pre-antrenat la scară mare în învățarea zero-shot și few-shot |
| T0 | Oct 2021 | 11 | T0 | Antrenarea multitask promptată permite generalizarea zero-shot a sarcinilor |
| FLAN | Sep 2021 | 137 | Flan-T5 | Modelele de limbaj fine-tunate sunt învățători zero-shot |
| HyperCLOVA | Sep 2021 | 82 | - | Ce schimbări pot aduce modelele de limbaj la scară mare? Studiu intensiv pe HyperCLOVA: Transformere generative pre-antrenate coreene la scară de miliarde |
| ERNIE 3.0 Titan | Jul 2021 | 10 | - | ERNIE 3.0 Titan: Explorarea pre-antrenamentului îmbunătățit cu cunoștințe la scară mare pentru înțelegerea și generarea limbajului |
| Jurassic-1 | Aug 2021 | 178 | - | Jurassic-1: Detalii tehnice și evaluare |
| ERNIE 3.0 | Jul 2021 | 10 | - | ERNIE 3.0: Pre-antrenamentul îmbunătățit cu cunoștințe la scară mare pentru înțelegerea și generarea limbajului |
| Codex | Jul 2021 | 12 | - | Evaluarea modelelor de limbaj mari antrenate pe cod |
| GPT-J-6B | Jun 2021 | 6 | GPT-J-6B | Un model de generare text autoregresiv de 6 miliarde de parametri antrenat pe The Pile. |
| CPM-2 | Jun 2021 | 198 | CPM | CPM-2: Modele de limbaj pre-antrenate la scară mare cost-eficiente |
| PanGu-α | Apr 2021 | 13 | PanGu-α | PanGu-α: Modele de limbaj chinezești autoregresive pre-antrenate la scară mare cu computația auto-paralelă |
| mT5 | Oct 2020 | 13 | mT5 | mT5: Un transformer pre-antrenat multilingv masiv |
| BART | Jul 2020 | - | BART | Pre-antrenamentul denoising sequence-to-sequence pentru generarea, traducerea și înțelegerea limbajului natural |
| GShard | Jun 2020 | 600 | - | GShard: Scalarea modelelor gigant cu computația condițională și sharding-ul automat |
| GPT-3 | May 2020 | 175 | - | Modelele de limbaj sunt învățători few-shot |
| CTRL | Sep 2019 | 1.63 | CTRL | CTRL: Un model transformer condițional pentru generarea controlabilă |
| ALBERT | Sep 2019 | 0.235 | ALBERT | Un BERT ușor pentru învățarea auto-supervizată a reprezentărilor lingvistice |
| XLNet | Jun 2019 | - | XLNet | Pre-antrenamentul autoregresiv generalizat pentru înțelegerea limbajului |
| T5 | Oct 2019 | 0.06 - 11 | Flan-T5 | Explorarea limitelor transfer learning-ului cu un model transformer unificat |
| GPT-2 | Nov 2019 | 1.5 | GPT-2 | Modelele de limbaj sunt învățători unsupervised multitask |
| RoBERTa | Jul 2019 | 0.125 - 0.355 | RoBERTa | O abordare RoBERTa optimizată robust pentru pre-antrenament |
| BERT | Oct 2018 | - | BERT | Reprezentările bidirecționale encoder din transformere |
| GPT | Jun 2018 | - | GPT | Îmbunătățirea înțelegerii limbajului prin pre-antrenamentul generativ |
Perspective cheie
Tendințele dimensiunii modelelor
- Era timpurie (2018-2020): Modelele variau de la milioane la sute de milioane de parametri
- Era de creștere (2020-2022): Modelele s-au extins la miliarde și sute de miliarde de parametri
- Era actuală (2022-2023): Modelele ajung acum la trilioane de parametri (de ex., PanGu-Σ cu 1085B)
Evoluția arhitecturii
- Bazat pe transformer: Majoritatea modelelor folosesc arhitectura transformer cu diverse optimizări
- Mixture-of-Experts: Modelele precum GLaM și PaLM folosesc MoE pentru scalarea eficientă
- Multimodal: Modelele recente precum GPT-4 și Claude integrează multiple modalități
Zonele de specializare
- Generarea de cod: CodeGen, CodeT5, StarCoder, AlphaCode
- Multilingv: mT5, BLOOM, ChatGLM, HyperCLOVA
- Urmărirea instrucțiunilor: FLAN, T0, Alpaca, Vicuna
- Specific domeniului: BloombergGPT (Finanțe), Med-PaLM (Medical), Galactica (Știință)
Subiecte conexe
- Începerea cu Gemini - Modelul AI multimodal al Google
- GPT-4 - Cel mai avansat model de limbaj al OpenAI
- Modelele Claude - Modelele asistent AI ale Anthropic
- Familia LLaMA - Modelele de fundație deschise ale Meta
- Modelele de generare de cod - Modele de codare specializate
Sursele de date
Această secțiune este în curs de dezvoltare. Datele adoptate de la Papers with Code și lucrarea recentă de la Zhao et al. (2023).
Referințe
- Zhao, Y., et al. (2023). "A Survey of Large Language Models." arXiv preprint.
- Papers with Code: Large Language Models
