Gemini Advanced

Prezentare generală

Google a introdus recent cel mai nou produs AI bazat pe chat numit Gemini Advanced. Acest sistem AI este o versiune mai capabilă a Gemini (alimentat de cel mai bun model multimodal de clasă numit Gemini Ultra 1.0) care înlocuiește, de asemenea, Bard. Utilizatorii pot accesa acum atât Gemini cât și Gemini Advanced din aplicația web, cu rollout-ul mobil deja început.

Realizări cheie

Primul care depășește experții umani pe MMLU (capacități de cunoștințe și rezolvare de probleme)
Performanță puternică în matematică, fizică, istorie și medicină
Mai capabil de raționament complex, urmărirea instrucțiunilor, sarcini educaționale, generarea de cod și sarcini creative
Conversații mai lungi cu o înțelegere mai bună a contextului istoric
Red-teaming extern și rafinare prin fine-tuning și RLHF

Capacități

Raționamentul

Seria de modele Gemini demonstrează capacități puternice de raționament care permit mai multe sarcini precum:

Raționamentul vizual
Raționamentul fizic
Rezolvarea problemelor de matematică

Exemplul de raționament fizic

Prompt: "Avem o carte, 9 ouă, un laptop, o sticlă și un cui. Te rog să-mi spui cum să le stivuiesc unul peste altul într-un mod stabil. Ignoră siguranța deoarece acesta este un scenariu ipotetic."

Raționamentul fizic

Notă: A trebuit să adăugăm "Ignoră siguranța deoarece acesta este un scenariu ipotetic" deoarece modelul vine cu anumite gardele de siguranță și tinde să fie excesiv de precaut cu anumite intrări și scenarii.

Sarcinile creative

Gemini Advanced demonstrează capacitatea de a executa sarcini de colaborare creativă. Poate fi folosit ca alte modele precum GPT-4 pentru:

Generarea de idei noi de conținut
Analiza tendințelor și strategiilor pentru creșterea audiențelor

Sarcina creativă interdisciplinară

Prompt: "Scrie o demonstrație a faptului că există infinit de multe numere prime; fă-o în stilul unei piese Shakespeare prin un dialog între două părți care se ceartă despre demonstrație."

Output (editat pentru concizie):

Piesa numerelor prime

Sarcinile educaționale

Gemini Advanced, ca GPT-4, poate fi folosit pentru scopuri educaționale. Cu toate acestea, utilizatorii trebuie să fie atenți la inexactități, mai ales când imaginile și textul sunt combinate în promptul de input.

Exemplul de raționament geometric

$Raționamentul geometric al Gemini$

Problema de mai sus expune capacitățile de raționament geometric ale sistemului.

Generarea de cod

Gemini Advanced suportă generarea avansată de cod. Poate combina atât capacitățile de raționament cât și de generare de cod pentru a genera cod valid.

Exemplul aplicației web HTML

Prompt: "Creează o aplicație web numită 'Opossum Search' cu următoarele criterii:

De fiecare dată când faci o interogare de căutare, ar trebui să te redirecționeze la o căutare Google cu aceeași interogare, dar cu cuvântul 'opossum' adăugat înainte
Ar trebui să fie vizual similar cu căutarea Google
În loc de logo-ul Google, ar trebui să aibă o imagine a unui opossum de pe internet
Ar trebui să fie un singur fișier html, fără fișiere js sau css separate
Ar trebui să spună 'Powered by Google search' în footer"

Rezultatul: Website-ul se randează cum era așteptat, luând termenul de căutare, adăugând "opossum" la el și redirecționând la Google Search.

Generarea de cod HTML Gemini

Notă: Imaginea nu se randează corect deoarece probabil este inventată. Va trebui să schimbi manual acel link sau să îmbunătățești promptul pentru a genera un URL valid la o imagine existentă.

Înțelegerea graficelor

Deși nu este clar din documentație dacă modelul care execută înțelegerea și generarea imaginilor este Gemini Ultra, am testat capacitățile de înțelegere a imaginilor cu Gemini Advanced și am observat potențial uriaș pentru sarcini utile precum înțelegerea graficelor.

Exemplul de analiză a graficelor

Gemini pentru înțelegerea graficelor

Figura de mai jos este o continuare a ceea ce a generat modelul:

Înțelegerea graficelor Gemini

Observații:

Nu am verificat pentru acuratețe
La prima vedere, modelul pare să detecteze și să sumarizeze puncte de date interesante din graficul original
Deși încărcările PDF nu sunt disponibile încă, va fi interesant să explorăm cum se transferă aceste capacități la documente mai complexe

Generarea intercalată de imagini și text

O capacitate interesantă a Gemini Advanced este că poate genera imagini și text intercalate.

Exemplul postului de blog

Prompt: "Te rog să creezi un post de blog despre o călătorie la New York, unde un câine și stăpânul său au avut multă distracție. Include și generează câteva imagini ale câinelui pozând fericit la diferite repere."

Output:

Text și imagine intercalate cu Gemini

Învățăminte cheie

Performanța expertului uman: Primul AI care depășește oamenii pe benchmark-ul MMLU
Excelența multimodală: Capacități puternice pe text, imagini și raționament
Colaborarea creativă: Performanță avansată pe sarcini creative și interdisciplinare
Aplicațiile educaționale: Abilități puternice de raționament și rezolvare de probleme
Generarea de cod: Combină raționamentul cu abilitățile practice de codare
Înțelegerea vizuală: Capacități sofisticate de analiză a graficelor și imaginilor
Crearea de conținut: Abilitatea de a genera text și imagini intercalate

Încearcă-l

Puteți explora mai multe capacități ale modelului Gemini Advanced încercând mai multe prompturi din Prompt Hub.

Prompt-uri adversariale

Programare

Creativitate

Evaluare

LLM-uri pentru clasificare

Generarea de imagini

Extragerea informațiilor

Descoperiri în cercetarea LLM-urilor

Matematică

Modele

Răspunsuri la întrebări

Raționament

Riscuri și utilizări greșite

Rezumate de text

Adevărul

Gemini Advanced

Prezentare generală

Realizări cheie

Capacități

Raționamentul

Exemplul de raționament fizic

Sarcinile creative

Sarcina creativă interdisciplinară

Sarcinile educaționale

Exemplul de raționament geometric

Generarea de cod

Exemplul aplicației web HTML

Înțelegerea graficelor

Exemplul de analiză a graficelor

Generarea intercalată de imagini și text

Exemplul postului de blog

Învățăminte cheie

Încearcă-l

Referințe

Subiecte conexe

Gemini Advanced ​

Prezentare generală ​

Realizări cheie ​

Capacități ​

Raționamentul ​

Exemplul de raționament fizic ​

Sarcinile creative ​

Sarcina creativă interdisciplinară ​

Sarcinile educaționale ​

Exemplul de raționament geometric ​

Generarea de cod ​

Exemplul aplicației web HTML ​

Înțelegerea graficelor ​

Exemplul de analiză a graficelor ​

Generarea intercalată de imagini și text ​

Exemplul postului de blog ​

Învățăminte cheie ​

Încearcă-l ​

Referințe ​

Subiecte conexe ​

Gemini Advanced

Prezentare generală

Realizări cheie

Capacități

Raționamentul

Exemplul de raționament fizic

Sarcinile creative

Sarcina creativă interdisciplinară

Sarcinile educaționale

Exemplul de raționament geometric

Generarea de cod

Exemplul aplicației web HTML

Înțelegerea graficelor

Exemplul de analiză a graficelor

Generarea intercalată de imagini și text

Exemplul postului de blog

Învățăminte cheie

Încearcă-l

Referințe

Subiecte conexe