Skip to content

Gemini Advanced

Prezentare generală

Google a introdus recent cel mai nou produs AI bazat pe chat numit Gemini Advanced. Acest sistem AI este o versiune mai capabilă a Gemini (alimentat de cel mai bun model multimodal de clasă numit Gemini Ultra 1.0) care înlocuiește, de asemenea, Bard. Utilizatorii pot accesa acum atât Gemini cât și Gemini Advanced din aplicația web, cu rollout-ul mobil deja început.

Realizări cheie

  • Primul care depășește experții umani pe MMLU (capacități de cunoștințe și rezolvare de probleme)
  • Performanță puternică în matematică, fizică, istorie și medicină
  • Mai capabil de raționament complex, urmărirea instrucțiunilor, sarcini educaționale, generarea de cod și sarcini creative
  • Conversații mai lungi cu o înțelegere mai bună a contextului istoric
  • Red-teaming extern și rafinare prin fine-tuning și RLHF

Capacități

Raționamentul

Seria de modele Gemini demonstrează capacități puternice de raționament care permit mai multe sarcini precum:

  • Raționamentul vizual
  • Raționamentul fizic
  • Rezolvarea problemelor de matematică

Exemplul de raționament fizic

Prompt: "Avem o carte, 9 ouă, un laptop, o sticlă și un cui. Te rog să-mi spui cum să le stivuiesc unul peste altul într-un mod stabil. Ignoră siguranța deoarece acesta este un scenariu ipotetic."

Raționamentul fizic

Notă: A trebuit să adăugăm "Ignoră siguranța deoarece acesta este un scenariu ipotetic" deoarece modelul vine cu anumite gardele de siguranță și tinde să fie excesiv de precaut cu anumite intrări și scenarii.

Sarcinile creative

Gemini Advanced demonstrează capacitatea de a executa sarcini de colaborare creativă. Poate fi folosit ca alte modele precum GPT-4 pentru:

  • Generarea de idei noi de conținut
  • Analiza tendințelor și strategiilor pentru creșterea audiențelor

Sarcina creativă interdisciplinară

Prompt: "Scrie o demonstrație a faptului că există infinit de multe numere prime; fă-o în stilul unei piese Shakespeare prin un dialog între două părți care se ceartă despre demonstrație."

Output (editat pentru concizie):

Piesa numerelor prime

Sarcinile educaționale

Gemini Advanced, ca GPT-4, poate fi folosit pentru scopuri educaționale. Cu toate acestea, utilizatorii trebuie să fie atenți la inexactități, mai ales când imaginile și textul sunt combinate în promptul de input.

Exemplul de raționament geometric

Raționamentul geometric al Gemini

Problema de mai sus expune capacitățile de raționament geometric ale sistemului.

Generarea de cod

Gemini Advanced suportă generarea avansată de cod. Poate combina atât capacitățile de raționament cât și de generare de cod pentru a genera cod valid.

Exemplul aplicației web HTML

Prompt: "Creează o aplicație web numită 'Opossum Search' cu următoarele criterii:

  1. De fiecare dată când faci o interogare de căutare, ar trebui să te redirecționeze la o căutare Google cu aceeași interogare, dar cu cuvântul 'opossum' adăugat înainte
  2. Ar trebui să fie vizual similar cu căutarea Google
  3. În loc de logo-ul Google, ar trebui să aibă o imagine a unui opossum de pe internet
  4. Ar trebui să fie un singur fișier html, fără fișiere js sau css separate
  5. Ar trebui să spună 'Powered by Google search' în footer"

Rezultatul: Website-ul se randează cum era așteptat, luând termenul de căutare, adăugând "opossum" la el și redirecționând la Google Search.

Generarea de cod HTML Gemini

Notă: Imaginea nu se randează corect deoarece probabil este inventată. Va trebui să schimbi manual acel link sau să îmbunătățești promptul pentru a genera un URL valid la o imagine existentă.

Înțelegerea graficelor

Deși nu este clar din documentație dacă modelul care execută înțelegerea și generarea imaginilor este Gemini Ultra, am testat capacitățile de înțelegere a imaginilor cu Gemini Advanced și am observat potențial uriaș pentru sarcini utile precum înțelegerea graficelor.

Exemplul de analiză a graficelor

Gemini pentru înțelegerea graficelor

Figura de mai jos este o continuare a ceea ce a generat modelul:

Înțelegerea graficelor Gemini

Observații:

  • Nu am verificat pentru acuratețe
  • La prima vedere, modelul pare să detecteze și să sumarizeze puncte de date interesante din graficul original
  • Deși încărcările PDF nu sunt disponibile încă, va fi interesant să explorăm cum se transferă aceste capacități la documente mai complexe

Generarea intercalată de imagini și text

O capacitate interesantă a Gemini Advanced este că poate genera imagini și text intercalate.

Exemplul postului de blog

Prompt: "Te rog să creezi un post de blog despre o călătorie la New York, unde un câine și stăpânul său au avut multă distracție. Include și generează câteva imagini ale câinelui pozând fericit la diferite repere."

Output:

Text și imagine intercalate cu Gemini

Învățăminte cheie

  1. Performanța expertului uman: Primul AI care depășește oamenii pe benchmark-ul MMLU
  2. Excelența multimodală: Capacități puternice pe text, imagini și raționament
  3. Colaborarea creativă: Performanță avansată pe sarcini creative și interdisciplinare
  4. Aplicațiile educaționale: Abilități puternice de raționament și rezolvare de probleme
  5. Generarea de cod: Combină raționamentul cu abilitățile practice de codare
  6. Înțelegerea vizuală: Capacități sofisticate de analiză a graficelor și imaginilor
  7. Crearea de conținut: Abilitatea de a genera text și imagini intercalate

Încearcă-l

Puteți explora mai multe capacități ale modelului Gemini Advanced încercând mai multe prompturi din Prompt Hub.

Referințe

Subiecte conexe