Skip to content

Fiabilitatea

Am văzut deja cât de eficiente pot fi prompturile bine proiectate pentru diverse sarcini folosind tehnici precum învățarea cu câteva exemple. Pe măsură ce ne gândim la construirea aplicațiilor din lumea reală pe deasupra LLM-urilor, devine crucial să ne gândim la fiabilitatea acestor modele de limbaj. Acest ghid se concentrează pe demonstrarea tehnicilor eficiente de promptare pentru a îmbunătăți fiabilitatea LLM-urilor precum GPT-3. Unele subiecte de interes includ generalizarea, calibrarea, părtinirile, părtinirile sociale și factualitatea, pentru a numi câteva.

Reține că această secțiune este în curs de dezvoltare intensă.

Subiecte:


Factualitatea

LLM-urile au tendința de a genera răspunsuri care sună coerente și convingătoare, dar pot fi uneori inventate. Îmbunătățirea prompturilor poate ajuta la îmbunătățirea modelului pentru a genera răspunsuri mai precise/factuale și să reducă probabilitatea de a genera răspunsuri inconsistente și inventate.

Unele soluții ar putea include:

  • furnizează adevărul de bază (de ex., paragraful articolului conex sau intrarea Wikipedia) ca parte din context pentru a reduce probabilitatea ca modelul să producă text inventat.
  • configurează modelul să producă răspunsuri mai puțin diverse prin scăderea parametrilor de probabilitate și instruiește-l să admită (de ex., "Nu știu") când nu știe răspunsul.
  • furnizează în prompt o combinație de exemple de întrebări și răspunsuri despre care ar putea să știe și să nu știe

Să ne uităm la un exemplu simplu:

Prompt:

Î: Ce este un atom?
R: Un atom este o particulă minusculă care alcătuiește totul.

Î: Cine este Alvan Muntz?
R: ?

Î: Ce este Kozar-09?
R: ? Î: 

Câte luni are Marte?
R: Două, Phobos și Deimos.

Î: Cine este Neto Beto Roberto?

Ieșire:

R: ?

Am inventat numele "Neto Beto Roberto", deci modelul este corect în acest caz. Încearcă să schimbi întrebarea puțin și să vezi dacă poți să o faci să funcționeze. Există diferite moduri în care poți îmbunătăți aceasta în continuare bazându-te pe tot ce ai învățat până acum.


Părtinirile

LLM-urile pot produce generații problematice care pot fi potențial dăunătoare și pot afișa părtiniri care ar putea deteriora performanța modelului pe sarcinile downstream. Unele dintre acestea pot fi mitigate prin strategii eficiente de promptare, dar ar putea necesita soluții mai avansate precum moderarea și filtrarea.

Distribuția exemplelor

Când execuți învățarea cu câteva exemple, distribuția exemplelor afectează performanța modelului sau părtinirea modelului într-un fel? Putem executa un test simplu aici.

Prompt:

Î: Tocmai am primit cea mai bună veste vreodată!
R: Pozitiv

Î: Tocmai am primit o mărire la muncă!
R: Pozitiv

Î: Sunt atât de mândru de ceea ce am realizat astăzi.
R: Pozitiv

Î: Am cea mai bună zi vreodată!
R: Pozitiv

Î: Îmi doresc cu adevărat weekend-ul.
R: Pozitiv

Î: Tocmai am primit cel mai bun cadou vreodată!
R: Pozitiv

Î: Sunt atât de fericit acum.
R: Pozitiv

Î: Sunt atât de binecuvântat să am o familie atât de uimitoare.
R: Pozitiv

Î: Vremea afară este atât de sumbră.
R: Negativ

Î: Tocmai am primit niște vești groaznice.
R: Negativ

Î: A lăsat un gust acru.
R:

Ieșire:

Negativ

În exemplul de mai sus, se pare că distribuția exemplelor nu părtinirează modelul. Aceasta este bună. Să încercăm un alt exemplu cu un text mai greu de clasificat și să vedem cum se descurcă modelul:

Prompt:

Î: Mâncarea aici este delicioasă!
R: Pozitiv

Î: Sunt atât de obosit de această temă.
R: Negativ

Î: Nu pot să cred că am picat examenul.
R: Negativ

Î: Am avut o zi grozavă astăzi!
R: Pozitiv

Î: Urăsc această slujbă.
R: Negativ

Î: Serviciul aici este groaznic.
R: Negativ

Î: Sunt atât de frustrat cu viața mea.
R: Negativ

Î: Nu am niciodată o pauză.
R: Negativ

Î: Această masă are un gust oribil.
R: Negativ

Î: Nu pot să suport șeful meu.
R: Negativ

Î: Simt ceva.
R:

Ieșire:

Negativ

Deși acea ultimă propoziție este oarecum subiectivă, am întors distribuția și în schimb am folosit 8 exemple pozitive și 2 exemple negative și apoi am încercat din nou exact aceeași propoziție. Ghici ce a răspuns modelul? A răspuns "Pozitiv". Modelul ar putea avea multe cunoștințe despre clasificarea sentimentelor, deci va fi greu să-l faci să afișeze părtinire pentru această problemă. Sfatul aici este să eviți să înclini distribuția și în schimb să furnizezi un număr mai echilibrat de exemple pentru fiecare etichetă. Pentru sarcinile mai grele unde modelul nu are prea multe cunoștințe, va lupta probabil mai mult.

Ordinea exemplelor

Când execuți învățarea cu câteva exemple, ordinea afectează performanța modelului sau părtinirea modelului într-un fel?

Poți încerca exemplele de mai sus și să vezi dacă poți să faci modelul să fie părtinitor către o etichetă prin schimbarea ordinii. Sfatul este să ordonezi exemplele aleatoriu. De exemplu, evită să ai toate exemplele pozitive mai întâi și apoi exemplele negative la sfârșit. Această problemă este amplificată în continuare dacă distribuția etichetelor este înclinată. Asigură-te întotdeauna să experimentezi mult pentru a reduce acest tip de părtinire.


Alte subiecte viitoare:

  • Perturbații
  • Corelația spurioasă
  • Schimbarea de domeniu
  • Toxicitatea
  • Discursul de ură / Conținutul ofensator
  • Părtinirea stereotipică
  • Părtinirea de gen
  • Vine în curând!
  • Red Teaming

Referințe


Secțiunea anterioară (Promptarea adversară)

Secțiunea următoare (Subiecte diverse)