Skip to content

De încredere în LLM-uri

Privire de ansamblu

LLM-urile de încredere sunt importante pentru a construi aplicații în domenii cu risc mare precum sănătatea și finanțele. Deși LLM-urile precum ChatGPT sunt foarte capabile să producă răspunsuri lizibile de om, ele nu garantează răspunsuri de încredere pe dimensiuni precum adevărul, siguranța și confidențialitatea, printre altele.

Studiul de cercetare

Sun et al. (2024) au propus recent un studiu comprehensiv al de încredere în LLM-uri, discutând provocările, benchmark-urile, evaluarea, analiza abordărilor și direcțiile viitoare.

Provocarea cheie

Una dintre provocările mai mari de a lua LLM-urile curente în producție este de încrederea. Sondajul lor propune un set de principii pentru LLM-uri de încredere care se întind pe 8 dimensiuni, inclusiv un benchmark pe 6 dimensiuni (adevărul, siguranța, corectitudinea, robustețea, confidențialitatea și etica mașinii).

Cadrul de benchmark

Autorii au propus următorul benchmark pentru a evalua de încrederea LLM-urilor pe șase aspecte:

Un benchmark al modelelor de limbaj mari de încredere

Mai jos sunt definițiile celor opt dimensiuni identificate ale LLM-urilor de încredere.

Dimensiunile LLM-urilor de încredere

Cadrul evaluează LLM-urile pe multiple dimensiuni de de încredere pentru a asigura evaluarea comprehensivă.

Descoperirile cercetării

Această lucrare prezintă de asemenea un studiu evaluând 16 LLM-uri mainstream în TrustLLM, constând din peste 30 de seturi de date. Mai jos sunt descoperirile principale din evaluare:

Compararea performanței modelului

  • Proprietar vs Open-Source: Deși LLM-urile proprietare depășesc în general majoritatea omologilor open-source în ceea ce privește de încrederea, există câteva modele open-source care închid decalajul.

  • Capacitățile avansate: Modelele precum GPT-4 și Llama 2 pot respinge în mod fiabil declarațiile stereotipice și arată o rezistență îmbunătățită la atacurile adversariale.

  • Performanța Open-Source: Modelele open-source precum Llama 2 performează aproape de cele proprietare pe de încredere fără să folosească niciun tip de instrument de moderare special. Se afirmă de asemenea în lucrare că unele modele, precum Llama 2, sunt supra-calibrate spre de încredere, ceea ce uneori compromite utilitatea lor pe mai multe sarcini și tratează greșit prompt-urile benigne ca intrări dăunătoare pentru model.

Perspectivele cheie pe dimensiune

Pe diferitele dimensiuni de de încredere investigate în lucrare, iată perspectivele cheie raportate:

1. Adevărul

  • LLM-urile se luptă adesea cu adevărul din cauza zgomotului datelor de antrenament, dezinformării sau informațiilor învechite
  • LLM-urile cu acces la surse de cunoștințe externe arată performanță îmbunătățită pe adevăr

2. Siguranța

  • LLM-urile open-source rămân în general în urma modelelor proprietare pe aspectele de siguranță precum jailbreak, toxicitatea și utilizarea greșită
  • Există o provocare în echilibrarea măsurilor de siguranță fără a fi prea precaut

3. Corectitudinea

  • Majoritatea LLM-urilor performează nesatisfăcător în recunoașterea stereotipurilor
  • Chiar și modelele avansate precum GPT-4 au doar aproximativ 65% acuratețe în această zonă

4. Robustețea

  • Există variabilitate semnificativă în robustețea LLM-urilor
  • Performanța variază în special pe sarcinile deschise și din afara distribuției

5. Confidențialitatea

  • LLM-urile sunt conștiente de normele de confidențialitate, dar înțelegerea și gestionarea lor a informațiilor private variază foarte mult
  • Ca exemplu, unele modele au arătat scurgerea de informații când au fost testate pe Enron Email Dataset

6. Etica mașinii

  • LLM-urile demonstrează o înțelegere de bază a principiilor morale
  • Cu toate acestea, ele nu ajung la scenarii etice complexe

Clasamentul de încredere

Autorii au publicat de asemenea un clasament pentru compararea de încredere LLM. De exemplu, tabelul de mai jos arată cum măsoară diferitele modele pe dimensiunea de adevăr. Așa cum este menționat pe site-ul lor web, "LLM-urile mai de încredere sunt așteptate să aibă o valoare mai mare a metricilor cu ↑ și o valoare mai mică cu ↓".

Clasamentul de încredere pentru LLM-uri

Clasamentul oferă metrici comparative pe diferite dimensiuni de de încredere pentru evaluarea ușoară a modelului.

Implementarea

Depozitoriul de cod

Poți găsi de asemenea un depozitor GitHub cu un kit complet de evaluare pentru testarea de încredere a LLM-urilor pe diferitele dimensiuni.

Cod: https://github.com/HowieHwong/TrustLLM

Referințe

Sursa imaginii / Lucrarea: TrustLLM: De încredere în modelele de limbaj mari (10 Ian 2024)

Învățăturile cheie

  1. De încrederea este multi-dimensională și necesită evaluare comprehensivă
  2. Modelele proprietare depășesc în general alternativele open-source pe de încredere
  3. Siguranța și corectitudinea rămân provocatoare zone pentru majoritatea LLM-urilor
  4. Echilibrarea de încredere și utilitate este crucială pentru aplicațiile practice
  5. Modelele open-source se îmbunătățesc și închid decalajul cu soluțiile proprietare

Subiecte conexe