Setări LLM
Când proiectezi și testezi prompt-uri, de obicei interacționezi cu LLM-ul prin intermediul unei API. Poți configura câțiva parametri pentru a obține rezultate diferite pentru prompt-urile tale. Ajustarea acestor setări este importantă pentru a îmbunătăți fiabilitatea și desirabilitatea răspunsurilor și necesită puțină experimentare pentru a descoperi setările potrivite pentru cazurile tale de utilizare. Mai jos sunt setările comune pe care le vei întâlni când folosești diferiți furnizori LLM:
Temperatura
Pe scurt, cu cât temperatura este mai mică, cu atât rezultatele sunt mai deterministe în sensul că cel mai probabil următorul token este întotdeauna ales. Creșterea temperaturii ar putea duce la mai multă aleatorie, ceea ce încurajează ieșiri mai diverse sau creative. În esență, crești ponderea celorlalți token-uri posibili. În ceea ce privește aplicația, s-ar putea să vrei să folosești o valoare mai mică a temperaturii pentru sarcini precum răspunsurile la întrebări bazate pe fapte pentru a încuraja răspunsuri mai factuale și concise. Pentru generarea de poezii sau alte sarcini creative, ar putea fi benefic să crești valoarea temperaturii.
Top P
O tehnică de eșantionare cu temperatură, numită eșantionare nucleu, unde poți controla cât de determinist este modelul. Dacă cauți răspunsuri exacte și factuale, păstrează aceasta la o valoare mică. Dacă cauți răspunsuri mai diverse, crește la o valoare mai mare. Dacă folosești Top P, înseamnă că doar token-urile care alcătuiesc masa de probabilitate top_p sunt considerate pentru răspunsuri, deci o valoare mică top_p selectează răspunsurile cele mai încrezătoare. Aceasta înseamnă că o valoare mare top_p va permite modelului să privească mai multe cuvinte posibile, inclusiv pe cele mai puțin probabile, ducând la ieșiri mai diverse.
Notă: Recomandarea generală este să alterezi temperatura sau Top P, dar nu pe ambele.
Lungimea maximă
Poți gestiona numărul de token-uri pe care le generează modelul prin ajustarea lungimii maxime. Specificarea unei lungimi maxime te ajută să previnii răspunsuri lungi sau irelevante și să controlezi costurile.
Secvențe de oprire
O secvență de oprire este un șir care oprește modelul să genereze token-uri. Specificarea secvențelor de oprire este un alt mod de a controla lungimea și structura răspunsului modelului. De exemplu, poți spune modelului să genereze liste care nu au mai mult de 10 elemente prin adăugarea "11" ca secvență de oprire.
Penalizarea frecvenței
Penalizarea frecvenței aplică o penalizare asupra următorului token proporțional cu de câte ori acel token a apărut deja în răspuns și prompt. Cu cât penalizarea frecvenței este mai mare, cu atât este mai puțin probabil ca un cuvânt să apară din nou. Această setare reduce repetarea cuvintelor în răspunsul modelului prin acordarea unei penalizări mai mari token-urilor care apar mai des.
Penalizarea prezenței
Penalizarea prezenței aplică și ea o penalizare asupra token-urilor repetate, dar, spre deosebire de penalizarea frecvenței, penalizarea este aceeași pentru toate token-urile repetate. Un token care apare de două ori și un token care apare de 10 ori sunt penalizați la fel. Această setare previne modelul să repete frazele prea des în răspunsul său. Dacă vrei ca modelul să genereze text divers sau creativ, s-ar putea să vrei să folosești o penalizare mai mare a prezenței. Sau, dacă ai nevoie ca modelul să rămână concentrat, încearcă să folosești o penalizare mai mică a prezenței.
Notă: Similar cu temperatura și top_p, recomandarea generală este să alterezi penalizarea frecvenței sau prezenței, dar nu pe ambele.
Notă importantă
Înainte de a începe cu câteva exemple de bază, ține minte că rezultatele tale pot varia în funcție de versiunea LLM pe care o folosești.
