Skip to content

Studiu de caz: Clasificarea job-urilor pentru absolvenți

Clavié et al., 2023 oferă un studiu de caz despre ingineria prompt-urilor aplicată unui caz de utilizare de clasificare de text de dimensiuni medii într-un sistem de producție. Folosind sarcina de a clasifica dacă un job este un "job de nivel de intrare" adevărat, potrivit pentru un absolvent recent, sau nu, au evaluat o serie de tehnici de ingineria prompt-urilor și au raportat rezultatele lor folosind GPT-3.5 (gpt-3.5-turbo).

Privire de ansamblu

Lucrarea arată că LLM-urile depășesc toate celelalte modele testate, inclusiv o linie de bază extrem de puternică în DeBERTa-V3. gpt-3.5-turbo depășește de asemenea în mod vizibil variantele mai vechi GPT3 în toate metricile cheie, dar necesită parsarea suplimentară a ieșirii deoarece capacitatea sa de a se ține de un șablon pare să fie mai proastă decât celelalte variante.

Descoperirile cheie

Descoperirile cheie ale abordării lor de ingineria prompt-urilor sunt:

  • Few-shot CoT vs Zero-shot: Pentru sarcini precum aceasta, unde nu este necesară cunoașterea expertă, promptarea Few-shot CoT a performat mai prost decât promptarea Zero-shot în toate experimentele.
  • Impactul masiv: Impactul promptului asupra elicitării raționamentului corect este masiv. Pur și simplu să ceri modelului să clasifice un job dat rezultă într-un scor F1 de 65.6, în timp ce modelul post-ingenieria prompt-urilor obține un scor F1 de 91.7.
  • Constrângerile șablonului: Încercarea de a forța modelul să se țină de un șablon scade performanța în toate cazurile (acest comportament dispare în testarea timpurie cu GPT-4, care este posterioară lucrării).
  • Modificările mici: Multe modificări mici au un impact disproporționat asupra performanței.
  • Calitatea instrucțiunilor: Oferirea corectă a instrucțiunilor și repetarea punctelor cheie pare să fie cel mai mare factor de performanță.
  • Personalizarea: Ceva la fel de simplu precum să dai modelului un nume (uman) și să te referi la el ca atare a crescut scorul F1 cu 0.6 puncte.

Modificările prompt-urilor testate

Nume scurtDescriere
Linia de bazăFurnizează o postare de job și întreabă dacă este potrivit pentru un absolvent.
CoTDă câteva exemple de clasificare precisă înainte de interogare.
Zero-CoTCere modelului să raționeze pas cu pas înainte de a furniza răspunsul său.
rawinstDă instrucțiuni despre rolul său și sarcina prin adăugarea la mesajul utilizatorului.
sysinstDă instrucțiuni despre rolul său și sarcina ca mesaj de sistem.
bothinstÎmparte instrucțiunile cu rolul ca mesaj de sistem și sarcina ca mesaj de utilizator.
mockDă instrucțiuni despre sarcină prin simularea unei discuții unde le recunoaște.
reitReforțează elementele cheie din instrucțiuni prin repetarea lor.
strictCere modelului să răspundă urmând strict un șablon dat.
looseCere doar răspunsul final să fie dat urmând un șablon dat.
rightCere modelului să ajungă la concluzia corectă.
infoFurnizează informații suplimentare pentru a aborda eșecurile comune de raționament.
nameDă modelului un nume prin care ne referim la el în conversație.
posFurnizează modelului feedback pozitiv înainte de a-l interoga.

Impactul performanței al tuturor modificărilor prompt-urilor

ModificareaPrecisiaRecall-ulF1Aderența la șablon
Linia de bază61.270.665.679%
CoT72.685.178.487%
Zero-CoT75.588.381.465%
+rawinst80.092.485.868%
+sysinst77.790.983.869%
+bothinst81.993.987.571%
+bothinst+mock83.395.188.874%
+bothinst+mock+reit83.895.589.375%
+bothinst+mock+reit+strict79.993.786.398%
+bothinst+mock+reit+loose80.594.887.195%
+bothinst+mock+reit+right84.095.989.677%
+bothinst+mock+reit+right+info84.996.590.377%
+bothinst+mock+reit+right+info+name85.796.890.979%
+bothinst+mock+reit+right+info+name+pos86.997.091.781%

Notă: Aderența la șablon se referă la cât de frecvent modelul răspunde în formatul dorit.