Skip to content

Evaluarea dialogului lui Platon

Context

Următorul prompt testează capacitatea unui LLM de a executa evaluarea asupra ieșirilor a două modele diferite ca și cum ar fi un profesor.

Mai întâi, două modele (de ex., ChatGPT & GPT-4) sunt promptate folosind următorul prompt:

Gorgias al lui Platon este o critică a retoricii și a oratoriei sofistice, unde el face punctul că nu numai că nu este o formă proprie de artă, dar folosirea retoricii și a oratoriei poate fi adesea dăunătoare și răuvoitoare. Poți să scrii un dialog de Platon unde în schimb el critică folosirea modelelor de limbaj autoregresive?

Apoi, acele ieșiri sunt evaluate folosind promptul de evaluare de mai jos.

Prompt

Poți să compari cele două ieșiri de mai jos ca și cum ai fi un profesor?

Ieșirea de la ChatGPT: {ieșirea 1}

Ieșirea de la GPT-4: {ieșirea 2}

Cod / API

python
from openai import OpenAI
client = OpenAI()
 
response = client.chat.completions.create(
    model="gpt-4",
    messages=[
        {
        "role": "user",
        "content": "Poți să compari cele două ieșiri de mai jos ca și cum ai fi un profesor?\n\nIeșirea de la ChatGPT:\n{ieșirea 1}\n\nIeșirea de la GPT-4:\n{ieșirea 2}"
        }
    ],
    temperature=1,
    max_tokens=1500,
    top_p=1,
    frequency_penalty=0,
    presence_penalty=0
)

Referință

Scântei de inteligență artificială generală: Experimente timpurii cu GPT-4 (13 aprilie 2023)