Get Mystery Box with random crypto!

AI 也玩裙带关系?当上评委后狂为自己人加分 LMSYS 提出了一个全 | 软件新闻频道📮在花投稿

AI 也玩裙带关系?当上评委后狂为自己人加分

LMSYS 提出了一个全新的 AI 考试,其中使用了两大冠军模型 GPT-4 Turbo 和 Claude 3 Opus 作为考官,结果发现它们的"裙带关系"实在难以忽视......当 GPT-4 作为评审时,OpenAI 系列模型呈现集体上大分的景象;而换 Claude 3 上位后画风 180° 大转弯,OpenAI 家族落马的同时 Anthropic 鸡犬飞升。

研究员还发现两位 AI 考官的裁判风格截然不同,Claude 3 不愿意给出苛刻的分数,它特别犹豫宣称谁比谁"明显更好"。相比之下,当 GPT-4 识别出影响答案的错误时,它会给出明显较低的分数来惩罚考生。Claude 3 也发现了这些错误,但它倾向于将之视为小问题,并在评分时宽大处理。

价值判断也是,像在编码问题上,Claude 3 会选择最具教育价值的回答,提供简单的结构而不依赖外部库。然而 GPT-4 会优先考虑最实用的答案,无论其对用户的教育价值如何。

LMSYS

关注频道 @TestFlightCN