AI 也玩裙带关系？当上评委后狂为自己人加分 LMSYS 提出了一个全 | 软件新闻频道📮在花投稿

AI 也玩裙带关系？当上评委后狂为自己人加分

LMSYS 提出了一个全新的 AI 考试，其中使用了两大冠军模型 GPT-4 Turbo 和 Claude 3 Opus 作为考官，结果发现它们的"裙带关系"实在难以忽视......当 GPT-4 作为评审时，OpenAI 系列模型呈现集体上大分的景象；而换 Claude 3 上位后画风 180° 大转弯，OpenAI 家族落马的同时 Anthropic 鸡犬飞升。

研究员还发现两位 AI 考官的裁判风格截然不同，Claude 3 不愿意给出苛刻的分数，它特别犹豫宣称谁比谁"明显更好"。相比之下，当 GPT-4 识别出影响答案的错误时，它会给出明显较低的分数来惩罚考生。Claude 3 也发现了这些错误，但它倾向于将之视为小问题，并在评分时宽大处理。

价值判断也是，像在编码问题上，Claude 3 会选择最具教育价值的回答，提供简单的结构而不依赖外部库。然而 GPT-4 会优先考虑最实用的答案，无论其对用户的教育价值如何。

LMSYS

关注频道 @TestFlightCN

软件新闻频道📮在花投稿

🕵️ 118.74K
技术

频道投稿 @TNSubmbot. 频道群聊 @GoogleFans. • 频道日常推送科技新闻和热点消息. • 评论区禁止撕逼撕逼/人身攻击/阴阳怪气. • 评论区禁止黄赌毒/宗教/政...

Join
▲ Vote (1)

AI 也玩裙带关系？当上评委后狂为自己人加分 LMSYS 提出了一个全 | 软件新闻频道📮在花投稿

Login