mmlu
-
13948道题目,涵盖微积分、线代等52个学科,上交清华给中文大模型做了个测试集
ChatGPT 的出现,使中文社区意识到与国际领先水平的差距。近期,中文大模型研发如火如荼,但中文评价基准却很少。 在 OpenAI GPT 系列 / Google PaLM 系列…
ChatGPT 的出现,使中文社区意识到与国际领先水平的差距。近期,中文大模型研发如火如荼,但中文评价基准却很少。 在 OpenAI GPT 系列 / Google PaLM 系列…