价值观
-
放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院华人领衔发布全新对齐算法:「AI社会」是最好的老师
训练大型语言模型的最后一步就是「对齐」(alignment),以确保模型的行为符合既定的人类社会价值观。 相比人类通过「社交互动」获得价值判断共识,当下语言模型更多的是孤立地从训练…
训练大型语言模型的最后一步就是「对齐」(alignment),以确保模型的行为符合既定的人类社会价值观。 相比人类通过「社交互动」获得价值判断共识,当下语言模型更多的是孤立地从训练…