价值观

人工智能

放弃RLHF吧！无需手动训练模型价值观，达特茅斯学院华人领衔发布全新对齐算法：「AI社会」是最好的老师

训练大型语言模型的最后一步就是「对齐」（alignment），以确保模型的行为符合既定的人类社会价值观。相比人类通过「社交互动」获得价值判断共识，当下语言模型更多的是孤立地从训练…

烧星盟友
2023年7月17日
000