lima
-
不用RLHF,匹敌GPT-4!Meta重磅发布LIMA 65B,1000个样本性能飞升,LeCun转赞
人人都知,让ChatGPT称霸天下的秘密武器,就是人类反馈强化学习(RLHF)。 而现在,Meta AI等机构的爆火研究LIMA直接打破这一规则,直言RLHF并没有那么重要! 论文…
人人都知,让ChatGPT称霸天下的秘密武器,就是人类反馈强化学习(RLHF)。 而现在,Meta AI等机构的爆火研究LIMA直接打破这一规则,直言RLHF并没有那么重要! 论文…