transformer
-
这就是GPT模型听起来像人类的原因
译者 | 刘涛 审校 | 重楼 没人知道为什么AI可以工作,对吧? 是和否。 从根本上说,我们对于人类大脑的秘密仍然知之甚少。 然而,Transformers(一种用于自然语言处理…
-
1000000000!微软改进Transformer一次能记住这么多token了
微软亚研院最新研究,有点震撼: 他们开发了一个Transformer变体,居然将其token拓展到了10亿。 图片 什么概念? 目前最强的GPT-4也才最大支持一次处理32k&nb…
-
AI圈炸了!微软解封Transformer,序列长度扩展10亿+
大数据文摘出品 AI圈炸了!微软推出的 LONGNET 成功将Transformer的Token处理能力扩展到了10亿+。 图片 要知道,之前大家一直夸Transformer的理解…
-
微软新出热乎论文:Transformer扩展到10亿token
当大家不断升级迭代自家大模型的时候,LLM(大语言模型)对上下文窗口的处理能力,也成为一个重要评估指标。 比如明星大模型 GPT-4 支持 32k token,相当于 50 页的文…
-
Transformer八子全部叛逃谷歌!最后一位共同作者月底离职创业
Transformer八子全都叛逃了谷歌。 爆料称,当年参与谷歌Transformer惊世之作的最后一位共同作者Llion Jones,月底将离职谷歌自行创业。 图片 前谷歌大脑、…
-
清华朱军团队新作:使用4位整数训练Transformer,比FP16快2.2倍,提速35.1%,加速AGI到来!
将激活、权重和梯度量化为4位,有望加速神经网络训练。 然而,现有的4位训练方法需要自定义数字格式,而现代硬件不支持这种格式。 最近,清华朱军团队提出了一种使用INT4算法实现所有矩…
-
NTU、上海AI Lab整理300+论文:基于Transformer的视觉分割最新综述出炉
SAM (Segment Anything )作为一个视觉的分割基础模型,在短短的 3 个月时间吸引了很多研究者的关注和跟进。如果你想系统地了解 SAM 背后的技术,并跟上内卷的步…
-
全面了解大语言模型,这有一份阅读清单
大型语言模型已经引起了公众的注意,短短五年内,Transforme等模型几乎完全改变了自然语言处理领域。此外,它们还开始在计算机视觉和计算生物学等领域引发革命。 鉴于Transfo…
-
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下
据悉 GPT-4 将于本周发布,多模态将成为其一大亮点。当前的大语言模型正在成为理解各种模态的通用接口,能够根据不同模态信息来给出回复文本,但大语言模型生成的内容也仅仅局限于文本。…
-
图与代码不一致,Transformer论文被发现错误,网友:早该被指出1000次
2017 年,谷歌大脑团队在其论文《Attention Is All You Need》中创造性的提出 Transformer 这一架构,自此这一研究一路开挂,成为当今 NLP 领…
-
田渊栋新作:打开1层Transformer黑盒,注意力机制没那么神秘
Transformer架构已经横扫了包括自然语言处理、计算机视觉、语音、多模态等多个领域,不过目前只是实验效果非常惊艳,对Transformer工作原理的相关研究仍然十分有限。 其…
-
火出圈的ChatGPT,如何让安全检测更智能
ChatGPT是什么 ChatGPT(Chat Generative Pre-trained Transformer)是一款美国OpenAI研发的聊天机器人程序,能够通过理解和学习…