训练
-
终极「揭秘」:GPT-4模型架构、训练成本、数据集信息都被扒出来了
一直以来,大家都对 GPT-4 的模型架构、基础设施、训练数据集、成本等信息非常好奇。 奈何 OpenAI 嘴太严,很长时间以来,大家也都只是猜测这些数据。 不久之前,乔治・霍兹(…
-
AVFormer:将视觉注入冻结的语音模型,实现零样本AV-ASR
译者 | 崔皓 审校 | 重楼 摘要 Google Research的研究科学家Arsha Nagrani和Paul Hongsuck Seo介绍了一种名为AVFormer的新技术…
-
ChatGPT 又陷版权风波:两位恐怖小说作家起诉 OpenAI 盗用自己作品用于训练
7 月 6 日消息,AI 模型训练数据源的版权一直以来都是老生常谈的话题,此前微软被多人投诉称“将公共代码据为己有”,OpenAI 也被控“非法使用图书数据训练”。 O…
-
大模型训练成本降低近一半!新加坡国立大学最新优化器已投入使用
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 优化器在大语言模型的训练中占据了大量内存资源。 现在有一种新的优化方式,在性能保持不变的情况下将内存消…
-
适合时空预测的时间序列表示学习方法
最近,香港科技大学、上海AI Lab等多个组织联合发布了一篇时间序列无监督预训练的文章,相比原来的TS2Vec等时间序列表示学习工作,核心在于提出了将空间信息融入到预训练阶段,即在…
-
类GPT模型训练提速26.5%,清华朱军等人用INT4算法加速神经网络训练
我们知道,将激活、权重和梯度量化为 4-bit 对于加速神经网络训练非常有价值。但现有的 4-bit 训练方法需要自定义数字格式,而当代硬件不支持这些格式。在本文中,清华朱军等人提…
-
OpenAI CEO :OpenAI还没有开始训练GPT-5
6月8日消息,人工智能研究公司OpenAI首席执行官萨姆·奥特曼(Sam Altman)最近在印度接受采访时承认, 该公司仍未开始训练大语言模型GPT-5。 几个月前,这家由微软支…
-
调LLaMA类模型没那么难,LoRA将模型微调缩减到几小时
最近几个月,ChatGPT 等一系列大语言模型(LLM)相继出现,随之而来的是算力紧缺日益严重。虽然人人都想打造专属于自己的大模型,但是能负担得起上亿参数模型训练的机构却寥寥无几。…
-
马腾宇团队新出大模型预训练优化器,比Adam快2倍,成本减半
鉴于语言模型预训练成本巨大,因而研究者一直在寻找减少训练时间和成本的新方向。Adam 及其变体多年来一直被奉为最先进的优化器,但其会产生过多的开销。本文提出了一种简单的可扩展的二阶…
-
深入解析大型语言模型:从训练到部署大模型
简介 随着数据科学领域的深入发展,大型语言模型——这种能够处理和生成复杂自然语言的精密人工智能系统—逐渐引发了更大的关注。 LLMs是自然语言处理(NLP)中最令人瞩目的突破之一。…
-
微软推出 ZeRO++ 技术,可显著减少 AI 大模型训练时间和成本
6 月 27 日消息,微软研究人员日前推出了名为 ZeRO++ 的新技术,用于优化在训练大型 AI 模型时,容易遇到的数据传输成本和带宽限制的难题,可显著减少大模型训练时间和成本。…
-
图像分割模型实战——用户反馈应用(2)
译者 | 朱先忠 审校 | 重楼 本篇是关于训练图像分割模型系列文章的第2部分。模型训练的目的是对用户反馈做出响应,并根据反馈(鼠标点击)调整其预测结果。 在第1部分中,我们描述了…