训练

人工智能

终极「揭秘」：GPT-4模型架构、训练成本、数据集信息都被扒出来了

一直以来，大家都对 GPT-4 的模型架构、基础设施、训练数据集、成本等信息非常好奇。奈何 OpenAI 嘴太严，很长时间以来，大家也都只是猜测这些数据。不久之前，乔治・霍兹（…

3168
2023年7月18日
000
人工智能

AVFormer：将视觉注入冻结的语音模型，实现零样本AV-ASR

译者 | 崔皓审校 | 重楼摘要 Google Research的研究科学家Arsha Nagrani和Paul Hongsuck Seo介绍了一种名为AVFormer的新技术…

53347384
2023年7月18日
000
人工智能

ChatGPT 又陷版权风波：两位恐怖小说作家起诉 OpenAI 盗用自己作品用于训练

7 月 6 日消息，AI 模型训练数据源的版权一直以来都是老生常谈的话题，此前微软被多人投诉称“将公共代码据为己有”，OpenAI 也被控“非法使用图书数据训练”。 O…

繁花三千只取一朵
2023年7月18日
000
人工智能

大模型训练成本降低近一半！新加坡国立大学最新优化器已投入使用

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。优化器在大语言模型的训练中占据了大量内存资源。现在有一种新的优化方式，在性能保持不变的情况下将内存消…

2502
2023年7月18日
000
人工智能

适合时空预测的时间序列表示学习方法

最近，香港科技大学、上海AI Lab等多个组织联合发布了一篇时间序列无监督预训练的文章，相比原来的TS2Vec等时间序列表示学习工作，核心在于提出了将空间信息融入到预训练阶段，即在…

wuming
2023年7月18日
000
人工智能

类GPT模型训练提速26.5%，清华朱军等人用INT4算法加速神经网络训练

我们知道，将激活、权重和梯度量化为 4-bit 对于加速神经网络训练非常有价值。但现有的 4-bit 训练方法需要自定义数字格式，而当代硬件不支持这些格式。在本文中，清华朱军等人提…

9200
2023年7月18日
000
人工智能

OpenAI CEO ：OpenAI还没有开始训练GPT-5

6月8日消息，人工智能研究公司OpenAI首席执行官萨姆·奥特曼（Sam Altman）最近在印度接受采访时承认，该公司仍未开始训练大语言模型GPT-5。几个月前，这家由微软支…

9568
2023年7月17日
000
人工智能

调LLaMA类模型没那么难，LoRA将模型微调缩减到几小时

最近几个月，ChatGPT 等一系列大语言模型（LLM）相继出现，随之而来的是算力紧缺日益严重。虽然人人都想打造专属于自己的大模型，但是能负担得起上亿参数模型训练的机构却寥寥无几。…

言:卍:午
2023年7月17日
000
人工智能

马腾宇团队新出大模型预训练优化器，比Adam快2倍，成本减半

鉴于语言模型预训练成本巨大，因而研究者一直在寻找减少训练时间和成本的新方向。Adam 及其变体多年来一直被奉为最先进的优化器，但其会产生过多的开销。本文提出了一种简单的可扩展的二阶…

Z
2023年7月17日
000
人工智能

深入解析大型语言模型：从训练到部署大模型

简介随着数据科学领域的深入发展，大型语言模型——这种能够处理和生成复杂自然语言的精密人工智能系统—逐渐引发了更大的关注。 LLMs是自然语言处理（NLP）中最令人瞩目的突破之一。…

0623
2023年7月17日
000
人工智能

微软推出 ZeRO++ 技术，可显著减少 AI 大模型训练时间和成本

6 月 27 日消息，微软研究人员日前推出了名为 ZeRO++ 的新技术，用于优化在训练大型 AI 模型时，容易遇到的数据传输成本和带宽限制的难题，可显著减少大模型训练时间和成本。…

1321
2023年7月17日
000
人工智能

图像分割模型实战——用户反馈应用（2）

译者 | 朱先忠审校 | 重楼本篇是关于训练图像分割模型系列文章的第2部分。模型训练的目的是对用户反馈做出响应，并根据反馈(鼠标点击)调整其预测结果。在第1部分中，我们描述了…

卡门
2023年7月17日
000

1 / 6
1
2
3
4
5
6
下一页