模态

网站随机

Chrome 102：新增两个 HTML 属性、两个 JS API !

Chrome 在上周发布了 102 版本，我们一起来看看都有哪些新东西吧！ inert 属性 inert 属性是一个全局的 H…

awano
2024年1月17日
000
人工智能

BLIP-2、InstructBLIP稳居前三！十二大模型，十六份榜单，全面测评「多模态大语言模型」

多模态大语言模型（Multimodal Large Language Model，MLLM）依赖于LLM丰富的知识储备以及强大的推理和泛化能力来解决多模态问题，目前已经涌现出一些令…

漫道
2023年7月18日
000
人工智能

微软推出人工智能模型 CoDi，可互动和生成多模态内容

7 月 11 日消息，微软近日发布新闻稿，推出了名为可组合扩散模型（CoDi），这是一种独特的、基于可组合扩散的人工智能模型，其设计目标是互动和生成多模态内容。微软设…

liangwen
2023年7月18日
000
人工智能

给大语言模型“开个眼”，看图说话性能超CLIP！斯坦福等新方法无需多模态预训练

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。不靠多模态数据，大语言模型也能看得懂图？！话不多说，直接看效果。就拿曾测试过BLIP-2的长城照片…

6000
2023年7月18日
000
人工智能

清华朱军团队开源首个基于Transformer的多模态扩散大模型，文图互生、改写全拿下

据悉 GPT-4 将于本周发布，多模态将成为其一大亮点。当前的大语言模型正在成为理解各种模态的通用接口，能够根据不同模态信息来给出回复文本，但大语言模型生成的内容也仅仅局限于文本。…

psdoc
2023年7月17日
000
人工智能

多模态如何自监督？爱丁堡等最新「自监督多模态学习」综述：目标函数、数据对齐和模型架构

多模态学习旨在理解和分析来自多种模态的信息，近年来在监督机制方面取得了实质性进展。然而，对数据的严重依赖加上昂贵的人工标注阻碍了模型的扩展。与此同时，考虑到现实世界中大规模的未标…

wuming
2023年7月17日
000
人工智能

威大华人团队全新多模态数据分析及生成方法JAMIE，大幅提升细胞类型、功能预测能力

近年来，随着单细胞技术的迅速发展，我们得以测量了单个细胞的各种特征从而获取单细胞多模态数据（比如scRNA-seq，scATAC-seq，Patch-seq）。这些数据有助于我们…

Mr
2023年7月17日
000
人工智能

无需标注数据，「3D理解」进入多模态预训练时代！ULIP系列全面开源，刷新SOTA

通过对齐三维形状、二维图片以及相应的语言描述，多模态预训练方法也带动了3D表征学习的发展。不过现有的多模态预训练框架收集数据的方法缺乏可扩展性，极大限制了多模态学习的潜力，其中最…

0008
2023年7月17日
000
人工智能

达摩院猫头鹰mPLUG-Owl亮相：模块化多模态大模型，追赶GPT-4多模态能力

纯文本大模型方兴未艾，多模态领域也开始涌现出多模态大模型工作，地表最强的 GPT-4 具备读图的多模态能力，但是迟迟未向公众开放体验，于是乎研究社区开始在这个方向上发力研究并开源。…

歌神【81234.cn】
2023年7月17日
000
人工智能

剑桥、腾讯AI Lab等提出大语言模型PandaGPT：一个模型统一六种模态

来自剑桥、NAIST 和腾讯 AI Lab 的研究者近期发布了一项名为 PandaGPT 的研究成果，这是一种将大型语言模型与不同模态对齐、绑定以实现跨模态指令跟随能力的技术。Pa…

8871
2023年7月17日
000
人工智能

用图像对齐所有模态，Meta开源多感官AI基础模型，实现大一统

在人类的感官中，一张图片可以将很多体验融合到一起，比如一张海滩图片可以让我们想起海浪的声音、沙子的质地、拂面而来的微风，甚至可以激发创作一首诗的灵感。图像的这种「绑定」（bindi…

左手温暖右手
2023年7月17日
000
人工智能

浅析多模态机器学习

GPT-4的发布给ChatGPT带来了又一次飞跃，ChatGPT不仅支持文字输入，还能看得懂图片、甚至是漫画、梗图，以GPT-4为代表的多模态大模型非常强大。多模态大模型就是指模型…

L2
2023年7月17日
000

1 / 4
1
2
3
4
下一页