Rokid算法负责人王文兵：AR下的“声”临“奇”境- 汇维网

声音在我们的日常生活中无处不在，是不可或缺的一部分，在元宇宙世界中亦如此。元宇宙的场景要想实现全方位的沉浸感，需要各种声音技术的不断升级和发展。在51CTO近日举办的“AISummit 全球人工智能技术大会”上，Rokid算法负责人王文兵发表了《AR下的“声”临“奇”境》主题演讲，介绍了Rokid自研6DoF空间声场的概念、主要技术模块、技术难点、与AR结合的发展趋势以及开发技术的初衷，诠释了空间声场技术在元宇宙世界中的重要体现。

现将演讲内容整理如下：

什么是6dof空间声场？

谈及这个问题时，可以先抛开技术的限制，想象一下AR上的声音应该以何种形态去呈现。其实我们现在用的TV、手机等大部分都是像stereo这种的双声道，家庭影院已经用上了multi-channel，电影院等专业场景还有空间布局上的喇叭。

在AR上它究竟应该如何去呈现呢？我们可以试想一个画面，比如现在很流行的在线会议或在线教育，如果在元宇宙世界里看到右边的数字人一直在说话，但这个声音从你的左边出来，这个时候是不是感觉很奇怪？

另外我们可以想象一下AR游戏，在以前这种2D的视觉里，声音跟着视觉的焦点去移动就可以，但是在3D场景的360度的范围下，人的双眼是无法抓住整个视觉焦点的，而声音是具备全局焦点的。这也是为什么在很多游戏里，人会跟着声音去切换视角。因此可以看到AR上声音所需具备的一些特性：需要满足人对声音的高灵敏度感觉、声音的全局性焦点作用、以及声音的真实感要求等。

接下来从三个维度介绍一下声音形态的发展之路。

第一，空间表达维度。整个声音的表达维度从mono/stereo到5.1/7.1/9.1/…这种平面下的多声道、再到5.1.x/7.1.x这种空间下的多声道等，喇叭越来越多，摆放位置也从平面上升到空间了；

第二，编码方式维度。从最开始的channel-based（也就是基于通道的编码，每个通道上会有各种各样的声音，比如我们平时常见的左右声道的表达方式），到object-based（也就是针对发生的对象进行编码），包括大家在电影院观看到的Dolby Atmos片源，比如当某个炮弹打下来的时候，那个炮弹的对象是专门编码的，metadata中记录了其运动的轨迹，然后根据对应的喇叭位置进行播放的；但我们最终的目标还是希望达到完全基于场景下的效果，类似于HOA这样的全景声方式，不只是炮弹，一花一草一树叶的掉落我们都希望它是具备空间感。

第三，XR体验维度。以前虚拟的声音和真实世界是割裂的，如今在XR里，尤其是AR方面，我们一直在做的事就是虚拟与现实的融合。

人之所以能够对声音有如此细力度的区分，是因为双耳模式，专业上来说是ITD和ILD，也就是双耳的时间差和音强差。这两种差别会帮助我们快速定位物体发声的方位。

那么如何让3D声音普及？如何突破场地局限性？如何降低用户消费成本？如何能够让每个人都享受科技？Rokid 自研的6dof空间声场将助力解决这些难题。

6dof空间声场从名字上可以分为两部分：6dof和空间声场。6dof主要表达六自由度，由陀螺仪提供绕XYZ三个方向的旋转，由加速度计提供XYZ三个方向的加速度。

6dof空间声场涉及声音的产生、传播、渲染、编解码以及整个过程中虚实声音融合和交互的过程。

6dof空间声场的主要技术

6dof空间声场的主要技术模块包含HRTFs、声场渲染以及音效。HRTFs是声源从自由场到耳膜的冲击函数，其是在模拟一个消音室的环境下，全方位的声音传到人耳的过程。声场渲染可以给予人听声辨位的能力，可以虚实融合，完美处理真实物体对虚拟声源的影响。音效是在私密性设计的开放式喇叭以减弱声音泄露、保障音量的同时，进行声音品质的丰富。

架构图最上面的SDK，对外提供了空间模块，即空间引擎出口以及语音引擎出口。可以对空间信息进行获取和建模，有助于数字世界和物理世界的融合。

此外，我们在Room Effect上也做了一些修改。其整体框架与经典的网络结构大同小异，首先是构建网络，然后生成理论下的无损的网络，之后在这个理论的基础上做各种衰减、损耗的相关设置，包括吸收、遮挡、反射等。其实我们本身的目的不是为了做各种音效，我们只是结合着产品的使用场景，比如影院或者音乐，提供音效以让用户达到良好的视听体验，这些都可以在下一代AR眼镜Rokid Max上体验到。

6dof空间声场对比。左边是一个第三方SDK的效果，当从0度到90度旋转时，每个频率的变化是不平滑的，而且最开始下降的很厉害，后面的变化非常小。右边的Rokid所做的6dof空间声场，不同的频率段跟着你的方位变换的时候有明显的变化，图中为不同角度、不同频率段、不同幅值的表现。

6dof空间声场的发展趋势

随着元宇宙时代的来临，AR、VR技术的兴起，空间声场的发展也迎来了新的机遇。

空间声场的发展趋势主要体现在三个方面：

一是沉浸感，人们可以根据真实的世界进行反馈，更好地进行虚实融合与交互，真正实现沉浸式体验。所有虚拟世界中的声音不应该放飞自我，不受真实世界中任何物体的影响，因为这样会让人觉得它本身还是割裂的。除了融合还要进行交互，比如在虚拟世界中可以通过语音、手势等不同方式去和AR终端上增强的声音进行交互，去选择暂停、播放、或切换不同层次、不同视角的窗口、或自己感兴趣的声音等等。

二是精细化，在HRTF、分辨率、测试方法、定制化等不同方面进行精细化的探索与实践。精细化比较难的是头传，因为头传本身的生成手段就比较费时费力，需要对整个球面空间上不同距离下的每个点进行播放，然后再耳道进行采样。当前也有些学者在研究如何用更少的采样点生成这种相同的精细化程度，以及如何通过插值或其他技术手段实现更高的精确度；同时，从更长远的角度来看，精细化的一个极限是私定制的实现。

三是私密性与音效，体验不同频段的声音带来的听觉盛宴。不同谐波或不同频段给我们带来的感觉是不一样的。比如，严重的混响是会影响人类的听感，而适宜的混响是会带来音质上的丰富听感；尤其是早期的混响，很多时候会被用于音色的判断，低于3K的混响和横向反射会有助于形成更好的空间感和深度感，而高频的分量会帮助我们实现环绕感。

探索空间声场的初衷

Rokid为何会做空间声场？主要有三个方面的原因：

一，沉浸感。我们一直在追求数字世界与物理世界的融合，比如玩游戏时的那种生动、在线会议或在线教育时的那种真实。

二，虚实交互。我们认为未来在这世界会是一种虚实的融合，在融合的基础上可以去做很多交互，包括空间感知的过程、主观行为的交互等。空间感知是指对于世界中比如物体的大小、空间的大小、材质等方面，这种感知之后则形成对虚拟声音的影响；主观行为的交互是人为地干预、选择、与数字世界中的声音做沟通。

三，极致品质。AR Glass与手机、平板、TV等产品是有所区别的。当你用手机时出现断网或者卡顿的情况是能够忍受的，但是对戴在眼睛上的AR Glass的实时性的要求却是非常高的。如何才能做到这种实时性的高要求？这涉及到算法、工程、系统、硬件以及应用等整体的优化。

这些是我们一直所追求的使命，Rokid希望通过AR Glass产品将这些能力直接推广并普及到大众；与此同时也希望将这些技术作为我们Yoda OS里的基本能力释放，从而通过广大开发者们的使用，间接的惠及到用户，赋能到各行各业。

现大会演讲回放及PPT已上线，进入官网查看精彩内容（https://aisummit.51cto.com/）

1 原创文章作者：7627，如若转载，请注明出处： https://www.52hwl.com/43433.html

2 温馨提示：软件侵权请联系469472785#qq.com（三天内删除相关链接）资源失效请留言反馈

3 下载提示：如遇蓝奏云无法访问，请修改lanzous(把s修改成x)

4 免责声明：本站为个人博客，所有软件信息均来自网络修改版软件，加群广告提示为修改者自留，非本站信息，注意鉴别

Rokid算法负责人王文兵：AR下的“声”临“奇”境

什么是6dof空间声场？

6dof空间声场的主要技术

6dof空间声场的发展趋势

探索空间声场的初衷

关于作者

7627注册用户

Rokid算法负责人王文兵：AR下的“声”临“奇”境

什么是6dof空间声场？

6dof空间声场的主要技术

6dof空间声场的发展趋势

探索空间声场的初衷

关于作者

7627注册用户

相关推荐