LLM 如何学习区分空间声音-DG城市

人类具有独特的感官功能，其中包括双耳听觉——这意味着我们可以识别声音的类型，以及它来自哪个方向和距离，我们还可以区分同时发生的多个声源。

虽然大型语言模型（LLM）在执行音频问答和语音识别、翻译和合成方面的能力令人印象深刻，但它们尚未处理这种“野外”空间音频输入。

一组研究人员终于开始破解这一密码，引入了BAT，他们称之为第一个基于空间的、基于音频的LLM，可以在3D环境中推理声音。

该模型在对音频类型（如笑声、心跳和溅水）、声音方向（右、左、下）和声音距离（从 1 到 10 英尺的任何地方）进行分类方面表现出令人印象深刻的精确度。在两种不同声音重叠的场景中，它还具有很强的空间推理能力。

“将空间音频集成到LLM中代表了迈向真正的多模态AI系统的重要一步，”研究人员写道。

空间音频的复杂性
空间音频（有时称为“虚拟环绕声”）在 3D 空间中产生声源的错觉。它用于虚拟现实（VR）和高级影院系统（以及其他新兴领域，如元宇宙）等应用。

但空间音频对人工智能和机器学习（ML）来说具有挑战性，因为 3D 空间中的智能代理难以定位和解释声源。科学家们试图通过开发声学模拟技术和结合空间音频信息的算法（如YouTube-360和STARSS23）来缓解这种情况。

然而，BAT的开发人员指出，这些应用程序在质量上往往不一致，并且缺乏“关键的地面实况标签”，例如源距离和方向。研究人员指出，同样，将声源定位与声音事件检测（SED）融合在一起的声音事件定位和检测（SELD）通常侧重于“浅层空间音频感知”。

音频领域的其他应用包括 AudioGPT，它集成了 ChatGPT 用于广泛的音频和语音应用; LTU，用于训练模型推理和回答有关剪辑中声音的问题; 和 Qwen-audio，它支持通用音频理解。

“然而，尽管它们在音频领域的表现令人印象深刻，但这些模型都没有能力感知和推理位于多样化、混响和复杂的 3D 环境中的空间音频，”研究人员断言。

关于声音类型、方向、距离和空间推理的问题
BAT似乎颠覆了这一点，在混合声音和声源的空间推理能力方面表现出强大的能力，实现了近77%的准确率。

同时，其底层空间音频编码器在识别声音类型方面实现了超过 50% 的平均精度; 声音方向的平均角度误差接近 18 度; 距离估计实际位置 1.64 英尺以内的距离误差率为 32.54%。

来自美国德克萨斯大学计算机科学与工程系和中国上海交通大学的研究人员首先开发了一种空间音频频谱转换器（SPATIAL-AST），它能够进行声音事件检测、空间定位和距离感知; 和 SPATIALSOUNDQA，空间问答任务的集合。

随后的 LLM BAT 将 SPATIAL-AST 与 LLaMA-2 LLM 集成在一起。

该模型被问到的问题包括声音类型、声音来自哪个方向以及它有多远。最后，它的任务是空间推理，其中两个并发的声音来自完全不同的距离和方向。

由于以前的空间音频数据集通常仅限于音乐、语音和基本的家庭声音，研究人员使用 Audioset 和 Soundspaces 策划了一组 355 个音频事件标签的双耳数据集。对于他们的环境网格，他们依赖于大规模的 RGB-D 数据集 Matterport3D，其中包括 90 座完整建筑的渲染图，每栋建筑平均有 24.5 个房间，分布在大约 5,550 平方英尺的两层半建筑中。

关于声音类型的问题
问：您可以在录音中检测到哪些声音事件？
A：婴儿的笑声
问：此音频剪辑中有哪些独特的声音？
A：心跳
问：识别音频剪辑中的声音事件，这些声音事件来自右侧、前方、下方、大约 9 英尺远。
A：飞溅;演讲
问：在从左边、后面、大约一英尺半远的地方发出的录音中，你能检测到哪些声音事件？
答：音乐;乐器;钢锅
关于方向和距离的问题
问：心音的来源在哪个方向，距离多远？
答：左、后、下;3英尺远
问：音乐的声音是从哪里来的？
答：左、后、下;10英尺远
关于空间推理的问题
问：喘息声是否比鸟儿飞翔/拍打翅膀的声音更接近？
答：不可以
问：爆炸声和语音的来源都在你的左侧吗？
答：是的
问：电动剃须刀的声音是否出现在瀑布的声音后面？
答：是的
问：你能估计从说话的声音到狗的声音的距离吗？
答：1.64英尺
问：振动声音的上方是什么声音？
答：呱呱叫;青蛙
问：你能确定歌声是在蒸汽声音的左边还是右边吗？
答：左
“这项任务既需要感知，也需要复杂的推理，”研究人员在谈到后者时写道。“该模型必须根据其独特的类别隐式分离声源，在空间上定位每个声源，然后在问题的上下文中分析声源之间的关系。”