偷窥偷拍
你的位置:偷窥偷拍 > 91porn.me >
探花 偷拍 受 DeepSeek-R1 启发,小米大模子团队登顶音频推理 MMAU 榜
发布日期:2025-07-06 01:47    点击次数:156

探花 偷拍 受 DeepSeek-R1 启发,小米大模子团队登顶音频推理 MMAU 榜

IT 之家 3 月 17 日音信探花 偷拍,@小米技能 官微本日发文称,小米大模子团队在音频推理领域得到打破性进展。受 DeepSeek-R1 启发,团队当先顽强化学习算法愚弄于多模态音频理撤职务,仅用一周时辰便以 64.5% 的 SOTA 准确率登顶国外泰斗的 MMAU 音频贯通评测榜首,现同步开源。

IT 之家附官方全文如下:

强化学习展现"反直观"上风 —— 小米大模子团队登顶音频推理 MMAU 榜

面临一段汽车行驶中的座舱灌音,AI 能否判断出汽车是否存在潜在的故障?在交响乐献艺现场,AI 能否揣摸出作曲家创造这首音乐时的热诚?在早岑岭地铁站繁芜的脚步声潮中,AI 能否预判闸机口可能发生的冲撞风险?在大模子时期,东谈主们还是不得志于机器只是识别讲话的本色、声息的种类,更欲望机用具备复杂推理的才能。

MMAU(Massive Multi-Task Audio Understanding and Reasoning)评测集(https://arxiv.org/ abs / 2410.19168)是这种音频推理才能的量化标尺,它通过一万条涵盖语音、环境声和音乐的音频样本,团结东谈主类群众标注的问答对,测试模子在 27 种手段,如跨场景推理、专科常识等愚弄上的推崇,欲望模子达到接近东谈主类群众的逻辑分析水平。

看成基准上限,东谈主类群众在 MMAU 上的准确率为 82.23%。这是一个很难的评测集,现在 MMAU 官网榜单上推崇最佳的模子是来自 OpenAI 的 GPT-4o,准确率为 57.3%。紧随自后的是来自 Google DeepMind 的 Gemini 2.0 Flash,准确率为 55.6%。

MMAU 任务示例图片来自 MMAU 论文探花 偷拍

来自阿里的 Qwen2-Audio-7B 模子在此评测集上的准确率为 49.2%。由于它的开源特点,咱们尝试使用一个较小的数据集,清华大学发布的 AVQA 数据集(https://mn.cs.tsinghua.edu.cn/ avqa/),对此模子作念微调。AVQA 数据集仅包含 3.8 万条历练样本,通过全量有监督微调(SFT),模子在 MMAU 上的准确率擢升到了 51.8%。这并不是一个止境显耀的擢升。

情色调教

DeepSeek-R1 的发布为咱们在该项任务上的询查带来了启发。DeepSeek-R1 的 Group Relative Policy Optimization ( GRPO ) 形态,让模子仅通过 " 试错 - 奖励 " 机制就能使自主进化,泄长远近似东谈主类的反想、多步考证等推理才能。在并吞时辰,卡内基梅隆大学发布的论文预印本" All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning ( https://arxiv.org/ abs / 2503.01067 ) ",通过小巧的践诺得出了一个酷爱的论断:当任务存在显着的生成 - 考证差距(Generation-Verification Gap),即任务生成胁制的难度高大于考证胁制正确性的难度时,强化学习比起有监督微调具有独到上风,而 AQA 任务正好是好意思满的生成 - 考证差距显耀的任务。

打个比喻来说,离线微调形态,如 SFT,有点像背题库,你只可凭证已有的题目和谜底历练,但遭遇新题可能不会作念;而强化学习形态,如 GRPO,像憨厚在条件你多想几个谜底,然后憨厚告诉你哪一个谜底好,让你主动想考,激勉出本身的才能,而不是被"填鸭式"教会。固然,要是历练量损失,比如有学生惬心花好多年的时辰来死记硬背题库,也许最终也能达到可以的胁制,但效力太低,花费太多时辰。而主动想考,更容易快速地达到举一反三的胁制。强化学习的及时响应可能会匡助模子更快锁定高质料谜底的别离区域,而离线形态需要遍历总共这个词可能性空间,效力要低得多。

基于上述瞻念察,咱们尝试将 DeepSeek-R1 的 GRPO 算法搬动到 Qwen2-Audio-7B 模子上。令东谈主惊喜的是,在仅使用 AVQA 的 3.8 万条历练样本的情况下,强化学习微调后的模子在 MMAU 评测集上终澄清 64.5% 的准确率,这一得益比现在榜单上第又名的营业闭源模子 GPT-4o 有近 10 个百分点的上风。

酷爱的是,当咱们在历练中强制条件模子输出 推理经过期(近似传统想维链形态),准确率反而下落至 61.1%。这说显着式的想维链胁制输出可能并不利于模子的历练。

咱们的践诺揭示了几个和传统领路不同的论断:

对于微调形态:强化学习在 3.8 万条数据集上的推崇显耀逾越监督学习在 57 万条数据集上的胁制

对于参数鸿沟:比较千亿级模子,7B 参数的模子通过强化学习也可展现强推理才能

对于隐式推理:显式想维链输出反而成为性能瓶颈

尽管现时准确率已打破 64%,但距离东谈主类群众 82% 的水平仍有差距。在咱们现时的践诺中,强化学习计谋照旧比较粗略,历练经过对想维链的开荒并不充分,咱们会在后续作念进一步探索。

这次践诺考证了强化学习在音频推理领域的独到价值,也为后续询查翻开了一扇新的大门。当机器不仅能 " 听见 " 声息,还能 " 听懂 " 声息背后的因果逻辑时,信得过的智能听觉时期将会驾临。

咱们把历练代码、模子参数开源,并提供了技能阐述,供学术界产业界参考相似。

历练代码:https://github.com/xiaomi-research/r1-aqa

模子参数:https://huggingface.co/mispeech/r1-aqa

技能阐述:https://arxiv.org/abs/2503.11197

交互 Demo:http://120.48.108.147:7860/探花 偷拍