新闻中心

喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速AI创新

2023-07-07
浏览次数:
返回列表

喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速ai创新

近日,2025年国际顶级语音会议ASRU(IEEE Automatic Speech Recognition and Understanding,自动语音识别与理解)的多通道多方会议转录挑战赛(M2MeT2.0)圆满结束,喜马拉雅珠峰实验室取得了卓越成绩,荣获冠军殊荣。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速ai创新

喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速ai创新

ASRU研讨会是IEEE语音和语言处理技术委员会(SLTC)的旗舰技术活动,每两年举办一次,汇集了来自学术界和工业界的顶级专家和研究人员,共同探讨广泛的语音识别与理解问题。M2MeT2.0挑战赛是ASRU 2025年的一项关键赛事,其目标是解决离线会议室语音重叠的转录问题。会议场景作为典型的多人自由交谈的"鸡尾酒会场景"一直是语音识别领域的难点和关注焦点,对于开发会议场景的语音人工智能和探索相关问题的工业级解决方案具有重要意义。

值得注意的是,喜马拉雅不是第一次参加ASRU的M2MeT挑战赛。在首届M2MeT挑战赛中,喜马拉雅与中国科学技术大学合作,在说话人日志赛道中荣获第三名,并且取得了仅有4.05%的日志错误率。在首届挑战赛中,评估使用字符错误率(CER)作为指标,仅将音频转录为文本,而不考虑说话人标签。基于首届的成功,M2MeT2.0挑战赛将着重于说话人相关的评估,推动多说话人语音识别系统的实用化,并设立了限定数据和不限定数据两个子赛道。

为了应对这一挑战,喜马拉雅珠峰实验室从语音识别基础框架出发,展开了混叠语音检测技术和说话人日志技术等方面的技术探索。喜马拉雅在M2MeT2.0挑战赛的限定数据集和开放数据集两个子赛道上均获得了优异的第一名成绩。

今年的M2MeT2.0挑战赛数据集包含了真实、多场景、多模态的大规模数据,涵盖了不同规模和布局的多种会议室,模拟了各种家具、不同主题的例会以及各种室内噪音。这些交错重叠的声音,如人声、电视声、风扇空调声、键盘声、开门/关门声、气泡声等,为比赛增加了难度。通过同时使用麦克风阵列记录远距离声音和耳机麦克风记录近距离声音,确保了对应说话者的语音准确转录。这一数据集对于多说话人语音识别和语音重叠问题的研究具有重要的学术意义,并为寻找工业级解决方案提供了真实且多样化的数据资源。

Pippit AI Pippit AI

CapCut推出的AI创意内容生成工具

Pippit AI 133 查看详情 Pippit AI

M2MeT2.0挑战赛数据集中所有说话人的母语均为汉语,喜马拉雅通过产学研相结合的方式积极参与其中,致力于为中国本土语音识别技术的发展作出贡献。在M2MeT2.0挑战赛中,喜马拉雅展示了出色的说话人和语音识别技术(ASR)展现出了卓越的性能,其珠峰实验室团队通过自研的说话人识别、语音增强和语音识别等模块的优化和经验,在语音重叠和多说话人环境下取得了显著突破。通过结合深度学习和神经网络模型,喜马拉雅珠峰实验室能够实时转录并精准识别分离多个说话人的语音。

喜马拉雅相关技术不仅在ASRU 2025年M2MeT2.0挑战赛中得到验证,还已应用赋能于喜马拉雅AIGC内容生产中。目前,喜马拉雅自动语音识别(ASR)技术已广泛应用到了喜马拉雅App的AI文稿功能,对喜马拉雅平台中无文稿的声音内容进行语音转写,并输出相应的文字,从而便于听众更好地理解声音内容。同时,对于已有原始文稿的声音内容,喜马拉雅的AI文稿功能通过超长音频与文本的对齐技术,将声音与文稿进行时间戳对轨,实现声音播放与相应文字的同步高亮,让用户能够更便捷地享受边听边看的内容消费体验。

喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速ai创新

除了ASR技术,喜马拉雅的TTS(语音合成)技术也处于行业前列,并已经广泛被运用于评书、新闻、小说等多种内容的制作中,喜马拉雅通过将自主设计单独的韵律提取模块融入到HiTTS 技术框架,完美复现了单田芳的“声音”。据报道,喜马拉雅上线了逾100张由单田芳AI合成音合成的专辑,累计播放量已超过1亿次。

多年来,喜马拉雅一直在AI语音技术领域进行深入研究,其珠峰实验室长期专注于语音合成、情感分析、语音识别等领域的研究和创新。通过参与ASRU 2025年M2MeT2.0挑战赛并获得冠军,喜马拉雅进一步巩固了在语音技术领域的领先地位,并展示了在解决复杂语音场景下的出色能力。

作为备受用户喜爱的在线音频平台,喜马拉雅一直秉持着以科技赋能文化的理念,不断将技术与创作者、用户相结合,提升内容生产效率并提供卓越的内容体验。喜马拉雅也将持续通过科技赋能和产学研相结合的方式,将先进而智能的语音技术与声音相结合,为用户提供卓越的语音技术产品和服务。

以上就是喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速AI创新的详细内容,更多请关注其它相关文章!


# 喜马拉雅  # 赛中  # 语音识别  # 转录  # 珠峰  # 多说  # 人日  # peech  # 商丘产品推广营销费用  # 卢龙大型网站建设配置  # 秦皇岛网站推广怎么样  # 武汉网站推广教程  # 武汉谷歌seo哪家好点  # 开封百度推广营销费用  # 营销推广方案项目名称  # 黑龙江影楼网站建设  # 校园网站建设报价表  # 南京seo排名代理公司  # 的是  # 取得了  # 这一 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 如何体验苹果16系统  typescript怎么判断单选按钮  喇叭上标的power30w是什么意思  单片机for循环怎么用  如何检测固态硬盘温度  a股等权市盈率中位数是什么意思  如何拍屏幕不出条纹详细方法  单片机面包板怎么插  typescript是做什么用的  显示器上power键是什么意思  如何给电脑加装固态硬盘  宝马x5仪表盘上边有power是什么意思  type-c接口接地是什么意思  命令行ftp如何创建目录  苹果16有哪些改善  如何更新typescript  破太岁是什么意思  税负是什么意思  广东春运几点抢票  nfc功能是什么意思怎么开启  typescript怎么拼接  交管12123协议头不完整是啥意思  33000日元等于多少人民币  苹果16讲解有哪些功能  万能表上的power是什么意思  市盈率负值是什么意思  开机如何运行dos命令提示符  单片机.lib文件怎么打开  react怎么使用 typescript  ai文件里无法找到链接文件怎么解决  如何以管理员身份打开命令提示符  typescript与es6学哪个  苹果16有哪些可以设置  单片机的速度怎么求  按键精灵datediff函数怎么用 如何使用按键精灵中的Datediff函数教程  折叠屏手机选择哪个好  如何使用net命令  复制 命令如何撤销  萝卜快跑的收费标准是什么  市盈率tt的扣非是什么意思  windows 如何连接ftp命令行  企业征信不好如何恢复 企业征信不好怎么恢复步骤  华为使用nfc功能是什么意思  如何查询固态硬盘序列  put linux命令如何书写  多少毫安的充电宝可以带上飞机  怎么打印数组j*a  夸克为什么会变小  如何安装台式机固态硬盘  openwrt有哪些功能 

搜索