当前位置:首页 > 谈天说地

中文语音识别(离线语音识别sdk)

34资源网2022-05-27483

日前,中国领先的人工智能公司出门问问与西北工业大学音频语音和语言处理研究组(ASLP Lab)、希尔贝壳联合发布1万小时多领域中文语音识别数据集 WenetSpeech,在腾讯会议天籁实验室、华为昇思 MindSpore、 西安未来人工智能计算中心等机构大力支持下,该数据集目前已经开放下载。

WenetSpeech 介绍

近十年以来,在深度学习的推动下,语音识别技术和应用均取得了突飞猛进的发展,搭载语音识别技术的相关产品和服务,诸如语音搜索、语音输入法、智能音箱、智能电视、智能穿戴、智能客服、机器人等已经广泛应用到我们生活的方方面面。但在现有的中文语音识别研究中,由于开源中文语音数据集数据量少,场景单一,缺乏挑战,不能反映研究模型在大数据量和复杂场景下的泛化能力,例如,当前的中文普通话开源数据集 AIShell-2,包含1000小时的朗读风格录制数据,主流识别系统在该数据的测试集上获得的错误率低至5.3%左右。工业界往往使用更大规模的内部数据进行研究,而学术界无法获取这些数据进行研究,这导致了中文语音识别研究在学术界和工业界的严重割裂。另一方面,当下研究的热点无监督学习和自学习,在中文语音识别领域,也缺乏公开标准的大数据集的支持。

今年以来,Facebook 发布面向监督学习的5万小时的英文 audiobook 数据集 Multilingual LibriSpeech;SpeechColab 发布1万小时的多领域英文数据集 GigaSpeech。受这些工作的启发,同时中文语音识别研究也迫切需要一个标准的大规模多领域的数据集,为此出门问问与西北工业大学音频语音和语言处理研究组(ASLP Lab)、希尔贝壳设计开发了 WenetSpeech 数据集。

WenetSpeech 除了含有 10000+ 小时的高质量标注数据之外,还包括2400+ 小时弱标注数据和 22400+ 小时的总音频,覆盖各种互联网音、噪声背景条件、讲话方式,来源领域包括有声书、解说、纪录片、电视剧、访谈、新闻、朗读、演讲、综艺和其他等10大场景,领域详细统计数据如下图所示。

数据收集

WenetSpeech 所有的数据均来源于网络,其中三分之二的数据来自 Youtube,三分之一来自 Podcast。

对于 Youtube 数据,我们人工选择含有嵌入式硬字幕(字幕嵌入在流中,非外挂字幕)的资源,并构建了如下图的基于 OCR 的系统进行数据挖掘,流程如下:

1.文本检测,在当前帧上进行文本检测。

2.字幕位置校验,判断检测到的文本区域是否为合法的字幕区域。

3.字幕切换检测,已得到字幕位置和区域,在连续的帧上对该区域进行检测,直至该区域的字幕变化为止,得到字幕的起始和结束时间。

4.文本识别,将字幕区域进行 OCR 识别,得到文本。

5.将3中对应时间的音频提取出来,结合4中的文本,即得到字幕文本和该文本对应的音频,也就是语音识别训练中所需的文本和语音的候选平行数据。

下图中给出该 OCR 系统在不同场景下的几个典型示例。图中绿色的框为检测到的所有文字区域,红色的框为判定为字幕的文字区域,红色框上方的文本为 OCR 的识别结果。 可以看到,该系统正确的判定了字幕区域,并准确的识别了字幕文本,同时经过我们测试,发现该系统也可以准确判定字幕的起始和结束时间。

对于 Podcast 数据,WeNet使用国内的商业语音识别系统之一,对 Podcast 数据进行切分,并生成切分后音频和其所对应的文本作为候选平行数据。

数据校验

OCR 字幕识别和 ASR 语音转写生成的候选平行数据中不可避免的存在一些错误,如人工字幕本身有错误,字幕时间不准,OCR 识别错误,转写错误等。为了检测该错误,WenetSpeech 中提出一种基于端到端的自动标注错误检测算法,如下图所示。该算法首先根据候选平行数据的文本(ref)构建一个一个强制对齐图,该图中允许在任意位置进行删除、插入和替换操作。然后将候选平行数据的语音输入到该图进行解码得到识别结果(hyp),终计算 ref 和 hyp 的编辑距离并做归一化从而得到该候选平行数据的置信度。当候选语音和文本一致高时,ref 和 hyp 一致高,置信度高,反之,当候选语音和文本一致低时,置信度低。

WenetSpeech 中选取置信度>=95%的数据作为高质量标注数据,选取置信度在0.6和0.95之间的数据作为弱监督数据。关于该算法的详细内容,请参考我们的论文。

排行榜

除了训练中校验用途的 Dev 集外,还设计了两个人工精标测试集,互联网测试集 Test_Net 和会议测试集 Test_Meeting,作为“匹配”和“不匹配”测试,同时提供三个语音识别主流工具包(Kaldi,ESPNet,WeNet)上搭建的基线系统,方便使用者复现。在 10000+ 小时的高质量标注数据上,目前三个系统的语音识别率如下表所示(结果为 MER%,中文算字错误,英文算词错误)。

WenetSpeech 2.0

虽然 WenetSpeech 将开源中文语音识别训练数据规模提升到一个新的高度,然而希望进一步进行扩展和完善:

1.从领域角度,现有数据集在口音、中英文混合、会议、远场、教育、电话、语音助手等场景仍覆盖不足。

2.从数据量角度,现有的2万+小时的总数据,对于无监督学习仍然远远不够。

因此,WenetSpeech 在设计之初,就考虑到了未来做进一步扩展。目前出门问问已经开始 WenetSpeech 2.0 的工作,并且在 2.0 中,希望更多的行业机构和开发者能参与进来,能够集行业之力更好、更快地去做一个更大更泛化的数据集,从而进一步反哺和造福整个行业。

看完文章,还可以扫描下面的二维码下载快手极速版领4元红包

快手极速版二维码

快手极速版新人见面礼

除了扫码领红包之外,大家还可以在快手极速版做签到,看视频,做任务,参与抽奖,邀请好友赚钱)。

邀请两个好友奖最高196元,如下图所示:

快手极速版邀请好友奖励

扫描二维码推送至手机访问。

版权声明:本文由34楼发布,如需转载请注明出处。

本文链接:https://www.34l.com/post/16322.html

分享给朋友:

相关文章

零成本创业项目,2020年就做这个最赚钱

零成本创业项目,2020年就做这个最赚钱

一场肺炎冠状病毒,让很多人没有了欲望,除了能活下去。曾经繁华的商业街,现在空无一人, 曾经热闹的小吃店,现在大门紧锁。那么,在这个时候还可以创业吗?当然是可以的。今天小编就给大家推荐一个适合零成本创业的项目,这个项目是玩手游赚钱。从现在开…

最傻的六种员工离职理由,希望你不是其中一员

最傻的六种员工离职理由,希望你不是其中一员

春节后,今年的中国员工离职率应该是最低的。但是职场上,还是会有很多员工提离职。离职原因各种各样, 不开心,不舒服,工资少,学不到东西等等。那么,最傻的六种员工离职是哪些呢?…

董明珠还需要几个网红?

董明珠还需要几个网红?

编者按:本文来自科技新知,创业邦经授权发布。 作者丨李哩哩 编辑丨月见 一个网红,就是一个渠道。八个网红,就是八个渠道。 董明珠应该进一步向罗永浩看齐。 12月1日,交个朋友直播间发布了名为“交个朋友宇宙”的文章,文章介绍罗永浩“交…

火了12年,“假洋鬼子”终于翻车了

火了12年,“假洋鬼子”终于翻车了

图源:摄图网 编者按:本文来自微信公众号格隆汇财经热点(ID:glh_finance),作者:万连山,创业邦经授权转载 你肯定看到过这样一幅广告:一个与乔布斯颇有几分相似的神秘洋老头,戴着金丝眼镜,有时叼着烟斗,有时没有,出现在各大高铁站和…

联想之鉴,大厂“芯”领神会

联想之鉴,大厂“芯”领神会

编者按:本文转自光子星球,作者文烨豪,编辑吴先之,创业邦经授权转载。 近日,阿里云宣布,达摩院成功研发出存算一体芯片。腾讯造芯的波澜还未平复,阿里便再次出招,造芯似乎成为了互联网巨头们的新常态。 就拿2021年来说,百度宣布昆仑2芯片量产,…