当前位置:首页 > 谈天说地

中文语音识别(离线语音识别sdk)

34资源网2022-05-27507

日前,中国领先的人工智能公司出门问问与西北工业大学音频语音和语言处理研究组(ASLP Lab)、希尔贝壳联合发布1万小时多领域中文语音识别数据集 WenetSpeech,在腾讯会议天籁实验室、华为昇思 MindSpore、 西安未来人工智能计算中心等机构大力支持下,该数据集目前已经开放下载。

WenetSpeech 介绍

近十年以来,在深度学习的推动下,语音识别技术和应用均取得了突飞猛进的发展,搭载语音识别技术的相关产品和服务,诸如语音搜索、语音输入法、智能音箱、智能电视、智能穿戴、智能客服、机器人等已经广泛应用到我们生活的方方面面。但在现有的中文语音识别研究中,由于开源中文语音数据集数据量少,场景单一,缺乏挑战,不能反映研究模型在大数据量和复杂场景下的泛化能力,例如,当前的中文普通话开源数据集 AIShell-2,包含1000小时的朗读风格录制数据,主流识别系统在该数据的测试集上获得的错误率低至5.3%左右。工业界往往使用更大规模的内部数据进行研究,而学术界无法获取这些数据进行研究,这导致了中文语音识别研究在学术界和工业界的严重割裂。另一方面,当下研究的热点无监督学习和自学习,在中文语音识别领域,也缺乏公开标准的大数据集的支持。

今年以来,Facebook 发布面向监督学习的5万小时的英文 audiobook 数据集 Multilingual LibriSpeech;SpeechColab 发布1万小时的多领域英文数据集 GigaSpeech。受这些工作的启发,同时中文语音识别研究也迫切需要一个标准的大规模多领域的数据集,为此出门问问与西北工业大学音频语音和语言处理研究组(ASLP Lab)、希尔贝壳设计开发了 WenetSpeech 数据集。

WenetSpeech 除了含有 10000+ 小时的高质量标注数据之外,还包括2400+ 小时弱标注数据和 22400+ 小时的总音频,覆盖各种互联网音、噪声背景条件、讲话方式,来源领域包括有声书、解说、纪录片、电视剧、访谈、新闻、朗读、演讲、综艺和其他等10大场景,领域详细统计数据如下图所示。

数据收集

WenetSpeech 所有的数据均来源于网络,其中三分之二的数据来自 Youtube,三分之一来自 Podcast。

对于 Youtube 数据,我们人工选择含有嵌入式硬字幕(字幕嵌入在流中,非外挂字幕)的资源,并构建了如下图的基于 OCR 的系统进行数据挖掘,流程如下:

1.文本检测,在当前帧上进行文本检测。

2.字幕位置校验,判断检测到的文本区域是否为合法的字幕区域。

3.字幕切换检测,已得到字幕位置和区域,在连续的帧上对该区域进行检测,直至该区域的字幕变化为止,得到字幕的起始和结束时间。

4.文本识别,将字幕区域进行 OCR 识别,得到文本。

5.将3中对应时间的音频提取出来,结合4中的文本,即得到字幕文本和该文本对应的音频,也就是语音识别训练中所需的文本和语音的候选平行数据。

下图中给出该 OCR 系统在不同场景下的几个典型示例。图中绿色的框为检测到的所有文字区域,红色的框为判定为字幕的文字区域,红色框上方的文本为 OCR 的识别结果。 可以看到,该系统正确的判定了字幕区域,并准确的识别了字幕文本,同时经过我们测试,发现该系统也可以准确判定字幕的起始和结束时间。

对于 Podcast 数据,WeNet使用国内的商业语音识别系统之一,对 Podcast 数据进行切分,并生成切分后音频和其所对应的文本作为候选平行数据。

数据校验

OCR 字幕识别和 ASR 语音转写生成的候选平行数据中不可避免的存在一些错误,如人工字幕本身有错误,字幕时间不准,OCR 识别错误,转写错误等。为了检测该错误,WenetSpeech 中提出一种基于端到端的自动标注错误检测算法,如下图所示。该算法首先根据候选平行数据的文本(ref)构建一个一个强制对齐图,该图中允许在任意位置进行删除、插入和替换操作。然后将候选平行数据的语音输入到该图进行解码得到识别结果(hyp),终计算 ref 和 hyp 的编辑距离并做归一化从而得到该候选平行数据的置信度。当候选语音和文本一致高时,ref 和 hyp 一致高,置信度高,反之,当候选语音和文本一致低时,置信度低。

WenetSpeech 中选取置信度>=95%的数据作为高质量标注数据,选取置信度在0.6和0.95之间的数据作为弱监督数据。关于该算法的详细内容,请参考我们的论文。

排行榜

除了训练中校验用途的 Dev 集外,还设计了两个人工精标测试集,互联网测试集 Test_Net 和会议测试集 Test_Meeting,作为“匹配”和“不匹配”测试,同时提供三个语音识别主流工具包(Kaldi,ESPNet,WeNet)上搭建的基线系统,方便使用者复现。在 10000+ 小时的高质量标注数据上,目前三个系统的语音识别率如下表所示(结果为 MER%,中文算字错误,英文算词错误)。

WenetSpeech 2.0

虽然 WenetSpeech 将开源中文语音识别训练数据规模提升到一个新的高度,然而希望进一步进行扩展和完善:

1.从领域角度,现有数据集在口音、中英文混合、会议、远场、教育、电话、语音助手等场景仍覆盖不足。

2.从数据量角度,现有的2万+小时的总数据,对于无监督学习仍然远远不够。

因此,WenetSpeech 在设计之初,就考虑到了未来做进一步扩展。目前出门问问已经开始 WenetSpeech 2.0 的工作,并且在 2.0 中,希望更多的行业机构和开发者能参与进来,能够集行业之力更好、更快地去做一个更大更泛化的数据集,从而进一步反哺和造福整个行业。

看完文章,还可以扫描下面的二维码下载快手极速版领4元红包

快手极速版二维码

快手极速版新人见面礼

除了扫码领红包之外,大家还可以在快手极速版做签到,看视频,做任务,参与抽奖,邀请好友赚钱)。

邀请两个好友奖最高196元,如下图所示:

快手极速版邀请好友奖励

扫描二维码推送至手机访问。

版权声明:本文由34楼发布,如需转载请注明出处。

本文链接:https://www.34l.com/post/16322.html

分享给朋友:

相关文章

好文分享,一辈子很短,别懂得太晚!

好文分享,一辈子很短,别懂得太晚!

曾经以为,人是慢慢长大的,后来才知道,人是一瞬间成长的;曾经也以为,人是渐渐变老的,后来才知道,人是一瞬间衰老的。…

圣诞节送女生什么礼物好?送女朋友比较合适的礼物分享

圣诞节送女生什么礼物好?送女朋友比较合适的礼物分享

圣诞节送女生什么礼物好?可以送口红、围巾、衣服、化妆品、暖手宝等。有些人还会亲自动手为女朋友做一些创意小礼物,这样就更加贴心了,如果你有女朋友,不知道该送什么好的话,下面小编为大家推荐几种可以送女朋友的礼物,好好看下吧。…

逍遥手机模拟器怎么用(逍遥安卓模拟器详细使用教程)

逍遥手机模拟器怎么用(逍遥安卓模拟器详细使用教程)

真正的5V5公平竞技对战,传承端游纯正体验。人气英雄,经典还原;公平竞技,实力至上;峡谷传说,掌心再现。策略、战术、意识、配合,在移动端重现峡谷战场乐趣。 为了庆祝大家期待已久的中国区开服,官方也带来了五大福利活动,用户可免费参与,并获得十…

软件解压后怎么安装(手机解压软件app免费软件)

软件解压后怎么安装(手机解压软件app免费软件)

在PC端宅男、极客们会碰到需要解压缩文件的情况,这个时候大多会用到360压缩或者好压等第三方软件,然而到了移动手机端,由于自带的文件管理器大多不支持输入密码解压缩等复杂操作,让不少人对于手机解压缩文件失望,但是有时候电脑不在身边,又不得不在…

联想之鉴,大厂“芯”领神会

联想之鉴,大厂“芯”领神会

编者按:本文转自光子星球,作者文烨豪,编辑吴先之,创业邦经授权转载。 近日,阿里云宣布,达摩院成功研发出存算一体芯片。腾讯造芯的波澜还未平复,阿里便再次出招,造芯似乎成为了互联网巨头们的新常态。 就拿2021年来说,百度宣布昆仑2芯片量产,…

gta5画面设置1060最新(gta5超低配流畅设置)

gta5画面设置1060最新(gta5超低配流畅设置)

《GTA5》这款游戏需要的配置要求并不高,而且优化非常好,不需要太高的配置就可以高画质流畅运行,而配置比较低的话就需要一些调整画质减轻模糊程度的方法了,首先是把画质全部调最高,更多如下。 gta5怎么调画质 首先要画质好先把全部调最高,然…