百度输入法颠覆性新模型上线,改变数十年行业旧思维大幅提升识别率

1月17日,百度输入法在北京隆重举办“AI输入,开启全感官输入时代”发布会。会上百度面向行业和用户分享了语音技术的最新突破“深度尖峰技术Deep Peak 2 模型”,并发布了应用该技术的百度输入法全新v8.0版本。当输入法加持“黑科技”,百度率先开启了AI输入时代,让机器能更容易地理解用户的表达。

当百度输入法遇到黑科技

发布会上,百度副总裁,AI技术平台体系(AIG)总负责人王海峰王海峰为大会致辞,并表示“8年前百度就开始布局人工智能,如今我们不仅把最先进的AI技术应用到输入法等产品中,更把技术开放出来给合作伙伴和开发者,一起共享这个AI时代。”他说,“输入法是百度AI技术的桥头堡,未来我们将用更多人工智能技术打造AI输入,让输入法更懂你的表达,让AI真正改变人们的生活。”

此次发布会的最大亮点,就是百度语音技术部总监高亮带来的“深度尖峰技术Deep Peak 2 模型”。高亮就这一重大突破向大家进行了详细的介绍,Deep Peak 2 模型的全称为基于 LSTM 和 CTC 的上下文无关音素组合建模,该技术将高频出现的音素联合在一起,形成一个音素组合体,然后将这个音素组合体看作一个基本建模单元。与以往使用的上下文相关建模方式相比,Deep Peak 2 模型能够充分发挥神经网络模型的参数优势,对多种说话方式的稳定性更强、准确度更高;同时能够带来更快的解码速度,提升语音识别的整体效率,目前其相对正确率已领先行业20%。“这种建模对中文和英文都同时适用,让产品具备了更强大的中英文混合识别能力,是语音识别工业历史上巨大的技术进步。”该技术继成功在百度输入法上线后,后续还将广泛应用在百度所有语音相关产品中。

机器从此将更懂你的表达

对于广大用户来说,优秀的语音识别体验在于“更快的识别”和“更准确的辨别”。著名主持人华少在现场进行了语音识别速度挑战,58秒426字的花式口播被完整、准确的识别出来,其技术的识别速度和准确度令人叹为观止。

百度是中国最早通过深度学习技术在语音识别领域取得突破的公司。早在2012年,百度就率先上线了基于 DNN 的语音识别模型,此后随着技术的不断迭代,每一年都有新的语音识别技术上线,到如今语音识别的准确率和及时性都堪称业界第一,极大提升了用户在使用百度产品时的语音输入体验。

此次Deep Peak 2 模型采用的上下文无关建模方式看似简单,但其背后的技术难度却非常人所能感知。国际上也曾有过类似的建模方式,但却无法避免建模时出现的过拟合问题,百度通过声学模型学习和语言信息学习相分离的特殊训练方法,使用音素组合来保留最重要的音素连接特性,最终成功解决了建模时的过拟合问题。使用百度最新的上下文无关建模方式,建模单元从原先的上万量级降到了一千以内,大幅提升了语音解码的速度,也是百度输入法语音输入能做到实时同步的关键所在。

人工智能可以让机器学习、思考并像人类一样做出判断,在这个机制运行的过程中,首先需要机器可以“听懂人话”。因此,当人工智能技术成功将输入法这一传统工具转型成为“AI输入”这一全新的人机交互模式时,每一个普通用户都能感受到AI带来的巨大能量,都将体验到前所未有的全感官输入。

———————————————————

免责声明:

1.本文援引自互联网,旨在传递更多网络信息,仅代表作者本人观点,与本网站无关。

2.本文仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

发表评论
你可能也喜欢