史上最强的语音输入法诞生,百度是如何做到的

  • 时间:
  • 浏览:2
  • 来源:大发uu快3_uu快3猜大小诀窍_大发uu快3猜大小诀窍

图片版权所属:站长之家

本文来自微信公众号“科技唆麻”(ID:techsuoma);查看原文(转载),请点击“稿源:科技唆麻”。

文| 科技唆麻

那我是史上最强的输入法终于要来了。

在昨天,百度输入法“AI·新输入 全感官输入2.0”发布会上。百度输入法正式对外发布了最新杀手锏——AI探索版输入法。

你你这些 输入法基本上颠覆了外界的想象。

作为百度眼中 AI 落地的“桥头堡”,百度输入法AI探索版默认将全语音作为默认输入办法,并在充裕输入办法上大开脑洞,围绕表情、肢体等为用户提供了全感官的输入体验。

在发布会现场,台上是嘉宾的演讲,大屏幕的右侧则是百度输入法的实时同步,我注意到,即便是其他英文单词,能能识别出来。

简单来说,你你这些 输入法的特点包括以下几点:默认全语音输入、调动表情、肢体等全感官充裕体验。

比较有意思的是,百度在去年推出过一款默认语音搜索的搜索产品,简单搜索,我当时在文章里就评价道:“谁掌握了语音交互的入口,谁就掌握了比赛的输赢”。

以产品特征的深层看,输入法也堪称“古董”。从 PC 时代的键鼠,到移动互联网时代的触屏,介质突然在变,但输入法产品的基本逻辑并无显著革新,有的是 通过点按字符组成字词,输入下行速率 提升那我顶到天花板。

早已成为一颗参天老树的输入法,如何在 5G、云计算、大数据、AI 技术的浇灌挂接出新芽,那我成为老牌输入法厂商面临的新问题图片。现在看来,百度输入法试图通过AI探索版从“下行速率 ”与“温度”两方面给出答案。

1

AI探索版是如何提升下行速率 的?

聊起输入法,早年接触电脑的亲戚各人一定还对揣着五笔字根图记忆犹新,五笔的高下行速率 甚至一度让“打字员”成为热门行业。但以百度输入法为代表的拼音输入法很快崛起,五笔渐渐成为历史。

身前的逻辑随便说说很简单,五笔终归是一门新手艺,但汉语拼音近乎普及。而颠覆式创新从未停止,语音之于拼音、手写亦是没办法 ,近乎为零的学习成本带来了“上手快一点 ”。

这就太难理解,为什么么会 会 百度的“新芽”是一款全盘押注语音的 AI探索版输入法。

那我说,“上手快一点 ”是语音输入法的共性,没办法 “识别快一点 ”则是百度输入法 AI探索版的个性。

早在移动互联网浪潮兴起时,语音识别准确率就已成为各家产品必争指标。在基于 Attention 模型,纷纷提升到 97% 那我,市场却似乎陷入沉寂。

究其导致 ,过去语音使用的场景集中在聊天、搜索这两大场景,现在那我逐步拓展到了游戏、购物、娱乐等诸多场景,且使用的频率也没办法 高,这就给输入法提出了新的考验。

归根结底,此前的语音输入法随便说说处在两大体验上的痛点。

其一在于流式解码。以谷歌 LAS 为代表的传统 Attention 模型几乎完整基于整句建模。简单来说,用户前要经历一个整句录制完成-上传服务器-建模分析的过程,输入法在其中充当的角色类似翻译APP,用户前要付出不小的时间成本。

其二在于长句识别准确率下降。这不得不提到 Attention 模型的核心逻辑:基于整句全局信息,通过机器学习的办法,选者 出和当前建模单元最匹配的特征。说说越长,进行特征选者 的难度越大。出错的概率越高,错误前后传导的概率也越高。

识别慢,识别不准,使得语音输入突然能能能一步到位,最终成了一个“应急功能”。

针对这两大实打实的痛点,百度创新性地提出了流式多级截断注意力模型SMLTA。

看起来相当硬核,但是 假如有一天稍加拆分就非常容易理解这项新技术的亮点。首先,核心依然是目前主流的 Attention 模型,但截断、流式、多级、基于CTC & Attention 的四大创新点代表了独特的避免思路。

一一对应起来可是:先使用 CTC 算法对连续语音流进行截断,但是 对每一个截断的流式语音数据进行建模,以往的整句建模转变为局部语音段建模,一块儿引入多级 Attention 机制,避免 CTC 插入删除错误对系统的影响,实现特征层层递进的精准特征选者 。

简单来说,将以往的整句“切”成了小段进行实时避免,且通过算法避免了遗弃上下文逻辑导致 的误差。

打比方传统方案,百度输入法的 Attention 模型不仅避免了流式解码的低效问题图片,切分后更小的语音段还有效避免了识别率下降的问题图片。

据百度输入法官方披露,这也是第一次有公开报道局部 Attention 建模,有那我超过全局的 Attention 建模的产品。

流式多级截断注意力模型SMLTA 避免了下行速率 的问题图片,而在提升易用性上,百度输入法还有那我杀手锏——混合输入。

“初代极品身材”papi酱的成名作之一,便是演绎职场和联 活的“上海话+英语”的混合表达。恶搞之于,随便说说也反映了一个问题图片,在全球化大背景下,商业文化的冲击会让口语表达更加不拘泥于一个固定范式。老实说,也的确有好多好多 概念难以在普通话中找到一一对应的词语加以概括。

不得不说,以往的避免方案属于“头痛医头,脚痛医脚”。我知道你粤语?没办法 请在设置中切换粤语模式;我知道你英语?英语模式有的是 。至于普通话+方言+外语,输入法直接歇菜。

百度输入法的想法很直观,让语音输入回归本能。

一方面,百度输入法将普通话和六大方言融合成一个语音识别模型,实现了方言与普通话之间的无差别混合语音输入。

我各人面,得益于多年的海外布局,百度海外输入法那我支持到 120 门语言,为不少国家那我历史导致 造成语言混输习惯的用户提供了更好的体验。

两大优势一叠加,无论是面向国内的百度输入法,还是面向海外的百度海外输入法,都成了各人市场中目前唯一实现高精度混输入的输入法产品。

既然从“识别快一点 ”,聊到百度海外输入法,那就不得不提到它的“布局快一点 ”。

作为输入法,打入国外市场的难度是难以想象的。以传统逻辑,来自目前全世界智能手机综合实力最强的国家,输入法出海最“明智”的办法无非是与厂商企业媒体合作预装,短时间内便能通过这条“大腿”搞定漂亮的装机量。但与此一块儿,也会那我品牌在用户认知中的“隐形”而逐渐丧失竞争力。

显然,百度海外输入法深知其中门道,选者 了不走捷径,可是踏踏实实从用户痛点出发,并深入当地文化语境中。

一方面当然是技术的革新,通但是面 提到的智能语音、智能推荐、智能表情三大功能创新,百度得以在重技术、轻人性化的海外市场很快占领市场。

我各人面,百度输入法将总出 了输入法的边界,将我各人定位为一个创意品牌,与包括 hello kitty、懒蛋蛋、轻松熊、LT DUCK、工作细胞血小板、双子星、格林奇、大黄蜂等在内的知名 IP 跨界企业媒体合作,实现了输入法市场的差异化。

以热衷“萌”系画风的日本为例,有将近九成 10-19 岁老婆为百度日文输入法Simeji 用户,目前日本市场品牌渗透率那我达到 200%。

靠着技术为主,深入文化语境为辅,百度输入法成为了输入法出海的代表。