


中国智能电视出货量已稳居全球第一,但很多人并不知道,大多数中国电视品牌在海外其实没有自主研发的语音助手,主要采用谷歌的Google Assistant、亚马逊的ALEXA以及三星的Bixby。
直到去年,一支来自海信的智能语音团队让中国智能电视第一次有了自己的海外语音助手,填补行业技术空白,目前已经能“听懂”25种外语。海信电视由此成为懂外语数量最多的中国电视。
而这个团队的主干是一位清华大学水利工程博士——朱飞。

一个水利博士跨界做AI
朱飞喜欢干别人没有做过的、有挑战性的工作。
2019年,从清华大学水利工程博士毕业的朱飞放弃当时稳定的工作,选择加入海信,跨界进入智能语音开发领域,原因就是工作内容简单重复,“都是有现成的一些模板或者经验积累下的东西,不需要做太多的创新。我也更希望自己的研究能够在实际的应用当中产生价值。”
算法模型的本质是数学。因为兴趣和爱好,从水利工程跨界AI技术,对于朱飞来说并不算很大的困难,他的自信源于自己在数学方面过硬的专业能力和超强学习能力。
朱飞充分利用业余时间去跟进前沿的一些研究成果,抛却自身高学历的“光环”,遇到不懂的就经常跟同事、前辈积极沟通交流。同时,他每周都会去看一定数量的论文,并把场景能够结合起来的成果,通过写公众号的一种方式,记录下来,作为自己今后施展技术的一个“储备库”。
朱飞很快适应了这份工作,掌握语音算法开发流程,建立起基于业务需求的驱动算法开发优化思维方式。
入职不久后,朱飞便接到了第一份“重任”。为国内电视产品在语音助手基础上延伸开发多模态交互功能。通俗点讲就是用户看电视时,通过语音互动,在电视画面能获知人物相关信息,当时,这在国内电视行业属于首创。
“接到这个任务的时候,我们整个团队其实是非常兴奋的,因为觉得我们在公司的支持下,有可能去实现在业界第一个多模态落地的机会。”身为项目带头人,朱飞每天都会比其他同事更早来到办公室,进行前期上传模型方案的调研,改进性能提升方案,并协调其他团队,最终实现了多模态问答在内销电视场景的落地应用。

懂外语数量最多的中国电视
2020年11月,海信正式启动海外智能语音语义理解开发项目,并且要求半年内上线。
对朱飞和3名队友来说,国外智能语音语义理解系统一切都是从零开始。“感觉压力非常大,因为在此之前,中国智能电视在海外语音助手方面的积累几乎为零。”
如何设计语义理解方案?如何获得语料?如何适应不同语言用户的口语使用习惯……这些都关乎智能语音海外用户的体验和效果,且国内没有成熟的技术参考。对朱飞来说,要突破的首道难关就是语言障碍。
几个月里,朱飞和团队学习各国语言基础知识、熟悉语料,克服语言理解障碍,在海外同事的帮助下,收集丰富的用户训练数据,不断扩展语料。基于第三方语义理解平台对意图设计方案进行不断调整和优化,他们完成了多语言语义理解框架的搭建。不断进行版本迭代,最终实现了符合上线要求的海外智能语音语义理解方案。
2021年5月,海外智能语音在海外正式上线,英语、德语、法语、西班牙、阿拉伯语……目前,海信电视在海外已能“听懂”25种语言,成为懂外语数量最多的中国电视。
保证每一行代码地质量
2021年11月,朱飞和同事们开始了多语言语义理解自主研发之路,致力于打造属于海信自己的海外智能语音语义理解解决方案。
但是自主研发何其艰难,如果每种语言都打造一套方案,势必造成开发工作量巨大,怎么办?经过摸索,朱飞及团队创新性地提出跨语言统一语义理解方案,也就是用一个模型解决所有语言理解的方案。
新的困难又出现了。在自研阿拉伯语语义理解中完全没有任何语料可参考。阿拉伯语不同于其他语言,其口头表达和官方文字表达差别很大,类似于中国古代的文言文和口语,就算1到10的简单数字,语音识别的阿拉伯语文本就有几十种类似表达,且阿拉伯语的阅读顺序是从右向左。
“这些特点,都导致开发难度和工作量是成倍增加的。”但是,朱飞和团队没有妥协,一方面参考文献、不断学习,另一方面请国际营销外派中东地区的同事协助,一点点攻克和测试。最终,他们提前两个月完成阿拉伯语的开发和测试。
“我们要保证我们的工作质量,保证每一行代码的质量,每一条测试数据都必须能够经得起考验。”现在,朱飞越来越坚定一点——不要怕去做别人没有做过的东西。从0到1的过程很煎熬,但是也意味着会拥有更广阔的方向、更远大的机遇。