吃完了午饭,回到办公室简单休息后,徐良来到了鸿蒙研究院。
鸿蒙研究院占据了望京大厦,现在已经改名‘鸿蒙中心’一半的楼层,人数突破了1300人,不止有国内的顶尖人才,还有从国外高薪聘请的华人精英。
鸿蒙每年有近40亿华夏币砸在鸿蒙研究院里。
目前主要有三大部门。
其一是‘鸿蒙手机系统’。
其二是盘古公司开发的大数据和云计算。
其三便是‘人工智能’。
除了这三大研究方向,还有一些独立的研发部门,比如编程语言、办公软件等等。
三大部门下各有不同的研发方向。
比如‘人工智能’部门下面就有机器翻译、智能语音、图像识别、物体识别,以及更超前的虚拟现实等。
大数据和云计算下面有数据库、数据算法、云平台等。
鸿蒙手机就更多了。
“唐博士,我看你们的工作报告,机器翻译有了很大的突破?”
唐晓鸥笑着点了点头。
“经过大家的努力,机器翻译方面,我们把错误率减少了一半,准确性提高了一倍。”
“因为大数据?”
“是的。因为鸿蒙必应、一号店等提供的海量数据,我们采用了一个六元数据模型,相比之下缺乏数据支持的其它研究团队只能使用三元模型。
一个好的三元模型可以准确的构造英语句子中的短语和简单的句子成分间的搭配,而六元模型则可以构造整个从句和复杂的句子成分之间的搭配。
相当于将这些片段从一种语言到另一种语言直接对译过去,准确性大大提高了。”
看着激动的唐晓鸥,徐良忍不住道。
“唐博士,六元模型和三元模型有什么区别吗?”
“简单的讲,N元模型是考虑N个单词前后的关联,六元模型就是考虑6个单词,目前大家普遍使用的三元模型只考虑3个单词。”
“人工智能研究领域,使用六元模型的多吗?”
“六元模型并不是很新的概念,但如果没有充足的数据支撑,五元或者六元模型的准确率非常差,对翻译没有任何帮助。”
徐良了然。
“我能不能这么理解,如果数据足够多,将来是不是还有七元模型,甚至九元模型。”
“理论上是的,但目前我们还没办法提供如此庞大的数据量。”
徐良点了点头,现在数据量不够,但等到进入移动数据时代后,数据量将几何级别提升。
“徐总,我希望能代表公司参加明年2月份在美国举办的‘美国国家标准与技术研究所’举行的机器翻译测评。”
徐良眉头微皱,“为什么要参加?它具备国际影响力?”
“是的。NIST是机器翻译领域的珠穆朗玛,不论是大学还是公司,只要对机器翻译有一定的研究,都可以参加。
南加州大学、IBM沃森实验室、马里
请收藏:https://m.haidongqing.cc
(温馨提示:请关闭畅读或阅读模式,否则内容无法正常显示)