本文转载自:科大讯飞
翻开时代的书页,2012-2022,这是科技进步、令科研人无比振奋的十年。
这十年,我国成功进入创新型国家行列,科技创新实力从量的积累迈向质的飞跃,从点的突破迈向系统能力提升。
这十年,对于“人工智能国家队”之一的科大讯飞而言,也是在“顶天立地”信仰下乘风破浪、不断进阶的创新十年。

这十年:从中文到多语种
十年间,我们让智能语音技术优势从中文扩展到多语种,代表中国在多语种等“卡脖子”技术方面取得重大突破。
十年前,深度学习技术在多个人工智能的技术领域快速发展和延伸,层出不穷的模型结构和相关算法被提出。
这些AI技术的快速进步、结合大量数据和算力的升级迭代,也将不少原本停留在演示阶段的AI能力在实际场景中的效果快速提升并实用化,逐步实现对更多行业的有效赋能——
彼时,我们成功让中文语音合成世界首次超过普通人水平,达到可实用门槛;
由此推出的“讯飞输入法”,也逐渐获得用户的关注与认可。

我们离创业时立下的“让机器能听会说、用人工智能建设美好世界”使命,又近了一步,但仅是中英文这样大语种的突破,远不够。
在过去相当长的时间里,多语种智能语音技术的密钥一直掌握在谷歌、微软等一众科技巨头手中,多语种合成难度比中英文合成大得多。
在这样的背景下,科大讯飞勇担重任,为了实现多语言人机交互与人类语言互通,我们的源头核心技术创新一刻也不敢松懈。
十年如一日,坚守换来回响。
在去年由美国国家标准与技术研究院组织的全球15个语种的国际语音识别大赛OpenASR中,既有中文、英文这样的大语种,也有阿拉伯语等小语种。科大讯飞参加了所有15个语种的22项比赛,全部取得第一。

“目前,我们的语音识别、合成能力已达实际商用水平,有效解决国内多语种智能语音技术‘卡脖子’难题,为‘中国制造’出海产品提供自主可控解决方案。”90后江苏姑娘、来自科大讯飞上海人工智能研究院多语种合成团队的高丽介绍道。
现在,我们已成功做到语音识别首次超过最好的速记员水平,语音技术的优势也从中文领域扩展到了全球69个语种,覆盖的国家和地区超过200个。
而语音,也正走入千家万户,成为重要的人机交互方式。在当前“人机物”三元融合的新时代,每天有1.3亿人次使用“讯飞输入法”,讯飞为产业伙伴开放的多语种技术在2021年的调用总量突破100亿次。
基于在深度学习领域的技术先发优势以及大数据迭代的“涟漪效应”优势,科大讯飞在技术领域保持创新引领并持续迭代,也应用于语音合成、评测、交互、自然语言理解、图文识别、虚拟人等其他技术方向。

这十年:从感知智能到认知智能
十年间,从能听会说到能理解会思考,我们让人工智能在建设美好世界的道路上有了越来越强大的能力,认知智能持续推动机器“大脑”进化。
2012年,我们正式宣布,讯飞的使命从“让机器能听会说”,进一步延伸到了“让机器能听会说、能理解会思考”。
在用人工智能建设美好世界的道路上,这是感知智能到认知智能领域的进阶。由此,我们组建了科大讯飞认知智能国家重点实验室创新团队。
科大讯飞AI研究院副院长、今年31岁的刘权担任认知智能国家重点实验室人机交互研究室主任。
刘权说,科技创新没有捷径,核心技术自主攻关必须要围绕“顶天、立地”的思路扎实做好技术创新研究及产业化,同时要有勇闯“无人区”的决心。
多年来,团队在认知智能领域不断攻坚克难,在关键前沿技术领域持续刷新多项世界纪录,同时在教育、医疗、人机交互、翻译等重大需求领域持续引领技术及产业创新。
2020年,团队荣获第24届中国青年五四奖章(集体)——这是共青团中央、全国青联授予中国优秀青年的最高荣誉。

在机器阅读理解的顶尖比赛、由斯坦福大学牵头举办的SQuAD比赛中,我们让机器阅读理解水平首次超过人类平均水平,这意味着机器可以在越来越多的领域帮助人类完成工作。
机器可以成为全科医生助手。我们研发的机器人“智医助理”,在2017年全球首次通过了国家执业医师资格考试笔试,超过96.3%的人类考生,也成为全球首个通过医考的机器人。现已在全国30余个省份开展实际应用,有效提升基层医疗服务能力,参与驰援疫情防控、帮助工作人员减负增效。

机器可以成为口袋翻译官。我们让机器通过了国家翻译师资格考试的技术认证,在今年举办的北京2022年冬奥会与冬残奥会上,作为官方自动语音转换与翻译独家供应商,我们的翻译机受到各国运动员的欢迎,也让残障人士看见声音、听见文字,实现了赛场内外的沟通交流无障碍。

让信息技术促进国际互联互通与社会公平,我们正与中国移动共同打造人类首个无障碍通信平台,不用下载任何软件,通过底层软交换与硬件架构即可实现全世界自由交流,推动人类命运共同体进程。
对人类社会有价值的技术,才是真正意义上的创新。
今年初,科大讯飞正式启动“讯飞超脑2030计划”,构建人机协作自我进化的复杂智能系统,让机器全方面感知人和环境,懂各行各业知识,有通识和情感,能灵活运动,会多维表达,让机器人进入每一个家庭。
“从单语种单场景到多语种多场景、从单模态智能到多模态智能、从算法创新到软硬一体化创新的拓展。”科大讯飞研究院执行院长刘聪,这样总结十余年来讯飞研究院的技术进阶。

这十年:从技术创新到开放生态
这十年,从仅开放2项技术到开放510项AI能力,这是科大讯飞构建AI开发者生态、技术生态全方位探索布局的十年。
2010年,科大讯飞开放自己的资源和语音合成、识别能力,发布“科大讯飞语音云”,也就是现在的“讯飞开放平台”,并于2017年通过科技部认定,成为“智能语音新一代人工智能开放创新平台”。
十余年成长,讯飞不断拓展开放的能力与解决方案。从最初的2项通用能力,到现在开放510项AI产品及能力,聚集358万开发者团队,应用覆盖终端设备数超36亿,以科大讯飞为中心的人工智能产业生态持续构建。

用技术点燃产业火把,AI在服务于产业升级的同时,也在像水和电一样影响着人民群众的日常生活。
2015年,开发者李黎明基于“老IT人”的技术信仰和对快递行业的洞察,开发了一款快递自动通知App云喇叭。这个帮助快递员语音电话+短信通知的软件,现已累计为全国超过2.7亿手机号用户提供超30亿的快递外卖通知服务。“把技术应用在老百姓的衣食住行当中,是中国最大的发展方向。”李黎明说。

数据显示,连续10年以上调用讯飞开放平台AI技术的开发者团队与企业不在少数,涉及机器人、阅读、日常及办公管理、公共交通与出行、服务等行业领域。越来越多的开发者看到了人工智能的大未来,他们在创业之路上坚持、坚韧、坚守,在社会刚需命题下用行动深刻影响、塑造这时代。
独木不成林,生态才永生。坚持源头创新保持引领,开放先进技术共建生态,我们相信,生态的繁荣,决定了人工智能未来产业的全球竞争格局。
这里的人工智能生态欣欣向荣蓬勃向上,年轻的创业者们正在开启改变世界的伟大历程。

高丽说,“我们要有信心、有勇气代表国家的最高科技实力,参与国际竞争。”
刘权说,“投身科研这十年,实打实地感受到国家营造的创新体制和氛围越来越好。”
一代人有一代人的奋斗,一个时代有一个时代的担当。
在“顶天立地”的信仰坚持下,过去十年,科大讯飞通过源头技术创新,牢牢抓住科技命脉,彻底扭转了中文语音产业由国外巨头控制的竞争格局,让人工智能落地应用场景,在教育、医疗、城市、工业等社会刚需行业遍地开花。
我们也深切体会到,今天我们比以往任何时候都需要源头技术创新,否则我们所有的创新努力,都将是在别人的院子里建大楼。
只有源于热爱的初心,才能在创新的道路上长期坚守;只有把核心源头技术掌握在自己手里,才能真正实现科技自立自强;只有开放科技成果共建繁荣生态,才能与更多奋斗者一起听见科技花开的声音。
就像种子需要经历黑暗土壤中的孕育和发芽,不断沐风栉雨,最后才能一年又一年开花结果。
十年间,我们也亲历了一颗又一颗种子的从孕育到怒放。
从当初一颗语音合成的技术种子,到突破多语种关键核心技术“卡脖子”;从当初一颗能听会说的梦想种子,到人工智能走入千家万户解决社会刚需;从当初一颗研究攻关的创新种子,到开放生态与百万开发者一同建设美好世界。
这是科技创新最好的时代。
这十年,我们与中国科技一起“讯飞”。
面向未来,我们不忘热爱,坚定前行。
*文中数据来源于实际应用