×

登录 是一种态度

logo
手机
访问
公众
账号
󰀳 返回
顶部

专访奇点机智林德康:如何让手机助手不再鸡肋?

核心提示:本期对话嘉宾为奇点机智联合创始人兼CTO林德康,作为在Google工作了12年的科学家,他为何要归国创业,为何要创造一款与Siri等主流语音助手完全不同思维逻辑的产品?又如何看待智能语音市场的发展?

人物观点:

观点一:目前手机语音助手之所以成为鸡肋,就是因为传统的CUI(人机对话界面)扩展功能缓慢、需要冗长的业务谈判来整合第三方API、用户必须放弃现有的应用来使用新的UX,这也是Siri在五年以上还没有成为一个新UI的原因。

观点二:从媒体和投资的角度,智能音箱、智能机器人、智能车载等产品可能很火,但它们目前覆盖的用户是在太小了,全加起来还不及手机的1%。即使在语音交互时代,也没有人想使用手机之外的另一套系统,人们需要的是手机与其他场景的无缝连接。

“全世界智能音箱产品加起来,也不及手机出货量的1%。”

在林德康看来,智能音箱、智能机器人、智能车载产品,不管从媒体、投资的角度有多么火,其覆盖用户及使用频次在手机面前也可以忽略不计。

初聊几句,作为技术人的林德康并不是非常健谈,但能感觉到他在业内足够务实的心态。

虽然鲜被中国用户所知,但林德康确是自然语言理解领域的大牛人物。将近20年的海外学术研究生涯中,林德康在自己的领域发表了90余篇论文,研究总计被引用超15000次。这也使他成为全球计算语言学领域最具影响力的学术组织——国际计算语言学学会会士(ACL Fellow),还曾任ACL2002程序委员会联合主席、ACL2011大会主席、ACL2007北美分会执行委员。

回国之前,林德康已经在Google工作了12年,他作为Google研究院高级管理科学家,也是Google搜索问答系统的创始人和技术负责人。

2016年4月,林德康回国创业加入奇点机智,任联合创始人兼CTO。在回国以后的一年多中,林德康带领创业技术团队开发了一款完全不同于Siri等主流语音助手的产品。

为什么Siri们都是鸡肋?新思路是什么

有人说,以手机为代表的触摸操作时代将结束,以亚马逊Alexa和Echo音箱为代表的新的语音交互时代将到来,会变成一个完全革新的时代。

但事实真的是这样吗?

几年前,以苹果Siri为代表的语音交互产品层出不穷,但语音识别的不准确、语义理解不顺畅、以及粗浅无聊应用场景让手机上的语音助手变成了鸡肋。喧嚣之后,第三方语音助手转型,只留下手机厂商作为一个噱头保留。

由于亚马逊Echo的火热,语音技术公司纷纷效仿推出音箱、家居、机器人、车载等产品的解决方案。语音技术也被各大巨头们视为下一代交互方式。

但就在这种市场情况下,林德康带领的奇点机智技术团队全力研发出一款手机语音助手——小不点。

经过实测,笔者只要下载APP,通过对话的方式即可操控手机应用中的各项功能。如说一句“打开微信给XX发个10元红包”,手机就会自动跳转到微信搜索到XX好友并打开发红包填入10元,如果是人用触摸操作的话,大概需要找到微信、打开微信、搜索并找到好友、点击进入会话界面、点击发红包、输入红包金额等七八步操作,而用小不点只需要一句话。

在比如用“滴滴打快车从北京大学去首都机场,”只需要这一句话,就可以实现打车操作,用手指触摸操作起码要六七步。类似的例子还有很多。

神奇的是,实现这些操作,并不需要接入第三方API和APP的底层,甚至不需要任何接口,奇点机智的“小不点”以一种及其简便的方式实现了繁杂的语音替换触摸操作。

在林德康看来,目前语音助手之所以成为鸡肋,就是因为很多手机语音助手都是基于自己的对话框开发的,牢牢把持着入口,很多应用只能作为后台服务接入,目前接入都是手机上自带的一些应用,比如设闹钟、连接WiFi、屏幕旋转这些功能。林德康表示,开发者肯定不想做俘虏,长期来看,微信、淘宝、京东这样的APP肯定不想将流量入口让位给Siri。就算是目前做的最好的亚马逊Alexa平台,在接入的技能上也非常浅层功能,纯粹是开发者们的尝试。

也就是说,“小不点”能够深入应用底层,通过语音指令实现对手机内APP应用的操控,让我们看到解决手机语音助手实用性问题的新思路与新方法。

技术原理:从CUI到VGUI,将语音"翻译"成触摸

林德康向网易智能介绍了这一技术的原理,即利用Android系统上的Feature辅助功能,将语音“翻译”成触摸操作,这样屏幕上的每个地方都会对应一个程序事件,把一系列的动作组合起来,就可以完成一件事情。“我们并不是接后台的服务,而是接前端的操作。”林德康认为,手机助手是应该像一个中介,它的任务是找到一个帮用户做事情的APP。“手机助手不可能是一个既懂得很宽,又懂得很深的程序。”

据林德康表述,奇点机智给自己设立的一个很简单的目标,就是链接人类对手机的需求和手机应用里的各项功能。为了实现这个目标,林德康提出了一套新的语音交互界面VGUI(声音图形界面)。

在林德康看来,传统的CUI(人机对话界面)在普及上有很大的问题,包括扩展功能非常缓慢、需要冗长的业务谈判来整合第三方API、人们必须说服终端用户放弃他们现有的应用来使用新的UX,“这就是Siri在5年以上还没有成为一个新的UI的原因。”林德康表示。

VGUI是在现有的应用程序之上添加会话界面,技能引擎通过Android辅助功能将语音命令转换成一系列GUI操作(例如,点击和滑动),任何人(包括最终用户)都可以通过语音命令即可直接访问任何功能,甚至通过配置命令创建新的基于VGUI的技能。

林德康表示,通过“小不点”,用户可以利用声音操作他们喜爱的移动应用程序,而不是使用自上向下的树形菜单在屏幕上进行一系列的点击操作。这样的好处,一是不会将用户局限在语音助手的对话框里;二是用语音代替用户手指点击界面,绕开了语音助手对接应用程序API接口时所遇到的商务拓展难题。在林德康看来,这是图形界面与语音交互界面的最有效的融合。

值得注意的是,“小不点”没有设置自己的账户,让用户体验极致简便,只要安装就可以使用。林德康称,目前,小不点已经学会了对200多款应用程序进行控制操作。林德康表示,小不点”不会干扰任何手机和APP账户,只是模仿用户的点击、滑动等触摸操作,将其变成语音指令。“我们目前更看重的是需要更多的用户进来,提供更多的数据训练。”

打造应用内的语音助手以及开发者平台

即便可以通过VGUI悄无声息的实现对应用程序的语音控制,但如果APP的UI界面有所更新变动,小不点仍需重新录制动作执行路径,以便给用户更好的体验。

其实,小不点只是奇点机智VGUI的一个雏形,它的下一步,是要做应用内助手以及开发者平台。

林德康表示,如果小不点可以调用第三方API,就可以用语音控制直接到达用户想要的界面,不用再走几个屏幕即可完成操作。因此,奇点机智正在将“小不点”拓展成为APP内的应用助手。“与APP厂商合作,我们就可以调用深度链接,覆盖更高频的应用。”林德康称,未来要把“小不点”打造成为一套完整并专注于用户体验的解决方案。

另外,基于“小不点”的自主学习,用户可自己录制功能实现的路径,而且门槛极低。这也就意味着,“小不点”的语音控制可以提供给普通用户,也可以提供给硬件集成商和应用开发者。

这就是奇点机智即将在几周内要推出的语音技能平台和SDK。林德康表示,之所以做开发者平台,是因为看到了很多人的需求,但单凭奇点机智自己的力量覆盖的应用有限,而且语音在这个应用里能做什么事情,还是它的开发者自己最了解。

和目前市场主流语音技能平台完全不同,奇点机智的语音技能平台是为APP应用的开发者、运营者、产品者共同提供的语音开放平台,无需编码和开放第三方应用API,避免技术对接及调适难题,小白人员也可轻松上手使用,无技术门槛。

不仅提供可视化语音技能创建方式,积木式编辑操作,5分钟即可快速发布技能,还可自定义语义逻辑和内容,即创建意图、添加用户提问语料、为语义槽配置实体资源,可无限拓展技能数量。

关于当下语音产品发展:手机还是核心,其他场景可无缝连接

奇点机智有自己的语音识别、语义理解技术,为什么没有像其他语音技术厂商进军智能音箱、智能家居、智能车载和智能机器人等火热领域?”

面对这个问题,林德康务实的回答到,“从媒体和投资的角度,这些产品可能很火,但是它们目前覆盖的用户是在太小了,不及手机的1%。在林德康看来,手机在相当长的一段时间内,还是最大的用户终端产品,即使在语音交互时代,手机和人的绑定也是很紧的,就算是智能车载、智能家居产品,也应该是以手机为中心连接,“没有人想使用手机之外的另一套系统,人们需要的是手机与其他场景的无缝连接。”林德康说到。

从另一个角度讲,林德康认为,即使未来手机成为过去不再流行,不管是什么样的语音交互设备,到了意图识别这一步都是一样的,目前他们只要做好技术,未来接入任何设备都不会差距很大。

据林德康透露,奇点机智目前有30多人的团队,已经完成了天使轮、A轮的融资。

面对AI市场的竞争,林德康表示,不管这个市场变化,设计出让终端用户满意的产品,这是所有AI创业公司的一个坎。“单纯的语音商业化很难,需要把事情做完并且对终端用户有用才会有人买账。”林德康说到。

0