智能音箱不智能?这家捧走CES双奖的AI公司称:早期产品破坏了人们的期望

  今年 5、6月的科技圈有两个大会,一个是 5 月的 2017 年苹果全球开发者大会(WWDC),另一个则是 6 月的上海CES Asia。

  当WWDC被网友吐槽像硬件发布会时,CES Asia也被汽车厂商们变成了科技车展。如果要在这两个大会中找一个关于技术趋势的最大交集,答案可能是:智能语音的触角正在攻占各种各样的硬件和终端,成为时下最热门的AI技术之一

  这个结论同样来自与咨询公司Ovum。据Ovum估计,到2021年,配备智能语音助手的设备数量将增长至 75 亿以上,这一数字甚至略高于目前的世界人口数量。

  而在众多这样的设备中,和大多数主打个人体验的智能硬件不同,有一种产品更倾向于家庭场景,那就是智能音箱。有人说,它会是VR/AR遇冷后智能硬件的下一波浪潮,有人认为,它是AI载体的一个过渡形态,不过更多人押定的是,它会是智能家居的钥匙和标配,预示着无数生活辅助服务的可能,或许这也是苹果为何将其搭载Siri的智能音箱称为“HomePod”的原因。

  全球各大科技巨头已经推出了他们的智能音箱产品。目前来看,只有亚马逊于3年前推出的Echo经受住了市场的检验,出货规模已达到百万量级。更奇怪的是,Echo称得上“一直被模仿,从未被超越”,就连实力雄厚的谷歌,也花了近两年的时间才推出Home这样的竞品,其市场表现仍有待观察。

  

  在中国,有一家公司被业内认为是最有可能做出能与亚马逊Echo匹敌的智能音箱,而这家公司同时也受到了《福布斯》青睐,入选2017年“全球50家顶级AI初创公司”,并捧走了2016年CES两项大奖——创新产品奖和科技改变生活奖。这家公司就是Rokid,目前估值已达4.5亿美金。和其他AI技术创业公司相比,Rokid选择了一个更小众且风险更高的方向——自主研发语音识别技术和硬件。

  在语音识别技术上,国内的龙头企业是科大讯飞,不过Rokid并不认为,他们与科大讯飞构成直接竞争的关系,相比前者专注于覆盖语音产业链,Rokid更希望打造出能够占领中国市场的智能音箱。而在这一块,中国市场整体仍处于启动期,一方面语音交互还不被用户所习惯,用户使用频次非常低,另一方面,即使是美国三大科技巨头——亚马逊、谷歌、苹果——的产品也仍未涉足中文语音市场。

  

  图丨Rokid的第一代产品Alien

  近日,DeepTech深科技专访了Rokid创始人祝铭明(Misa),在创建Rokid之前,他曾就职于阿里神秘的M工作室,专注于机器学习、语音识别和人像识别等研究,或许从他的回答中我们能判断,智能音箱在中国究竟是不是一个好生意。

  问:很多公司都声称他们通过AI技术对产品进行了很大改善,但是,多数情况是用户并没能体验到其智能的地方,造成这种现象的原因是什么?

  祝铭明:整体来说,人工智能产品并不真正能像人一样聪明,但是,和它们沟通应该接近于用户和人的沟通。目前的情况是,如果你跟机器讨论一些严肃的话题,它的回答是会有所偏离的,也许我们不会觉得它笨,而更倾向于评价它是“比较好玩的”。

  那么,为什么我们会觉得它们还是不够智能?这个不完全是技术的问题,也可能是产品设计的问题,比如说,当它不完全了解它所面对的对象时,我们为它设计了什么样的应对方案,能够让它变得更聪明、更人性化。

  Rokid的产品现在也不能说是和真人一模一样了,但是在聊天过程中,它们能熟悉人类,数据和算法可以让产品变得越来越好,当数据越来越多,机器就可以越来越了解你,给你的反馈也会越来越准确,未来也可以更好地融入更多功能,这是人工智能给产品带来的最大魅力。我们希望把最好用的技术融入到产品中,如果普通用户感觉不到,我们认为,这个技术很可能是符合用户习惯的。使用起来自然,这才是最好的技术

  问:Rokid的产品和亚马逊Echo有什么区别?

  祝铭明:就像生命早期的时候,生物的形态是比较单一且相似的,但是,随着它们发育越来越完整,不同的个体也就有了不同的特征。这个规律同样适用于智能音箱,一个产业的早期,产品的形态会比较相似,随着这个产业越来越成熟,不同的品牌会按照自己的路线来发展,我相信那个时候差别会比较明显。

  

  图丨Rokid的第二代产品Pebble

  和Echo相比,我们在产品思路上是完全不一样的,出发点和最终的方向也会有所不同,但是目前产品还是比较接近的。一般而言,智能音箱产品从功能和造型上来看差距不大,但在用户体验的表现上却可能千差万别。

  我们分三个不同的阶段进行AI产品的规划:Home AI(提供家庭服务的AI产品)、Portable AI(便携式AI产品)和Personal AI(供个人使用的AI产品)。现阶段我们想把这个产品放到用户家庭中,首先是可以与用户进行交流的,能够进行情感上的陪伴,而不仅仅是像Echo一样单纯地执行指令。

  问:Rokid最新产品采用的声纹识别技术将如何提升产品的使用体验?

  祝铭明:声纹识别技术主要还是应用在司法、行政等领域,这应该是该技术首次落地到消费电子产品上。

  在智能家居场景中,声纹识别技术可以帮助智能音箱记忆并识别不同人的声音,结合远场识别技术,在家里任何一个地方它都能够对用户的指令作出反应。目前,Rokid在声纹核心算法等错误率上表现优异,通俗来讲,如果你家里来了100个人的话,它可能会有5个人没认出来,我们也可以理解为,你和它交流100次,它有5次没认出你。这个表现是优于其他一些算法的,也许其他的语音技术也能达到这个成绩,但这个是最好的成绩了。

  另外,声纹识别技术让智能音箱认知不同的人,这意味着它还能拓展出更多的智能服务,已有的功能也可以实现更加细致的定制化,比如基于家庭成员不同喜好的音乐推荐。声纹识别技术同样需要数据支撑,但是这个量并不会很大。如果用户家里购买了一台Rokid,只需要识别几位家庭成员的样本就可以了,当多人下达命令,Rokid会识别出“主人”的命令并优先执行。

  

  图丨Rokid的产品的全方位麦克风阵列

  语音技术里面的个体认知就像智能手机里的触屏一样,将会引发产业的大革命。当然,Rokid的语音交互效果并不仅靠这个技术来支撑,目前我们产品用到的技术具体分成四个方向,包括麦克风阵列的技术、语音识别、自然语言理解以及语音合成技术。这是一个完整的技术链条,完全由我们自主研发。

  问:从中国的市场来看,现在是一个推出智能音箱的好时机吗?

  祝铭明:确实有一部分人对智能音箱这个产品存在一定的质疑,即使他们并没有真正地体验过。我认为,早期推出的一些产品破坏了人们对智能音箱期望,这是其中一个原因,也是一个客观存在的问题。

  所以,现阶段,盈利并不是Rokid的第一目标,而是希望通过产品打开这个市场。我们希望制造更多的机会能让用户亲身体验和接触产品,帮助恢复用户对这个产品的信心和好奇心,让更多的的人接受和习惯这种使用方式,这个是最重要的。

  

  当然,我只能说这个市场还在教育的过程中。就算这样,用户的接受度也已经超乎我们的预期。中国要出现类似亚马逊Echo在美国的市场占有率,估计还需要两年的时间

  其实,硬件产品本身是很难做的,从研发到工程到生产再到市场,每一个环节都需要付出了很多。除了持续的技术更新和产品打磨,目前放在我们眼前最大的困难就是如何开拓市场。这个方向并没有谁做得更为出色。

  我们也在探索如何拓宽这个市场,通过线上线下的活动、协同整个行业甚至是我们的竞争伙伴,大家一起来教育这个市场,这肯定是一个立体的解决方案,我们会尝试很多新方法扩大用户接触产品的面。

  问:在用户群体中,老年人是不是接受度特别低,因为他们会觉得不是在和人交流,是在和机器交流?

  祝铭明:实际情况和我们的预想的正好相反。智能音箱产品的购买者以年轻人(尤其是男性)居多,但使用人群却以老年人和儿童为主。这是一个非常有趣的现象。我想,这可能是因为男性更容易接受和尝试新的产品,当他们把这个产品带回家后,真正使用最多的却是儿童、老人和女性。

  一部分不愿意购买这种产品的人可能会有对个人隐私的顾虑。但是,拿Rokid来说,如果我们不唤醒它,那么它是无法获取任何信息的,它不会有任何的信息来对外沟通,而在处理过程中,用户的所有信息都是加密的,从设备的日常状态、通信到后台的数据处理,我们都做了非常严格的保护。

  问:语音交互会是智能交互的最终形态?

  祝铭明:不一定。2014年,当我还在阿里工作的时候,我认为语音交互会成为几年后的主流,因此我离开阿里开始做这件事情。目前来看,语音交互仍然是最成熟的方式,判断它是不是最终形态仍为时尚早,至少现在它是主流形态,相信接下来不少人会用语音交互去打造他们的产品。

  但是,我们认为未来的产品应该是支持多维互动。目前,我们用语音与产品互动,未来不仅仅是只有语音,还可以有摄像头、手势等,甚至行走这一动作都能产生交互,这种多维交互是很值得期待的。

  还有更有趣的,那就是多屏互动。很多人会问,AI产品发展的未来会是什么样,要不要在音箱上加一块屏幕。我们并不认为,家庭场景里还需要另外一块屏幕,其实让你家里已有的屏幕互动起来就已经足够。比如说手机上推送一条含视频的新闻,我对它说,帮我在电视上放出来,这个视频就会直接在电视上显示。所以,我们认为,多屏互动将会是一个趋势。

-End-

麻省理工科技评论

2017年“全球50大最聪明的公司”榜单发布会

时间:6月27日

地点:北京· 国贸大酒店

报名方式:查看“阅读原文

声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
推荐阅读