苹果真正的想法:Siri如何由机器成为人

威锋网

苹果真正的想法:Siri如何由机器成为人

投稿by:TangoDown来源:威锋网 PostTime:2017-09-08 14:41:53

更真实的 Siri


  很快 iOS 11 的正式版就将来到每一位 iOS 用户的手中,新系统带来了大量的新变化,足够人们试玩上很久。即使你已经很长一段时间没碰 Siri 了,到时候也推荐再去试一试。如果你还记得它原来的声音,那么就可能会发现现在的不同。

  很难精确地描述 iOS 11 的 Siri 和过去相比多了哪些东西,你可能就是感觉它听起来好像更加真实了。在说话的时候,Siri 会在句子间加入更多的停顿,更多的长音,更轻快的语调变化。总的来说,它将会比过去更流畅,更像“人”。苹果认为,这样的 Siri 你会更喜欢听它说话,也就更愿意和它说话。

  事实上,苹果对 Siri 语音真实度的执着可能会超出你的想象,因为它在 Siri 语音组主管阿莱克斯·阿赛洛(Alex Acero)的主导下,已经进行了长达数年的研究和优化了。直到 iOS 11 到来,他才终于拿出了满意的成品。“它很自然!一点都不像机器人!”阿赛洛兴奋地评价新 Siri 说。

  当然了,现在距离苹果理想中的“爱上你的虚拟助手”还远得很,但阿赛洛和他的团队认为现在已经前进一大步了。这些研究者坚信,只要 Siri 说话能够更自然流畅,那人们也就会更加信任它,最终接受它。

开始成长


  尽管现在 Siri 表现出了相当的潜力,但谁都不会忘记它在过去的几年里存在感有多低。很多人觉得它已经远远落后于竞争对手。相比之下,亚马逊的 Alexa 有更多开发者支持,而谷歌的 Assistant 则“知识面”广得多。

  对此苹果倒也是满腹委屈的,它表示 Siri 过去的控制权不完全在自己手上,后端技术是由其他合作伙伴提供的。苹果的产品营销高级副总裁格雷格·乔思维亚克则很露骨地说:“这就好像是在赛跑的时候,你知道吗,有人在拖我们的后腿。”

  这个“拖后腿的人”到底是谁,所有的证据都指向 Nuance 公司,虽说双方从来都没承认过存在合作关系。但不管背锅的人是谁,总之苹果对 Siri 确实有“很大的计划”,而且对它的控制力也比以前更强了,这是乔思维亚克承认的。

  接手 Siri 并全权控制它的就是阿莱克斯·阿赛洛带领的团队,这使得它不再依赖过去的算法,而是接纳了更先进的 AI 技术和深度学习理念。Siri 要做到的不再仅仅是识别准确(苹果官方的数据称其语音识别准确度可以达到 95%),它还需要能够在各种声音中无误地识别出用户的声音来,这也才能够在个性化这方面更进一步。

  在这方面 Siri 凭借新的机器学习机制就可以逐渐做到这一点,它获取的数据越多,其建立的模型就会变得更好,更智能,甚至可以识别很重的口音。这一点非常重要,因为有研究者最近发现 Siri 是能够听到人耳听不见的超高频声音的,这就造成了潜在的安全威胁。苹果重视隐私,那就必须要在“区分”上下功夫。

学会说话


  Siri 学会一门新语言的过程很有意思。团队首先会在当地寻找堪称标准的人,然后让他读书、读报纸、读网页,还有各种各样的东西。然后苹果将这些声音和文字一一对齐,更重要的是识别每一个音。Siri 对这些音素的判断,是最有趣的地方。

  在那些已经录制好的音频中,Siri 团队试图找到每一个音所有的说法,比如连读、轻读、重音、长音、升调、降调等等。我们都知道,同一个音表达肯定和表达疑问的时候都可能会有不一样的变化,而这些变化都会有不同的声纹,要让苹果的算法分析之后放进它认为最合适的地方。如果我们把每个音看作一个个点,那么句子就是连成的线。你可能过去会认为 Siri 读的每一句都是预先录好的内容,其实并非如此。

  不同意思的不同句子中相同的词语,如果要表达的东西差别很大,那么这词语中的一切音素都很可能不是来自同一段录音的。

  值得一提的是,Siri 在这方面表现得之所以一直不太理想,处理性能也是一个很重要的因素。几年前的机能水平不足以让系统以很高的频率在一个庞大的数据库中寻找最完美的组合。如今这已经不是问题了,所以阿赛洛开始希望自己能拥有的数据量越庞大越好。所以苹果在 iOS 中推出了听写功能,让人们能够将自己的录制片段上传上去,从而大幅增加数据量。在这样的反复优化和升级中,Siri 对语言的掌握就逐渐被建立起来了。

Siri 完全体


  苹果眼中最理想的“Siri 生活”是什么样的呢?当然是它要尽可能包揽一个人日常生活里的方方面面了。在一则广告里,主角巨石强森用 Siri 检查了提醒事项,叫来了车,查看了天气,以及各种各样的事情。

  有一点非常值得注意,那就是像乔思维亚克这样的人其实很不喜欢人们去“调戏” Siri。“我们做这个东西不是用来玩问答游戏的!”他说。尽管不少人现在觉得这才是 Siri 的乐趣所在,但苹果一直很注意不将它打造成一个真正的聊天机器人,而是专注在自动化上。

  你不能用 Siri 来做任何事,而苹果也不打算这么做。苹果在设备的功能实现上一向十分功利,这在 Siri 的定位上也有体现。它能够帮助你完成各种操作和服务,除此之外的就不擅长了。苹果不以为意,因为它就是要这个。

  当 Siri 变得更好用之后,怎样才能让早就不抱期望了的用户重新关注起它来呢?苹果的意思是让时间来解决问题。“人人都有自己做事的习惯。如果他们习惯了打字,一下子去改变,那得要时间。”阿赛洛说。当然不只是等,它还会试图引导人们到“正确”的方向上来。很可能,Siri 将会变得更加主动。

  至于很多人都要求的让 Siri 更开放的问题,因为开发者能让 Siri 的功能迅速激增。然而尽管苹果在其他领域是这么做的,但在 Siri 这边却并非如此。乔思维亚克认为,关键不在 Siri 能做多少事。它认为无论是 Alexa 还是 Assistant,要给它们下指令,用的语句都太模板化了。开放给第三方之后,这个问题会更加严重。

  那么解决之道在何处呢?最终苹果心中的答案还是落在了“更像人类”上。当 Siri 的声音变得更加真实可信时,一切问题都会迎刃而解。


© Joyslink Inc.