Siri 真是苹果的未来吗?

作者:Kontra at counternotions.com

原文地址:http://counternotions.com/2012/11/12/siri-future/

本文经作者授权翻译为中文并发表在 Apple4.us 网站。


Siri 是对未来图景的想像。她是一种全新的与电脑沟通的方式,将赋予普通用户巨大的权力。人类与机器的关系一直在不断演化,Siri 代表着这条线索上的全新范式。和 iTunes 以及 App Store 一样,她有改变苹果命运的潜力,但也有可能变成 FaceTime──可有可无,或是 Maps──重要但难做,或是 Ping──出师未捷。收购和改进 Siri 已经让苹果花了数亿美元,在电视上的广告里,眼里噙着泪光的用户赞叹着她的神奇,但转眼我们又看到她成了夜间电视节目取笑的对象。苹果从 Siri 中希望得到什么?

每个人的期待都不一样。有人认为 Siri 的五大功能应包括调节 iPhone 设置。还有些心急的用户认为 Siri 本该已经成为无处不在的 Knowledge Navigator 了。当然,Siri 评论家们最爱的休闲活动就是比较她和 Google Search。

Siri 不是性感的图书管理员

人们将 Siri 和谷歌比较是理所当然的,也确实有不少乐趣。但这种比较并不合适。Siri 在文字输入的搜索上很难打败谷歌(当然,Bing 和 Facebook 也很难),因为后者已经花了十年时间用各种复杂和高超的算法去微调搜索结果,并建构了庞大的基础设施。但谷歌搜索也有其致命弱点:你必须把你的意图告诉谷歌,并指导它如何构建并返回搜索结果。这对于竞争者是个机会。假设你想在麻省的 Quincy 找一间预算在 25 到 85 美元之间的素食餐厅,而你的谷歌搜索功力十分深厚。那么你会手动输入一串非常具体的字串:「麻省 Quincy 素食餐厅,25 到 85 元」。即便如此,你还是会收到「找到约 147,000 条结果(用时 0.44 秒)」,你还是得从中滤出自己想要的信息。(以下例子都经过了高度简化)

Kontra siri 1

这是一套「由人工指引的导航系统」。它的导航环境是全球所有数据的集合,即整个互联网。用户基本上要一个一个词地主动将自己的意图告知谷歌,后者则一个一个地从这个全球集合里的数十亿张「网页」中缩小范围,最终,用户会从这个大大缩小了的范围中挑出自己想要的答案。

被动智能

不过如今已是 2012 年,我们的移动设备的「自我感知能力」要比谷歌搜索引擎强得多了。举例来说,一台备有 GPS、相机、麦克风、天线、陀螺仪以及各种其它感应器、数十个功能各异的 app(从财经 app 到游戏)的移动设备已经拥有相当强大的「被动智能」。它对用户的了解已经足以大大减少搜索时的未知因素……假如所有这些用户输入和设备感应到的数据能够被整合的话。

Siri 要赢得用户的心,就必须改变搜索的游戏规则。不再是规则明确、线性的、基本没有语境的文字搜索,取而代之的是一种高度人性化的搜索方法:用户会声明自己的意图,但不需要告诉 Siri 每一步应该怎么做。用户的第一步是和 Siri 开始对话,然后 Siri 便会在后台将一系列令人赞叹的服务整合起来:

  • 对移动设备的位置、时间和任务有精确的把握。
  • 语音与文字的相互转换,文字到意图的转换,以及对对话流程的处理。
  • 语义化的数据,各种服务的 API,任务与领域的模型,以及,
  • 对个人数据以及社交网络数据的整合。

我们来仔细对比一下。假如你跟 Siri 说:

提醒我到公司时在某某餐厅为妈妈的生日订位,然后把开去她家的最佳路线发邮件给我。

Siri 已经可以整合通讯录、日历、GPS、geofencing、地图、交通状况数据、电邮、Yelp 和 Open Table 这些 app 和服务,这足够完成上述任务了。谷歌那样的纯文字搜索只能完成一部分,而且必须靠用户输入一堆关键字,并进行各种调整。现在我们试试把「某某餐厅」换成「好点的亚洲餐厅」:

提醒我到公司时在一家好点的亚洲餐厅为妈妈的生日订位,然后把开去她家的最佳路线发邮件给我。

「亚洲」没什么难度,因为所有跟餐厅有关的互联网服务多少都会把餐馆按照菜系来分类。但「好点的」又怎么说?在这个语境里「好点的」是什么意思?

谷歌这样的传统搜索引擎会直接了当从可供搜索的餐厅评价(这是他们收购 Zagat 的目的)中寻找「好点的」这个字串,它甚至可能会再进一步,做一个「好点的 +(浪漫 或 生日 或 庆祝)」这种综合搜索,以便尽量找出相关的关键词。但我们没法在无限多的领域里去微调搜索关键字,所以上述综合搜索往往发生在金融、旅游、数码产品、汽车等领域。换句话说,如果你搜的是机票或酒店,可供选择的相关词语是有限的,而且谷歌比较清楚地了解它们的意思。如果你要搜的是剪羊毛或「吐橄榄核大赛」,细致的人工分类整理工作恐怕也帮不上什么忙。

语境就是一切

不过,就算传统搜索引擎能将「好点的」和「浪漫」或「舒适」关联在一起,从而更好地为你选出一家亚洲餐厅,你还得考虑钱包的问题。谷歌看不到你的银行账户记录,也不知道你平日的餐饮预算与消费习惯。因此,要想搜出真正有用的餐厅推荐的话,设定一个价格区间是必要的,例如从¥¥到¥¥¥,但不超过¥¥¥¥。

这就要讲到浏览器和 app 的那场无聊的战争了。像谷歌这样的传统搜索引擎如果要建构你的购买习惯模型,就必须事无巨细地监视你的点击习惯,从而追踪你的交易记录。这种监视会详细到用户不可接受的程度。这一点也不简单(在很多国家大概也不合法),尤其是如果你没有在用 Google Play 或 Google Wallet 的话。所以,谷歌看不到你的信用卡记录与银行账户清单,但 Amex 或 Chase 这样的 app 有这些数据。如果你允许 Siri 以某种加密的方式与你 iPhone 上的这些 app 通讯的话,你就是在发出一种高度选择性的请求,并且表示你信任苹果和 Siri。这样一来,Siri 或是那些 app(有时是两者一起)就能在你的预算范围内来定义「好点的」了:不超过 85 元,150 到 250 那种的绝对不要,但也不要是那种人均 25 元的寒碜的中餐馆,因为那是令堂的生日。

说到令堂,别忘了你的通讯录里她的名字下面,紧挨着「生日」的地方有一个自定义的字段叫「食物」,里面写着:「亚洲」、「牛排」、「印度有机白茶」。另一方面,你在 Yelp 里收藏了 37 家餐厅,无一例外都是素食──谷歌可不知道这个。你妈妈无所谓,但你是不碰肉食的。这时,Siri 可以通过比对两人的喜好来给出双方都能接受的选择。

因此,由于 Siri 了解──在你主动提出要求的前提下──你和你妈妈的口味,以及你的经济能力,一次简单的搜索从「某某餐厅」变成了「一家我能吃得起的好点的亚洲素食餐厅」:

提醒一下,在各个 app 中查找所有这些数据和制定这些规则只需要几毫秒。你的很多个人信息早已被存入苹果服务器的缓存当中。第三方 app 里的大部分数据都是高度结构化的。由于苹果跟这些第三方公司签订了协议,Siri 可以直接使用这些结构化的数据。不过,在 Siri 那沉静的声音后面,仍然是一种极度复杂的协同作业。而 Siri 的那种「聪明个性」更令普通人觉得她像魔术师一般神奇。

交易链

理论上,Siri 的执行链条可以很长。看看这一条常见的 Siri 指令:

假如我和老婆的日历在明晚都没有别的安排,并且活动费用低于 50 元的话,帮我检查某地的天气以及行驶到那个活动现场的交通状况。

Siri 从语义上会这样解析它:

Kontra siri 3

然后把它翻译成由各种 app 和服务构成的执行链条:

Kontra siri 3

此外,由于她是 iOS 系统的一部分并且可以和第三方软件通讯,Siri 完全可以完成下面这条假想的要求:

转帐并购买两张票,把收据移入 Passbook,在我的日历里添加提醒,给老婆发邮件,更新我们的共享日历,给保姆发短信预约时间,然后稍后提醒我。

Siri 会将上面这句话翻译成一条交易链,然后由苹果自己的和第三方的 app 和服务根据链条上的动词和名词进行操作:

Kontra siri 4

Siri 通过对一条由「自然语言」构成的要求进行语法解析将其转化为机器可以理解的主谓宾结构,如此,她不但可以像谷歌一样帮你搜寻文件与事实,还可以在你授权的前提下执行你的要求。这要求有可能是你明示的,但也可能是你暗示的。建构深层语义搜索、从不同的信息源、设备与第三方软件整合信息、制定规则、帮助用户执行交易,这些能力令 Siri 不再仅仅是一个板着脸的女图书管理员(谷歌搜索),而成了一个不可缺少的拥有一定特权的私人管家。

Siri 就是未来,谷歌也懂的

传统搜索工具有了 PageRank 算法,并索引了 400 亿张网页之后,基本也就到了尽头了。因此你看到谷歌这样的公司开始收购全球最大的航班搜索公司 ITA、餐馆评分网站 Zagat、用 Google Places 山寨了 Yelp 和 Foursquare、用 Google Shopping 山寨了亚马逊、用 Google Play 山寨了 iTunes Store 和 App Store、用 Google Offers 山寨了 Groupon、用 Google Hotel Finder 山寨了 Hotels.com……最终,用 Google Now 山寨了 Siri。谷歌必须拥有垂直领域的数据、知识以及专业技巧,才能更好地减少用户搜索意图中的歧义。关键字、语句、名字、词条、派生词、同义词、专有名词、地名、概念、用户评论……在某个垂直领域里的这些数据对于解决语境、范围和意图问题大有裨益。

不管最终会先出现在搜索结果里还是 Google Now 里,谷歌确实是在其核心服务之下拼命建构着一个语义化的引擎。经过了谷歌自己的以及它推广的种种隐性或显性的第三方服务之后,「常规搜索结果」几乎只能算个可有可无的补充了。谷歌也开始提供类 Siri 的「答案」,而不仅仅是没完没了的「链接」。如果你在看美国 MLB 职棒联赛时搜索「洋基队」,你会首先得到的是实时比分结果,而不是洋基队的历史或是它新修建的体育场。

Siri 是「高维修女子」2

谷歌为了创造一个全球性的搜索平台可谓一掷千金。他们雇佣了一批博士生来设计算法,购买了大量服务器,建构数据中心,不断地优化再优化。从广告收入的角度说,搜索的投入产出比在互联网历史上可谓史无前例。苹果对 Siri 的投入要短得多,能让大家看见的则更少。在「找到想要的信息」这件事上,苹果要对战谷歌无异于自杀,但它究竟有没有可能让 Siri 实现可持续增长,最终走向成熟?苹果的项目里,基本只有那些能自己养活自己的才能生存。广告并非苹果的强项,那么 Siri 有何其它可能的商业模式?

2014 年,苹果的用户里大约有 5 亿人能用上 Siri。如果苹果能让其中一半的人每个月用 Siri 产生 12 次交易(例如每次 1 美元,苹果拿走 30%),那就是一盘 10 亿美元的生意。乐观地说,每次的交易额会远远高于 1 美元,交易的频繁度会远高于每个用户每月 12 次,使用 Siri 进行交易的用户也不只总 Siri 用户的一半──尤其是假如 Siri 对第三方开发者开放的话。这些假定当然是我的想像,但就算最保守地估计,交易带来的收入都是可观的。别忘了,单单是数字音乐和电影,就让 iTunes 成为了一盘 80 亿美元的生意。

Siri 在被苹果收购之前只是一个以文本搜索为主的简单服务,现在已经演化成以语音识别 / 听写为输入介面的搜索服务。之后,她会进一步变成一种用来完成交易任务的「对话式介面」,那会有意思得多,对于上亿不太会用电脑的普通用户来说,也易用得多。

作为交易机器的 Siri

以交易为核心的 Siri 有潜力撼动价值 5000 亿美元的全球广告业。对于有购买意愿的消费者而言,「纯粹」的信息要比转瞬即逝的广告或是一堆需要自己去仔细阅读的搜索结果更理想。Siri 植根于对语境有高度了解的个人移动设备,可以在用户最需要的时候给出具有无与伦比的相关性的「纯粹信息」。她可以铲除所有中间人,让顾客直接与商家连接,苹果本身也不必介入交易当中。Siri 做的仅仅是对用户的意向进行比对,并提供选择,而且比我们见过的任何大规模的同类产品都更准确、更主动、更可靠。

和图片或文字广告相比,Siri 还有另一优势:交易的可以不是金钱。它可以是打折券、Passbook 优惠券、常旅客里程、虚拟物品、游戏分数排名、签到积分、信用卡点数、iTunes 礼品、学校课程积分等等。此外,Siri 不需要互动屏幕即可和用户通讯并完成任务。苹果利用 Eyes Free 技术将 Siri 带入声控系统。先是车载系统,然后或许是其它不需要视觉介面的嵌入式环境。由于苹果拥有世界上最大、最赚钱的 app 和内容生态系统,以及 5 亿绑定了信用卡的用户,这使得 Siri「交易」这一概念能够提供给用户和商家的价值都大大提高了。

太早?太晚?或是仅仅尚未成熟?

尽管前景广阔,但 Siri 的未来还是有不少未知数。以下是几个主要的障碍:

  • 性能:Siri 在云端工作,因此任何网络延迟或是干扰都会废其武功。这个障碍很难克服,因为垂直领域的知识必须从成千上万的用户出聚合而来,并通过合作伙伴的服务器在云端协调整合。
  • 语境:Siri 不只要理解语法,还要横向跨越诸多垂直领域去理解语境。苹果目前已经在超过 100 个国家销售 iOS 设备,Siri 最终必须能听懂所有这些国家的语言,并能够处理各种极复杂的文化差异,打通当地的数据和服务提供商。
  • 合作伙伴:选择数据提供商(尤其是海外的)并保持服务品质并不简单。此外,苹果在购买数据时还将面对来自谷歌和其它对手的竞标。
  • 范围:随着 Siri 地位的上升,用户对其精确度的期待也会上升。苹果一直在仔细、缓慢地为 Siri 增加各个热门领域的知识,但「为什么 Siri 不能回答我关于[此处插入某冷门领域]的问题?」一类的抱怨一定会出现。
  • 运营:随着 Siri 的增长,苹果必须大大扩充人力。不只是专精于语义搜索和人工智能的工程师,还有数据获取、录入与纠错、商业拓展与销售领域的人才。
  • 管理层:Siri 被苹果收购之后,三位创始人中的两人离职,Tom Gruber 留了下来。苹果最近从亚马逊挖了原先掌管 A9 搜索引擎的 CEO William Stasior 过来负责 Siri。但对于 Siri 来说,与数据提供方的合作和工程能力同等重要,而 A9 是一个旧式的搜索引擎,与 Siri 这样的语义平台大不相同。
  • API:第三方开发者显然期待着苹果开放 Siri API 的那天。对于苹果来说,开放 Siri API 既是金矿也是雷区。由于同样的或近似的数据可能来自多个第三方数据提供商,将它们开放给第三方软件开发者很容易造成运营、技术甚至是法律上的困境。
  • 监管:如果 Siri 大获成功,竞争对手们很可能会呼吁美国司法部、联邦贸易委员会、联邦通讯委员会或是这些机构在欧洲的对应组织介入,以捆绑软件造成不正当竞争为名减缓苹果进步的速度,直到他们能迎头赶上。

显然,像 Siri 这种前卫的平台不可能没有各种问题和风险。苹果过去的两个成功的互联网产品──iTunes 商店和 App Store──用的都是上一个时代的技术,且包含种种运营上的问题。诸如 MobileMe、Ping、Game Center、iCloud、iTunes Match 和 Passbook 等更新一些的互联网产品还都算不上大热。尽管如此,Siri 仍然是一个里程碑式的机会。对苹果而言,她可以成为一棵以交易为本的摇钱树;对用户而言,她代表着一种搜寻信息、完成任务的全新方法,比目前为止的所有方法都更具亲和力。Siri 的成败全看苹果。

(翻译:李如一)

  1. 原文为 high-maintenance lady。high-maintenance 意指要求多、情绪化、需要别人经常照顾的人。「高维修女子」为亦舒私译,向亦舒致敬。

  2. 原文为 high-maintenance lady。high-maintenance 意指要求多、情绪化、需要别人经常照顾的人。「高维修女子」为亦舒私译,向亦舒致敬。