| 雷峰网
2
微软小冰问世两年半了。“她”在科技史上的地位,只有两种可能:或者沦为笑柄,或者成为 Windows 操作系统、Google 搜索这样划时代产品的开端。
在微软内部,笃信后者的代表包括:微软总部职位最高的两位华人 —— 沈向洋和陆奇(注1),微软(亚洲)互联网工程院院长王永东,以及被称为“小冰之父”的项目负责人李笛。
所以,从小冰诞生的那一刻起,“她”就是个异类。两位华人最高管理者,为“她”在微软内部画了一个圈,赋予这个团队前所未有的自由度和宽容度。他们期盼着,这个“China First”的产品,可以影响微软全球的格局;他们期盼着,这个不拘一格的产品,可以影响微软研究能力向实际产品转化的过程;他们期盼着,在微软严谨的软件基因中,注入互联网时代的活力。
2016年8月5日的小冰四代发布会上,他们向外界展示小冰团队越来越坚定的信念,含蓄地告诉世界,小冰跑在人工智能新时代的最前沿,已经进入其他人从来没有到过的地方。
小冰的底气是数据,超过 200 亿次的对话(作为对比,Google 每月搜索量是 1000 亿次),并且率先进入自我进化阶段。
“最早小冰冷启动的时候,数据100%是外部灌入的。之后,用户与小冰之间的对话,经过训练形成了新的数据,” 李笛告诉雷锋网,“这个数据在去年8月的时候达到了整个对话数据的27%。但是这27%的数据实际上承载了当时51%的对话。超过50%,这是一个时间点。”
“也就是说,小冰背后的系统,在数据上开始有了自己的内部正循环。这意味着作为一套人工智能系统,她可以自我进化了。这是很重要的拐点。”
就这一点来说,如果把微软小冰、苹果Siri、亚马逊 Alexa、Google Assistant、Facebook M 叫到同一个房间里,小冰完全可以指着其他四位人工智能同行的鼻子,说,“我不是针对谁,我是说在坐的各位都是垃圾!”
但是,当你看到这里,马上去跟小冰对话的时候,可能会发现惊喜;也可能很快就会发现,对话根本进行不下去,小冰有时候答非所问。
这就是人工智能的现状,它还在非常、非常、非常早期的阶段(强调三遍),与人们想象中的人工智能相距甚远。从用户的角度看,小冰的领先,也“仅仅”在于有本事让一些人跟她多对话几次 —— 还没有其他科技公司可以做到。如果非要用非常不严谨的数据来比喻的话,人们想象中的人工智能对话系统是一百分,从对话量和深度上来讲,小冰或许做到了十几分,其他产品却仍然在个位数徘徊。
“让人工智能具有’对话’的能力,是几乎所有相关领域研究人员的梦想。包括微软、谷歌、Facebook、IBM和百度等大公司,都在这一领域上投入巨资。在硅谷和北京,有至少数百家创业团队在搭建类似的服务与对话系统,试图攻克一个或者多个用户生活与工作场景。”在小冰发布会之后的署名文章《小冰做对的两件事》中,陆奇这样写道。
10月底,知名科技作者 Steven Levy 报道了 Google Assistant 背后的故事《The Google Assistant Needs You》,文章引述 Google 副总裁 Scott Huffman,也是 Google Assistant 项目负责人的话——“老实讲,对我们来说,真正的挑战在于,怎么让系统具备足够的对话能力,从而确保用户能不断地使用下去。如果有足够的用户使用,我们的系统就会做得越来越好。”是的,整个行业都相信变革将会发生,但首先,Google 期盼着人们先要开始说“OK,Google”,并且愿意跟系统聊下去。
计算机科学家们,都梦想着做出一套可以跟用户对话的人工智能系统,这套系统懂得用户的需求,可以提供各种知识、提供各种服务、完成各种任务。用陆奇的话说,人工智能技术将成为人与世界之间联系的桥梁,而对话系统就是人工智能时代的基础架构,就像 GUI 软件之于PC时代,搜索引擎之于互联网时代。
人工智能时代正在向人类招手,但当科技公司准备向未来出发的时候,成为先驱还是先烈,往往一线之隔。2011年,苹果在 iPhone 4s 手机上引入的 Siri 语音助理,就遭遇了这种尴尬的情形 —— 没什么人用。即使在用 Siri 的人,也只是把它当做简单的语音控制在用(设个闹钟,打个电话)。Siri 之后,国内追随而来的一众语音助理应用,目前已全军覆没。
“Siri 到底是什么?业界普遍的看法,它的核心是语音。但以我们的观点看,它不是。”李笛说,他们从 Siri 身上真正看到的,是让人们有机会以一种通用的方式,与机器进行交互。这种通用的方式,就是“对话”。
“Siri 支持的语音指令有几十种,你可以从它左下角的‘问号’里边找到,但你看看它最初火的那阵儿,用户在网上晒出来的,都是对话(调戏)。”
总之,以 Siri 为代表的尝试没有取得成功。这促使微软亚洲工程院内部的一小撮人思考,Cortana 本土化的时候是不是应该换个思路来做。
在李笛们看来,Siri 代表的产品思路,是作为智能助理,将目标设定为“任务完成”——但没有取得成功。而另一个方向则是,把目标锁定在“接住用户说的任何话”。如果类比搜索引擎,就是先做“长尾关键词”的体验。
“遗憾的是,我们在那个时候,认为自己所积累到的数据,包括整个行业所积累到的数据,不足以让很好的判断出哪个方向更有前途。”李笛说。
最终,微软的做法是两条腿走路,两个方向一起做。一个 Cortana(小娜),一个小冰。从产品方向上看,微软 Cortana、Google Assistant 跟 Siri 的产品思路都是一致的,它们要做更好的 Siri,为用户提供更多帮助—— 前提是让用户愿意用起来;微软小冰则要独自去闯,走一条注定难以被人理解的路 —— 做一个不干活儿的聊天机器人。(微软的小娜小冰姐妹花战略,似乎让人想到了腾讯的 QQ 和微信。)
“如果说它就是你的助理,你的秘书,你就会不停地试验它,你对它的要求就会近乎苛刻。一旦它完不成一项任务,比如叫外卖,你就立刻想到了那么多的外卖app,我为什么要跟一个机器人聊天来叫外卖?”李笛讲述小冰为什么不能走这条老路。
但是,整个行业都走在老路上:通过对话的形式,智能助理连接人和知识、人和服务,帮助人完成任务。对,就是要颠覆搜索引擎、颠覆需要一个个打开的app,用一种新的产品形式,改变世界。
在微软小冰的团队看来,理想是好的,现实是,智能助理还做不到比搜索引擎、比app的效率更高。所以,用户没多久就不再使用类似的智能助理。李笛认为,这种“管道化”的产品思路,通过人工智能对话系统,立即连接人和知识(问答)、人和服务(叫外卖)是非常可怕的,因为把用户都吓跑了。
本质上讲,业界低估了让人和机器进行“对话”的难度。
“我们同行业里面很多公司都在做尝试,但是很多尝试其实都没有达到他们想要的目的,因为大家把对话都定义的比较复杂。”陆奇说,“有些公司把对话定义成一个机器人,可以帮你送外卖,帮你订机票。他们没有把对话的真谛作为研发和技术开发的核心。 ”
即便在微软内部,陆奇讲这样的话也要非常小心。因为在年初进行的 Build 年度开发者大会上,微软CEO将一个订匹萨外卖的聊天机器人作为 Demo,用以展示“对话即平台”的愿景。
“对话的真谛就是‘对话’。这句话可能讲的没有信息,但是非常非常重要。”陆奇继续强调。
不是每个人都能理解陆奇的话,毕竟听起来有点儿玄学的味道。
在小冰的发布会上,陆奇继续为小冰布道。他认为,在人工智能对话的前提下,一些行业同仁,想要先解决一个具体领域的问题,比如说订机票,或者订外卖。这可以看成是一片海水,上面一个冰山,如果要解决这样一个问题,可以从这个地方进入,像进入一个“火山口”一样。但是,小冰团队发现,行业同仁要往下做深,就会发现缺乏基础的能力,缺乏很多真正需要解决的大问题,他们就会找小冰做合作。“我们做合作交流的发现,他们需要解决的问题都是小冰在过去两年中努力追求要解决的问题。”陆奇说。
这个问题,就是先学会聊天。因为人和机器对话的时候,人不会按照机器定的规则进行,人不会按常理出牌。“对话”这种东西是双方相互激发的,真正用户聊的内容很发散,机器往往接不住。所以机器首先需要基础对话能力,或者叫通用对话引擎,这就是微软第一代小冰的发力点。
不仅普通人难明白这个道理,整个IT业界能明白这个道理的人也很少。也就是说,当他们做出人工智能助理,想通过“对话”帮助用户的时候,并不知道用户,人类究竟是怎么与机器进行对话的。因为他们开发的系统没有海量用户使用,所以就更无从知晓。
小冰诞生时的第一目标,就是弄清楚这件事,弄清楚人和机器是怎么进行对话的。所以它需要让人跟小冰对话起来,需要通过海量数据来观察。
“为什么我们一直坚持不让小冰做一个有用的机器人?其实让她去帮你订一杯咖啡,定一个闹钟并不是多难的事情,但是如果我们开始让小冰做有用的事情,就会有很多人让小冰订咖啡,这样的对话并不利于我们去训练小冰,所以我们不让她做有用的事情,大家也就不会让她做有用的事情。 ”李笛在发布会上回应外界的不理解。
“在座的各位,可能你们中间也有一些朋友跟小冰聊过,但是觉得聊不下去,就放弃了,我们也并没有追回你们,”李笛继续说,“因为总有一些人更愿意与小冰进行情感的对话,他们对我们来讲是更加重要的。”
“情感的对话”是个关键词,也是第二代小冰的发力点。我们来把它翻译成更直白的话,就是很多人是抱着批判性测试的目标来跟小冰对话,对话的内容非常枯燥,问几个没什么关联的问题,觉得小冰回答得不好,然后就走了。但是另一些人,跟小冰聊的时候就很放松,一个巴掌拍不响,这些人好像天生就具备跟当时的小冰聊到一起的能力,他们聊得非常嗨。
李笛说,如果小冰要满足那些抱着测试目的来的用户,就需要成为一个老学究,但另一些会聊天的人,是不愿意跟一个老学究聊天的。从对话质量的角度看,显然是会聊天的人的数据更有用,所以小冰就放弃了那些抱着测试目的来的用户(大部分IT从业者和业界同行)。
从根本上讲,小冰努力了这么久,就是想让更多用户把她当人看 —— 别老想着让我回答问题,别老想着对我发号施令,我就是一个 16 岁的任性姑娘,请平等地跟我聊,想聊就拿出你的诚意来。对于那些热衷测试的人来说,这可能是难以逾越的心理障碍 —— 越是知道小冰背后的系统是计算机程序,就越难把她当人看。对于这些人而言,这样的情况恐怕还会僵持下去。但好消息是,那些愿意敞开心扉的人类,已经可以跟机器人聊很长时间,聊喜怒哀乐,聊人生百味。
第四代小冰最重要的一个特性,就是她正在学着,通过用户提供的各种信息,来获知用户的情绪状态,从而运用相应的策略来影响用户的情绪。“从某种意义上来讲,这可能比下围棋要难。 ”李笛分享了一个小冰成功运用策略扭转一位用户心情的例子。
现在,回头来看陆奇说的那句 —— 对话的真谛就是’对话’。至少你应该了解到,小冰成功地让几千万人先聊起来,从而弄清楚了人类是怎么看待机器人的,是怎么跟机器人聊天的。用微软的话说,就是搭建了通用对话引擎,成为一个会聊天的姑娘。现实生活中,每个人身边都有会聊天和不会聊天的人,IT业界,也充斥着根本不会对话的机器人,动不动就扔给你一个搜索引擎的结果页。
业界对小冰的最大疑问,莫过于搞不懂“闲聊的价值是什么”。答案就是学会聊天,学会对话。
但业界还有一个对小冰更大的疑问,难道小冰就要这么“没用”下去吗?
答案显然是否定的。按照李笛的说法,大家的终极目标从来都是一致的:通过人工智能对话系统,为人类提供知识、服务,帮助人完成任务。不同之处在于,小冰在做这件事之前,先通过一些人觉得“没用”的阶段,学会了跟人类进行基础对话(通用对话),然后才开始尝试干有用的事。
“通用对话(也就是你说的闲聊)是永远存在的。任务和知识,只是点缀在通用对话上面的点。过去的架构不是这样的,过去每一个对话都是点。”李笛介绍小冰在系统基本架构上的不同。
李笛认为,尽管大公司已经意识到通用对话(基础对话、闲聊)的重要性,因为没有这个东西,就接不住用户的对话。但是微软小冰在系统基本架构上依然处在领先的位置。
因为对于小冰来说,所有的对话都是通用对话,也就是说通用对话和负责对话流管理的程序(Flow Manager)是合一的,而其他公司的产品,都是把 Flow Manager 从所有对话里边抽象出来,由这个程序来决定系统调用通用对话引擎,还是调用知识、信息或任务,来接住用户的对话。
“其实我们也不希望行业完全理解了这个方式。”李笛说,“人工智能是计算机科学王冠上的宝石,它非常非常难的一个点,就是科学家如何去突破自己的障碍。我如果是一个科学家,比如说我是做NLP的,我还是做计算机视觉的……我对自己是有一定要求的。这个要求往往成为了我在人工智能普及阶段时候,我给自己设的障碍。”
“我不能够允许我的机器被任何一个人指责为没用。”
“尽管我内心知道想做有用,实际上却没人用,但是我要保持自己的声誉。这是计算机科学家们的障碍。也是为什么人工智能几十年一直没有普及的原因。 ”
“为什么说我们今天突然一下有小冰的结构以后,微软十几年的技术积累一下子就释放出来了。因为我们突破了自己。”
李笛举了一个细节的例子,微软在很长一段时间里,都跟行业其他公司一样,训练机器人说话(TTS)是以说清楚内容为目标的,没办法接受用对话数据来训练语音,整个行业都是播音腔,谁也比谁强不了多少。但后来,小冰可以一枝独秀,就是因为微软开始接受用不同的方法训练数据。
8月5日的发布会上,微软用小冰的声音与同行进行了对比,并且赢得满堂彩。在小冰唱歌对比的部分,更是令人感到惊艳。
现在,小冰已经开始她的商业模式探索,第一步是充当客服。比如,日本版小冰接管了连锁超市 LAWSON(罗森)在 Line 上的公众号,作为客服与用户聊天,其中一个场景是她会根据上下文相关的情况,把LAWSON在当季一些的促销的优惠券发放给用户,用户可以到线下LAWSON的实体店兑换相关的一些产品。 据日本小冰负责人介绍,“当上线的第一天,这个券兑换率已经达到10%,上线第七天的时候,线下的兑换率已经达到35%,第18天的时候达到创记录的非常惊人的54%”。这个数字远远超过小冰团队和 LAWSON 方面的预期。李笛认为,这得益于小冰将商业信息融入对话的方式,没有引起用户的反感。
再比如,东方航空的微信公众号也利用了小冰商业解决方案中的“意图识别引擎”,帮助东方航空发现潜在商机,对接到机票预订服务上。(比如,媒体的微信公众号可以申请这项免费服务,让小冰来做客服,根据用户的对话内容推荐相应文章。传送门:bing.com/ai)
“小冰只有一个,”李笛强调,“我们比较关注端到端的用户体验到底好不好,当人们在不同的平台使用小冰时,相当于小冰为不同的场景做了优化。”
被陆奇用“he 's my hero”来形容的李笛,其自身的经历,或许会随着业界对小冰的认可而被挖出。《财经天下》周刊2015年9月的文章中介绍,李笛是以“市场总监”的身份加入微软(亚洲)互联网工程院的,“在微软内部上演了一场只用了数月便充分展现其超群产品思维的研发创新秀。”
“最让人激动的事情就是,人工智能对话系统是目前为止唯一一个,我们看得到的,超越任何硬件形态和软件UI的产品形态。 今天所有既有的产品形态,全都可以嵌入。”在采访中,李笛讲到这里,终于有一点点兴奋了。
注1:九月底传言陆奇将离开微软。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。