资讯 人工智能
此为临时链接,仅用于文章预览,将在时失效

微软研究院资深主任研究员郑宇教授:多源数据融合与时空数据挖掘(一)

作者:叨叨
2017/03/17 10:41

雷锋网[AI科技评论]按:本文根据郑宇教授在中国人工智能学会AIDL第二期人工智能前沿讲习班*机器学习前沿所作报告《多源数据融合与时空数据》编辑整理而来,雷锋网在未改变原意的基础上略作了删减。

微软研究院资深主任研究员郑宇教授:多源数据融合与时空数据挖掘(一)

郑宇

郑宇,微软研究院城市计算领域负责人、资深主任研究员、上海交通大学讲座教授、香港科技大学客座教授、人工智能国际权威期刊 ACM TIST 主编、美国计算机学会杰出科学家,ACM数据挖掘中国分会(KDD China)秘书长。2013年被MIT Technology Reivew评为全球杰出青年创新者(TR35)。在国际顶尖会议和期刊上发表论文百余篇,论文被引用12000多次, H-Index  53(Google Scholar,截至2017-3-15),2016年论文单年被引用3200余次。

微软研究院资深主任研究员郑宇教授:多源数据融合与时空数据挖掘(一)

谢谢介绍,谢谢邀请!大家经常听到的机器学习、人工智能这些概念,大部分应用案例都是在图形图像以及自然语言处理方面,在城市里跟我们生活比较接近的,特别是应用在时空数据的例子比较少。现在我就用城市大数据为例子,来说明一下机器学习如何应用于时空数据领域。

大家都知道我们现在生活越来越现代化,但是问题越来越多:交通拥堵、环境恶化、能耗增加。要解决这些问题在很多年前看似几乎不可能,因为城市设置非常复杂,环环相扣,牵一发而动全身,现在由于有了各种传感器技术的成熟和云计算单元的成熟,使得我们有各种各样的大数据,从社交媒体到交通流量,从气象条件到地理信息,如果使用得当的话,我们就能够用这些数据来发现城市面临的问题,并进一步通过组合这些数据来解决我们面临的挑战。基于这样的机遇和挑战,我们在2008年就提出了城市计算这样一个愿景,包括以下四个层面:从下往上(下图)有城市感知数据获取,城市数据的管理,城市数据的分析和挖掘到最后服务的提供。

微软研究院资深主任研究员郑宇教授:多源数据融合与时空数据挖掘(一)

虽然我们今天主题是叫机器学习,但是我想你们肯定想,机器学习到底能解决什么城市问题。在机器学习真正落地的过程中,可能还要依托于其他的平台甚至于其他的学科,包括数据管理。我就成体系地讲讲到底机器学习算法怎么改变我们生活中的方方面面。

从最下面的层面来看,城市数据感知这部分,其实每个层面都发现我们都需要用机器学习的方法来做一些事情,这个层面是概念上划分的,实际说是互相有交集的。

城市数据获取

我们看城市数据的获取,获取方式主要有两种:

微软研究院资深主任研究员郑宇教授:多源数据融合与时空数据挖掘(一)第一个,以传统传感器的感知方法进一步可以分成两个子类,要么把传感器放在一些固定的地方,要么把传感器装在一些移动的物体上面,比如说在公交车、出租车上装传感器,但是不管哪一种,一旦装完之后人就不参与了,这个数据自动传到我们后台。

另外一个,以人为中心的感知,这是比较新的概念,也叫群体感知,这里面也分成两个方面,一个叫做被动式群体感知,一个叫主动式群体感知。被动式群体感知,每天每个人都在参与,我们并不知道我们打电话的时候,我们的数据可以拿去改进通话网络的质量;我们并不知道我们公交车上下车刷卡的时候,这个数据可以帮助优化我们的公交线路,改进城市规划。把每个人的数据收集在一起,感知城市的变化,最后解决问题,这叫做被动式群体感知。主动式群体感知就是,任务是什么很明确,什么时间、什么地点、干什么事情、共享用什么数据,这个数据拿来干什么用都很清楚,甚至还有激励机制,你可以选择什么时候加入或不加入。这是目前城市数据来源的四种方式。

城市感知之后我们会遇到什么样的难点呢,特别是跟机器学习有什么相关性,我总结了四个方面的难点,跟机器学习相关的难点。

假设整个城市数据是灰色的点,我们可能只拿到红色的这一部分,某些属性在这些采样数据上分布跟在全集数据上的分布很不一样。举个实例,比如可以拿到出租车的GPS轨迹(数据),我们知道出租车只是整个城市里面车流的一小部分,出租车的分布跟我们私家车的分布可能很不一样,有的地方可能很多出租车,但是没有那么多私家车,反过来,可能有的地方很多私家车,却没有什么出租车。所以你不能说简单看到几个出租车,乘一个系数就推断有多少私家车,这个就是偏斜的分布问题,不管哪个场景里,发现我们拿到的都是采样,如何从这些采样数据里面把全集的知识推断出来,比如说怎么把整个城市里面所有车的车流量实时推断出来,这就是对应的难点。这个地方有相应的论文,如果你对这个问题感兴趣的话,类似的问题可以从这些论文里找到相关的技术,我先把它概述一下,这是第一个难点。

微软研究院资深主任研究员郑宇教授:多源数据融合与时空数据挖掘(一)

微软研究院资深主任研究员郑宇教授:多源数据融合与时空数据挖掘(一)

微软研究院资深主任研究员郑宇教授:多源数据融合与时空数据挖掘(一)

现在讲完城市感知的一些挑战和采集的方法之后,我们来看一个比较真实的例子。先看一个偏应用的,再看一个偏理论的。先看比较偏应用的。

我们都知道120系统,病人打电话到急救中心,急救中心会从救护车站派车把人送到医院,再返回到救护车站。救护车站并不都在医院,有很多原因。

  • 第一,救护车运营系统和医院其实是两个不同的系统;

  • 第二,很多时候我们必须要把救护车放在某个地方(不是在医院),要保证对任何一个呼救,救护车能在规定的时间内能够到达抢救地点。如果车都放到医院里面,必然有的地方就会太远,使得救护车不能在规定时间内到达,抢救病人。

下图是天津市的一个救护车站站点的分布图。以前站点的选址,可以说基本上是拍脑袋决定,比如根据一个地方大概的总人口数、路网密度来布置站点。大家知道120的需求量跟人口数并不一定成比例,还跟人的身体健康状况、年龄结构有关。现在我们有了真实的120求救数据,我们知道什么时间、什么地方,有多少人求救。以及救护车在急救过程中他们的GPS轨迹、花了多少时间,通过我们的方法、算法重新对站点的位置选址和布局,使得救护车救这么多病人平均抢救时间最小化。通过我们的算法重新选址后,我们能够把抢救时间缩短30%。比如,以前救100个病人假设花100个小时,现在只需要花70个小时,还是那么多车、还是那么多站点,我们却能更快地把病人送到医院。把时间节约下来留在在手术室抢救病人的生命,这是人命关天的事情,是资源调度优化的问题。这个站点如何部署就很有讲究了,你放的好和不好就会有很大的区别。

微软研究院资深主任研究员郑宇教授:多源数据融合与时空数据挖掘(一)

第一步放完站点之后,第二步,这个站点里面的车的数量不是固定的,有的地方早上需求量较大,有的地方晚上需求量较大,不能说车从早到晚一直放在某个站点,浪费了。这个车在站点之间如何动态调配,使得我们的资源最大化,这是问题。这是我们解决这个问题里边两个研究的点,这两个技术分别干什么事情,第一个是选站点,第二个是资源在站点之间的调配。你可以想象这是一类通用的问题。找出一个点,使得很多人到这个点的平均时间最短化。通俗的例子,比如我们10个同学聚会,选择哪个地方聚会,使得大家去的平均时间最短,这就是一个例子。我们救护车站、火警,凡是时间因素非常关键的选址都可选用这类模式。

第二个,偏理论的例子。我刚才说数据会缺失,要填补,怎么填补?这是一个非常基础的问题,几乎我们做所有的机器学习的人在第一步拿出数据的时候会发现,这个数据质量不好,有一些缺失。可能传感器坏了,或者数据没传过来。我们拿的很多数据都是有缺的,气象数据有缺的,空气质量有缺的,甚至包括车联网里面数据很多都是会出现残缺的,怎么填?这是一个很重要的问题。

微软研究院资深主任研究员郑宇教授:多源数据融合与时空数据挖掘(一)

我们怎么做呢?我们基本上就是利用缺失点时序以及空间邻居的数据,一起来把这个数据填满,而不是仅仅只看自己的时间临近值。至于怎么用、怎么填是有讲究的,是用前一小时的数据还是用周边的数据,这个其实是比较难决策的过程。

微软研究院资深主任研究员郑宇教授:多源数据融合与时空数据挖掘(一)

这个问题有几个难点,为什么很难?

微软研究院资深主任研究员郑宇教授:多源数据融合与时空数据挖掘(一)

我们用几个方法来解决这个问题:

总的来说,从时空来看,从局部全局看,2×2就有四种方法,对应四个模型,四个视角。用局部的时间、局部的空间和全局的时间、全局的空间,你分别都会有一个结果,这四个结果做一个多视角的学习(Multiview learning),得到最优解。每个模型的权重都是通过学习获得的。

微软研究院资深主任研究员郑宇教授:多源数据融合与时空数据挖掘(一)

总的来说,我们是要考虑局部、全局、时间、空间的关系,综合来填补缺失值。这个方法可以认为是目前在时空数据差值里面最好的方法,几乎在所有的方法里比较过是最好的。只要大家以后做传感器,做时空数据的时候,拿到数据第一步发现缺,你要填,就用这个方法。

城市数据管理

回到我们的城市计算第二个层面,刚刚讲了城市感知层面,我们要看城市数据管理。要管好城市大数据就是三方面的东西,第一,时空数据,这是时空的属性,不是一般的文本,也不是视频。第二,就是这种增强性的云平台,不是普通的云平台。第三,时空的索引,就是查询和检索算法。

我为什么要讲数据管理呢?今天是机器学习的论坛,讲数据管理干什么呢?其实在真正的场景里面,如果没有这一层,很多机器学习的算法可能只能停留在论文上,很难在真实系统落地,数据管理的人本身跟机器学习的人应该有很好的合作关系,不是敌人,应该有机的合作。通过后面的这些例子,大家就会明白了,真正想把机器学习从理论变成实际,解决问题的话,还需要有数据管理的知识,要对平台有了解。

微软研究院资深主任研究员郑宇教授:多源数据融合与时空数据挖掘(一)

我们城市里面数据可能成千上万个,但是根据数据的结构来分的话其实就两种,一个是点数据,另一个是网数据。

根据数据关联的时空属性的变与不变与否,可以分成三类:1)是时间和空间都不变的,属性都不变,静态数据;2)是空间不变、时间变;3)时、空都变。

现在听起来比较抽象,所以说2×3是6组数据,你们可以想,你心目中所有的数据,我都会告诉你在哪儿。比如说我们的兴趣点数据,什么叫兴趣点?一个车站、一个酒吧、一个学校就是兴趣点,有坐标、有地址、有名称,一旦某个商场建好之后空间就不变了,有多少层楼、多少个窗户也是固定的,所以时间和空间都是静态的,这是点数据。

我们把传感器放在好,位置不变,是个点,可是每个读数随着时间变化,属于空间不变、时间变。

时间和空间都变是什么呢?就像我们去骑摩拜单车,去打Uber,坐滴滴,用户的数据就属于时空散点数据,比如2点有用户请求了,2点半有用户在另一个地方请求了,位置和位置是变化的,并且时间也在变。

什么是网络数据呢?路网是静态的,这个不变,时空都是静态的网络结构数据,一旦把交通流量叠加上来之后,就变成了空间静态,但是时间动态的数据。什么是时间和空间都动态并且网络结构信息呢?就是轨迹。我们可以想象一下,滴滴的轨迹,摩拜的轨迹,都属于这个数据,人类手机信号也属于这类数据,我们骑行也属于这个数据。

所以在摩拜和滴滴里面有两个数据,一个是用户请求数据,一个是骑行数据和开车数据。你随便想,任何一种数据都能放到这六种之一,为什么定义六种?因为不希望拿1千种数据,做1千个模型,1千种算法,这样我的系统没办法承担。一旦定义好这六种之后,可以对每种数据设定特定的管理算法、挖掘算法和机器学习算法,一旦有了数据之后,就能用这种方法套进去去做。这里面轨迹数据是最难的,是信息量最丰富的,人类的出行,打电话的记录,车的记录,飞机的记录,候鸟飞翔,飓风移动,都属于轨迹数据,因为时间、空间都在变。

微软研究院资深主任研究员郑宇教授:多源数据融合与时空数据挖掘(一)讲完数据之后,讲讲平台。异构、多源、多模,是三个不同的东西。异构就是结构和非结构的;多源就是来自于不同的领域和数据源(比如气象和交通);多模,就是有文本的、影像的、语音的。在城市大数据里面,这三个是全部具备的,那我们也会同时处理这些东西。我们的应用不是城市级别的,不是说某个摄像头放在一个地方,或者在一条路上,那不叫城市计算。要做就是整个城市规模全做,需求量就是上百万级、上千万级用户规模,这种大的应用场景,这么多的数据,没有好的平台是做不到的,所以我们首先就会想到用云计算平台。但是非常抱歉的告诉大家,现在不管哪一家公司的云计算平台,都不能很好的支持时空大数据,也就是我们城市大数据,为什么呢?

微软研究院资深主任研究员郑宇教授:多源数据融合与时空数据挖掘(一)

有三个原因:

微软研究院资深主任研究员郑宇教授:多源数据融合与时空数据挖掘(一)

这三个技术在现在的云平台里面都是缺失的。

基于这样的挑战,2015年在贵阳市,贵阳是城市大数据示范基地,我们落地了中国第一个真正意义上的城市大数据平台。

首先,我们定义了六种数据模型,刚刚介绍过,根据数据结构、时空属性变与不变,2*3=6种模型,不管什么数据,都能用这六种模型中的一种把数据装进去。我们利用了Azure本身的存储机制,我们并不是什么都自己做,全部自己做没有必要,我们是用这个来增强。这个很重要,我们在这个层面上加入了一个中间层,我们针对不同的数据结构设计了空间索引和时间索引算法,以及针对于多源数据之间的跨域管理做了混合式索引,把时空索引算法集成到 Storm、Hadoop、Spark里面去,向上提供API给我们的机器学习算法来用,使得我们的机器学习算法能够快速的访问大规模数据。如果你没有这个,你发现你真的上大系统的时候,我们连特征提取都还没做,这个任务的时间期限就到了,等不及你了。因为很多时候就是1秒钟、2秒钟就给我一个结果出来,如果我们光做特征提取就需要花了一两个小时,模型怎么上线,所以必须要有平台来支持。这里边既有分布式,也有索引,以前大家都说,我们有分布式系统了,不要索引了,那是不对的,我们可以结合在一起。有的时候你用100台机器学习做的事情,我可能2台机器就能做,因为有了索引和分布式的结合。

微软研究院资深主任研究员郑宇教授:多源数据融合与时空数据挖掘(一)

为了看平台的规律,给大家看几个例子。

这个是在贵阳市布充电桩的例子。假设根据过去一年车的轨迹信息,我们在这个区域内放五个充电桩,我应该放在哪五个路口,使这五个路口加在一起,覆盖的车的数量最大化,我强调一下,我们不是找最热门的前五个路口,没有意义,因为可能最热门的前五个路口都挨着,经过第一个路口就经过第二个路口,我是说五个路口加在一起覆盖的车总数最大化,就是不重复的车最大化。

以前做这个工作的时候,一轮结果计算需要8个小时到一天,因为计算量非常大。现在有个平台,3秒钟以内做出来,为什么需要做这么快呢?这又回到行业了,我们知道真正布充电桩的时候有很多因素要考虑,还有很多专业的要求,比如说这边是不是有空地,这周边有没有商场,有没有饭店来容纳我们的人,我们充电2—3个小时人去哪里,不能让他蹲在马路边,这些条件不符合的时候,可以允许用户把这某个推荐的点删掉,保留其他几个点,然后让算法回去再算,直到我得到一个满意的结果为止。

这个其实是变成一个新的概念——人机学习。新的时代已经是人的智能加机器智能合在一起。要实现人机智能,一定要提供一个交互的方法,把人的智能带进去。这个例子里面就是,我们先给算法一些简单规则,让算法找到一些初始的结果,让行业专家去看这些结果,用他的经验去判断这个点是否合适,需要删除掉还是加一个点,这样把人的知识和机器的知识融合在一起,同时把数据科学知识跟专业行业知识融合在一起。

这非常重要,往往我们做大数据、做机器学习的时候到会遇到最后一步落地困难的问题,我们只有数据科学知识,缺少行业知识,但真正解决问题两者是缺一不可。行业的人往往不懂机器学习。此外,行业专家心中有很多复杂条件,他不一定能很好的量化和表达出来。此时,利用机器学习驱动的交互可视分析的方法可以弥补两者之间的鸿沟。

正是因为要通过迭代、交互才能实现人机融合,保证算法执行的效率和性能就变得很重要。你想想,如果我们给算法一个反馈,要等一天才能看结果,人怎么能跟机器交互呢。只有像视频里那样,专家给出反馈,算法马上出结果,才能做到真正的吧人机智能交互和融合。要想获得这样的性能,刚才展现的那个城市大数据平台就变得必不可少。

这个问题刚刚说应用是在充电桩的选址,实际上广告牌的选址是一样的。很多时候说我们只有有限的钱放广告牌,我们放在哪几个路口使得覆盖最大化呢。跟我前面讲的救护车那个不一样,那个是时间最优化,这是一个覆盖范围最优化的问题。

没有平台,别想交互,别想跟人机智能结合,那我们也解决不了实际的行业问题,因为你拿这个结果给专家看的时候,我们还有很多因素没考虑呢,这个初步的结果可能根本没用。所以这也是一个行业知识跟机器学习结合的例子。

关于郑教授分享课报道的其他部分,敬请期待雷锋网的后续报道。

长按图片保存图片,分享给好友或朋友圈

微软研究院资深主任研究员郑宇教授:多源数据融合与时空数据挖掘(一)

扫码查看文章

正在生成分享图...

取消
相关文章
Baidu
map