| 雷峰网
0
本文作者: 陈伊莉 | 2017-08-14 10:18 |
技术在诞生、研发到应用各阶段目标和工作方式有所不同。在中科院计算所副研究员、博导罗平教授看来,学术研究是在茫茫林海中有目的地寻找,有时候一无所获,有时候能在千万次试错后发现一整片绿洲。但也仅止步于此,如何挖掘风景的商业价值和掩藏的宝藏则由产业界接手。相较而言,实际应用可能会耗费更多的人力和工程量。“若划分个百分比,前期研究是20%,应用是80%。”
罗平教授的主要研究领域是机器学习与数据挖掘,以及大数据下的实际新型应用。除了这重学术身份外,他还曾就职于惠普研究院研究员,现在是微信人工智能首席科学顾问。 此外,在近期由中国计算机学会(CCF)主办,雷锋网和香港中文大学(深圳)承办的第二届CCF-GAIR全球人工智能与机器人峰会上,罗平教授为观众分享了一项他目前的研究项目——庖丁解文,即用AI来撰写和复核投行金融文档,已经对外开放使用。
他对雷锋网表示,
“我的研究思路是扎根某一领域,比如金融,并探索一些实际问题,再从实际问题出发抽象出研究点。实际问题可能只是一个‘点’,抽象出来后形成多个不同的点。”
罗平教授举了一个实例,在 Data Mining 领域有一个问题叫 Lock Step Behavior Mining,就是“挖掘同步行为”。之前他们与上交所的一个合作项目,就是通过所有用户交易数据来监控一种典型的市场违规行为——老鼠仓。具体指庄家在用公有资金拉升股价之前,先用自己个人(机构负责人,操盘手及其亲属,关系户)的资金在低位建仓,待用公有资金拉升到高位后个人仓位率先卖出获利。
“如果两个账户中,一个大的基金账户和小散户经常在相近时间买卖同一只股票,那么就是一种异常信号。这是可以通过大数据挖掘出来的。然后,我们开始思考能否将这研究拓展到其他场景。后来我们发现这可以应用到,比如清理社交平台上的僵尸粉,或者识别豆瓣电影的水军。因为僵尸粉和水军之间存在大量的同步行为”
基于这样的研究思路,罗平教授开始关注产业界的应用。他正在挖掘的“金矿”有二,一是庖丁解文,二是 Chatbot 平台。
金融场景中存在大量的非结构化文本数据,大多数金融从业者都是在做繁重重复且低技术含量的文档撰写和核查工作,而且目前很多是纯手工作业,难免出现低级错误。这些错误将可能带来很高的风险,导致金融机构面临声誉和经济损失,甚至承担诉讼的连带责任。例如高盛曾于2011年因为四只认股权证定价算式出错,从而赔偿4500万美元;去年,邮储银行公告出现乌龙,称邮政银行负债8亿亿等。
针对这些痛点,罗平教授团队希望用技术和机器来帮助他们。
“我们现在所做的事是,对金融文档进行自动结构化,干净利落得获得金融文档中的语义信息。古有庖丁解牛,我们这是庖丁解文。”
产品名为AutoDoc,现在支持金融文档中数据勾稽关系的复核和笔误修改,后续会逐步增加自动撰写、智能分析功能。
罗平教授简单地描述了一番应用流程,“使用起来很简单,用户只需上传需要复核的金融文档,经过自动解析和比对,机器会自动标注出数据不一致的地方。”
如上图所示,根据文档中的表格数据,机器可自动计算出“2016年主营收入较2015年下降的比例”应该为“12.43%”,但文字中的显示为“11.29%”。
“其实,投行和律所的工作人员长时间的都在干这些数字复核的事情。然而,这些文档通常都是好几百页,复核的过程很“反人性”。现在,这些工作都可以交给AI自动完成了。”
那么背后的核心技术是什么?罗平教授告诉雷锋网,复核就是复核文章各种数字之间的勾稽关系。背后涉及到从非结构化的文档中自动提取出对应语义的元组和公式。
据介绍,他们研发的深度结构化技术包含两个层面:
第一个层面是 Text2Tuple,从文本到元组。元组是时间、财务指标、值的三元组,比如说:2013、2014、2015年第一大客户的营业额分别是多少钱,需要提取出来。
第二个层面是 Text2Equ。他们需要把文本中的比例数字,如60%、58%、55%,解释为语义相同的计算公式;同时文中还提到“呈现逐渐下降的趋势”,所以也要提取出这个不等式的关系。
“我们研发的模型,输入非结构化或半结构化的文本,可输出可供计算机搜索、比对、分析的结构化的数据。这其实是自动构建知识图谱的核心技术。有了知识图谱,后续可以支撑很多应用。”
不过由于产品还处于早期阶段,为了方便用户使用,目前复核重点是数字,后期有关人名、事件表述也会增加;对于数据勾稽关系的确认还未涉及外部公开数据,仅是check上传文档的数字一致性。
虽然AutoDoc功能简单,但是表现不俗。据了解,他们对1000对个公开的债券募集说明书进行测试,发现有68.92%的文档存在数据不一致错误,每篇出错文档平均包含4.26个错误。后来在4月份将该功能发布在微信公众号 “债有主”上。截至七月,用户上传近1000份文档,其中98.4%的文档存在错误,每篇出错文档平均有6.5个错误。
"从非结构文档提出结构化的准确率,已过95%。"罗平教授说。
罗平教授在微信的研究工作围绕自然语言处理微信公众号及展开。目前,公众号已成为人们获取信息和知识的一个重要平台。面对这些海量的非结构化文章和数据,他们思考如何提供是帮助用户搜索找到更精准的问题答案。
“现在的搜索只能给出一些大致的答案,我们希望对公众号文章做深入语义获取。这样,用户在微信中搜索一个具体问题时,比如如何修轮胎、做饭等,会呈现出图文并茂的指导。”
在今年6月CCF举办的学术报告会上,他将信息和知识获取平台划分为三种类型——“搜索引擎”、“问答系统”和“Bot平台”。这些平台,在交互方式、处理数据方式、数据拥有者在系统内的角色三方面都存在不同。前两类采用统一入口,索引关键词或完整问题,数据/知识拥有者参与程度不高;而Bot平台采用单独入口和自然语言交互技术,融合领域数据和模型,并不断迭代,数据拥有者纳入商业体系,有较强的精耕细作动力,能生产出高价值内容。
“就现阶段而言,精准搜索还未实现,我们还在持续研究中。”
随着AI技术的大热,一大批创业公司如雨后春笋般冒出来,如何在同质化竞争中占据高地?作为一位有着技术产品化实践的计算机学家,罗平教授表示,技术可能并非护城河,竞争的真正壁垒在于数据、用户、场景和先发优势。
“可能是因为我对于技术非常熟悉,从我的角度而言,一个公司的成功不是靠一项独一无二的技术,技术门槛并非那么高不可攀。”
此外,关于金融领域弱特征大数据,强特征小数据之争常有见报。对此,罗平教授认为,在征信场景中,由于强特征人群覆盖不全,面对日益旺盛的信贷需求,大数据自然有其用武之地。
“特别在征信领域,数据为王,算法靠后。”
同时他也指出,人群特征有一个关键概念——关联,关联是指很多事情偶然地同时出现,但开发者可能将它们也作为“有钱人”的特征挖掘出来,从而很可能导致风险发生。关联性并不等于因果关系,有因果关系的大数据才能真正起到作用。“正如一些真正赚钱的基金经理,在对金融市场的认知基础上,他们构建出一套可能只有一两个特征的逻辑,并能基于这些简单的逻辑闷声发大财。”
雷峰网原创文章,未经授权禁止转载。详情见转载须知。