作者 | 李梅
编辑 | 陈彩娴
“再挖点特征出来吧。”
“看看还有没有超车的机会。”
“终于找到隐藏BUG了。”
“提交成功了!”
在这场持续 60 小时的极限挑战中,24 位程序员时而盯住屏幕扶额沉思,时而双手在键盘上快速游走,与队友互相打气,共同利用可信 AI 技术完成了欺诈举报定性、欺诈交易识别等任务。
这是去年 ATEC 科技精英赛的线下决赛环节。选手们的每一个或兴奋或焦灼的时刻,都被真实记录下来,形成了一档火爆的程序员专属真人秀节目《燃烧吧!天才程序员》。
图注:《燃烧吧!天才程序员 2》节目画面
今年,在中国人工智能学会指导下,ATEC前沿科技探索社区发起了第三届 ATEC 大赛,清华大学、西安交通大学、浙江大学、上海交通大学、蚂蚁集团共同参与了大赛的命题和组织。大赛以“科技助实”为命题,模拟企业数字化的真实场景,设立了数字化运营和数字化安全两大赛道。技术人将通过解决真实问题让 AI 走出象牙塔,发挥技术向善的力量。在这场热血竞技之中,最终脱颖而出的冠军队伍将获得100万元的奖金。
——1——
技术的力量
最前沿、最具价值的技术,是 ATEC 大赛第一个耀眼的标签。
当下,产业数字化已经成为一股不可逆转的浪潮,利用数字科技实现转型升级成了企业面临的重要课题。然而,科技助实毕竟是一个非常大的命题,在产业数字化这场大潮中,什么样的技术才是更有力量的?
毫无疑问,隐私计算、图智能、智能推荐等技术,已经成为企业数字化进程中绝对不可绕过的强大工具。“无论是对于蚂蚁还是对于更多中小企业而言,它们都是很重要的技术命题,这是大家感受非常深的。”蚂蚁集团资深算法专家、图学习技术总监张志强是今年ATEC 2022科技精英赛的赛题组负责人,他这样告诉 AI 科技评论。
因此,本届 ATEC 科技精英赛瞄准了消费券分发和风险商户识别两个具体的应用场景。
消费券或购物券的分发,是中小企业在数字化运营中提升收益率和效率的一个重要渠道。
2020 年春季,在国内第一波疫情高峰刚刚落下之际,政府为拉动经济复苏,投入了大量资金通过支付宝或其他平台向用户发放消费券。商家提供不同力度的产品折扣,支付宝平台则通过大数据的能力对用户的偏好进行预测,将消费券精准分发给用户,用户领取后去消费,商家便可获利。一直到今天,蚂蚁仍在运行这个项目,其中的算法也在持续地迭代。
这样一个场景首先涉及的是流量分发的概念,所以需要使用推荐相关的技术。推荐系统与搜索引擎、广告投放并列为 AI 在工业界落地规模最大的三个技术方向,在产业数字化中无疑具有巨大的技术力量。
同时,消费券的分发还会产生许多非结构化的图数据,比如用户点击领取或核销一次消费券,用户与消费券之间就构成一种关系,这种关系可以用图来表示。此外,用户历史行为的序列、用户之间的关系等也都可以表示成图数据。图数据的独特性在于样本并非独立同分布的,需要使用图神经网络等图学习滴技术去对图数据进行表达、理解或抽象,在此基础上再去实现智能化建模。
所以在推荐场景中,利用图学习的技术能够提高消费券分发的效率和精度,最终提高中小商家的数字化经营能力。事实上,在推荐相关的比赛中,引入图学习技术并不常见,常规的推荐比赛涉及的特征主要包括用户特征、消费券特征和曝光点击特征,而这次的 ATEC 大赛还额外增加了两个图数据源。
“图学习有很大的落地潜力,我们希望选手能在图学习方面多得到一些训练”,这是蚂蚁集团图学习技术部算法工程师赵前在参与出题时的一个出发点。前沿技术从产业中来,最终也要到产业中去,只有丰富多样的应用场景才能为图学习打开更大的技术落地空间,这次的消费券分发赛题便是其中一个典型场景。
不仅仅是推荐,风控也是图学习的重要落地场景。
企业进入数字化世界,除了提升数字化运营能力,还需要最大程度地降低安全风险。如欺诈、黑灰产商家或者金融领域小微企业的信用与经营风险等,会危害整个数字生态,所以今年 ATEC科技精英赛还设置了风险商户识别赛道。这个赛题在蚂蚁的网商银行业务中同样有着大量的实践经验。
网商银行为小微群体提供金融服务。举个例子,淘宝商家发出货品后,可能要等待长达 14 天的时间才能收到用户的付款,小微企业很可能会因此面临资金链断裂的危险。所以网商银行推出了发货贷款,只要商家真实发货,就会根据货物的真实价值及时缓解商家在交易中资金流动紧张的压力。
然而,一些不法商家会借机钻空子,比如利用刷单、虚假发货、伪造交易等手段去骗贷。为了维护其他正常商家的权益和整个数字生态的健康运行,我们就需要识别和剔除风险商户。
图学习技术在此便有了用武之地,商家和用户之间的交易可以用图数据来表示,如果商家实施了不良交易,我们就可以从交易图的模式中发现异常,进而对其做处理。
在识别黑灰产商家的任务中,隐私计算同样是一大技术利器。
隐私保护的背后其实是一个关于「数据」的矛盾。一方面,在 AI 研发转向以数据为中心的当下,人们越来越认识到数据作为生产要素的巨大价值,为了最大化地释放数据价值,数据需要被联合起来使用。但另一方面,生产数据的各个主体并不希望在数据协作过程中泄露自己的数据隐私。
张志强向我们举了一个风险商户识别的例子:很多时候,一个黑灰产团伙可能涉及多个平台,他们的数据可能包括不同类型 ,并分散在不同的计算节点中,我们需要对其实现一个高效的协作,将多方数据联合起来,更完整地刻画出黑灰产团伙的全貌,从而最大化识别效率。在此过程中就需要利用联邦学习技术,保护商家数据隐私的前提下,联合多方的交易信息,提高对风险商户的识别精度。
本质上,两个赛道背后的技术围绕的都是关于数据的能力。“图智能是针对某种特定数据类型进行表征和建模,隐私计算则是解决数据孤岛的问题,两种数据能力是互补的”,张志强解释。
所以,经由 ATEC 这场赛事,选手所能获得的并非只是解决两个赛题的经验,更是一场对当下工业界最前沿技术的探索。
——2——
更真实的工业场景命题
AI 技术者的实力有多强,只有深入工业场景的丛林实战一番才能见分晓。
“如果没有成规模化、具有较大影响力的真实场景,其实是很难诞生重量级的技术的”,张志强深信,真实场景更能驱动技术人去思考怎样的技术方向是更有价值的。所以,尽可能地还原真实工业场景,贯穿了本次 ATEC 大赛的命题始终。
在赛题组看来,这也正是许多计算机领域的竞赛所缺少的。以图学习为例,已有的相关比赛大多是面向学术环境,使用的是公开或构造的数据集,比如学术文献网所形成的庞大的图数据,但鲜少在真实工业命题下去彰显图学习的技术价值。
AI 要真正走出实验室,场景与人才,缺一不可。
这也是 ATEC 探索产学研融合模式的原因。每年的参赛者中有很大一部分是高校学生,他们大多缺少将研究理论付诸实践的平台。比如隐私计算是近年来一个新兴的热门方向,尽管很多高校都开设了相关课程,但相关的比赛还不多。公开的学术论文是他们了解这项技术的主要窗口,但论文提供的数据集及其评估方式通常与真实的技术应用场景之间有着不小的鸿沟。
纸上得来终觉浅,刚毕业不久的流愚对这一点深有体会。他解释,与学术环境下的公开数据集不同,工业场景中的测试集数据是完全不可见的,我们只能在训练集上开发模型,再将测试集的数据喂给模型、进行评估。这种差异会导致学生不理解为什么测试集上的时间特征是不可用的,可能会忽略特征穿越或特征泄露等情况,错将泄露的特征加入到模型中。但实际上,这些特征在真实场景中是不能使用的。
另外,去企业实习的门槛较高、机会也少,像隐私计算这样的方向,其实全国范围内的岗位还不多。蚂蚁内部有着海量的技术应用场景,借助这样的资源,ATEC为大家提供了一个最接近真实场景的试炼场,并对所有怀抱技术热情的人敞开大门,这也是过去两年 ATEC 能够吸引数千名技术青年参赛的原因。
在2020年第一届ATEC科技精英赛中,赛题就设立了真实的环境保护命题。参赛者通过训练AI模型,对濒危野生物种进行智能识别,与盗猎者展开了一场数字攻防博弈。第二年的考题之一“网络欺诈交易识别”,则来自支付宝的真实的业务场景,选手利用经过模改脱敏的、 关于数字货币的数据集,探讨数据保护场景下的联合计算分析,完成了一次隐私保护的技术实践。
那么,今年ATEC 科技精英赛的真实都体现在哪里?
首先,赛题的设计呈现了企业在数字化过程中所面临问题的实际面貌。
以赛道一为例,实际的消费券分发与一般的推荐任务不同,一般推荐任务大多只关心某一个整体的排序性指标,或关心围绕用户的一些排序指标。但实际的消费券发放场景涉及多方,包括平台方、商家和用户,商家侧的一些指标同样要考虑在内,一些曝光度更低、客户量更少的长尾、弱势小微企业,也希望用户能使用他们的消费券购买产品。这就需要我们提高每个券的点击排序预测的精度,保证无论是头部商家还是长尾商家都能得到较好的点击率和核销率,让小微企业也能乘上数字化的时代快车,实现降本增效。
所以,参赛者在设计推荐系统时,必须同时提高两方面的指标,既保证用户的体验,又能对中小商家的消费券做更精准的分发,这样才能在榜单中得到一个好的名次。
为了让选手能更自由地发挥其技术想象力,ATEC 还在保证数据安全的前提下提供了十分贴近工业场景的底层数据环境。
如在消费券分发的场景中,在对数据进行严格的脱敏、保证数据隐私的前提下,ATEC 将用户行为、用户间关系、消费券知识图谱等真实数据都开放给了选手。
“如果我是选手,我会希望题目的数据源不要定得太死,最好是原始的状态。”张志强曾在许多比赛中拿过奖项,也是经验丰富的出题人,他非常理解竞赛人希望比赛天花板没有最高只有更高的心态。
所以,在符合数据安全的前提下,赛题提供了用户和商家的一些经过脱敏的真实交易记录信息,而不是只给出高度抽象化的人工特征。假如专家提前在背后做好特征提取,那么选手就只需要做一些模型的组合工作,但 ATEC 希望选手能在模拟的工业环境中,花足够多的精力去理解数据本身,做信息的提取和建模。
另外,ATEC 大赛毕竟是一场技术竞技,所以赛题组在缩小比赛题目与真实工业问题之间的差距时也要考虑一个难点,即将赛题对复杂真实环境的简化调控到合理的幅度,这也是赛题组团队内部斟酌和争论最多的一个方面。他们都身处技术应用的第一线,很清楚目前业界有哪些强大的模型和基线,因此花了不少时间去测试不同的模型,在此基础上设定能拉开分数差距的赛题难度,在每一个数据源的选择上,他们都要保证能让选手的分数在榜单上具有区分度。
总之,在用技术解决数字经济难题的这条路上,青年技术人只有亲临真实的工业场景才能理解技术背后的逻辑,提升技术能力。而在迈入实战之前,ATEC无疑是一次不可多得的预演机会。
——3——
科技偶像的诞生
从 2020 年的“野生动物保护”,到2021年的“科技反诈”,一群笃信技术改变世界的年轻程序员们,在赛场上写下一行行代码,攻克了一个个社会热点命题。我们也看到了这群人身上独有的精神气质:对逻辑的忠诚,对效率的痴迷,对解谜的热爱。
今年,在“科技助实”的命题下,又有一群年轻人正在奔赴技术的竞技场。本届ATEC科技精英赛分为线上赛和线下赛两个阶段。
线上赛目前已经在进行当中,选手在支付宝提供的平台上训练模型、评测模型效果。评分采用测试榜(A 榜)+终榜(B 榜)形式,最终每个赛道的名次与奖励评定,都以 B 榜数据集成绩为依据。比赛期间排行榜显示 A 榜成绩排名,每支赛队每个自然日可提交 3 次结果。
最终,线上赛前 20% 且超过分数线的赛队将会均分 30 万元的奖池。在赛后答辩中,还将选出每个赛道答辩成绩前 8 名的选手瓜分 16 万元的奖池。
线下决赛将于2023年的 3 月 3 日至 5 日 举行。在限时 48 小时里,选手将在真实场景模拟中基于多项公开及隐藏关卡展开激烈的多轮对抗,角逐冠军团队,拿下百万奖金。
值得一提的是,本届比赛还专门设立了2名“巾帼特别奖”(1 万元奖金),希望这个舞台上能出现更多女程序员的身影。
让技术的力量被看见,让程序员们的声音被听见,是 ATEC 大赛的不变初衷。所以今年,线下赛将继续呈现在真人秀节目中,向公众展示程序员群体千姿百态的有趣灵魂。
图注:第二届ATEC科技精英赛冠军队伍
作为国内首档程序员真人秀综艺,以往两季的《燃烧吧!天才程序员》播出后成功破圈。在真实的镜头记录下,我们已经见证了许多技术“顶流”的诞生,如小刀、腹黑、郭达雅、李金膛的、曾兆阳等等,他们热血、智慧、谦逊,感染了无数有着技术理想的人。
ATEC 已经准备好了最真实的技术考验、极其诱人的奖金和独一无二被“看见”的机会,只等一个拥有技术灵魂的你来开启一段破浪之旅。(公众号:雷峰网(公众号:雷峰网))
ATEC 比赛网址:https://www.atecup.cn/home
(公众号:雷峰网)