| 雷峰网
0
Deepfake真是让人又爱又恨。
众所周知,基于深度学习模型的Deepfake软件,可以制造虚假的人脸视频或图像。它在影视、娱乐等行业有着广泛的应用场景。
但自2017年起,Deepfake也开始被不良分子用来制造色情视频——神奇女侠下海事件。据统计,社交网络中的Deepfake视频,96%涉及色情内容,观看用户数量已超过了1.3亿。
此外,Deepfake也开始涉足政治领域,被用来伪造虚假政客言论,相关数据也在逐年增长。
奥巴马发表着与自己不相关的言论
更重要的是,随着Deepfake技术的不断升级,这些伪造视频越来越难以分辨真假,对社会稳定构成了极大的威胁。
而近日,一篇刊登在IEEE PAMI(模式分析与机器智能汇刊)的论文声称,有新的方法能够识别Deepfake视频,准确率高达97.29%,而且还能够发现制造Deepfake背后的生成模型。
更有意思的是,不同于常规检测法,该论文强调其利用的是生物信号——心跳。
这篇论文来自宾汉姆顿大学(Binghamton University)与英特尔(Intel)公司联合组成的研究团队。该团队称,这款AI工具名为FakeCatcher,它可以通过检测心跳在面部产生的细微差别来区分视频真假。
我们知道,血管遍布人体全身,包括面部。当心脏跳动时会带动全身的血液流动,流动的血液会在人脸表面产生细微的变化,而这种变化正是研究人员区分真假视频的关键。
研究人员把区分这种变化的方法称为光体积变化描计法(Photoplethysmography,简称PPG)。简单来说,就是利用光率的脉动变化,折算成电信号,从而对应成心率。
这一原理与医学脉搏血氧仪,苹果手表以及可穿戴健身跟踪设备检测运动状态时的心跳信号类似。
该项研究的前提假设是:生物信号是区分真假人脸的重要标识。也就是说,假视频中显示的“人”不会表现出与真实视频中的人相似的心跳模式。
基于此,研究人员经过实验发现,Deepfake人脸无法正常还原因血液流动造成的微弱变化。
英特尔公司的资深研究科学家伊尔克·德米尔(Ilke Demir)介绍称,
我们从脸部的不同部位提取几个PPG信号,并观察了这些信号在空间维度和时间维度上的一致性。
在这里空间维度指的是面部区域,时间维度指的是心跳频率。Demir的意思是,通过读取PPG信号和增强技术,还原并放大其在面部所产生的微弱变化,以此判断视频的真假。
如果是Deepfake视频,所产生的面部效果会非常不自然。如下图:
具体来说,FakeCatcher完整的检测过程如下:1)识别关键的人脸区域;2)提取生物信号(PPG);3)利用信号转换计算空间维度和时间维度的相关性,并在特征集和PPG映射中捕获信号特征并训练概率;4)根据真实性概率对视频真假进行分类。
研究人员介绍称,在这一过程中主要取得三个方面的进步:
通过信号转换公式和实验,验证了利用生物信号的空间一致性和时间一致性检验视频真假的可行性。
提出了一种新型通用的Deepfake检测器。
提出了一种新的生物信号构造图,可用于训练神经网络进行真实性分类。
构建了一个多样化的人像视频数据集,为虚假内容检测提供了一个试验台。
在实验之前,为了更加精准地评估FakeCatcher模型,研究人员自建一个Deepfake数据集,该数据集来自媒体网络、新闻文章和研究报告等,因此,视频在生成模型、分辨率、压缩、照明、纵横比、帧速率、运动、姿势、遮挡、内容等方面的问题都是真实存在的。
该数据集包含了142个视频,有30 GB大小。从下图分类结果来看,FakeCatcher对低分辨率、压缩、运动、照明、遮挡等问题的表现都是鲁棒性的。
上半部分为真实视频,下半部分为Deepfake视频
接下来,研究人员主要进行了两项实验验证。一是与当前的深度学习解决方案和其他Deepfake检测器进行比较。实验结果如下:
其中,Frame和Face表示分段精度,可以看出FakeCatcher最高,达到了87.62%;Video表示视频精确度。FakeCatcher比最好的架构还要高出8.85%。
需要说明的是,表中所有实验都是在自建数据集DF(60%训练和40%的测试的分割)中进行的。
二是进行交叉数据集验证,分别包括DF、Celeb DF、FF、FF++和UADFV数据集。
第一列为训练数据集,第二列为测试数据集
从第5行和第6行来看,FakeCatcher在小而多样的数据集中的学习效果要比在大型且单一的数据集上更好。一方面是,DF训练和FF测试比反过来的测试精度高出了18.73%。另一方面是,DF数据集大约只有FF数据集的5%。从第3行和第6行来看,可以发现从FF到FF++增加分集,DF的准确率提高了16.9%。
在交叉数据集FF++中,每个原始视频包含四个合成视频,其中每个视频都使用不同的生成模型生成。研究人员将FF++的原始视频分割为60%训练,40%测试。然后创建这些集合的四个副本,并从每个集合中删除特定模型生成的所有样本。
表中第1列,每个集合包含三个模型的600个真实视频和1800个假视频,以及一个模型的400个真实视频和400个假视频进行测试。
从跨模型评估结果来看,除了NeuralTextures,其他均得到了非常精确的预测。而NeuralTextures本质上就是不同的生成模型。
由此,论文最后得出结论称,基于生物信号的Deepfake视频检测器FakeCatcher,证明了生物信号的空间维度和时间维度的一致性在GAN-Rated内容中并没有得到很好的保持。
此外,通过人脸取证实验并引入自建DF数据集中,对视频片段、视频的成对分离以及真实性分类方法进行评估,分别得到了99.39%,96%以及91.07%准确率。这些结果再次验证了FakeCatcher可以高精度地检测假内容,而不依赖视频的生成器、内容、分辨率以及质量等指标。
更多论文内容,请参见:https://arxiv.org/pdf/1901.02212.pdf
引用链接:
https://ieeexplore.ieee.org/document/9141516
https://techxplore.com/news/2020-10-deepfake-videos-pulse.html
雷锋网雷锋网雷锋网
雷峰网原创文章,未经授权禁止转载。详情见转载须知。