道高一尺魔高一丈　AI助力“深伪”难辨

订户

李雅歌

发布 /

47 分钟前

2024-01-19

字体大小:

在AI时代，透过深伪技术已可做到“换脸”和“换声”，许多公众人物成了仿造目标。记者通过访问技术研发者，了解深伪视频和音频的制作过程，以及如何辨别真伪。也看到深伪技术正面之处。

常言道，“有图有真相”，但在AI时代，这句话似乎要打上一个问号。随着内容生成技术成熟普遍，基于深度学习与影音合成的深度伪造（简称“深伪”，deepfake）也愈发真假难辨。公众人物成了深伪技术的主要目标对象，近来YouTube弹窗经常出现打着名人效应旗号的广告，推荐理财产品。

不久前，不法分子利用深伪技术窜改李显龙总理的访谈片段，宣传加密货币骗局。总理在脸书帖文，呼吁公众提高警惕，切勿上当受骗。也有仿造CNA新闻播报关于淡马锡控股发布的一款新基金，鼓励公众购买。一系列近乎逼真的视频，乍一看难辨真假，回过神来才有警觉这可能是一种新兴的仿造技术。

深伪技术Deepfake早在2014年问世，2017年随着一款可以换脸的影片制作软件走入大众视野。踏入AI时代，深伪技术已经可以做到“换脸”和“换声”，这就意味着写好“剧本”后，可以将任何话放在任何人口中。不仅在本地，而是全球范围内，利用深伪技术制造假消息的例子屡见不鲜，公众人物如马斯克、奥巴马、普京等，都成为被深伪的对象。

记者通过访问技术研发者，了解深伪视频和音频的制作过程，以及如何辨别真伪。揭开数字骗局的面纱，只有“知彼”了解deepfake的传播特点，才能提高警觉，避免上当受骗。

一张图就能换脸

国大电脑学院（电脑科学系）副教授沈茂祯，从2019年开始研究视频深伪技术。他介绍说，制作深伪视频需要的两大元素分别是，目标对象的源图像（source image），以及一段驱动视频（driving video）。譬如要仿造一段奥巴马的视频，首先需要为机器学习提供参照物，源图像可以是奥巴马的照片或影像资料，让机器“记住”这张脸之后，还需要一段主导面部动作等的驱动视频。在做好的程序中，任何人都可以成为驱动视频中的“演员”负责做动作，读稿讲话，最终出来的效果是被换脸成奥巴马在讲话。

沈茂祯团队在研究深伪视频技术的制作，截图由上到下分别由不同性别、种族的研究员作为驱动视频中的“演员”，做出各种面部表情和头部移动，都能驱动生成目标人物奥巴马的一举一动，在经过深度处理后，图像看起来更逼真。团队甚至尝试用猴子的表情驱动，系统也可以代入识别。（科研视频截图）

当被问及需要多少源图像作为学习数据时，沈教授说随着技术日益发展成熟，一张图就可以做深伪处理。例如两人在视讯时，当即截屏一张对方的照片，就可以用作源图像。社交媒体年代，个人照在网上唾手可得，拿到一张照片“贴在”制作好的视频中，利用音频深伪技术换成模仿目标人物的声音，音频、音调、音色都能做到如假包换，整个视频看起来就像是目标人物在讲话。

如果要视频做得更逼真，就需要大量收集素材。对于网上出现的李显龙总理的视频，沈茂祯分析，从视频的时长看，制作者收集了大量总理的“图像数据”，录好讲话内容后调成总理的音色发布上网。“因为公众人物的视频和影像资料足够丰富，通常会成为深伪的目标人群，如政治任务、明星等曝光率高，也容易从网上搜集到素材。”

被篡改的声音

在深伪技术领域也有细分，有人专攻视频，有人专做音频。弗劳恩霍夫应用与集成安全研究所（Frauenhofer AISEC）是德国一家世界领先的网络安全应用研究机构，在本地与南洋理工大学有合作。尼古拉斯·穆勒（Nicolas Müller）是该机构研究员，与其团队目前在德国主要负责研究深伪音频（audio deepfake）。在视讯访问中，穆勒分享深伪骗局在德国的情况：不少年长者会收到孩子发来的求助电话，称自己遇到麻烦需要钱救急，声音的逼真程度足以骗过亲生父母。也有雇员收到雇主的语音短信，要求对方转账到某账户。或是通过社媒发布伪造的政治家言论，希望赚取点击量。

Frauenhofer AISEC研究员尼古拉斯·穆勒（Nicolas Müller），主要负责深伪音频的研究。（受访者提供）

深伪技术建立在神经网络（neural network）的人工智能算法上，是一种机器深度学习的过程，用于教电脑以受人脑启发的方式处理数据，类似于人脑的分层结构中的互连节点或神经元，创建适应系统，让电脑可以从错误中学习并不断改进。建立AI神经网络是一种大数据主导的学习方式，在训练机器学习时“投喂”大量数据，机器会自动抓取声音中有特色的部分加以复刻。穆勒类比道，就好像善于模仿声音的人，只要听一两分钟就能模仿出对方的声音，AI也像这样，向它“投喂”名人政客的声音，它或抓取模仿人说话的语音、语调、语速等。

穆勒介绍目前机构推出两大网站，帮助公众鉴别deepfake。其一是用来鉴别视频中的音频内容是否伪造，只要复制YouTube链接或上传视频文件，系统就会帮忙分析。另一个是类似“试听练耳”的网站，点击播放音频判断真假，平日里多练习可以帮助提升听觉辨识力。记者尝试做了20道听力题，正确率是16／20，有些音频使用人声后真假难辨。

对于深伪技术的未来发展，穆勒认为随着这项技术愈发触手可及，可以用十分便宜的价格制造出高品质深伪音频。从社会层面来说，他认为人们需要学习如何有效辨识处理深伪信息，例如收到可疑求救电话，可以先挂断再打回给本人核实是否是真人来电。此外在于培养警觉意识，“不能轻易相信一张照片，因为可能被photoshop修改过，也不能轻易相信一把声音，因为可能被深伪技术编辑过。”

三招辨别深伪视频

既然如此，我们可以如何鉴别深伪信息？沈茂祯认为，可以通过物理假象（physical artefacts）、语义特征（semantic features）和内容（content）三方面来鉴别。

物理假象包括视觉瑕疵，如虚假图像和真实图像之间的接缝混杂不清，出现色彩闪烁。语义特性包括渲染不合理的部分，如不匹配的眼睛，畸形的五官，面部与头部姿势的错位，或与视频情感内容不符的表情。在内容上，通过常识性的逻辑分析，看看被报道的人是否有可能说或者做正在报道的事，例如乔布斯作为iPhone创始人不可能推销三星手机。

从受众心理角度分析，团队正在进行的一项研究发现，人们对人工智能生成的假新闻反应各不相同，这取决于资讯的呈现方式。当AI生成的新闻配以文字、图片、视频相结合，并以社交媒体帖子的形式呈现时，人们会更加警觉。然而，当新闻仅由文字形式，人们的敏锐度和警觉性往往较低（ “敏锐度”或“警觉性”是指人们区分人工智能生成内容，以及非人工智能生成内容的能力）。

以人群为变量，研究团队从美国、印度和新加坡，各邀请约200名参与者进行对比。与印度和美国参与者相比，新加坡参与者表现出稍高的敏锐度。男性和对AI技术有所了解的人，更有可能认为新闻是由AI制作的。

视频为主流内容或须加以标示

从媒介传播学角度分析，北京师范大学新闻传播学院教授喻国明认为，深伪技术的产生与视频内容主流化有着密切关系。其团队近期的研究发现，网络内容中原本主流的文字表达已经压缩到20%，而视频表达已占据80%，“这本身是一种表达形态的重心转移。文字表达相对干净、确定、严谨，视频的特点是比较感性，表达元素丰富，当然也可以说比较离散凌乱，尤其像使用蒙太奇切割手法容易造成逻辑中断等。视频表达会对人们的思想产生影响，如短链思考，感性认知，以及注重表面效应。”

通过信息分类的方式标注预警，一方面是将信息分类成不实信息、谣言信息。另一方面，是将人群分为易感人群、非易感人群。通过提供色彩标注等方式，帮助在深伪信息方面辨别能力比较弱的易感人群，比如说加上黄色标注就说明信息来源是单一的，要对它保持警惕。加以橙色，代表不同人对这则消息有不同意见，虽然不能证实是谣言伪论，但存有争议。用标注的方式提供给读者提示。

从条例与技术入手

随着AI技术的发展，目前各国都在草拟对于内容生成的管制条例。我国人工智能验证基金会（AI Verify Foundation）和资讯通信媒体发展局（IMDA），在1月16日提出生成式人工智能（Generative AI）治理框架草案，并向国内外征求意见，希望探讨采用“营养标签”，让人们像了解食材那样可掌握各种人工智能模型的“成分”，使用时更安全放心。

澳大利亚于2023年发布了一项关于打击错误信息和虚假信息的法案草案，引起激烈讨论，其中就包括不实信息的部分。欧盟的《数字服务法案》在日前生效，英国则通过了新的《网络安全法案》。在AI时代初期，不同国家都在努力解决如何处理网路上合法但有害内容的问题，并寻求国际间的合作。

以图为例，一旦多媒体数据遭到修改，内嵌的易损数字水印就会被破坏，在后端能够看到改动发生的位置和改动程度。（互联网）

沈茂祯从技术层面分享，目前业界普遍探讨的两大数字水印技术——易损数字水印（Fragile watermarking）和鲁棒数字水印（Robust watermarking），或许会在deepfake横行的时代得到广泛应用。两种皆为隐形的水印技术，易损数字水印是指在生产多媒体内容的过程中，一旦多媒体数据（视频、音频等）遭到修改，内嵌的数字水印就会被破坏，如有篡改可以在后端看到改动发生的位置和改动程度。相反的，鲁棒数字水印是无法被更改的，在一些常规图像处理（如压缩、滤波、去噪）和恶意攻击下依然存在。好像是内容生产者的标记，就算是被人篡改盗用，水印依然存在，好证明生产者是谁。

硬币另一面 Deepfakes的正面应用

看向硬币的另一面，任何技术的存在都可以是一把双刃剑，主要看使用者如何使用，深伪技术也是如此。落入不法者手中，它就成了制造假消息的工具，落入有心者手中，它可以成为造福人的工具，带来正面应用。

以音频深伪技术为例，一家名为VocaliD的公司，为失语者提供语言辅助工具，让他们可以“开口讲话”。该线上平台开放给所有人，可以通过录制自己大声朗读的内容将声音“捐献”给VocaliD的语音库。目前平台已收集了全球各个地区不同年龄层、不同人种的声音，失语者可以通过设定好的程序设备，挑选自己喜欢的音色作为自己的“发声器”，用被赋予了身份认同的声音和家人朋友沟通。

电影制作公司利用虚拟数字人技术，完成保罗·沃克在《速度与激情》里的最后亮相。（互联网）

沈茂祯介绍，类似于deepfake的换脸技术，一直以来都有在电影制作中使用，譬如在汤姆·汉克斯主演的《阿甘正传》中，有一幕主角与已故美国总统肯尼迪握手，使用数字虚拟技术完成了“穿越”。在《速度与激情》的拍摄过程中，主角保罗·沃克不幸离世，后期以数字虚拟人的技术，完成了整部电影的“换脸”重制。应用在教育领域，沈茂祯认为也有巨大的开发潜力，例如运用深伪技术重现历史，让历史人物从书本中“重出江湖”，活灵活现地出现在大众面前，还能通过视频与音频的结合实现对话。