Showing posts with label AI 道高一尺魔高一丈 AI助力“深伪”难辨. Show all posts
Showing posts with label AI 道高一尺魔高一丈 AI助力“深伪”难辨. Show all posts

Friday, January 19, 2024

人工智能AI 道高一尺魔高一丈 AI助力“深伪”难辨

道高一尺魔高一丈 AI助力“深伪”难辨

订户
赠阅文章
随着生成式AI技术的普及,深伪内容也愈发真假难辨。(iStock图片)
随着生成式AI技术的普及,深伪内容也愈发真假难辨。(iStock图片)

字体大小:

在AI时代,透过深伪技术已可做到“换脸”和“换声”,许多公众人物成了仿造目标。记者通过访问技术研发者,了解深伪视频和音频的制作过程,以及如何辨别真伪。也看到深伪技术正面之处。

常言道,“有图有真相”,但在AI时代,这句话似乎要打上一个问号。随着内容生成技术成熟普遍,基于深度学习与影音合成的深度伪造(简称“深伪”,deepfake)也愈发真假难辨。公众人物成了深伪技术的主要目标对象,近来YouTube弹窗经常出现打着名人效应旗号的广告,推荐理财产品。

不久前,不法分子利用深伪技术窜改李显龙总理的访谈片段,宣传加密货币骗局。总理在脸书帖文,呼吁公众提高警惕,切勿上当受骗。也有仿造CNA新闻播报关于淡马锡控股发布的一款新基金,鼓励公众购买。一系列近乎逼真的视频,乍一看难辨真假,回过神来才有警觉这可能是一种新兴的仿造技术。

不法分子利用深伪技术窜改李显龙总理的访谈片段。(档案照)

深伪技术Deepfake早在2014年问世,2017年随着一款可以换脸的影片制作软件走入大众视野。踏入AI时代,深伪技术已经可以做到“换脸”和“换声”,这就意味着写好“剧本”后,可以将任何话放在任何人口中。不仅在本地,而是全球范围内,利用深伪技术制造假消息的例子屡见不鲜,公众人物如马斯克、奥巴马、普京等,都成为被深伪的对象。

记者通过访问技术研发者,了解深伪视频和音频的制作过程,以及如何辨别真伪。揭开数字骗局的面纱,只有“知彼”了解deepfake的传播特点,才能提高警觉,避免上当受骗。

一张图就能换脸

国大电脑学院(电脑科学系)副教授沈茂祯,从2019年开始研究视频深伪技术。他介绍说,制作深伪视频需要的两大元素分别是,目标对象的源图像(source image),以及一段驱动视频(driving video)。譬如要仿造一段奥巴马的视频,首先需要为机器学习提供参照物,源图像可以是奥巴马的照片或影像资料,让机器“记住”这张脸之后,还需要一段主导面部动作等的驱动视频。在做好的程序中,任何人都可以成为驱动视频中的“演员”负责做动作,读稿讲话,最终出来的效果是被换脸成奥巴马在讲话。

沈茂祯团队在研究深伪视频技术的制作,截图由上到下分别由不同性别、种族的研究员作为驱动视频中的“演员”,做出各种面部表情和头部移动,都能驱动生成目标人物奥巴马的一举一动,在经过深度处理后,图像看起来更逼真。团队甚至尝试用猴子的表情驱动,系统也可以代入识别。(科研视频截图)

当被问及需要多少源图像作为学习数据时,沈教授说随着技术日益发展成熟,一张图就可以做深伪处理。例如两人在视讯时,当即截屏一张对方的照片,就可以用作源图像。社交媒体年代,个人照在网上唾手可得,拿到一张照片“贴在”制作好的视频中,利用音频深伪技术换成模仿目标人物的声音,音频、音调、音色都能做到如假包换,整个视频看起来就像是目标人物在讲话。

如果要视频做得更逼真,就需要大量收集素材。对于网上出现的李显龙总理的视频,沈茂祯分析,从视频的时长看,制作者收集了大量总理的“图像数据”,录好讲话内容后调成总理的音色发布上网。“因为公众人物的视频和影像资料足够丰富,通常会成为深伪的目标人群,如政治任务、明星等曝光率高,也容易从网上搜集到素材。”

被篡改的声音

在深伪技术领域也有细分,有人专攻视频,有人专做音频。弗劳恩霍夫应用与集成安全研究所(Frauenhofer AISEC) 是德国一家世界领先的网络安全应用研究机构,在本地与南洋理工大学有合作。尼古拉斯·穆勒(Nicolas Müller)是该机构研究员,与其团队目前在德国主要负责研究深伪音频(audio deepfake)。在视讯访问中,穆勒分享深伪骗局在德国的情况:不少年长者会收到孩子发来的求助电话,称自己遇到麻烦需要钱救急,声音的逼真程度足以骗过亲生父母。也有雇员收到雇主的语音短信,要求对方转账到某账户。或是通过社媒发布伪造的政治家言论,希望赚取点击量。

Frauenhofer AISEC研究员尼古拉斯·穆勒(Nicolas Müller),主要负责深伪音频的研究。(受访者提供)

深伪技术建立在神经网络(neural network)的人工智能算法上,是一种机器深度学习的过程,用于教电脑以受人脑启发的方式处理数据,类似于人脑的分层结构中的互连节点或神经元,创建适应系统,让电脑可以从错误中学习并不断改进。建立AI神经网络是一种大数据主导的学习方式,在训练机器学习时“投喂”大量数据,机器会自动抓取声音中有特色的部分加以复刻。穆勒类比道,就好像善于模仿声音的人,只要听一两分钟就能模仿出对方的声音,AI也像这样,向它“投喂”名人政客的声音,它或抓取模仿人说话的语音、语调、语速等。

穆勒介绍目前机构推出两大网站,帮助公众鉴别deepfake。其一是用来鉴别视频中的音频内容是否伪造,只要复制YouTube链接或上传视频文件,系统就会帮忙分析。另一个是类似“试听练耳”的网站,点击播放音频判断真假,平日里多练习可以帮助提升听觉辨识力。记者尝试做了20道听力题,正确率是16/20,有些音频使用人声后真假难辨。

对于深伪技术的未来发展,穆勒认为随着这项技术愈发触手可及,可以用十分便宜的价格制造出高品质深伪音频。从社会层面来说,他认为人们需要学习如何有效辨识处理深伪信息,例如收到可疑求救电话,可以先挂断再打回给本人核实是否是真人来电。此外在于培养警觉意识,“不能轻易相信一张照片,因为可能被photoshop修改过,也不能轻易相信一把声音,因为可能被深伪技术编辑过。”

三招辨别深伪视频

既然如此,我们可以如何鉴别深伪信息?沈茂祯认为,可以通过物理假象(physical artefacts)、语义特征(semantic features)和内容(content)三方面来鉴别。

国大电脑学院(电脑科学系)副教授沈茂祯及团队,主要在做深伪视频研究。(档案照)

物理假象包括视觉瑕疵,如虚假图像和真实图像之间的接缝混杂不清,出现色彩闪烁。语义特性包括渲染不合理的部分,如不匹配的眼睛,畸形的五官,面部与头部姿势的错位,或与视频情感内容不符的表情。在内容上,通过常识性的逻辑分析,看看被报道的人是否有可能说或者做正在报道的事,例如乔布斯作为iPhone创始人不可能推销三星手机。

从受众心理角度分析,团队正在进行的一项研究发现,人们对人工智能生成的假新闻反应各不相同,这取决于资讯的呈现方式。 当AI生成的新闻配以文字、图片、视频相结合,并以社交媒体帖子的形式呈现时,人们会更加警觉。然而,当新闻仅由文字形式,人们的敏锐度和警觉性往往较低( “敏锐度”或“警觉性”是指人们区分人工智能生成内容,以及非人工智能生成内容的能力)。

以人群为变量,研究团队从美国、印度和新加坡,各邀请约200名参与者进行对比 。与印度和美国参与者相比,新加坡参与者表现出稍高的敏锐度。男性和对AI技术有所了解的人,更有可能认为新闻是由AI制作的。

视频为主流内容或须加以标示

从媒介传播学角度分析,北京师范大学新闻传播学院教授喻国明认为,深伪技术的产生与视频内容主流化有着密切关系。其团队近期的研究发现,网络内容中原本主流的文字表达已经压缩到20%,而视频表达已占据80%,“这本身是一种表达形态的重心转移。文字表达相对干净、确定、严谨,视频的特点是比较感性,表达元素丰富,当然也可以说比较离散凌乱,尤其像使用蒙太奇切割手法容易造成逻辑中断等。视频表达会对人们的思想产生影响,如短链思考,感性认知,以及注重表面效应。”

北京师范大学新闻传播学院喻国明教授。(蔡家增摄影)

通过信息分类的方式标注预警,一方面是将信息分类成不实信息、谣言信息。另一方面,是将人群分为易感人群、非易感人群。通过提供色彩标注等方式,帮助在深伪信息方面辨别能力比较弱的易感人群,比如说加上黄色标注就说明信息来源是单一的,要对它保持警惕。加以橙色,代表不同人对这则消息有不同意见,虽然不能证实是谣言伪论,但存有争议。用标注的方式提供给读者提示。

从条例与技术入手

随着AI技术的发展,目前各国都在草拟对于内容生成的管制条例。我国人工智能验证基金会(AI Verify Foundation)和资讯通信媒体发展局(IMDA),在1月16日提出生成式人工智能(Generative AI)治理框架草案,并向国内外征求意见,希望探讨采用“营养标签”,让人们像了解食材那样可掌握各种人工智能模型的“成分”,使用时更安全放心。

澳大利亚于2023年发布了一项关于打击错误信息和虚假信息的法案草案,引起激烈讨论,其中就包括不实信息的部分。欧盟的《数字服务法案》在日前生效,英国则通过了新的《网络安全法案》。在AI时代初期,不同国家都在努力解决如何处理网路上合法但有害内容的问题,并寻求国际间的合作。

以图为例,一旦多媒体数据遭到修改,内嵌的易损数字水印就会被破坏,在后端能够看到改动发生的位置和改动程度。(互联网)

沈茂祯从技术层面分享,目前业界普遍探讨的两大数字水印技术——易损数字水印(Fragile watermarking)和鲁棒数字水印(Robust watermarking),或许会在deepfake横行的时代得到广泛应用。两种皆为隐形的水印技术,易损数字水印是指在生产多媒体内容的过程中,一旦多媒体数据(视频、音频等)遭到修改,内嵌的数字水印就会被破坏,如有篡改可以在后端看到改动发生的位置和改动程度。相反的,鲁棒数字水印是无法被更改的,在一些常规图像处理(如压缩、滤波、去噪)和恶意攻击下依然存在。好像是内容生产者的标记,就算是被人篡改盗用,水印依然存在,好证明生产者是谁。

硬币另一面 Deepfakes的正面应用

看向硬币的另一面,任何技术的存在都可以是一把双刃剑,主要看使用者如何使用,深伪技术也是如此。落入不法者手中,它就成了制造假消息的工具,落入有心者手中,它可以成为造福人的工具,带来正面应用。

VocaliD公司利用音频生成技术为失语者提供语言辅助工具。(视频截图)

以音频深伪技术为例,一家名为VocaliD的公司,为失语者提供语言辅助工具,让他们可以“开口讲话”。该线上平台开放给所有人,可以通过录制自己大声朗读的内容将声音“捐献”给VocaliD的语音库。目前平台已收集了全球各个地区不同年龄层、不同人种的声音,失语者可以通过设定好的程序设备,挑选自己喜欢的音色作为自己的“发声器”,用被赋予了身份认同的声音和家人朋友沟通。

电影制作公司利用虚拟数字人技术,完成保罗·沃克在《速度与激情》里的最后亮相。(互联网)

沈茂祯介绍,类似于deepfake的换脸技术,一直以来都有在电影制作中使用,譬如在汤姆·汉克斯主演的《阿甘正传》中,有一幕主角与已故美国总统肯尼迪握手,使用数字虚拟技术完成了“穿越”。在《速度与激情》的拍摄过程中,主角保罗·沃克不幸离世,后期以数字虚拟人的技术,完成了整部电影的“换脸”重制。应用在教育领域,沈茂祯认为也有巨大的开发潜力,例如运用深伪技术重现历史,让历史人物从书本中“重出江湖”,活灵活现地出现在大众面前,还能通过视频与音频的结合实现对话。

LIKE我们的官方脸书网页以获取更多新信息

热词