环球热议:【花师小哲】当代炼金术(神经网络)前沿(10)——Diffusion是记忆者?

AI绘画的突然爆火离不开Diffusion模型,这是近两年兴起的图像生成技术,关于Diffusion模型在之前的专栏介绍过:

【花师小哲】当代炼金术(神经网络)前沿(8)——Diffusion


(资料图片)

当然,本篇专栏也会再介绍其中的一些内容,所以可以不用急着跳转。

近期,一篇新论文试图证明一件事:“Diffusion模型对训练集有着很好的记忆力”。虽然单一篇论文的说服力不一定足够,但可以预想到之后会有相关研究跟进。这可能会为当今对AI绘画的讨论产生一定的积极影响,不过我个人还是不太想掺和这个话题的深入讨论。本篇还关注了由此可能带来的计算机安全问题。

1.本篇的目的

本篇论文的目的其实非常简单,即从Diffusion模型中提取出训练集的图片

我们知道,现有的很多AI绘画都是通过输入文字或标签等来生成图像,而生成这些图片的模型都是需要训练的,或者说,有一个训练集,这个集合中放有很多真实的照片。这就产生了一个问题,即模型生成的图片是否是对训练集图片的拼接,这个问题非常复杂(要是有定论关于AI绘画就不会吵的沸沸扬扬了)。

而本篇论文说明Diffusion模型确实对训练集有很好的记忆能力。这虽然距离回答上述问题还差一些步骤,但也算是为回答这个问题给出了一条有力的论据,关于这个话题就不展开讲。

像这样的难以回答的问题在当今AI领域,或者说神经网络领域是很常见的,即应用远先与理论,理论研究是很薄弱的。

2.Diffusion模型

在机器学习中有一个很常用的术语——过拟合。相信不少朋友对这个词已经不陌生了,这里也不过多说明(也可以翻找我之前的一些专栏)。

目前比较流行的图像生成的模型是Diffusion,相比于传统的GAN(之前专栏也写过)和VAE等,Diffusion模型具有很好的效果,一个比较突出的优点是——Diffusion可以生成和训练集差别较大的图片,生成图片的丰富度一般是比GAN之类的更好一些的,这就使得之前大部分人认为,相比于GAN等,Diffusion模型实质上是更加不容易过拟合。

由于我对VAE不是很熟,这里简单说一下GAN(生成对抗模型)的情况。

GAN模型的思路是训练两个模型——“生成器”和“判别器”,生成器的输入是随机噪声(目的是保证每次生成的图像不一样),生成的是图像(假图像),生成器的目的是为了生成像真图像的图像来骗过判别器;判别器的输入是图像,可以是假图像,也可以是真图像,判别器的目的就是判断输入图像的真假。

这就产生了一个问题,一旦“判别器”过拟合,则“生成器”也会过拟合,这会导致“生成器”生成的图像受训练集的影响是非常大的。

而Diffusion则不同,Diffusion模型本质上是一个除噪器。如图:

Diffusion意为“扩散”,即我们对一张图片逐步加噪声(每次加一点),最终我们就识别不出这张图。这个过程的反向操作就是“逆扩散”,即从噪声中一步步去噪,恢复出一张完整的图片。

我们看到,在这个过程中,Diffusion模型学习的是去噪技巧,只要这个技巧对于所有图片,或者说大部分图片都是有效的,那么过拟合问题似乎就没有了(我都这么说了,那就说明隐患一定就有了)

然而这篇论文证明了,相比于GAN、VAE等,Diffusion有更强的记忆能力,更容易复原出训练集图片(确实有点道理,毕竟GAN的生成器是不直接从训练集学习的)

3.学习者or记忆者?

如果是经常读AI论文的话,会发现很多著名的模型喜欢把自己的模型称为learner(学习者),毕竟机器学习嘛,就是想办法让机器“学习”到某些东西。

例如,我们做一个猫狗识别,那我们就希望我们的模型学到“猫”和“狗”的不同之处。然而神经网络的问题是我们几乎是很难解释为什么模型能够区分猫狗,或者说,区分猫狗的具体机制是什么。一般来说,我们会认为神经网络学习到了目前以人类的理论难以理解的一些高级特征

“学习”到什么一般是通过网络模型和损失函数来控制的,效果也只能通过这些数值来观测,模型具体学到了什么目前还是不得而知的

当下大模型(即参数异常庞大的神经网络)比较火,例如ChatGPT就是大模型的一种。大模型拥有小模型不曾拥有的能力,这些能力究竟怎么来的就更麻烦了,所以目前主流观点认为大模型强只是因为它们记住了所有的训练集

神经网络最终的走向只是“记忆者”吗?这还不得而知。

4.机器学习中的计算机安全

读完这篇论文,更应该担心的是隐私安全问题。这篇文章说明了对于Diffuion模型,一旦训练集的文字或标签泄露,则训练集的图片可能会泄露。这个风险还是有的。设想有人暴露你的图片隐私,它可以用你的图片训练一个Diffusion模型,然后把模型和标签给其他人,其他人用标签一还原就可以得到这个隐私图片,而中间的路径是很难追踪的。

当然,机器学习中计算机安全问题实质上是非常多的,实际情况比上述例子可能要复杂多了。(计算机安全也是一个超级大坑了,我这种基础博弈论都理解不来的人就不涉足了)

5.限制

这篇论文设定的场景某种程度上来讲还是有些难以实现的,即我们需要知道训练集的图片的标题。正如上面那张Ann的图片所示,你没有Ann这个关键词实质上是无法从模型中提取出图片的,而且你还需要和训练集做比对才知道是否真的提取的是训练集图片。

不过已经可以做一些应用了,例如把自己的名字输入一个Diffusion模型看是否能还原出自己的图片(然而考虑到重名等因素,此方案在现实中可行性应该不高,特别是一些开源模型应该会做一些处理,也很好做,例如把生成的候选图片中和训练集相似度较高的图片直接筛掉)。

而且目前公开的模型一般不太会用个人照片(毕竟一旦被控诉损失就大了),毕竟已经有ImageNet等数据集了,出现的人物也多是公众人物或接受隐私条款的人(当然,实际上到底会不会用涉及隐私的图片我也不可能知道)

总体来说,还没有那么危险,只是隐患是较大的。

标签: 神经网络 计算机安全 机器学习

X
X

Copyright ©  2015-2022 西方信息网版权所有  备案号:沪ICP备2020036824号-7   联系邮箱:5 626 629 @qq.com