环球热议:【花师小哲】当代炼金术（神经网络）前沿（10）——Diffusion是记忆者？

来源：哔哩哔哩 2023-02-01 18:50:28

AI绘画的突然爆火离不开Diffusion模型，这是近两年兴起的图像生成技术，关于Diffusion模型在之前的专栏介绍过：

【花师小哲】当代炼金术（神经网络）前沿（8）——Diffusion

(资料图片)

当然，本篇专栏也会再介绍其中的一些内容，所以可以不用急着跳转。

近期，一篇新论文试图证明一件事：“Diffusion模型对训练集有着很好的记忆力”。虽然单一篇论文的说服力不一定足够，但可以预想到之后会有相关研究跟进。这可能会为当今对AI绘画的讨论产生一定的积极影响，不过我个人还是不太想掺和这个话题的深入讨论。本篇还关注了由此可能带来的计算机安全问题。

1.本篇的目的

本篇论文的目的其实非常简单，即从Diffusion模型中提取出训练集的图片。

我们知道，现有的很多AI绘画都是通过输入文字或标签等来生成图像，而生成这些图片的模型都是需要训练的，或者说，有一个训练集，这个集合中放有很多真实的照片。这就产生了一个问题，即模型生成的图片是否是对训练集图片的拼接，这个问题非常复杂（要是有定论关于AI绘画就不会吵的沸沸扬扬了）。

而本篇论文说明Diffusion模型确实对训练集有很好的记忆能力。这虽然距离回答上述问题还差一些步骤，但也算是为回答这个问题给出了一条有力的论据，关于这个话题就不展开讲。

像这样的难以回答的问题在当今AI领域，或者说神经网络领域是很常见的，即应用远先与理论，理论研究是很薄弱的。

2.Diffusion模型

在机器学习中有一个很常用的术语——过拟合。相信不少朋友对这个词已经不陌生了，这里也不过多说明（也可以翻找我之前的一些专栏）。

目前比较流行的图像生成的模型是Diffusion，相比于传统的GAN（之前专栏也写过）和VAE等，Diffusion模型具有很好的效果，一个比较突出的优点是——Diffusion可以生成和训练集差别较大的图片，生成图片的丰富度一般是比GAN之类的更好一些的，这就使得之前大部分人认为，相比于GAN等，Diffusion模型实质上是更加不容易过拟合。

由于我对VAE不是很熟，这里简单说一下GAN（生成对抗模型）的情况。

GAN模型的思路是训练两个模型——“生成器”和“判别器”，生成器的输入是随机噪声（目的是保证每次生成的图像不一样），生成的是图像（假图像），生成器的目的是为了生成像真图像的图像来骗过判别器；判别器的输入是图像，可以是假图像，也可以是真图像，判别器的目的就是判断输入图像的真假。

这就产生了一个问题，一旦“判别器”过拟合，则“生成器”也会过拟合，这会导致“生成器”生成的图像受训练集的影响是非常大的。

而Diffusion则不同，Diffusion模型本质上是一个除噪器。如图：

Diffusion意为“扩散”，即我们对一张图片逐步加噪声（每次加一点），最终我们就识别不出这张图。这个过程的反向操作就是“逆扩散”，即从噪声中一步步去噪，恢复出一张完整的图片。

我们看到，在这个过程中，Diffusion模型学习的是去噪技巧，只要这个技巧对于所有图片，或者说大部分图片都是有效的，那么过拟合问题似乎就没有了（我都这么说了，那就说明隐患一定就有了）

然而这篇论文证明了，相比于GAN、VAE等，Diffusion有更强的记忆能力，更容易复原出训练集图片（确实有点道理，毕竟GAN的生成器是不直接从训练集学习的）

3.学习者or记忆者？

如果是经常读AI论文的话，会发现很多著名的模型喜欢把自己的模型称为learner（学习者），毕竟机器学习嘛，就是想办法让机器“学习”到某些东西。

例如，我们做一个猫狗识别，那我们就希望我们的模型学到“猫”和“狗”的不同之处。然而神经网络的问题是我们几乎是很难解释为什么模型能够区分猫狗，或者说，区分猫狗的具体机制是什么。一般来说，我们会认为神经网络学习到了目前以人类的理论难以理解的一些高级特征。

“学习”到什么一般是通过网络模型和损失函数来控制的，效果也只能通过这些数值来观测，模型具体学到了什么目前还是不得而知的。

当下大模型（即参数异常庞大的神经网络）比较火，例如ChatGPT就是大模型的一种。大模型拥有小模型不曾拥有的能力，这些能力究竟怎么来的就更麻烦了，所以目前主流观点认为大模型强只是因为它们记住了所有的训练集。

神经网络最终的走向只是“记忆者”吗？这还不得而知。

4.机器学习中的计算机安全

读完这篇论文，更应该担心的是隐私安全问题。这篇文章说明了对于Diffuion模型，一旦训练集的文字或标签泄露，则训练集的图片可能会泄露。这个风险还是有的。设想有人暴露你的图片隐私，它可以用你的图片训练一个Diffusion模型，然后把模型和标签给其他人，其他人用标签一还原就可以得到这个隐私图片，而中间的路径是很难追踪的。

当然，机器学习中计算机安全问题实质上是非常多的，实际情况比上述例子可能要复杂多了。（计算机安全也是一个超级大坑了，我这种基础博弈论都理解不来的人就不涉足了）

5.限制

这篇论文设定的场景某种程度上来讲还是有些难以实现的，即我们需要知道训练集的图片的标题。正如上面那张Ann的图片所示，你没有Ann这个关键词实质上是无法从模型中提取出图片的，而且你还需要和训练集做比对才知道是否真的提取的是训练集图片。

不过已经可以做一些应用了，例如把自己的名字输入一个Diffusion模型看是否能还原出自己的图片（然而考虑到重名等因素，此方案在现实中可行性应该不高，特别是一些开源模型应该会做一些处理，也很好做，例如把生成的候选图片中和训练集相似度较高的图片直接筛掉）。

而且目前公开的模型一般不太会用个人照片（毕竟一旦被控诉损失就大了），毕竟已经有ImageNet等数据集了，出现的人物也多是公众人物或接受隐私条款的人（当然，实际上到底会不会用涉及隐私的图片我也不可能知道）

总体来说，还没有那么危险，只是隐患是较大的。

标签：神经网络计算机安全机器学习

环球热议:【花师小哲】当代炼金术（神经网络）前沿（10）——Diffusion是记忆者？

推荐阅读

环球热议:【花师小哲】当代炼金术（神经网络）前沿（10）——Diffusion是记忆者？<

LOL英雄联盟台 服欢 迎活动全英雄怎么领取 世界快资讯<

环球今日讯！新乡医学院三全学院一年学费多少钱附各专业的收费标准_2023年参考<

诗中飞舞_关于诗中飞舞的基本详情介绍-每日快看<

13个项目签约、总投资28.47亿元 漳浦县2023年新春招商推介会举行|世界快看<

最近更新

环球热议:【花师小哲】当代炼金术（神经网络）前沿（10）——Diffusion是记忆者？

LOL英雄联盟台 服欢 迎活动全英雄怎么领取 世界快资讯

环球今日讯！新乡医学院三全学院一年学费多少钱附各专业的收费标准_2023年参考

诗中飞舞_关于诗中飞舞的基本详情介绍-每日快看

13个项目签约、总投资28.47亿元 漳浦县2023年新春招商推介会举行|世界快看

热消息：开膛手杰克事件_开膛少女的异想世界

小锦儿对位差点被打爆，结算看到ID：原来是北慕，这波胜在运营

全球关注：路劲：2022年内地物业销售417.1亿元，香港物业销售3.58亿港元

2023年春节档“开门红”，影企股价却纷纷跳水，“后春节档”票房可期，电影市场或迎来全面复苏|世界聚看点

小苏打喂羊太好了！兑水和干拌哪个效果更好？多少合适？_当前热讯

1月30日基金净值：诺安新经济股票最新净值1.773，跌0.34%|天天热资讯

新消息丨【我为群众办实事】卓尼、迭部公安联合化解一起婚姻矛盾纠纷

当日快讯：美国防长奥斯汀抵韩，将与韩防长会谈

全球新动态：节后开工你的状态“在线”吗？不妨试试这几招

2022年南京市经济运行情况发布，电子及通信设备制造业增长12.6％_快资讯

40个项目落户丰泽 投资超700亿元-当前信息

疫情三年后农村首个春节纪实详细内容-天天即时看

当前速讯：凡人微光｜开启新的奔赴

快播：乐通股份：终止重组事项

马鞍山市委原副书记张泉调任合肥市委常委、市政府党组副书记

讯息：我国推动大型易地扶贫搬迁安置区融入新型城镇化

有人在高速上被“年货”打了

实时焦点：开着舒服台面也足 带你体验奥迪Q2L

2023年酷雷曼VR新年贺词|要闻速递

齐国国君_关于齐国国君的基本详情介绍 每日消息

FairGuard游戏安全2022年度报告：游戏安全风险增长96%，高维作弊对抗激烈|热讯

兰州供电：电力大数据助力在建电网工程项目物资供应|播报

国家能源局：截至12月底全国累计发电装机容量约25.6亿千瓦 同比增长7.8%

强制离婚能退彩礼吗

《深圳市公共租赁住房管理办法》等四个政府规章公开征求意见 天天快讯

热点

公共

如何对冲原材料涨价的风潮? 成业内关心话题

国家统计局：4月份消费同比下降11.1% 环比下降0.69%

家居智能化理念不断渗透 00后开始关注空气炸锅等厨房小家电

商业模式激进式进化孕生区间红利 市场增长点在哪儿?

2022年春节全国国内旅游出游2.51亿人次 旅游收入2891.98亿元

滚动

LOL英雄联盟台服欢迎活动全英雄怎么领取世界快资讯<

13个项目签约、总投资28.47亿元漳浦县2023年新春招商推介会举行|世界快看<

LOL英雄联盟台服欢迎活动全英雄怎么领取世界快资讯

13个项目签约、总投资28.47亿元漳浦县2023年新春招商推介会举行|世界快看

40个项目落户丰泽投资超700亿元-当前信息

实时焦点：开着舒服台面也足带你体验奥迪Q2L

齐国国君_关于齐国国君的基本详情介绍每日消息

国家能源局：截至12月底全国累计发电装机容量约25.6亿千瓦同比增长7.8%

《深圳市公共租赁住房管理办法》等四个政府规章公开征求意见天天快讯

商业模式激进式进化孕生区间红利市场增长点在哪儿?

2022年春节全国国内旅游出游2.51亿人次旅游收入2891.98亿元