环球热议:【花师小哲】当代炼金术(神经网络)前沿(10)——Diffusion是记忆者?
AI绘画的突然爆火离不开Diffusion模型,这是近两年兴起的图像生成技术,关于Diffusion模型在之前的专栏介绍过:
【花师小哲】当代炼金术(神经网络)前沿(8)——Diffusion
(资料图片)
当然,本篇专栏也会再介绍其中的一些内容,所以可以不用急着跳转。
近期,一篇新论文试图证明一件事:“Diffusion模型对训练集有着很好的记忆力”。虽然单一篇论文的说服力不一定足够,但可以预想到之后会有相关研究跟进。这可能会为当今对AI绘画的讨论产生一定的积极影响,不过我个人还是不太想掺和这个话题的深入讨论。本篇还关注了由此可能带来的计算机安全问题。
1.本篇的目的
本篇论文的目的其实非常简单,即从Diffusion模型中提取出训练集的图片。
我们知道,现有的很多AI绘画都是通过输入文字或标签等来生成图像,而生成这些图片的模型都是需要训练的,或者说,有一个训练集,这个集合中放有很多真实的照片。这就产生了一个问题,即模型生成的图片是否是对训练集图片的拼接,这个问题非常复杂(要是有定论关于AI绘画就不会吵的沸沸扬扬了)。
而本篇论文说明Diffusion模型确实对训练集有很好的记忆能力。这虽然距离回答上述问题还差一些步骤,但也算是为回答这个问题给出了一条有力的论据,关于这个话题就不展开讲。
像这样的难以回答的问题在当今AI领域,或者说神经网络领域是很常见的,即应用远先与理论,理论研究是很薄弱的。
2.Diffusion模型
在机器学习中有一个很常用的术语——过拟合。相信不少朋友对这个词已经不陌生了,这里也不过多说明(也可以翻找我之前的一些专栏)。
目前比较流行的图像生成的模型是Diffusion,相比于传统的GAN(之前专栏也写过)和VAE等,Diffusion模型具有很好的效果,一个比较突出的优点是——Diffusion可以生成和训练集差别较大的图片,生成图片的丰富度一般是比GAN之类的更好一些的,这就使得之前大部分人认为,相比于GAN等,Diffusion模型实质上是更加不容易过拟合。
由于我对VAE不是很熟,这里简单说一下GAN(生成对抗模型)的情况。
GAN模型的思路是训练两个模型——“生成器”和“判别器”,生成器的输入是随机噪声(目的是保证每次生成的图像不一样),生成的是图像(假图像),生成器的目的是为了生成像真图像的图像来骗过判别器;判别器的输入是图像,可以是假图像,也可以是真图像,判别器的目的就是判断输入图像的真假。
这就产生了一个问题,一旦“判别器”过拟合,则“生成器”也会过拟合,这会导致“生成器”生成的图像受训练集的影响是非常大的。
而Diffusion则不同,Diffusion模型本质上是一个除噪器。如图:
Diffusion意为“扩散”,即我们对一张图片逐步加噪声(每次加一点),最终我们就识别不出这张图。这个过程的反向操作就是“逆扩散”,即从噪声中一步步去噪,恢复出一张完整的图片。
我们看到,在这个过程中,Diffusion模型学习的是去噪技巧,只要这个技巧对于所有图片,或者说大部分图片都是有效的,那么过拟合问题似乎就没有了(我都这么说了,那就说明隐患一定就有了)
然而这篇论文证明了,相比于GAN、VAE等,Diffusion有更强的记忆能力,更容易复原出训练集图片(确实有点道理,毕竟GAN的生成器是不直接从训练集学习的)
3.学习者or记忆者?
如果是经常读AI论文的话,会发现很多著名的模型喜欢把自己的模型称为learner(学习者),毕竟机器学习嘛,就是想办法让机器“学习”到某些东西。
例如,我们做一个猫狗识别,那我们就希望我们的模型学到“猫”和“狗”的不同之处。然而神经网络的问题是我们几乎是很难解释为什么模型能够区分猫狗,或者说,区分猫狗的具体机制是什么。一般来说,我们会认为神经网络学习到了目前以人类的理论难以理解的一些高级特征。
“学习”到什么一般是通过网络模型和损失函数来控制的,效果也只能通过这些数值来观测,模型具体学到了什么目前还是不得而知的。
当下大模型(即参数异常庞大的神经网络)比较火,例如ChatGPT就是大模型的一种。大模型拥有小模型不曾拥有的能力,这些能力究竟怎么来的就更麻烦了,所以目前主流观点认为大模型强只是因为它们记住了所有的训练集。
神经网络最终的走向只是“记忆者”吗?这还不得而知。
4.机器学习中的计算机安全
读完这篇论文,更应该担心的是隐私安全问题。这篇文章说明了对于Diffuion模型,一旦训练集的文字或标签泄露,则训练集的图片可能会泄露。这个风险还是有的。设想有人暴露你的图片隐私,它可以用你的图片训练一个Diffusion模型,然后把模型和标签给其他人,其他人用标签一还原就可以得到这个隐私图片,而中间的路径是很难追踪的。
当然,机器学习中计算机安全问题实质上是非常多的,实际情况比上述例子可能要复杂多了。(计算机安全也是一个超级大坑了,我这种基础博弈论都理解不来的人就不涉足了)
5.限制
这篇论文设定的场景某种程度上来讲还是有些难以实现的,即我们需要知道训练集的图片的标题。正如上面那张Ann的图片所示,你没有Ann这个关键词实质上是无法从模型中提取出图片的,而且你还需要和训练集做比对才知道是否真的提取的是训练集图片。
不过已经可以做一些应用了,例如把自己的名字输入一个Diffusion模型看是否能还原出自己的图片(然而考虑到重名等因素,此方案在现实中可行性应该不高,特别是一些开源模型应该会做一些处理,也很好做,例如把生成的候选图片中和训练集相似度较高的图片直接筛掉)。
而且目前公开的模型一般不太会用个人照片(毕竟一旦被控诉损失就大了),毕竟已经有ImageNet等数据集了,出现的人物也多是公众人物或接受隐私条款的人(当然,实际上到底会不会用涉及隐私的图片我也不可能知道)
总体来说,还没有那么危险,只是隐患是较大的。
-
2023-02-01 18:50:28
环球热议:【花师小哲】当代炼金术(神经网络)前沿(10)——Diffusion是记忆者?<
AI绘画的突然爆火离不开Diffusion模型,这是近两年兴起的图像生成技术,关于Diffusion模型在之前的专栏介绍过:【花师小哲】当代炼金术(神经
-
2023-02-01 17:00:16
LOL英雄联盟台 服欢 迎活动全英雄怎么领取 世界快资讯<
LOL英雄联盟现在都转移到拳头平台了,并且在2月21日登录完成任务即可获得全英雄,所以想要的玩家抓紧时间去登录哦!所以,如果你之前是在GAREN
-
2023-02-01 15:01:32
环球今日讯!新乡医学院三全学院一年学费多少钱附各专业的收费标准_2023年参考<
新乡医学院三全学院一年的学费大概是多少钱?新乡医学院三全学院学费多少钱一年?本文将为你奉上新乡医学院三全学院所有专业的收费标准明细,
-
2023-02-01 11:46:49
诗中飞舞_关于诗中飞舞的基本详情介绍-每日快看<
1、《诗中飞舞》是NicoleConn导演的爱情片,JohannaNemeth,MelissaHellmanByr
-
2023-02-01 09:49:41
13个项目签约、总投资28.47亿元 漳浦县2023年新春招商推介会举行|世界快看<
13个项目签约、总投资28 47亿元漳浦县2023年新春招商推介会举行
-
2023-02-01 18:50:28
环球热议:【花师小哲】当代炼金术(神经网络)前沿(10)——Diffusion是记忆者?
AI绘画的突然爆火离不开Diffusion模型,这是近两年兴起的图像生成技术,关于Diffusion模型在之前的专栏介绍过:【花师小哲】当代炼金术(神经
-
2023-02-01 17:00:16
LOL英雄联盟台 服欢 迎活动全英雄怎么领取 世界快资讯
LOL英雄联盟现在都转移到拳头平台了,并且在2月21日登录完成任务即可获得全英雄,所以想要的玩家抓紧时间去登录哦!所以,如果你之前是在GAREN
-
2023-02-01 15:01:32
环球今日讯!新乡医学院三全学院一年学费多少钱附各专业的收费标准_2023年参考
新乡医学院三全学院一年的学费大概是多少钱?新乡医学院三全学院学费多少钱一年?本文将为你奉上新乡医学院三全学院所有专业的收费标准明细,
-
2023-02-01 11:46:49
诗中飞舞_关于诗中飞舞的基本详情介绍-每日快看
1、《诗中飞舞》是NicoleConn导演的爱情片,JohannaNemeth,MelissaHellmanByr
-
2023-02-01 09:49:41
13个项目签约、总投资28.47亿元 漳浦县2023年新春招商推介会举行|世界快看
13个项目签约、总投资28 47亿元漳浦县2023年新春招商推介会举行
-
2023-02-01 06:49:26
热消息:开膛手杰克事件_开膛少女的异想世界
1、生活在中产阶级家庭的高中少女宝琳(安娜琳·麦考德AnnaLynneMcCord饰),其形容憔悴,举止怪异,言语
-
2023-02-01 00:13:38
小锦儿对位差点被打爆,结算看到ID:原来是北慕,这波胜在运营
说起小锦儿估计大家都不陌生,只凭借一手李白就能够纵横王者荣耀巅峰赛高分局的男人,和巅峰赛大佬微凉冲分速度五五开,让很多“迷茫”的李...
-
2023-01-31 19:59:03
全球关注:路劲:2022年内地物业销售417.1亿元,香港物业销售3.58亿港元
乐居财经孙肃博1月31日,路劲(01098)发布截至2022年12月31日止全年未经审核营运数据。截至2022年12月31日止全年,路劲内地物业销售为人民币41
-
2023-01-31 16:57:52
2023年春节档“开门红”,影企股价却纷纷跳水,“后春节档”票房可期,电影市场或迎来全面复苏|世界聚看点
红刊财经作为防疫政策调整后的第一个大档期,2023年春节档迎来“开门红”。根据国家电影局统计数据,2023年春节档(除夕至正月初六,1月21...
-
2023-01-31 09:06:44
小苏打喂羊太好了!兑水和干拌哪个效果更好?多少合适?_当前热讯
一、用小苏打喂羊的作用1、促进生长对羊投喂小苏打之后可以使羊的胃瘤内的酸碱度处于平衡的状态,同时还能促进羊对饲料的消化与吸收,进而促进
-
2023-01-31 01:45:48
1月30日基金净值:诺安新经济股票最新净值1.773,跌0.34%|天天热资讯
1月30日,诺安新经济股票最新单位净值为1 773元,累计净值为1 773元,较前一交易日下跌0 34%。历史数据显示该基金近1个月上涨9 72%,近3个月上
-
2023-01-30 19:56:21
新消息丨【我为群众办实事】卓尼、迭部公安联合化解一起婚姻矛盾纠纷
【我为群众办实事】卓尼、迭部公安联合化解一起婚姻矛盾纠纷
-
2023-01-30 17:00:00
当日快讯:美国防长奥斯汀抵韩,将与韩防长会谈
韩联社1月30日报道,美国国防部长劳埃德·奥斯汀30日下午乘被称为“末日飞机”的“E-4B”空中指挥机抵韩。奥斯汀当天下午4时30分许飞抵位于...
-
2023-01-30 14:29:04
全球新动态:节后开工你的状态“在线”吗?不妨试试这几招
节后开工你的状态“在线”吗?不妨试试这几招
-
2023-01-30 11:01:21
2022年南京市经济运行情况发布,电子及通信设备制造业增长12.6%_快资讯
2022年南京市经济运行情况发布,电子及通信设备制造业增长12 6%
-
2023-01-30 08:51:37
40个项目落户丰泽 投资超700亿元-当前信息
泉州网1月30日讯(记者吴丽娇通讯员许冬福)如何做强都市产业,助力泉州经济社会高质量发展?作为环湾主中心的丰泽,在新年伊始集中签约总投资
-
2023-01-30 00:41:24
疫情三年后农村首个春节纪实详细内容-天天即时看
大家好,小太来为大家解答以上问题。疫情三年后农村首个春节纪实很多人还不知道,现在让我们一起来看看吧!1、想必大家现在对于疫情三年后农村
-
2023-01-29 18:52:10
当前速讯:凡人微光|开启新的奔赴
统筹:焦旭锋、张书旗、乔煜城、张伟豪策划:郭依格、王曚、廖清、张鹏、沙琳、刘子畅终审:安涛编辑:马知遥、卓越、崔莺馨、张梦洁指导:中
-
2023-01-29 16:14:58
快播:乐通股份:终止重组事项
乐通股份公告,终止发行股份及支付现金购买资产并募集配套资金暨关联交易事项。乐通股份原拟以发行股份及支付现金的方式购买浙江启臣科技有限
-
2023-01-29 12:41:09
马鞍山市委原副书记张泉调任合肥市委常委、市政府党组副书记
马鞍山市委原副书记张泉调任合肥市委常委、市政府党组副书记
-
2023-01-29 09:18:59
讯息:我国推动大型易地扶贫搬迁安置区融入新型城镇化
我国推动大型易地扶贫搬迁安置区融入新型城镇化
-
2023-01-29 00:11:39
有人在高速上被“年货”打了
昨天是春节假期的最后一天,节后迎来了返程客流高峰。很多网友选择自驾返程,却遇到了大堵车。不少人表示返程时间几乎翻倍无论是省内还是省外
-
2023-01-28 18:43:19
实时焦点:开着舒服台面也足 带你体验奥迪Q2L
[汽车之家新车图解]产品的年轻化已经成了如今汽车发展的一大趋势,这我们可以从近些年各大品牌推出的各类车型清晰地看出来。针对这一趋势,很
-
2023-01-28 14:47:05
2023年酷雷曼VR新年贺词|要闻速递
岁序常易,华章日新,2023年如约而至,在这辞旧迎新、万象更新的时刻里,酷雷曼全体员工向一直以来关心和支持公司发展的广大客户、合作伙伴以
-
2023-01-28 11:21:15
齐国国君_关于齐国国君的基本详情介绍 每日消息
1、刘邦(公元前256年 公元前247年-公元前195年6月1日),字季,沛郡丰邑(今江苏省丰县)人。2、中国历史上杰出
-
2023-01-18 14:59:07
FairGuard游戏安全2022年度报告:游戏安全风险增长96%,高维作弊对抗激烈|热讯
导读:2022年,游戏行业在多种因素影响下遭遇寒冬。但游戏黑灰产规模在迅速壮大,不少游戏饱受其侵扰,越来越多的游戏厂商开始重视游戏安全问
-
2023-01-18 11:48:11
兰州供电:电力大数据助力在建电网工程项目物资供应|播报
8月31日,国网兰州供电公司互联网办公室依托电网工程项目管控数据联合发布了《在建电网工程项目物资供应监测分析》的报告,针对物资采购、物资
-
2023-01-18 09:00:58
国家能源局:截至12月底全国累计发电装机容量约25.6亿千瓦 同比增长7.8%
上证报中国证券网讯据国家能源局消息,1月16日,国家能源局发布2022年全国电力工业统计数据。 截至2022年12月底,全国累计发电装机容量约25
-
2023-01-18 00:03:06
强制离婚能退彩礼吗
如果是结婚后没有共同生活,或者给付彩礼的行为导致给付人生活困难的,强制离婚时需要退还彩礼。彩礼是中国古代婚嫁习俗之一,又称订亲财礼、
-
2023-01-17 18:27:08
《深圳市公共租赁住房管理办法》等四个政府规章公开征求意见 天天快讯
深圳就《深圳市保障性住房规划建设管理办法》《深圳市公共租赁住房管理办法》《深圳市保障性租赁住房管理办法》《深圳市共有产权住房管理办法