博士意外发现秘密:DALL-E 2自创语言,人看不懂但能生成特定图像
丰色金磊出生于凹非寺
量子位|公众号QbitAI
DALLE 2,这个AI竟然自己编了一个秘密词。
例如这两个非常奇怪的短语:
Apoploe vesrreaitais (以下简称a ) contarraccetnxniamslurycatanniounons (以下简称c ) ) )翻译软件会崩溃,请尝试一下) ) ) )。
但是到了DALLE 2,画风就完全不同了。
根据那个,a是“鸟类”的意思,c是“害虫”的意思。
因此,如果给DALLE 2一句“A eat C”,其打开方法就会变成这样。
一色制作的照片,都是与鸟吃害虫有关的。
然后,如果对DALLE 2说“两只鲸鱼讨论食物,并附有字幕”,就会变成这样。
图中的“Wa ch zod rea”在DALLE 2的词典中竟然是“食物”的意思。
此事一经曝光,瞬间引起了众多网友的热议。
此外,也有人提出,有了这些秘密语言,就可以绕过DALLE 2的“禁语过滤器”,生成有争议的图像。
工作! )
所以,关于Dall的秘密咒语,到底是怎么回事?
通过意外的发现发现这个问题的是国外计算机专业的博士生。
他注意到,当DALL-E 2机型需要发出有文字的图片时,总是会出现奇怪的单词。
例如,如果输入“两个农民谈论蔬菜,并附有字幕( twofarmerstalkingaboutvegetables,with subtitles )”,就会出现这样的图像。
很像,但是这个字幕写的是什么? 不是英语也不是法语。 很奇怪。
“你给我翻译什么? ”
哥哥一动不动,把“单词”“Vicootes”中的一个作为说明掉在了模型上,意外地出现了很多这样的图像:
有萝卜、有南瓜、有柿子……「vicootes”代表蔬菜吗?
很有趣。
他又把气泡中的一捆“Apoploe vesrreaitais”扔给了DALL-E 2,出现了很多鸟的画:
“啊,我知道了。 这个单词表示“鸟”,所以农民们好像在谈论影响他们蔬菜的鸟吗? ”
DALL-E 2好像没有糊弄过去……
“发现了DALL-E 2的秘密语言! ”哥哥吓了一跳,然后试图再次验证这是否是偶然。
果然在刚才列举的鲸鱼讨论食物的例子中,哥哥把那捆“Wa ch zod rea”输了回去。
结果,真的出来了很多食物。 而且尽是海鲜,符合鲸鱼们的“食性”。
DALL-E 2,真诚不会欺负我。
此外,他将这些“咒语”和表示形象风格的词语结合起来,调查DALL-E 2是否能正常解析。
结果没问题。
请看这些“手绘鸟”、“动画鸟”、“3D鸟”、“原稿鸟”。
emmmm,最后一张怎么混蚊子?
那个别管了。
所以这个模型为什么要用这个秘密词来表示呢?
为什么会变成这样? “DALL-E 2秘密咒语”的话题之热,引起了很多“剖析者”们的关注。
例如,一位叫k1uge的网友说,问题出在字节码( bpe )上。
BPE是自然语言处理中重要的编码方式之一,也是一种常用的token压缩方法,在许多大语言模型中使用。
其中心思想是
在每个步骤中,用该数据中不存在的新单位替换最常见的一对相邻数据单位,然后重复操作直到满足停止条件。
举一个例子。
在压缩单词“aaabdaaabac”时,BPE首先找到最常见的相邻字节对或“aa”。
找到它后,可以用新的字节z代替。 这样的话,这个单词就会变成“ZabdZabac”。
同样,下一个常见的相邻字节对是“ab”,如果替换为y,单词将进一步压缩为“ZYdZYac”。
下一个常见的相邻字节对为“ZY”,用x替换,最后一个单词为“XdXac”。
……
因此,基于这样的原理,该网民调查了DALL-E 2对“鸟类”使用的BPE。
是这样的:
apo,plo,e,ve,sr,re,ait,ais
事实上,许多鸟类的拉丁语学名都有“apo”和“plo”的前缀。
例如Apodidae (雨燕)和Ploceidae (织布鸟)这两个词属于鸟类的两种鸟科,每个科有100多种。
例如Apodiformes (雨燕目)是鸟类中最大的眼睛,共有400多种。
因此,该网友认为,DALL-E 2从这些标有“学术用语”的图像中获得了大部分关于鸟类的信息。
这可能就是DALL-E 2秘密咒语的原因。
但是,翻转后兴奋的博士哥哥专门写了一篇小论文,把这个发现发布到推特上,被成千上万的网友包围,称为“Incredible”。
但很快就有人自己试了一下,发现事情似乎没那么简单。
例如,代表“虫”的一串“contarraccetnxniamslurycatanniounons”不仅会产生虫,还会产生青蛙、牛和鸽子的图像。
如果在这个说明中加上“cartoon”这个词来限定的话,生成的是“奶奶”,和虫子完全不相配吗?
“Apoploe vesrreaitais”没问题,但出来的是鸟。
但是,如果给它加上“cartoon”“3d render”这样的词,就又不同了,出来的是虫子。
(这也与哥哥最后一个例子中提到的蚊子相对应。
)
代表蔬菜的“Vicootes”也是如此。 只是输了就没问题了。 如果加上风格限定,出现的物种会发生变化。 另外,可以说基本上只符合“油画”“卡通”的风格设定,与前面的名词限定没有关系。 例如,“vicootes”“painting”是一堆纯粹的风景绘画。
他还用同样的“两只鲸鱼谈论食物,带字幕”制作了几张照片,但最终大部分文字都看不懂,也无法转录。
最后我发现了这样的东西:
他用上面的“Evve waeles”重新输入后,得到了甜点的照片,但出现了很多选手、动物、水壶的照片。
我还不知道。
于是这个实验者说:
在我看来,这不是DALL-E 2的秘密语言,而是随机的噪音。
他成了博士的哥哥。 我希望他能再提出相反的证据。
目前哥哥还没有回信。
但这确实是一个值得关注的话题,加上一些“咒语”和图片吻合,如果真的是BPE码,博士哥哥可能会说:
有人用“白盒”的方法求解该规则,得到禁语“咒语”,就可以绕过模型过滤器。
参考链接:
[1] https://Twitter.com/giannis _ daras/status/1531693093040230402 [2] https://Twitter.com/Barney flames/status/https://giannisdaras.github.io/publications/discovering _ the _ 3359 zhuan.zhi Hu.com/p/424631681——完全—量子位QB