在OpenAI宣布其最新的AI系统DALL-E 2(从文本中创建图像)大约一个月后,谷歌继续了AI的“太空竞赛”,拥有自己的文本到图像扩散模型Imagen。谷歌的结果非常令人印象深刻,甚至可能是可怕的。
使用标准度量FID,Google Imagen在使用COCO数据集时以7.27的分数超过了Open AI的DALL-E 2。尽管没有接受过COCO的培训,但Imagen在这里的表现仍然很好。Imagen还优于DALL-E 2和其他人类评分者之间的竞争性文本到图像方法。您可以在Google的研究论文中阅读有关完整测试结果的信息。
Imagen的工作原理是获取自然语言文本输入,例如“一只金毛猎犬戴着蓝色方格贝雷帽和红色点高领毛衣”,然后使用冻结的T5-XXL编码器将输入文本转换为嵌入。然后,“条件扩散模型”将嵌入的文本映射到64x64的小图像中。Imagen 使用文本条件超分辨率扩散模型将 64x64 图像上采样为 256x256 和 1024x1024。
与去年秋天NVIDIA的GauGAN2方法相比,Imagen在灵活性和效果方面有了显着提高。人工智能正在迅速发展。考虑下图,该图像来自“一只可爱的柯基犬住在用寿司制成的房子里”。这看起来可信,就像有人真的用寿司建造了一个狗屋,柯基犬可能不出所料地喜欢。
这是一个可爱的创作。似乎到目前为止,我们从Imagen看到的所有东西都很可爱。毛茸茸的动物的滑稽服装,戴太阳镜的仙人掌,游泳泰迪熊,皇家浣熊等。人们在哪里?
无论是无辜的还是恶意的,我们知道一些用户一旦访问Imagen,就会立即开始输入有关人们的各种短语。我敢肯定,在幽默的情况下,会有很多关于可爱动物的文本输入,但也会有关于厨师,运动员,医生,男人,女人,孩子等等的输入文本。这些人会是什么样子?医生会主要是男性吗,空乘人员会主要是女性吗?大多数人的皮肤会是浅色的吗?
我们不知道Imagen如何处理这些文本字符串,因为Google选择不显示任何人。文本到图像研究存在伦理挑战。如果一个模型可以想象地从文本中创建几乎任何图像,那么一个模型在呈现无偏见的结果方面有多好?像Imagen这样的AI模型主要是使用从网络上抓取的数据集来训练的。互联网上的内容是扭曲和偏颇的,我们仍然试图完全理解。这些偏见具有负面的社会影响,值得考虑,理想情况下,还要纠正。不仅如此,谷歌还为Imagen使用了LAION-400M数据集,众所周知,Imagen“包含各种不适当的内容,包括色情图像,种族主义诽谤和有害的社会刻板印象”。培训小组的一个子集被过滤以消除噪音和“不良”内容,但仍然存在“Imagen编码有害的刻板印象和表示的风险,这指导我们决定在没有进一步保障措施的情况下不发布Imagen供公众使用。
所以不,你不能自己访问Imagen。在其网站上,Google允许您点击所选群组中的特定单词以查看结果,例如“一张戴着牛仔帽的毛茸茸的熊猫和黑色皮夹克在山顶上弹吉他的照片”,但您无法搜索与人或潜在有问题的行为或项目有关的任何内容。如果可以的话,你会发现这个模型倾向于生成肤色较浅的人的图像,并强化传统的性别角色。早期的研究还表明,Imagen通过对某些项目和事件的描绘来反映文化偏见。
我们知道Google已经意识到其各种产品的代表性问题,并正在努力改善逼真的肤色代表性并减少固有的偏见。然而,人工智能仍然是某种“狂野西部”。虽然在幕后有许多有才华、有思想的人在生成AI模型,但模型一旦被释放出来,基本上就是独立的。根据用于训练模型的数据集,很难预测当用户可以键入他们想要的任何内容时会发生什么。
这不是Imagen的错,也不是任何其他与同一问题作斗争的AI模型的错。模型是使用包含可见和隐藏偏差的大量数据集进行训练的,这些问题随着模型的扩展而扩展。除了边缘化特定人群之外,人工智能模型还可以产生非常有害的内容。如果你要求插画家画或画一些可怕的东西,许多人会厌恶地把你拒之门外。文本到图像的AI模型没有道德上的疑虑,会产生任何东西。这是一个问题,目前还不清楚如何解决。
与此同时,随着人工智能研究团队努力解决他们极其令人印象深刻的工作的社会和道德影响,你可以看看滑板熊猫的惊人逼真的照片,但你不能输入自己的文字。Imagen不向公众开放,其代码也不向公众开放。但是,您可以在新的研究论文中了解有关该项目的很多信息。
导读 如果你在App Store搜索一个应该用来获取第二个电话号码的电话号码,你很可能会找到几十个差别不大的应用。一些公司用重复的应用程序充斥... 如果你在A...
导读就市场份额而言,沃达丰和Idea以微弱优势领先市场。然而,由于竞争对手提供有吸引力的优惠来吸引客户,电信运营商一直在以稳定的速度流失客...就市场份额而言,...
导读他们说奉承的最高形式是模仿或模仿。因此,考虑到这一点,基于小米最新的旗舰产品,蒂姆库克和他的整个苹果行政和设计团队应该沉浸在谄媚的...他们说奉承的最高形式...
导读今天我们就来说说搜狗浏览器如何实现图标旋转的一些信息。很多朋友对搜狗浏览器如何实现图标旋转很感兴趣。边肖今天整理了一些相关资料,希...今天我们就来说说搜狗...
导读在本月初推出Chromebook的渐进式网络应用程序后,谷歌现在正在YouTube音乐中测试新的图书馆曲目播放列表。的新播放列表已经向少数用户推出...在本...
2022年广西三月三假期所有调整?三月三放假吗?
1977年2022年多少岁
华夏五行御灵珠子喂养
2022年闰四月阳历对照表,2022年下一次闰四月是哪一年?
庚子年是哪一年,明年2022年就是庚子年