谷歌Fluid颠覆共识：两大因素被发现，AI文生图领域自回归模型超越扩散模型 - ENI文章

当前位置：首页 >文章发布 > 正文

谷歌Fluid颠覆共识：两大因素被发现，AI文生图领域自回归模型超越扩散模型

来源：IT之家作者：佚名 2024-10-23 15:36:00

10月23日消息，科技媒体TheDecoder昨日(10月22日)发布博文，报道称谷歌DeepMind团队携手麻省理工学院(MIT)，推出了全新的“Fluid”模型，在规模达到105亿参数时候，能取得最佳的文生图效果。

目前在文生图领域，行业内的一个共识是自回归模型(AutoregressiveModels)不如扩散模型(DiffusionModels)。

简要介绍下这两种模型：

扩散模型(DiffusionModels):这是一种最近非常热门的内容生成技术，它模拟的是信号从噪声中逐渐恢复的过程。扩散模型通过迭代地减少随机噪声来生成高质量的图像、文本和其他形式的数据。比如应用于图像生成领域中的DDPM(离散扩散概率模型)及其变体就有很高的关注度。

自回归模型(AutoregressiveModels):自回归模型预测序列中的下一个元素时，依赖于前面的元素。在文本生成领域，像基于Decoder-only的GPT系列(如GPT-3、GPT-4)就是典型的自回归模型，它们逐词预测下一个词，从而生成连贯的文本段落。

谷歌DeepMind和MIT团队通过深入研究，发现了使用连续tokens(非离散tokens)和采用随机生成顺序(非固定顺序)两个关键设计因素，显著提高了自回归模型的性能和可扩展性。

团队表示在离散tokens为每个图像区域分配一个来自有限词汇的代码，这会导致信息丢失，而连续tokens可以更精确地图像信息存储，减少信息丢失。这让模型能够更好地重建图像，提高视觉质量。

此外大多数自回归模型以固定顺序生成图像，而Fluid采用随机生成顺序，让模型能够在每一步预测任意位置的多个像素，这种方法在理解整体图像结构时表现更为出色。

Fluid模型结合了连续标记和随机生成顺序后，当其规模扩大到105亿参数时，Fluid在重要基准测试中超越了StableDiffusion3扩散模型和谷歌此前的Parti自回归模型。

与Parti相比，Fluid显示出显著的改进：拥有200亿参数的Parti在MS-COCO上达到了7.23的FID分数，而仅有3.69亿参数的小型Fluid模型却达到了相同的分数。

免责声明：本文系网络转载，版权归原作者所有。本文所用图片、文字如涉及作品版权问题，请联系删除！本文内容为原作者观点，并不代表本网站观点。

编辑：乔帅臣

关键词： AI 大模型文字生成谷歌

[已收藏] [关闭] [返回顶部]

e-show 一手

活动直播间 | CIO智行社

E-PRO

梅姐东莞永益食品电商总监

汉语言文学教育、计算机应用与开发双专业，21年工作经验，其中16年IT从业，12年电商从业，服务过美资、国企、民企三种企业，其中两家为上市...

唐龙原德勤信息安全专家

毕业于北京航空航天大学，软件硕士，曾就职于赛门铁克、中国惠普、IBM、中国平安、德勤等高级管理职位。专注在 IT 战略咨询、网络安全...