找回密码
 加入怎通
查看: 407|回复: 1

MMDiT架构:Stable Diffusion 3背后的关键技术

[复制链接]
heshao 发表于 2024-08-23 09:43:09 | 显示全部楼层 |阅读模式
  MMDiT 架构是 Stable Diffusion 3 背后的关键技术之一。相比传统的单一模态处理方法,MMDiT 架构能够更好地处理文本和图像之间的关系,从而实现更准确、更高质量的图像生成。
; B. B; K9 Q3 f2 S$ o" |, K; ^7 F5 I  图|模型架构。, R6 Y" Q6 z: Q5 y& d1 }
  这一架构采用了独立的权重集合来处理图像和语言表示,这意味着对于文本和图像两种不同的输入模态,MMDiT 分别使用不同的权重参数来进行编码和处理,以此能够更好地捕捉每种模态的特征和信息。& D9 U% `6 m: Q/ Z+ O
  在 MMDiT 架构中,文本和图像的表示分别通过预训练模型进行编码。具体地说,MMDiT 采用了三种不同的文本嵌入器(两个 CLIP 模型和 T5 模型),以及一个改进的自动编码模型来编码图像 token。这些编码器能够将文本和图像输入转换为模型可以理解和处理的格式,为后续的图像生成过程提供了基础。
; F7 P7 l$ m5 U8 [" ]  图|T5 对于复杂提示非常重要,例如,涉及高度细节或较长的拼写文本(第 2 行和第 3 行)。然而,对于大多数提示,在推理时删除 T5 仍然可以达到具有竞争力的性能。
  c) @9 f. F) o  V  在模型结构上,MMDiT 架构建立在 Diffusion Transformer(DiT)的基础上。由于文本和图像的表示在概念上有所不同,MMDiT 使用了两组独立的权重参数来处理这两种模态。这样一来,模型能够在文本和图像的表示空间中分别进行操作,同时又能够考虑到彼此之间的关联关系,从而实现更好的信息传递和整合。) @7 K, T- K5 }* @( z8 r
  性能碾压其他文生图模型/ p  D! }  v! Z3 W: w% n4 j7 T
  liblib通过与其他文本到图像生成模型进行性能比较,Stable Diffusion 3 展现出了明显的优势。在视觉美感、文本遵循和排版等方面,Stable Diffusion 3 都能够超越包括 DALL·E 3、Midjourney v6 和 Ideogram v1 在内的最先进系统。
- e& i1 K& k& @( K+ ^  这一优势主要归功于 MMDiT 架构对图像和文本表示的独立处理,使得模型能够更好地理解和表达文本提示,并生成与之匹配的高质量图像。通过人类评估者提供的例子输出进行比较,Stable Diffusion 3 在视觉美感方面与其他模型相比表现出色。评估者被要求根据图像的美观程度选择最佳结果。结果显示,Stable Diffusion 3 在生成的图像美观度方面优于其他模型。, F" Y, Y. i4 ^+ ?, n3 y
  图|这是一幅异想天开、富有创意的图像,描绘了一种混合了华夫饼和河马的生物。这种富有想象力的生物有着河马独特的、笨重的身体,但它的外观却像一块金棕色的脆皮华夫饼。该生物的皮肤上有华夫饼,还有糖浆般的光泽。这设置在一个超现实的环境中,有趣地结合了河马的自然水域栖息地和早餐餐桌,包括超大的餐具或盘子作为背景。图像唤起一种有趣的荒诞感和烹饪幻想。: x  }1 T- |1 k) O7 k) X& J* l% M
  评估者根据模型输出与所给提示的一致性来评价模型的文本遵循能力。从测试结果来看,Stable Diffusion 3 在文本遵循方面表现优异,能够更准确地根据提示生成相应的图像内容。7 r% a+ v4 T7 p9 n0 ~4 \, U6 S- u
  排版指的是模型生成的图像中文本的布局、格式和外观。根据评估者的选择,Stable Diffusion 3 在排版方面也表现出色,能够更好地呈现出给定提示中的文本信息,使生成的图像更具可读性和吸引力。+ m# V0 d; d- ?8 J4 }: E
  另外,在不同硬件设备上的性能表现方面,Stable Diffusion 3 也展现出了出色的灵活性。6 ~, ~) E! F+ X% e" w
  例如,在 RTX 4090 等设备上,最大模型(8B 参数)在进行图像生成时,可以在 34 秒内生成一幅分辨率为 1024x1024 的图像,而且还能够在初期预览阶段提供多种参数模型选择,从 800m 到 8B 参数的模型规模,以进一步消除硬件方面的限制。
8 r+ m7 Z: t  u9 i* h  在消费者级硬件上,Stable Diffusion 3 依然可以有较快的推断速度,并且资源利用率高。" B# d0 S- H$ f. I3 w
  此外,该技术提供了多种模型规模选择,以满足不同用户和应用场景下的需求,增强了其可扩展性和适用性。
" T6 d5 e+ w  b  B  Stable Diffusion 3 不仅注重了图像生成的质量,还专注于文本的对齐和一致性。其改进的 Prompt Following 功能使得模型能够更好地理解输入文本并根据其创作图像,而不仅仅是简单地产生图像。这种灵活性使 Stable Diffusion 3 能够根据不同的输入文本生成多样化的图像,满足不同主题和需求。
1 B: s' ^8 k5 ~- x8 ^* i, C/ @  Stable Diffusion 3 采用了改进的 Rectified Flow(RF)方法,通过线性轨迹将数据和噪声相连接,使得推断路径更直,从而在少量步骤内进行采样。同时,Stable Diffusion 3还引入了一种新的轨迹采样调度,将更多的权重分配给轨迹的中间部分,从而改进了预测任务的难度。这种创新的方法改善了模型的性能,并在文本到图像生成任务中取得了更好的效果。
7 p8 e5 F% _* q, x  在文本到图像生成领域,Stable Diffusion 3 的问世标志着技术的重大进步。通过 MMDiT 架构的创新、Rectified Flow 的优化以及对硬件设备和模型规模的灵活调整,Stable Diffusion 3 在视觉美感、文本遵循和排版等方面表现出色,超越了当前的文本到图像生成系统。' d; Q7 r' x4 g& Q
  Stable Diffusion 3 的诞生,不仅提高了生成图像的质量和准确性,还为未来的创意产业、个性化内容生成、辅助创作工具以及增强现实和虚拟现实应用等领域带来了新的可能性。
4 A4 J4 s$ z# e: z5 [/ N* \2 r  未来,随着这项技术的进一步发展和普及,我们可以期待看到更多创新的应用场景和解决方案。3 J( }5 |+ T8 s) u! Q
# ]4 r  Q! r9 ^. s$ j1 o8 n1 s
回复

使用道具 举报

西万路小混混 发表于 2025-11-11 03:11:28 | 显示全部楼层
学习到了,之前一直没注意过这个点,受教了
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-3-22 13:29 , Processed in 0.088258 second(s), 23 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表