AI:stable diffusion
March 4th, 2023

0AIGC

AIGC是指ai生成领域。
ai作图属于AIGC领域之一。

1diffusion模型生成图片的工作原理(机器自动完成)

学习模型原理:
1使用正常图片,加干扰,加噪点至雪花图片,把步骤保存为答案。
2用神经网络试错寻找正确参数。保存这些能够产生正确答案的参数。
3正常使用的时候通过这些参数生成图片。

不同模块的作用:
1加噪点:图像掩码建模MIM。用于预训练。MAE模型是MIM的优化版本。
2提取特征:特征处理器Transformer。用于学习参数。
3去噪点:扩散模型diffusion model。用于作画。
4渲染:神经辐射场NeRF。用于渲染,光感,材质感,特效,增强现实感。

软件生产图片的工作流程:
1自然语言输入→语言编码器(clip or deepbooru)→数字向量
2random seed(随机引发源)→随机雪花图片
3数字向量+随机雪花图→根据数字向量降噪点→多次重复采样(step+sampling)→潜在空间(latent)
4潜在空间→变分自编码器(VAE,Unet)→人能看的图片

模型优点:
1光影真实感。

模型的缺点:
1不能设计视觉中心,画面的注意力引导设计。

2使用diffusion模型的软件

diffusion是目前最有效的ai绘画模型,依赖大模型来实现。
1disco diffusion初代软件,擅长抽象图像,但不能生成具体图像,不能正确理解文本指令。2dall·e2可以理解文本指令,是clip模型和diffusion的组合。(open ai)
3imagen ai可以理解文本指令,由纯语言模型t5-xxl和diffusion组成。(google)
4stable diffusion可以理解文本指令,由语言模型clip,语言模型deeopooru和diffusion组合而成。(Stability ai)

3稳定扩散模型的种类和作用(需要人操作的部分)

大模型:生成主要部分
常见后缀ckpt。GB级别大小。放在Stable-Diffusion文件夹内。

小模型:微调细节
1Textual inversion=embeding模型
常见后缀pt,png,webp。KB级别大小。放在embedings文件夹内。
显存:6g。
可训练:画风,人物。

2Hypernetwork模型
常见后缀pt。几十几百MB级别大小。放在hypernetworks文件夹内。
显存:6g。
可训练:画风,人物。

3LoRA模型
常见后缀pt,ckpt。8-144MB级别大小。软件内tag调用。
显存:8g。
可训练:人物

4VAE模型
(滤镜效果,大模型会自带vae,但是有些大模型自己的vae不要用需要手动选择其他vae)
常见后缀pt。放在models-VAE文件夹。如果使用记得把模型自带vae关了。

4软件stable diffusion的使用

2022年8月发布的开源软件。

Subscribe to erthor pabar
Receive the latest updates directly to your inbox.
Mint this entry as an NFT to add it to your collection.
Verification
This entry has been permanently stored onchain and signed by its creator.
More from erthor pabar

Skeleton

Skeleton

Skeleton