AIGC是指ai生成领域。
ai作图属于AIGC领域之一。
学习模型原理:
1使用正常图片,加干扰,加噪点至雪花图片,把步骤保存为答案。
2用神经网络试错寻找正确参数。保存这些能够产生正确答案的参数。
3正常使用的时候通过这些参数生成图片。
不同模块的作用:
1加噪点:图像掩码建模MIM。用于预训练。MAE模型是MIM的优化版本。
2提取特征:特征处理器Transformer。用于学习参数。
3去噪点:扩散模型diffusion model。用于作画。
4渲染:神经辐射场NeRF。用于渲染,光感,材质感,特效,增强现实感。
软件生产图片的工作流程:
1自然语言输入→语言编码器(clip or deepbooru)→数字向量
2random seed(随机引发源)→随机雪花图片
3数字向量+随机雪花图→根据数字向量降噪点→多次重复采样(step+sampling)→潜在空间(latent)
4潜在空间→变分自编码器(VAE,Unet)→人能看的图片
模型优点:
1光影真实感。
模型的缺点:
1不能设计视觉中心,画面的注意力引导设计。
diffusion是目前最有效的ai绘画模型,依赖大模型来实现。
1disco diffusion初代软件,擅长抽象图像,但不能生成具体图像,不能正确理解文本指令。2dall·e2可以理解文本指令,是clip模型和diffusion的组合。(open ai)
3imagen ai可以理解文本指令,由纯语言模型t5-xxl和diffusion组成。(google)
4stable diffusion可以理解文本指令,由语言模型clip,语言模型deeopooru和diffusion组合而成。(Stability ai)
大模型:生成主要部分
常见后缀ckpt。GB级别大小。放在Stable-Diffusion文件夹内。
小模型:微调细节
1Textual inversion=embeding模型
常见后缀pt,png,webp。KB级别大小。放在embedings文件夹内。
显存:6g。
可训练:画风,人物。
2Hypernetwork模型
常见后缀pt。几十几百MB级别大小。放在hypernetworks文件夹内。
显存:6g。
可训练:画风,人物。
3LoRA模型
常见后缀pt,ckpt。8-144MB级别大小。软件内tag调用。
显存:8g。
可训练:人物
4VAE模型
(滤镜效果,大模型会自带vae,但是有些大模型自己的vae不要用需要手动选择其他vae)
常见后缀pt。放在models-VAE文件夹。如果使用记得把模型自带vae关了。
2022年8月发布的开源软件。