术语
Checkpoint/大模型/底模型/主模型:VAE全名 LoRA embeddingControlNetResize modeSampling Method Sampling Steps Batch CountBatch sizeCFG (Classifier Free Guidance) scaleDenoising strengthSeedScriptinpaintprompt neg.prompttext2imgimg2img
Stable Diffusion checkpoint:这里可以选择已经下载的模型。目前许多平台支持开源的 SD 模型下载,例如 Civitai、Hugging Face 等。
txt2img:这个选项表示启用文生图(text-to-image)功能。类似地,img2img 等选项则代表其他功能。
prompt:用于生成图像的文字输入,需要使用英文输入,但你也可以通过探索 Extensions 来实现中文输入。
negative prompt:这是生成图像的反向提示词,用于指定你不希望模型生成的内容。例如,如果你不想图像中出现红色,可以在这里输入“red”。
Sampling method:不同的采样算法,这里深入了 Diffusion 算法领域,稍后我们会更详细地讲解。简单来说,通过这些采样算法,噪声图像可以逐渐变得更清晰。
Sampling steps:与采样算法配合使用,表示生成图像的步数。步数越大,需要等待的时间越长。通常 20-30 步就足够了。
Width & Height:生成图像的宽度和高度。
Batch size:每次生成的图像数。如果显存不够大,建议调小这个数值。
CFG scale:这里表示 prompt 的影响程度。值越大,prompt 的影响就越大。
Seed:生成图像的随机种子,类似于抽奖的幸运种子,会影响生成的图像结果。
Checkpoint/大模型/底模型/主模型:
这是 Stable Diffusion 绘图的基础模型,不同的主模型有不同的画风和擅长领域。
VAE全名
Variational autoencoder,中文名变分自编码器,作用可以理解为滤镜+微调,有的大模型有对应的VAE,没有的也可以选择使用常用的vae-ft-mse-840000-ema-pruned.safetensors,作用就是让图片看起来不那么灰蒙蒙的,会更加鲜艳。
用于滤镜和微调,有些大模型自带VAE。
LoRA
全称Low-Rank Adaptation of LargeLanguage Models,直译为大语言模型的低阶适应,这是微软的研究人员为了解决大语言模型微调而开发的一项技术。LoRA的作用是可以让结果倾向于一种风格,比如使用水墨风LoRA可以使结果是水墨风格,使用人物LoRA可以使人物趋向于一种样貌。
一种微调模型,可以固定某一类型的风格,必须与checkpoint模型一起使用。
embedding
可以理解为把大量的提示词(prompt、tag)打包在一起,就把他理解为提示词合集也行,所以文件很小。和LoRA有点类似,比如使用冬天风格的embedding可以使结果趋向于冬天。
微调模型,用于个性化图像生成。
ControlNet
Stable Diffusion中的一款很重要的插件,有了它可以让Stable Diffusion能更精确的控制生成的结果。
controlNet也是用来引导图片生成的,好处是在文本生成图片的基础上,加上另一张图做引导,可以让生成的图在一些底层特征上看起来相似。
可以使用图片生成下面类型的图片,然后再引导模型进行生成,这样人物大致轮廓就固定了,不会很随机
Canny Edge 使用Canny边缘检测生成边缘线稿,再将作为扩散模型输入。
HED 使用hed边界检测。
Depth 使用深度图生成。
Normal Maps 使用法线图生成图像。提供了Midas计算深度图并转换为法线图的扩展版本的模型。
Human Pose 使用姿势检测,获得人体骨骼的可视化姿势图像。
User Sketching 使用人类涂鸦进行生成
Semantic Segmentation 使用语义分割。
Hough Line 使用m-lsd直线检测算法。(论文中还提到了使用传统的霍夫变换直线检测)
Resize mode
当上传图片尺寸和要生成的图的尺寸不同时,需要选择调整大小方案。
Sampling Method
用于去噪,平衡生成图的速度和质量。内置多种算法可供选择。目前看起来 DPM++ 2M Karras 用的比较多。
Sampling Steps
是去噪过程的采样步骤数。越多越好,但需要更长的时间。一般在 20-28 之间。
宽度和高度 (Width/Height)
输出图像的大小。按需调整即可。
Batch Count
批次数量,我更愿意用下面的 Batch size 调整生产图的总数。
Batch size
每一批次要生成的图像数量。可以在测试提示时多生成一些,因为每个生成的图像都会有所不同。生成的图像总数等于 Batch Count 乘以 Batch size。
CFG (Classifier Free Guidance) scale
提示词相关性, 用于控制模型应在多大程度上遵从您的提示。他有几个只可选: 1 (大多忽略你的提示),3 (更有创意),7 (遵循提示和自由之间的良好平衡),15 (更加遵守提示),30 (严格按照提示操作),常用的是 7,做个平衡。测试时可以换这个值体验区别。
Denoising strength
降噪强度,常翻译成「重绘幅度」,取值范围是 0-1,描述新生成的图片与原图的相似程度,数值越小,采样越少,相似度越高,算的越快 (采样数 = Denoising strength* Sampling Steps)
Seed
生成的每个图像都有自己的种子值,修改这个值可以控制图像的内容。
Script
用户可以编写脚本代码,以实现一些特殊定制的功能。这个未来可以具体说,目前还没有遇到。
checkpoint大模型
可以理解为AI绘图的基础数据库,是使用大量的数据训练出来的。一般文件比较大,2G以上。
inpaint
局部重绘,一般用于修正图片。 从画风到角色都有可能
hypernetworks
又称hyp,大多是影响画风, 有极少数可以透过画风还原角色的。
prompt
提示词,你希望你的图片是什么样子的。决定你图片内容最重要的部分。一般情况下,我们主要是修改这里。
neg.prompt
负向提示词,你不需要你的图片是什么样子的。也非常重要,可以防止生成一些错误、低质量的内容
text2img
文生图,简称t2i。 应该是最常使用的功能了,我们主要是在这个功能里面输入prompt生成图片
img2img
图生图,又称i2i。
可以基于已有的图片进行再次处理,可玩性同样很高 可以对不满意、或者需要修改的图片,修改指定部分或修改非指定部分。比如说给图片换脸、或者给图片换衣服,都可以使用该功能。具体可以参考我发的其他介绍文章
Loading...