这副画如何?就是感觉画成长大后的小黑了。
一、前言
如果我不说这是利用ai生成的,就算直接发网上可能超过9成都不会怀疑是ai。毕竟花了我好几个小时进行微调。
虽然现在应该有不少人知道ai生图和视频,但可能没有多少人深入研究,所以这里还是说一下我使用的主要工具:
comfyui,于2023年初发布,这是一款开源的、基于节点的AI图像生成工具。它主要用于操作像 Stable Diffusion 这样的扩散模型,用来创建高质量的图像、视频、甚至3D内容。不过创作质量越好的图片和视频对显存要求越高,所以现如今有不少用云端进行创作,要么就调用api利用别人的显卡进行创作,要么就利用国内简单上手的字节豆包、快手可灵等,或者国外的gpt4、Gemini、Midjourney等。
写在前面,这里的部分内容我就不详细解释了,毕竟这些东西短时间内也很难搞懂,知道现在有这么一回事就行。要是真的有感兴趣的也可以问我。
二、使用节点
在以前,要实现上面图片,很大一部分都要使用 lora模型[1]来保证人物相似,训练这种模型显存起码要求16g以上,用云端估计弄一个人物就要几十块钱,虽然网上有不少个人上传的lora模型,但是稍微冷门点的很少。随着技术进步,即使没有lora模型也可以做出来,不过就要花点力气。
所以这里介绍第一个插件:
ACE ++,linhoi/ComfyUI-ACE_Plus: ali-vilab ACE_plus ComfyUI node only,设计背后的最初意图是将参考图像生成,本地编辑和可控制的生成统一为一个框架,并使一个模型能够适应更广泛的任务范围。 使用这个插件需要配合专门的模型。
文字解释太苍白,看下面这图就知道了:就是把一张图片的内容迁移到另一张图片上去
好了,还有第二个插件:ComfyUI_AdvancedReduxControl
这个插件是基于 redux模型[2] 上,有效的让我们把控Redux的效果词。也就是加载一张图片,让这个redux识别图中的元素,加上自己写的 提示词[3] 以便达到自己想弄到的效果。kaibioinfo/ComfyUI_AdvancedRefluxControl。
最后一个,也是和ps的联动,还记得我之前刚刚接触ai生图的时候,要修改图片内容还得手动上传ps和导入comfyui,特别麻烦,现在只要comfyui生成完直接能导入ps里,用处最大的就是用来 局部重绘[4]。zombieyang/sd-ppp: Simplify ComfyUI and Connect with Photoshop
三、前期流程
1.ps必须要24年以上的,要实现这两者之间联动需要网络,代理不清楚要不要,因为我一直开着用。顺便说一下高版本的ps有反盗版程序,我建议打开火绒的联网控制,只要安装的时候右下角有弹窗就立马阻止程序。实测成功安装,当然了有钱可以直接买正版。
2.打开comfyui后打开自己的工作流,使用sdppp节点连接ps,图像生成后面也要补上发送到ps的节点
四、粗略流程
图片太小了可能看不清。
1.选择重绘区域
ps分别打开两张图片,配置好ps内的sdppp插件的数据,使用套索工具选择重绘的地方。左边是参考图,右边是重绘图。这里说个题外话,最近刚刚玩这游戏所以才用这个角色。然后右边的图片是p站上找的,要的话我评论发个链接就行,所以我也只是拿来练手不外发。
2.先让图像缩放到一样的高度方便制作IC Lora图像[5]
3.如果参考图有背景要么ps抠图,也可以使用节点抠图再把图片导入IC Lora图像
4.使用上面第二章介绍的两个插件redux和ace++,其实这两个用来实现小地方局部迁移效果比较好,像我这种大范围的包含元素过多需要一直生成才能找到几个好的。奈何显存容量太少不能使用 controlnet[6] 控制人物只能慢慢弄。下面这一张也是花了不少时间才生成出来,毕竟一张1024*1024的图片要2分钟一张,只要大体框架就行,后面能细化的,好几次生成的图片人物都浮空坐着了。
5.最后选择了这一张,不过是512*512的,可以看到眼睛不是黄色,不过没关系,后面都能解决。
6.接下来就是对图像进行局部重绘,修一张图30s勉强可以接受,到这里已经花了两个小时了。局部重绘也是一样,用选区工具对选择的区域进行重绘。
7.图像放大2倍
8.继续修改部分不合理的地方,也可以利用ps的画笔工具直接新建图层绘图,再写上提示词让ai知道是什么。
我发现最厉害的地方还是可以把参考图的元素扣到重绘的地方去,然后直接交给comfyui修就行了。包括上面的眼睛也一样,直接扣过去。
9.最后又发现鞋子和袜子有点不一样,再修改
10.总结流程:
利用redux模型对小黑提取风格特征,而ace++也是提取特征小黑迁移到重绘的图里,二者相叠加效果更佳。然后再进行局部重绘,最后放大再处理细节,over!
五、感想
刚接触这些还是四个月前,三个月前我还在这发了个帖子,学习ai生图内容还挺多,现在还有一大堆没学呢,不过以后这些功能简单化肯定是趋势。
早期sd1.5模型那种图片都是饱和度战神,直接一眼就能看出。看手,这个以前确实是用来检测是不是ai图的关键因素,还有细节多的图片线稿部分可能会不够均匀,出现线条断层,眼睛部分和头发边缘产生毛躁等。随着时间推移,出现xl、novelai等模型后,现在说实话已经很难分辨了。而我这个一般是用于真实系的flux模型,acg风格没那么好,但是修图能力不错。
之前还没有视频生成的模型,现在也已经越来越多了,估计再过一两年网络上出现很多十分真实的短片。以后ai制作动画都不是梦了。
虽然 ai再怎么说都是工具,毕竟都是由人创作的,人的想象力是无限的,就这一点ai不可能打败人,但是ai打败小画师已经搓搓有余了。
六、注释
[1]lora模型:AI生成图像领域中一种高效的微调技术,广泛应用于Stable Diffusion等扩散模型。它可以看作是大模型的“补丁”或“调味料”,通过少量参数调整,为生成图像赋予特定风格、人物特征或细节,而无需重新训练整个大模型。换句话说,我使用模型时想生成一个特定角色,用提示词怎么样描述都很难描述到位,但这个模型就能解决这个问题。
[2]redux模型:Flux.1 Redux是Black Forest Labs(黑森林)开发的一种专门用于图像变体生成和风格重塑的AI模型适配器,基于Flux.1基础模型。它在AI生成图像领域中以高效的图像变换、风格迁移和细节优化而闻名,特别适合需要高保真度图像变体的场景。其实和Lora有点像,但这个功能比这个更广泛。
[3]提示词:Prompt,说白了就是写上一个apple,就给你生成一个苹果。但是要生成一个好点的图片肯定需要很多提示词。
[4]局部重绘:Inpainting,用于对图像的特定区域进行修改、重绘或修复,同时保持其他部分的原始内容不变。它常用于修复图像缺陷、替换特定元素或调整局部细节。
[5]IC lora图像:In-Context LoRA,通过输入少量示例图像和提示词,模型进行上下文学习。保持风格、主题或人物一致。
[6]controlnet:允许用户通过结构化条件(如线稿、姿势、深度图)精确引导图像生成过程。相比传统提示词(Prompt)生成,ControlNet 提供更强的结构化控制,适合需要特定构图或细节的任务。举个例子,上传一张摆pose的人物图,然后选择姿势预处理器,ai能按照你上传的pose进行生成。