Comfyui基础教程12.ipadapter是什么

AI作画软件中文版 2025-06-05 11:00:17
欢迎各位同学们来到小江老师新一期的ComfyUI系列教程。今天的课程主要讲解IP adapter。相信大家都了解过web UI,它是controltr net中的一个模型和预处理器。然而,在ComfyUI中,由于模型较多,它相对独立。因此,今天我们将单独为大家了解IP adapter的工作流。首先,模型的安装可以直接通过左上角的网址进行下载。
IP adapter需要的模型和插件非常多,在网页中除了作者说明的已弃用的部分,我们可以依次点击下载。下载完成之后,上面这一栏都有标注说明我们需要安装的位置。另外,比较重要的是两个clip模型,这两个模型在下载完成之后需要安装到文件夹里。并且下载完成的模型的名字与这个是不同的,因此我们需要将下载完成的文件重命名,直接右键复制作者已经标注好的名字,依次进行替换即可。大家不要弄错,在我们下载完成之后应该有20个G左右,总体来说比较大。
我们下载完成之后返回到ComfyUI界面,它与普通纹身图工作流的不同之处在于IP adapter,它通过介入checkpoint的加载器,再直接连接采样器。接下来我将分别向大家介绍如何调用它。右键新建节点,这里有一个单独的选项,即应用IP adapter.点击应用。另外,IP adapter还有一个比较智能的节点,在应用IP adapter里面有一个IP adapter加载器,这个加载器经过更新之后非常智能,大家刚才也看到我们需要下载的模型非常多,经过加载器之后能够自动调用。我们看一下它里面的选项,有一个轻型仅1.5的低强度,意味着它在参考我们给到的图片出图过程中只是做到比较低的参考,并且这个模型仅适用于1.5版本的大模型,我们可以选用一下,然后我们可以随机寻找一个1.5的大模型进行加载。
加载器与我们的应用IP adapter进行相连。在相连之后,我们需要加载一个参考图像。这张图片已经出现过很多次了,我们可以适当调整高度512×768。IP adapter的原理相当于经过IP adapter将这张图片进行clip的反向解码,将图片变成文字信息并传输到采样器中,达到参考目的。我们将其替换为预览图像,生成一张图片给大家观看。提示词甚至不需要输入都可以,我们这里输入一个one girl。
CFG值调整到7左右,我们点击添加提示词到队列。这里需要相连,我们点击添加提示词到队列,它不仅可以做风格上的参考,还可以做到人脸和面部一致性的组成,它的作用非常多。我们会逐步给大家讲解,最终生成的图片有一部分参考原图,我们认为高度可以提高一些。
860。我们再尝试其他方法,例如将其切换为中强度模型,系统会自动识别。如果你使用的大模型为1.5,它就会采用1.5的中等强度模型。如果我们使用的大模型采用sdxl,它就会选择中强度的sdxl模型。这些都包含在其中,还有一些专门参考人脸的模型,例如全面部。请支持1.5,这非常容易理解,它是一个非常智能的模型加载器。切换为标准后,再点击添加提示词。
将它挪过来。切换到标准模式后,它明显比前面的图片更像参考的图片风格。我们选择中强度继续添加提示词到队列,多给大家看一看对比。采样器刚才用的是普通的,我们可以把它切换成OLAA和卡萨。在中等强度之后,明显的相似性比前面更上一层楼,我就把它放在一起了。另外高强度生成速度比较快。
在切换成高强度后,人物面部和动作姿势以及面朝的方向都与原图片相似。重要的是,肖像生成后比之前的面部更具一致性。由于全身图不友好,可以更换一张需要参考的图片。刘亦菲,上传完成后,需要适当切换大模型,成为写实模型。完成后,继续采用肖像模式,点击添加提示词到队列,更换成真人照片可能会相对慢一些。
虽然这些看起来相似,但是比例有问题。我们可以在提示词里加入肖像照。双击翻译,这里直接生成穿上有点凉快的照片,重新生成一张。大致就是这样。我们可以进行强销项的设置,切换到强肖像模型。他非常注重面部参与,即使连同原图中手搭着下巴的位置也能进行同步,再次生成效果很不错。
大家可以看到,这是最基础的IP adapter工作流的搭建。接下来我们讲解其他知识点。首先我们在应用IP adapter上的权重参数,类似于control net或者Laura,它控制整体,是整个IP adapter参考权重指数。另外,开始应用和结束应用的位置不用多说。权重类型共分为三个,我们先更换一张图片。
我们将其更换为蒙娜丽莎。我们先点击生成按钮,稍微更换一个模型,更换一个标准强度。虽然看起来相似,但是原图的比例与这个有所不同,我们不可能每次都要动手设置和调整比例。在这里IP adapter有一个节点可以解决这个问题。在应用IP adapter里有一个实用的工具,即可利卜的视觉图像处理,完成后我们可以将其连接。
直接进行连接,可以选择权重插值方式、裁剪位置,也可以加入锐化池。在加入可利普图像视觉处理后,生成的图片会更居中合理。由此可见,当权重类型是第一个时,生成的图片与原图相似。另外,切换到第二个权重类型后,生成的图片有何区别呢?
大家可以看到,第二张图片与第二个权重类型的区别在于权重大部分偏向于我们使用的大模型,主要参考Cali文本编码器和提示词。第三个权重类型类似于风格参考,稍后我们会更换图片,使用梦幻图片,直接生成图片进行观看。
在其他任何东西没有动的情况下,大家可以看到在生成完成后,在关键词里输入的女孩融入了原图中的紫色主色调以及类似于星星的光点。总体而言,工作流搭建很简单,以前比较麻烦的风格转会现在让IP adapter变得非常简单。当然风格转会也是本次IP adapter的一个重大更新,我相信在很多领域,包括生成图片的时候,我们都可能会用到它。
以上是我们最基础的IP adapter应用方法。在了解完基础之后,我们来看一下高级的,将这个删掉,新建节点应用IP adapter。在高级部分,我们再拿出基本的,主要为大家进行对比,看看有什么区别。实际上,把它们放在一起看,两个都有模型、IP adapter和图像。只不过我们应用IP adapter,这里有一个负面图像,稍后会给大家讲解。另外,这里会有一个可利普视觉加载器,视觉加载器是什么意思?
我们这里将IP adapter连接起来。IP adapter加载器相当于我们之前的IP adapter加载器,只需选择一个,它就能够自动选择相关模型,并搭配上面两个可利卜模型。如果你想要进行特殊设置,例如需要使用1.5的中等模型,那么我们需要使用重型可利卜加载器。
我们可以在这里单独选择模型,然后单独选择需要调用哪个克里普加载器。为了方便,我们还是使用之前的IP adapter加载器进行演示。删除上面的部分。如果连接IP adapter加载器之后没有特殊需求,clip视觉就不需要再次连接。接着将图像与正面图像相连。
我们将参考图修改为蒙娜丽莎,接下来我们将展示它们的区别。他们在下面的参数中都有权重类型,只是在高级IP adapter应用中权重类型可选的非常多,而我们普通的参数只有三个,他们都有开始和结束的位置。我们先讨论权重类型,选择默认的线性权重类型,将其放在一边,在提示词中加入其他的选项,观察效果如何,例如加入血液。
在翻译完成后,关键词变为女孩、雪和沙滩等场景。在线性情况下,点击添加提示磁道队列,观察它能否在保持风格的同时融入这些元素。之后可以看到远处的雪山和沙滩,再生成一张,观察它能否继续保持风格。整体来说,还不错。这张图片远处有山,不过看上去不像雪山,近处有海,也有类似沙粒颜色的地面。IP adapter的作者也提到过,线性主要参与到图片中。在提示词里输入的内容可能有很大概率不会显现出来,造成这种情况比较正常。接下来看权重类型,它叫做缓入。缓入的意思是在生成图片时,刚开始全程参照API adapter上传的图片,等到生成到中段,后半段时,再逐渐融入大模型。
经过我们刚才的说明,文本编码器输入的内容大家应该能够想象出来。一张图最重要的是最初生成的噪波类型,然后在中段到后段的降噪过程中很难进行改变。我们点击生成查看效果,这个比线性权重差值好很多。不仅生成的女孩和蒙娜丽莎长得非常像,而且后面也出现了血的场景,非常惊艳。我认为另外这个是缓出,缓出是什么意思?
首先,我们的大模型和提示词将进行初期噪波生成,之后逐渐参与IP adapter。到了中后半段时,参与的权重会更高。由此我们可以得出一个设想结论,生成的图像至少要比这个更好。不过,这个还是需要随机抽取一张。我们看一下,人物非常像蒙娜丽莎,后面是一个明显的沙滩和雪山。这张图是一个肖像照,我们再生成一张来观看。
这个相当完美,既参考了原图蒙娜丽莎的长相,后面还有雪和沙滩海滩元素。可以看到它确实比我们上面的缓出更加精准。接下来我们来讲第4种,它是缓入并且缓出的意思,相信大家能够了解。刚开始我们的模型权重很低,只有在中断时逐渐变高达到最高点。越靠近末端时,模型及文本编码器的权重又会再次下降。这样也给到了出图更多的发挥空间,类似于以这样的方式。
在保持风格的同时,也能更精准地达到提示词中提到的要求。我们可以直接添加提示词到队列进行尝试。这次生成的有人有海滩,没有雪山元素,不知道是否是运气的问题,我们再抽一张图片进行观察。这个明显符合我们的要求,后面的雪山、下雪森林以及近处的海滩、湖和蒙娜丽莎的展相与原图基本一致,风格参考得很好。这是缓入并且缓出,下一个恰好与缓入缓出反过来,可以直接得出结论,它更加倾向于大模型和文本编码器。这里我们直接添加,给大家进行观看。
这张图片有些奇怪,不过它参照了蒙娜丽莎的面部和朝向。它的风格更偏向于大模型和文本编码器,提示词里书写的雪山和海滩元素也是完美地显现出来的。我们可以再试一张。大家可以看到,这张图片更偏向于模型提示词,而上面的图片则更加偏向于IP adapter参照。有些同学可能会认为使用缓入控制权重类型的图片不同于上传的参考图,需要更接近模型和提示词。在这里我们需要用到开始位置和结束位置,例如在开始生成图片时,噪波生成非常重要,前几步几乎决定了整张图片的风格。因此我们让他在通过我们的模型和编码器生成30%的情况下,再加入IP adapter进行参考。
实际上,它也能达到这样的结果。我们直接点击添加提示词到队列查看是否可以实现。虽然我们选择了一个入模型,按理而言缓入更接近于IP adapter的参考图片,但是在我们改变位置之后,它又变得更接近于大模型和文本编码器。虽然有时候大家认为ComfyUI和外部UI参数的调节有些多余,但是正是因为操控按钮的存在,赋予AI生成图片更自由、更有想象力的空间。
接下来我们继续讨论权重类型。两个权重分别是Wake input和Wake output。这两个权重是缓入缓出,与上面的不同。缓入从0开始到百分百,缓出从0开始到0。Week input类似于开始应用位置的参数,大概在0.20.3左右,没有准确的数值。Wake output和Wake output,他们都类似于在0.20.3左右才进行开始介入。
这是字面上的意思,由此得出结论,它生成的图片更接近于我们的模型和提示词。大家可以看到这是wake input.这是wake output.这两个选项看起来比较鸡肋,我认为也比较鸡肋。因为一开始API adapter无法进行到高级调整,开始结束位置时,已经存在的产物,所以这张图片看上去很不错,大概就是这个道理,大家应该能够理解。接下来我们看wake克middle,它并没有官方解释。我出了很多张图片,得出结论类似于一开始线性模型的减弱版本。我们这里生成几张图片进行对比区别,微和middle比较偏向于这个方向。
我们原本的参考图换成线性后,虽然非常相似,但是没有线性权重类型,大致就是这个道理。如果大家有知道的,也可以纠正指正。下面有一个stronger me,类似于我们刚开始讨论的应用IP adapter的第二个权重差值。我认为它是力量增强版,生成的图片更加不像IP adapter的图片,更多的是直接显示提示词里的内容。你无法看出与上传的图片有何关联,这很鸡肋,我基本上没有印刷。
最后是下面的style transfer,这个style transfer在我们刚才讨论的标准应用adapter里面有提到,它是进行风格转换的过程。在这里,我们需要再找一张用这个风格的图片。关键词就这些,其他的删掉,只留一个女孩。它主要是为我们的人物融合进参考图的风格里面,大家可以看到。
这个风格的转换包括整体色调和特点,都能结合提示词迁移到新生成的图片中。Store transfer的权重类型目前非常热门,可以通过风格参考生成许多内容。这里我们再换一张参考图,也可以修改关键词。
一头狮子进行翻译,翻译完成后再进行生成。大家可以看到这是一个非常厉害的模型,IP style可以合理利用它创造出天马行空和高质量的图片。狮子完全结合并移植了前面参考图片的风格、色调和星空背景。这里生成了一个人,这些都是概率问题,大家可以多研究一下store transfer。最后一个,因为这些东西太多,其他基本上用不到的,我就不给大家介绍了。Strong style transfer,字面意思是更强的风格,转柜模型。
这里让它进行生成,风格完全一致。可能是大模型的原因,狮子一直没有生成出较好的动物形象,我们换大模型试一试。生成的狮子大部分都比较拟人化,可能是没有加入太多关键词。现在看来不是,这就是大模型的原因。这样生成的图片非常惊艳且漂亮。
一头狮子完美地融合了参考图的元素。我要强调的是,我们更强的style transfer模型有时不太稳定。虽然出图的效果非常惊艳,但是在使用过程中,大家可能会花费更多时间进行抽卡。无论选择何种权重类型,我们都建议大家更多地尝试。最后一个模型名为composition,主要类似于深度。之前我们在contra net课上讲过一个深度图,主要可以参考画面中的空间,例如上传小姐姐的照片。
这个词直接删除,让IP adapter发挥,这个有点凉快。我们稍微更换一个模型,加一个反向提示词,再次生成左边的灌木、后面的大树以及房屋中间的人。参考值并没有太高,坐到一个空间的建筑,前面站着人,后面有一个小路,后面有一些建筑,旁边是植物。通过这几张照片的生成,我们可以理解它的意思。总结来看,在应用FP adapter高级里面的权重类型时,我们常用的是缓入或者缓冲。
重要的一点是,如果你需要使用风格转会,我们就采用style transfer,这三个模型。其他方面没有太亮眼之处,包括刚才提到的conversation,实际上并不如controltrl net控制更准确。在了解完应用IP adapter之后,我们将进行嵌入讲解,右键新建节点,并在应用IP adapter里进行操作。
我们有一个嵌入组,即IP adapter合并嵌入组以及编码。我们一直在给大家讲的都是由一张图片进行参考,实际上也可以使用两张图片进行参考。例如图像,预览图像,先把下面的部分关掉。关掉之后,先添加提示词到队列,可以看到这张图片。先处理好,按住换挡键,将这些分别进行复制。
图像连接图像,我们稍微更换一张图像,继续添加提示词到队列。在这种情况下,我们应该如何将这两张图像都传达过来?这里只有一个正面图像接口,右键新建节点,在图像里面有一个图像组合批次。这里有两个节点,我们依次将这些删除,图像连接到这边,这样就已经完成了。我们再将下方的工作流打开。请使用同样的关键词王盖雪商或者o oko。在完成这些之后,我们这里需要使用叉LL的大模型。
关键在于宽度和高度可以适当调高。在这里,我们同样使用标准中强度的IP adapter加载器。点击直接添加提示词到队列查看这次生成的效果。经过两张图的合并,参考生成了图片。在生成图片之后,我们看看它们之间有怎样的关联。
我们生成的这张图片整体服装风格参照了第二张图片,包括长相。不知道大家是否发现它与第二张图片非常相似,应该是服装和脸部参照了第二张参考图。另外,他的长发以及背景、场景、亮度和光照都参照了第一张图片。如果大家认为这张图片看不出来,那么我们继续生成一张图片,大家可以看到它结合了两张图片。这次生成的图片还是一样的,只是她的展相与两张图片都比较相似。另外,她的服装也有一些特点。
民族服饰风格的背景明亮,后面有植物等元素。整体来说,这张图片的质量非常高,完全可以达到预期和需求。生成一张也是如此,这应该是两张图片组合出来的平均结果。在阅读完以上内容后,我查阅了很多关于嵌入组缩放的相关资料,并未找到任何相关信息。经过实验,如果大家使用工作流生成图片,出现效果不佳、质量不好或拟合的情况,建议大家稍作选择,完成后再重新进行生成。
我已经寻找了很多天,但是没有找到相关说明。接下来我们讨论今天最重要的内容,即负面图像的知识点。实际上,对于负面图像,它与反向提示词的道理相似。我们将其连接后选择加载图像。例如,这幅图像主要内容是偏白的配色,动漫风格。我们直接加载图像后,再添加一张提示磁道队列。
我们观察一下效果。我们这边还有两张图像,刚才使用了图像组合批次。深圳的效果不太明显,动漫图像不适合真人。我们先取消处理,保留一张图片,换成反向提示词图片,将内容换成动漫风格。
我们使用蒙娜丽莎。反向图片是穿夹克的黑白颜色照片,我们直接添加提示词到队列中。这个效果并不理想,它能够有多么准确的空图,只是负面图片在生成某些图片时加起来会有比较好的效果。例如这张反向图片主要突出描绘人物场景的着装等黑色部分。相反过来,我们去除掉了这些黑色,生成出来的蒙娜丽莎会比较亮一些。另外,背景是白色,它也会加重对背景的描绘,一个是空白,一个是加重描绘背景。实用性方面就是如此。
使用它进行控图可能不太准确。网上有很多类似的专门用于反向图片,如噪点图、拟合图或人物崩坏图片,我们都可以加入反向图片或负面图像中。以上是我们应用IP adapt的详细参数内容知识点,另一个好用节点是在IP adapter里面。Face ID专门针对人脸一致性。
我们在对比之前,首先使用刚才提到的工作流节点,为大家展示。我们这边将其修改为刘亦菲小姐姐的照片。接着在加载器这里切换到专门针对肖像的模型。切换完成之后使用SDXL,768×1024没有问题。在这里添加铁示磁刀队列,关键词这里我给到半身像的描述,这个肖像专门针对半身图或者人脸的复制。
这个效果不佳,我们更换1.5的模型,效果会相对好些。胶片风真实感大模型1.5,这里稍作修改,512×680继续添加提示磁道对列,我们使用1.5的模型尝试。Sd叉l在生成肖像方面可能稍差一些。刚才我将负面图像换成刘亦菲,我们需要将正面图像换成刘亦菲小姐姐。我只是说有哪里不对,大家认为怎么样?是否更像?
我们再尝试一下SD叉L的大模型。768乘以1024。添加提示词。在没有使用face ID的情况下,我们只是在IP adapter加载器里使用了肖像模型。切换较慢,SD叉L图片的尺寸相对较大。从噪声图来看,我认为叉L确实比普通模型好一些。
我认为非常相似。接下来我们来给大家介绍Face ID,它肯定比在加载器里更换肖像模型要更强一些。Face ID的应用节点如何搭载?首先将这些地方进行还原,然后将应用IP adapter以及加载器进行删除。Face ID有一个专门使用的应用IPA。
Face ID.Face ID的加载器与模型相连,IP adapter与API adapter相连,我们的模型连接在一起。正面图像连接我们视觉处理好的图像。加载完成后,可以看到有不同的预设版。目前我建议大家使用VR版本,毕竟是最新的版本,而且酷达使用这款设备。
关于权重,我将为大家介绍两个方面。一是对人物五官肖像的权重进行调节,二是对预处理图片的权重调节。照片的风格为红色衣服和带珍珠的项链,可以使用第一个权重进行调节;三是针对面部权重类型,选择缓入。完成后,再进行生成,观察效果是否有所不同。
我们通过clip视觉图像处理单独截取人物面部,以确保图片在人脸面部占比较大,这样才能在最终还原脸部时达到较高的相似度。稍后我们等待结果。大家可以看到,这是通过IP adapter face ID节点生成的图片,无论是发型、脸型、眼神、鼻子还是嘴唇,可能有些不同。**的图片是俯视角度,这样识别稍微有些困难,不过整体相像度达到80%左右。
之后即使大家进行摄影,只需进行微调晃点,它的相像程度也能达到极高。在讲完face ID之后,我们查看是否还有未讲过的内容。关于IP adapter,这里有一个分块节点,具体如何使用?我来说明一下原理。有时候我们在处理图片时,例如某张图片较长或者较宽,我们使用可clip视觉图像处理时,裁剪出来的部分会自动识别,无法保留原图的长宽尺寸信息。如果大家想要整幅图片,不仅仅是裁切出来的部分作为参考,而是整幅图片都被参考进来,我们就可以使用IP adapter的分块。我们需要使用这个方法,前面的视觉图像处理就可以不用,包括face ID的加载器也会删除。接下来我们再创建一个。
刚才的加载器与图像进行相连,直接提供给我们正面图像。模型部分连接到这边。讲完之前的参数后,我们可以预览。遮罩可以遮照到图像,进行相连,也可以预览。在这里,我们可以继续更换一张之前使用过的图片。
我们使用这张图片,有些尺寸较大,整张图片较长。如果仅作为参考,例如女孩上半身的部分,可能无法得到保留。通过IP adapter加载器,连接到应用IP adapter分块进行遮罩,就可以完美解决情况发生。
完成以上工作后,我们需要切换模型。接下来,我们将设定一个标准的强度,宽度为512,高度为9。我们将设置为900。完成后,我们可以直接添加提示词到队列查看。这次我们将采用adapter的分块,既保持其长相,又保持服装的一致性。这是遮罩图像的预览。
我们将这张图片分为两部分,上半部分和下半部分,依次递交给采样器进行绘制。在绘制完成后,我们再将其进行拼接,可能还不够,我们再生成一张图片查看原理。大致就是这样,可以看到它的相像程度已经相当高了。它的相像程度已经相当高,如果大家仍然追求更像,那么我们可以尝试更改预设,例如再设置一个高强度。如果你认为高强度无法达到你想要的要求,那么最终可能是我们使用大模型的原因。大家可以寻找一些近期比较火爆的新动漫风格大模型。这张图片完全没有问题,我们可以看到在将其设置为高强度IP adapter参考后,它的相像度可以达到70%左右,只是这里多了一条腿。美中不足的地方是无论是头发、服装还是人的眼睛等方面都没有任何问题,这是第二次生成的结果。