Flux超强图像提示词伴侣MiniCPM-V 2.6（超强）| ComfyUI中Flux实现无IPA三图创意融合-工具盒子

①前言

自从使用上Flux，就已经一发不可收拾，基本上完全放弃了SD1.5，SDXL也用的少了。

什么你还没有使用Flux，还在认为Flux有显卡限制，我本地跑不起来？那你一定是没有关注我，请查看我之前的文章：【Flux Dev | ComfyUI 6G显存本地极速出图 | Flux Dev bnb nf4】

Flux Dev 目前还没有IPAdapter，我想融记账图片如何实现呢？下面有请我们的主角：最新发布的超强图像视觉vision : MiniCPM-V 2.6 ，全面超越了GPT-4v。

MiniCPM-V 2.6 是 MiniCPM-V 系列中最新、性能最佳的模型。该模型基于 SigLip-400M 和 Qwen2-7B 构建，共 8B 参数。与 MiniCPM-Llama3-V 2.5 相比，MiniCPM-V 2.6 性能提升显著，并引入了多图和视频理解的新功能

主要功能包括：

支持中文提示词以及中文输出
根据图像反推提示词
根据简单文本来扩写提示词
多图对比
多图创意融合
视频描述
OCR 图片文本识别，支持图片中的图片，直出MarkDown格式
大语言模型，聊天问答，因为基于Qwen2-7B，所以支持中文提问和回答

真的是超级强大，心动了吗？心动不如行动，继续往下看，带你详细了解并在ComfyUI中（也支持其他方式）使用这个超级模型。

本文所有模型，所有工作流，文末获取。

②MiniCPM-V 2.6 介绍

Github: 10.3K*

https://github.com/OpenBMB/MiniCPM-V
MiniCPM-V 2.6: A GPT-4V Level MLLM for Single Image, Multi Image and Video on Your Phone
端侧可用的 GPT-4V 级单图、多图、视频多模态大模型

MiniCPM-V 2.6 模型：HuggingFace网站

https://huggingface.co/openbmb/MiniCPM-V-2_6
https://huggingface.co/spaces/openbmb/MiniCPM-V-2_6

MiniCPM-V是面向图文理解的端侧多模态大模型系列。该系列模型接受图像和文本输入，并提供高质量的文本输出。旨在实现领先的性能和高效的部署，目前该系列最值得关注的模型包括：

MiniCPM-V 2.6: ??? MiniCPM-V系列的最新、性能最佳模型。总参数量 8B单图、多图和视频理解性能超越了 GPT-4V。在单图理解上，它取得了优于 GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet等商用闭源模型的表现，并进一步优化了 MiniCPM-Llama3-V 2.5 的 OCR、可信行为、多语言支持以及端侧部署等诸多特性。基于其领先的视觉 token 密度，MiniCPM-V 2.6 成为了首个支持在 iPad 等端侧设备上进行实时视频理解的多模态大模型。
MiniCPM-V 2.0：MiniCPM-V系列的最轻量级模型。总参数量2B，多模态综合性能超越 Yi-VL 34B、CogVLM-Chat 17B、Qwen-VL-Chat 10B 等更大参数规模的模型，可接受 180 万像素的任意长宽比图像输入，实现了和 Gemini Pro 相近的场景文字识别能力以及和 GPT-4V 相匹的低幻觉率。

MiniCPM-V 2.6 是 MiniCPM-V 系列中最新、性能最佳的模型。该模型基于 SigLip-400M 和 Qwen2-7B 构建，共 8B 参数。与 MiniCPM-Llama3-V 2.5 相比，MiniCPM-V 2.6 性能提升显著，并引入了多图和视频理解的新功能。MiniCPM-V 2.6 的主要特点包括：

? 领先的性能 。MiniCPM-V 2.6 在最新版本 OpenCompass 榜单上（综合 8 个主流多模态评测基准）平均得分 65.2，以8B量级的大小在单图理解方面超越了 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等主流商用闭源多模态大模型。
?️ 多图理解和上下文学习。MiniCPM-V 2.6 还支持多图对话和推理。它在 Mantis-Eval、BLINK、Mathverse mv 和 Sciverse mv 等主流多图评测基准中取得了最佳水平，并展现出了优秀的上下文学习能力。
? 视频理解。MiniCPM-V 2.6 还可以接受视频输入，进行对话和提供涵盖时序和空间信息的详细视频描述。模型在有/无字幕评测场景下的 Video-MME 表现均超过了 GPT-4V、Claude 3.5 Sonnet 和 LLaVA-NeXT-Video-34B等商用闭源模型。
? 强大的 OCR 能力及其他功能 。MiniCPM-V 2.6 可以处理任意长宽比的图像，像素数可达 180 万（如 1344x1344）。在 OCRBench 上取得最佳水平，超过 GPT-4o、GPT-4V 和 Gemini 1.5 Pro 等商用闭源模型。基于最新的 RLAIF-V 和 VisCPM 技术，其具备了可信的多模态行为，在 Object HalBench 上的幻觉率显著低于 GPT-4o 和 GPT-4V，并支持英语、中文、德语、法语、意大利语、韩语等多种语言。
? 卓越的效率。除了对个人用户友好的模型大小，MiniCPM-V 2.6 还表现出最先进的视觉 token 密度（即每个视觉 token 编码的像素数量）。它仅需 640 个 token 即可处理 180 万像素图像，比大多数模型少 75%。这一特性优化了模型的推理速度、首 token 延迟、内存占用和功耗。因此，MiniCPM-V 2.6 可以支持 iPad 等终端设备上的高效实时视频理解。
? 易于使用。MiniCPM-V 2.6 可以通过多种方式轻松使用：
- (1) llama.cpp 和 ollama 支持在本地设备上进行高效的 CPU 推理，
- (2) int4 和 GGUF 格式的量化模型，有 16 种尺寸，
- (3) vLLM 支持高吞吐量和内存高效的推理，
- (4) 针对新领域和任务进行微调，
- (5) 使用 Gradio 快速设置本地 WebUI 演示，
- (6) 在线demo即可体验。

③MiniCPM-V 2.6 性能评估

单图评测得分

多图评测得分

视频评测得分

文本扩充评测

模型库

下载地址：

MiniCPM-V 2.6 https://modelscope.cn/models/OpenBMB/MiniCPM-V-2_6 MiniCPM-V 2.6 gguf https://modelscope.cn/models/OpenBMB/MiniCPM-V-2_6-gguf

MiniCPM-V 2.6 int4 https://modelscope.cn/models/OpenBMB/MiniCPM-V-2_6-int4

④MiniCPM-V 2.6 使用方式

说了这么多如何使用这么强大的：MiniCPM-V 2.6 呢？

方式1：在线方式https://huggingface.co/spaces/openbmb/MiniCPM-V-2_6

方式2：llama.cpp 部署

MiniCPM-V 2.6 现在支持llama.cpp啦! 用法请参考：

https://github.com/OpenBMB/llama.cpp/tree/minicpmv-main/examples/llava/README-minicpmv2.6.md

方式3：ollama 部署MiniCPM-V 2.6 现在支持ollama啦! 用法请参考

https://github.com/OpenBMB/ollama/blob/minicpm-v2.6/examples/minicpm-v2.6/README.md

方式4:本地ComfyUI，结合Flux 或其他SD1.5，SDXL等大模型来使用，体验更佳。

下面详细介绍MiniCPM-V 2.6 在ComfyUI中的安装、使用，以及结合Flux来实现多图创意融合。

⑤在ComfyUI中使用MiniCPM-V 2.6

主要包括：

插件安装
模型下载
MiniCPM-V各个功能详解
结合Flux来实现多图创意融合

安装ComfyUI_MiniCPM-V-2_6-int4节点

启动ComfyUI，在manager中搜索：minicpm

会有如下三个节点：

Github1: ID746

https://github.com/hay86/ComfyUI_MiniCPM-V 2024/08/09: Added support for MiniCPM-V 2.6 (16GB+ video memory required)
Github2: ID931

https://github.com/christian-byrne/img2txt-comfyui-nodes Implements popular img2txt captioning models into ComfyUI nodes
Github3: ID1168 推荐这个，上图最后一个

https://github.com/IuvenisSapiens/ComfyUI_MiniCPM-V-2_6-int4 This is an implementation of MiniCPM-V-2_6-int4 by ComfyUI, including support for text-based queries, video queries, single-image queries, and multi-image queries to generate captions or responses.

安装最后一个节点，然后重启ComfyUI。

下载MiniCPM-V-2_6-int4模型

下载地址：近6GB https://huggingface.co/openbmb/MiniCPM-V-2_6-int4/tree/main

注意：下载需要魔法，如果不会，请关注公众号，发送：MiniCPM-V-2.6

指令来获取大模型，以及如下所有工作流。

模型存放目录结构: comfyui/models/prompt_generator/MiniCPM-V-2_6-int4

⑥MiniCPM-V-2.6 各功能在ComfyUI中的工作流精讲

注意：MiniCPM-V-2.6 的提示词支持中文哦。

单图提示词反推

提示词：

Describe the image in detail

详细描述图片

工作流：

输出翻译后的：

这幅图描绘了一个异想天开的场景，一头拟人化的驴子坐在地板上，看起来像是一个工作区。驴子坐着，腿伸直，脸上带着若有所思的表情，好像在思考什么。它位于一台电脑显示器前，这表明它可能正在从事某种工作或活动。驴子的左边有一张木凳，表明这个空间可能用于需要坐下来完成的任务。

在配色方面，这幅图主要使用了棕色、灰色和白色。这些颜色给这幅画一种柔和温暖的感觉。右下角附近还有几抹粉色和黄色，为整体构图增添了一丝活力。背景保持简单和浅色，确保焦点始终集中在驴子和它周围的环境中。

基于文本扩写提示词

提示词：

Detailed description 1 Girl image, play imagination, detailed description of background, elements, etc.

详细描述1女孩形象，发挥想象力，详细描述背景、元素等。

工作流：

输出翻译后的：

在这个充满想象力的场景中，我们发现自己置身于一个色彩缤纷、充满奇迹的广阔、充满活力的世界。这一切的中心是一个名叫埃拉拉的年轻女孩，她拥有一种不可思议的能力，可以用她的思想操纵周围的元素。
埃拉拉站在一片广阔的森林中，一望无际。树木古老而雄伟，树叶是红色、橙色和黄色的鲜艳混合，表明现在是秋天。她脚下的地面铺满了落叶，在脚下轻轻嘎吱作响。
上方，天空是一幅令人惊叹的画布，云朵在旋转，画着粉色、紫色和蓝色的色调。仿佛一位天体艺术家拿起画笔在天空中创作了一幅杰作。阳光穿过云层的缝隙，在下面的风景上投射出斑驳的光影。
埃拉拉本人就是一幅美丽而优雅的景象。她穿着一件飘逸的裙子，由闪闪发光的银色和金色丝绸制成，在阳光下闪闪发光，像液态金属一样闪闪发光。她的头发又长又卷，像金色的瀑布一样从背后倾泻而下。她手里拿着一根装饰着复杂图案的权杖，权杖顶端散发着柔和、空灵的光芒。
当她站在那里，被大自然的魔力包围时，埃拉拉似乎陷入了沉思。也许她在思考宇宙的奥秘，或者寻求森林精灵的指引。无论她的想法是什么，它们似乎都对她周围的环境产生了深远的影响。
她周围的森林开始发生变化，回应着她的情绪和欲望。树木轻轻摇曳，仿佛在随着只有她能听到的旋律起舞。鸟儿飞翔，它们的歌声在空中充满了和谐。花儿开得更鲜艳，颜色比以往任何时候都更加鲜艳。
在这一刻，时间本身似乎静止了，让我们完全沉浸在这个奇幻的世界中。当我们见证想象力的惊人力量和它所提供的无限可能性时，我们感到的只有敬畏和惊叹。

多图对比

提示词：

Compare image1，image2 and image 3,tell me about the differences among them.

比较图像1、图像2和图像3，告诉我它们之间的差异。

工作流：

输出翻译后的：

图 1 中，角色们站在有棕榈树和椰子球的海滩上；图 2 中，他们举着写有"原子社区"的牌子，海滩上有人在休息。图 3 中，死侍独自站在闪闪发光的黄色圆圈和红色火花的背景前，没有其他角色在场。

多图创意融合

提示词：

Combine three images and use your imagination to combine them together to generate a new image. Describe the content of the new image in detail, without mentioning the original image.I only need the description of the new image, nothing else is needed!

将三个图像组合在一起，用你的想象力将它们组合在一起生成一个新的图像。详细描述新图像的内容，不提及原始图像。我只需要新图像的描述，其他什么都不需要！

工作流：

输出翻译后的：

新图片以海滩为背景，天空湛蓝，充满活力。前景中，中间人物身穿红色西装，配以黑色装饰，双手叉腰，面带微笑，摆出自信的姿势，散发出一种随意自信的气息。背景中，棕榈树轻轻摇曳，大海平静，海浪轻柔地拍打着海岸。霓虹灯牌上写着"你好，原子能社区的朋友们"，为场景增添了复古未来主义的气息，为在线社区或聚会营造出温馨的氛围。整体构图融合了冒险、放松和数字连接等元素，创造了热带休闲与现代数字互动的独特融合。

视频描述

提示词；

Describe the video in detail

详细描述视频

工作流：

输出翻译后的：

视频捕捉到了一个人站在篮球场上的一系列动作。这个人穿着一件浅粉色短袖上衣、一条格子裙、黑色过膝袜和一双深色鞋底的鞋子。在整个视频中，他们做出各种类似舞蹈的姿势和手势，比如举起手臂、将一只手放在头附近、弯腰等。背景是几个写着汉字的红色帐篷，表示可能有一个户外活动或市场。人们坐在帐篷周围走来走去，营造出一种热闹的氛围。树木排列在帐篷周围，表明这个位置可能位于公园或类似的休闲场所内。

随着视频的进展，舞者的动作从放松的姿势演变为更具活力和表现力的动作，包括一个似乎在头顶举着东西的姿势。尽管发生了这些变化，但环境保持一致，在整个视频中都保持着充满活力的氛围。

因为这里有3个图片入口，一个视频入口，不仅可以理解图片，视频，还可以类似GPT4一样对话，所以上限就非常高，并非只有上面例举的功能，大家可以发挥自己的想象力，把AI的上限发挥到极致！！

OCR 图片中的文本识别

提示词：

Extract the text from the picture

提取图片上的文字

工作流：

原图：

直接输出直接Markdown格式

### Title MiniCPM-V ### Subtitle 可端可用的GPT-4V-T级单图、多图、视频多态大模型 ### Language Options 中文 | English ### Social Media Link 加入我们的微信社区 ### Document Titles MiniCPM-V 2.6.0 ? MiniCPM-Llama3- V 2.5 ? MiniCPM-Llama3- V 2.5 技术报告 ### Body Text MiniCPM-V是面向图文理解的端侧多模态大模型系列，该系列模型接受图像和文本输入，并提供高质量的文本输出。自2024年2月以来，我们共发布了5个版本模型，旨在实现领先的性能和高效的部署，目前该系列最值得关注的关注点包括： - MiniCPM-V 2.6: 它是MiniCPM-V系列的最新、性能最佳模型。总参数量8B，单图、多图和视频理解性能超越了GPT-4V，在单图理解上，它优于GPT-4 mini, Gemini 1.5 Pro 和 Claude 3.5 Sonnet等商用模型的表现，并且进一步优化了MiniCPM-Llama3- V2.5的可信度、可控性、多语言支持以及端侧部署等诸多特性。基于其领先的技术栈，MiniCPM-V 2.6成为了首个支持在iPad等端侧设备上进行实时视频理解的多模态大模型。

- MiniCPM-V 2.0: MiniCPM-V系列的最轻量化模型，总参数量2B，多模态综合性能超越ViL-34B, CogVLM-Chat 17B, Qwen-ViL-Chat 10B等更大参数规模的模型，可接受180万像素的任意长宽比输入，实现了和Gemini Pro相近的场景文字识别能力以及GPT-4V相匹的低幻觉率。

大语言，聊天问答

提示词：

你是谁，你能干啥？你能比较1.9 和 1.11 谁大吗？用中文回答。

工作流

输出：呵呵

我是一个大型语言模型，由OpenAI训练而成。我可以回答各种问题，并提供信息和建议。关于1.9和1.11的大小比较，1.11比1.9大。

⑦MiniCPM-V-2.6 结合 Flux Dev 实现多图创意融合

在ComfyUI中安装Flux，6G显存快速出图，详见【Flux Dev | ComfyUI 6G显存本地极速出图 | Flux Dev bnb nf4】

工作流：

融合后的提示词，翻译后的

新图像呈现了一个充满活力的场景，两个角色站在一轮耀眼的太阳前。左边的角色穿着醒目的红色套装，上面装饰着黑色装饰，包括一条突出的腰带扣。这个角色的姿态充满自信，双手稳稳地放在臀部，散发着一种准备就绪和决心的气息。相比之下，右边的角色穿着光滑的黄黑色服装，让人想起经典的超级英雄设计。他们握着一对可伸缩的爪子，准备行动，为构图增添了整体的活力感。

背景充斥着橙色和黄色的色调，暗示着日出或日落，为整个场景投下温暖的光芒。这种设置创造了一种戏剧效果，强调了角色的英雄形象。在他们上方，风格化的文字写着"你好，原子界的朋友们"，邀请观众进入这个生动想象的世界。

出图

完结

如上所需模型，所有用到的工作流，全在网盘，关注公众号

回复：发送：MiniCPM-V-2.6

指令来自动获取。

51工具盒子

Flux超强图像提示词伴侣MiniCPM-V 2.6（超强）| ComfyUI中Flux实现无IPA三图创意融合

①前言

②MiniCPM-V 2.6 介绍

③MiniCPM-V 2.6 性能评估

单图评测得分

多图评测得分

视频评测得分

文本扩充评测

模型库

④MiniCPM-V 2.6 使用方式

⑤在ComfyUI中使用MiniCPM-V 2.6

安装ComfyUI_MiniCPM-V-2_6-int4节点

下载MiniCPM-V-2_6-int4模型

⑥MiniCPM-V-2.6 各功能在ComfyUI中的工作流精讲

单图提示词反推

基于文本扩写提示词

多图对比

多图创意融合

视频描述

OCR 图片中的文本识别

大语言，聊天问答

⑦MiniCPM-V-2.6 结合 Flux Dev 实现多图创意融合

完结

厉飞雨

相关推荐

最新文章

猜你喜欢

快捷分类