在AI这个领域里,变化真的是超快的,每一天都蕴藏着变革的潜力。就在Midjourney刚刚完成重大更新的第二天,开源图像生成领域就悄然迎来了一位引人注目的新星------FLUX.1。这位新晋选手宣称,在性能上已显著超越了DALL-E3、Midjourney v6等知名的闭源模型,并且连开源界的SD3系列也未能幸免,被它全面超越。这一消息迅速在AI圈内传开,引起了广泛的关注和讨论。
开源大模型图像生成FLUX.1是由Stable Diffusion原班人马推出的全新AI图像生成模型。接下来,我就给大家做一个简单介绍:
一、FLUX.1基本信息
开发团队:FLUX.1由Black Forest Lab(黑森林实验室)开发,该实验室由Stable Diffusion的核心开发者Robin Rombach领衔创立,团队成员大多来自Stability AI。
发布时间:FLUX.1在2024年8月初正式发布。
模型特点:基于多模态和并行扩散Transformer块的混合架构,拥有120亿参数,是迄今为止最大的开源文本到图像模型之一。
二、模型版本
FLUX.1提供了三种不同版本的模型,以满足不同用户的需求:
FLUX.1 [pro]:顶级性能版本,提供最先进的图像生成能力,适用于商业用途。
FLUX.1 [dev]:开放权重的非商业用途版本,性能接近[pro]版,适用于学术研究和开发。
FLUX.1 [schnell]:专为本地开发和个人使用设计的快速版本,在速度和质量上都超越了许多竞品,被称为"迄今为止最先进的少步骤模型"。
三、技术创新
FLUX.1采用了多项创新技术,以提高模型性能和效率:
流匹配训练方法:改进了传统扩散模型,简化训练过程并提高生成质量。
旋转位置嵌入:增强模型对图像不同位置特征的识别能力。
并行注意力层:提高模型捕捉长距离依赖关系的能力,增强图像生成的准确性。
四、开源与商业化
开源协议:FLUX.1采用了宽松的Apache 2.0开源协议,允许开发者和研究人员自由使用、修改和分发其代码。
商业化应用:FLUX.1的三种模型分别定价为:专业版每张图片0.055美元(约合人民币0.4元),开发者版每张图片0.03美元(约合人民币0.22元),快速版每张图片0.003美元(约合人民币0.022元)。用户可以通过开源平台Replicate运行模型,并可选择购买API服务进行图像生成。
五、工具网址:
项目地址:
https://github.com/black-forest-labs/flux
试玩地址:
https://replicate.com/black-forest-labs/flux-pro
comfyui工作流:
https://comfyanonymous.github.io/ComfyUl_examples/flux
**在线运行FLUX.1工作流网站:**https://www.liblib.art/modelinfo/ec6223dccd7b47658464eaf7b94d7dc5
六、实例展示:
所使用的是试玩地址:https://replicate.com/black-forest-labs/flux-pro。打开网站后,注册并登陆。在"prompt下的文本框中输入描述提示词;在"sapect_ratio"处选择画面比例。其它设置默认,完成后,点击"Run"生成图像。
为了更好的体现flux.1是否能媲美MJ等AI绘图工具,我们从人物写实、动物写实、风景、电商产品、动漫、国风等6个方面来给出提示词作为例子。
1、人物篇:
提示词:Top Chinese beauty strolling through the mountains, with long flowing hair, jeans, tall and slender figure, oval face, delicate features, big eyes, red lips, sweet smile, natural lighting, medium shot, shallow depth of field, warm tones, soft light, light steps, graceful posture.(中国顶级美女漫步山林,披肩长发,牛仔裤,高挑曲线,鹅蛋脸,精致五官,大眼红唇,甜美微笑,自然光,中景,浅景深,暖色调,柔和光线,轻盈步伐,优雅姿态。)
生成的图像:
2、动物篇:
提示词:Animal photography, a gray-haired blue-eyed Ragdoll cat, lying on a white sofa next to a table, ambient lighting, close-up shot, documentary photography, 4k quality, high-definition photography. Documentary photography, filled with sunshine, close-up, lens flare, ambient lighting.(动物摄影,一只灰色毛发蓝色眼睛的布偶猫,趴在白色的沙发上旁边是透明的桌子,氛围感照明,特写镜头,摄影纪实,4k画质,高清摄影 摄影纪实 充满阳光 特写 镜头光晕 氛围感照明 )
生成的图像:
3、风景篇:
提示词:Summer coolness, grasslands, lakes, after rain, the first ray of sunshine in the morning, distant fog, real scenery shooting, beautiful artistic conception, high-definition picture quality.(夏日清凉,草原,湖泊,雨后,早上的第一缕阳光,远处雾,真实风景拍摄,唯美意境,高清画质)
生成的图像是:
4、电商产品篇:
提示词:A luxurious perfume still life painting, surrounded by rippling water, bathed in bright sunlight, 8k high quality, eye-level perspective, wave impact, visual shock, highlight overflow, delicate textures, texture, golden reflection, soft shadows, luxurious feeling, fresh fragrance, OC renderer, surrealism, full body, pink and white, high-key lighting, dreamy lighting, background blurred, bright, sunlight exposure, Tyndall effect, ray-traced reflection.(奢华香水静物画,水波环绕,阳光明媚,8k高品质,平视角度,波浪冲击,视觉震撼,高光溢出,细腻纹理,透明质感,金色反射,柔和阴影,奢华感,清新香气,oc渲染器,超现实主义,全身,粉白,高调照明,梦幻灯光,背景虚化,明亮的,阳光照射,丁达尔效应,光追反射。)
生成的图像:
5、动漫篇:
提示词:A beautiful woman playing the electric guitar, with a hot figure and a beautiful body curve, sleeveless bandeau top, outdoor stage, Japanese anime style, motion blur, high saturation color, wide-angle lens, backlight, passionate, and full of energy.(美女弹电吉他,火辣身材,身材曲线优美,无袖抹胸,室外舞台,日式动漫风格,动态模糊,高饱和色彩,广角镜头,逆光,激情四射,动感十足。)
生成的图像:
6、国风篇
提示词:A Chinese girl in a white Hanfu, gracefully and charmingly, pursuing details, 8k HD, with a hazy atmosphere, a realistic style, shining golden light, soft light, a telephoto lens, a natural environment, static beauty, a warm tone, and a calm expression.(中国女孩,白色汉服,优雅动人,细节追求,8k高清,雾气弥漫,写实风格,金光闪耀,柔和光线,长焦镜头,自然环境,静态美,温暖色调,平静表情。)
生成的图像:
七、未来展望
黑森林实验室并未止步于图像生成领域。团队已经宣布,他们的下一个目标是开发最先进的文本到视频生成系统。这个即将推出的视频模型将在高分辨率和精确创作方面实现突破,并且生成速度将前所未有地快。