微调Flux席卷全网,外国小哥一人组一队漫威英雄!
相信很多大家对微调Flux席卷全网,外国小哥一人组一队漫威英雄!还不知道吧,今天菲菲就带你们一起去了解一下~.~!
Midjourney之后,从未见人们对某个AI生图应用,如此疯狂着迷。
Flux的横空出世,意味着AI图像生成迈入了一个全新的阶段。
马斯克本人表示,真假已经傻傻分不清。
先是,一张TED演讲者逼真照片席卷了整个互联网。再之后,集成Flux模型的Grok2破除护栏限制,被网友玩疯。
最近,Flux开发者们也纷纷入坑,开启微调自己的LoRA模型。
HuggingFace联创惊叹道,Flux已经完全席卷了开源AI界,从未见过一个模型,同时有如此多的衍生模型/在线平台/demo占据热榜。
一手微调的开发者表示,「Flux+LoRA将颠覆生成式AI市场。你可以在任何地方,戴着任何东西,穿着任何你喜欢的衣服,生成不同的自己」。
比如,让自己变身超人。
拿上伸缩光影剑,变身绝地武士,愿原力与你同在。
不仅如此,冰雕,拿着switch游戏机,精灵耳,时装走秀等各种形象的照片,都是动动嘴皮子的事。
微调自己的LoRA,现已经成为许多开发者的新玩物。
这不,全网都被Flux+LoRA淹没了。
一个人就能组成「复仇者联盟」
Rundown AI的创始人Rowan Cheung将自己的照片作为数据,用Flux训练了一个LoRA模型,然后联动Runway让其动起来。
如下,生成了一张类似TED演讲者的图片。
做成视频后,照片中的自己真的活灵活现了,很有演讲者范儿。唯一不足的是,右手到后面指头就变成了2-3根。
另一张,生成了以超人身份拯救世界的自己。
配上动画,终于做了一回漫威中的英雄。
再生成一张身穿时装,走秀现场的照片。
两边观众热烈鼓掌,也算是体验了一把T台走秀。
此外,Rowan Cheung还生成了不同风格的自己,和场景融合自洽,毫无违和感。
左右滑动查看
他认为,虽然AI生图依旧不能替代完整的电影/商业广告,但其已经有很多重要的用途,尤其对内容创作者来说。
比如,这些AI图片制作用于新闻的预览图和配图,以及短片中的补充素材(B-roll)。
网友Min Choi看后表示,自己可以组建一支「复仇者联盟」了。
前英特尔CTO在A100上,同样微调了一个自己的LoRA模型,75分钟花费了7美金(约50元)。
左右滑动查看
还有开发者硬是把自己拍成了恐怖片。
分不清AI还是现实
要说最火的,还是「超现实主义」的微调版本——让人越来越分不清想象和现实的边界了。
是真实的照片,还是AI画出来的人?
在Flux-Dev中用LoRA训练后,无论是场景复杂性还是真实感,都取得了不可思议的进展。
什么风格都能微调
除此之外,各种不同风格的微调也层出不穷。
像素风格开发者以传奇的ZX Spectrum中的风格为例,微调出类似像素的图片生成LoRA。
下面生成图像中,有龙珠孙悟空、漫威钢铁侠、川建国(貌似)等形象。
左右滑动查看
动画涂鸦PS生成式AI产品设计人Davis Brown基于Flux,微调出了一个half_illustration模型。
它生成的图片,有一部分是真实照片的画风,一部分是动画涂鸦的风格。
每次生图前,只需要在提示开头加上——In the style of TOK。
然后,具体描述想要的效果,就能立即出片。
以后感觉不一定非得用PS,直接AI生图就可以了。
还有其他涂鸦风格的照片。
左右滑动查看
九宫格开源数据集平台LAION用Flux模型,训出了一个可以生成3x3九宫格照片,还是不同角度的自己。
以后自拍一张,就够了。
左右滑动查看
不同年龄一个人一生的样貌,透过Flux+LoRA便可看到。
左右滑动查看
另一个例子:
左右滑动查看
可玩性超强
今天的主角——FLUX.1,采用了一种全新的「流匹配」技术。
以前的扩散模型是通过逐步去除从随机起点开始的噪声来创建图像,而流匹配则采用更直接的方法,学习将噪声转换为真实图像所需的精确变化。
这种方法上的差异带来了独特的美学风格,并在速度和控制方面具备极大的优势。
文本:大部分都能get到文本到图像生成的挑战之一是准确地将文字转化为视觉表现。FLUX.1在这方面处理得相当好,即使是在像表情包这样复杂的场景中。
prompt:
prompt:
光线和质感都不错FLUX.1对光线、阴影和纹理有敏锐的理解,能始终如一地生成高质量的图像。
prompt:
在这幅图里,重点不仅在于玻璃的质感,还在于光线如何通过花瓣折射和传递,创造出一种发光的效果。
prompt:
艺术风格:不止是模仿FLUX.1似乎掌握了各种艺术风格背后的原理,使得创造性的重新诠释成为可能。
prompt:
这幅《神奈川冲浪里》的「水彩」版本不仅暗示着标志性波浪是模型训练数据的一部分,还突出了「流」技术如何近似颜料在水、纸和墨水中的运动。
构图:让场景有意义FLUX.1擅长构建复杂的场景,以一种既真实又有视觉吸引力的方式放置物体和角色。
prompt:
「流」:一种新的视觉语言FLUX.1所采用的流匹配技术,赋予了图像一种独特的有机运动感和流动性,仿佛像素本身在流动。
prompt:
总有一款工具,能帮你搞定
我们可以把图像的生成过程概括为:获取一些输入像素,将它们从噪声中稍微移开,朝着由你的文本输入创建的模式移动,并重复这一过程,直到达到设定的步骤数。
而微调过程则是从数据集中获取每个图像/标注对,并稍微更新其内部映射。
只要可以通过图像-标题对表示,你就可以通过这种方式教会模型任何内容:角色、场景、媒介、风格、流派。
左:使用原始FLUX.1模型生成;右:使用相同提示和种子,在fofr/flux-bad-70s-food模型上生成
在训练中,模型将会学习如何把这些概念与特定的文本字符串关联起来。而在提示中,则需要加入这个字符串来激活这种关联。
比如,你想微调一个「漫画风超级英雄」的模型。
首先,需要收集大量关于角色的图像作为数据集,包括但不限于:不同的场景、服装、灯光,甚至可能是不同的艺术风格
然后,选择一个简短且不常见的词或短语作为你的触发词:一种不会与其他概念或微调冲突的独特内容。你可能会选择像「糟糕的70年代食物」或「JELLOMOLD」这样的词。
在训练完成之后,你只需给出一个包含触发词的提示,如「在旧金山的聚会上拍摄糟糕的70年代食物的场景」,模型就会调用你之前微调时加入的特定概念。
就这么简单。
在了解了原理之后,我们就可以任选一个工具来微调模型了。
左:使用原始FLUX.1模型生成;右:使用相同提示和种子,在fofr/flux-bad-70s-food模型上生成
比如一位叫Matt Wolfe的小哥,在看到上面这些酷炫的生成之后,也好奇地上手试了一把。
结果,他翻车了……
做出的AI图像,堪称买家秀和卖家秀的区别。
这是他生成的——
这是别人的——
两张图片高下立判,区别就在于用没用LoRA微调。
被刺激到的小哥,立刻去研究了一番,他惊喜地发现,LoRA模型很小,只有2到500MB,可以轻易地和现有的模型结合。
更令人惊喜的是,并不需要额外的算力,也不需要全面的再训练,就可以让AI模型提高画质,产生独特的风格,或者生成特殊的人物,比如马里奥或者海绵宝宝。
遗憾的是,在小哥用得顺手的Glif上,Flux中并不能使用LoRA。
他发现,能使用Flux的其中一种方法,是用ComfyUI。
这张图,相信很多人都很熟悉了
或者,也可以使用Replicate、HuggingFace Spaces或Fal AI之类的平台。
小哥在Fal平台上试用后,发现每百万像素花费0.035美元,所以,只要花1美元,就可以运行模型29次,还是比较划算的。
在这里FLUX.1dev、Flux Realism LoRA、FLUX.1pro等等,都是可以使用的。
小哥二话不说,选择了Flux Realism LoRA。
经过精心调试后,小哥将推理步长设置在了28,CFG设置在了2。
产生的图像,效果非常惊喜!
如果说有什么瑕疵,就是额头皱纹处的打光仍然不自然。
接下来,小哥兴奋地将图像导到Gen-3Alpha中,根据他输入的prompt,Gen-3Alpha生成了视频。
除了在某一刻,手中的麦克风突然「飘浮」了起来,视频的其余部分,挑不出太大毛病了。
小哥又尝试了一遍,生成了第二个视频。
这一次,麦克风又显得太过静止了,仿佛定在了原地。
另外,小哥也加入了全网爆改自己的大潮,生成一系列爆笑的照片。
最后,小哥再用Gen-3Alpha把它变成视频,就让自己和死侍走在了同一部电影的画面中。
参考资料:
https://x.com/dr_cintas/status/1824480995317350401
https://x.com/Gorden_Sun/status/1824843049421484309
https://replicate.com/blog/fine-tune-flux
https://x.com/laion_ai/status/1824814210758459548
https://www.youtube.com/watch?v=_rjto4ix3rA
https://www.youtube.com/watch?v=rDu481JFwqM
以上就是关于【微调Flux席卷全网,外国小哥一人组一队漫威英雄!】的相关内容,希望对大家有帮助!
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
奔驰GLE作为豪华SUV市场中的佼佼者,凭借其卓越的性能、豪华的内饰以及宽敞的空间,吸引了众多消费者的关注。...浏览全文>>
-
在2025年,安徽阜阳地区的帕萨特新能源汽车市场表现非常活跃。作为一款备受关注的新能源车型,帕萨特新能源凭...浏览全文>>
-
近日,滁州地区的大众汽车经销商传来好消息:备受瞩目的2025款T-ROC探歌正式上市,并且以极具竞争力的价格吸引...浏览全文>>
-
在选择一款新能源汽车时,了解其价格和配置是非常重要的一步。安徽淮南地区的长安启源E07作为2024款的新车型,...浏览全文>>
-
阜阳长安启源A05作为长安汽车旗下的全新车型,自推出以来便凭借其独特的设计风格和丰富的配置吸引了众多消费者...浏览全文>>
-
阜阳长安启源A07作为一款备受瞩目的新能源车型,以其豪华配置和亲民的价格在市场上引起了广泛关注。这款车型不...浏览全文>>
-
安徽淮南威然2024款价格及配置详解随着汽车市场的不断更新换代,上汽大众旗下的MPV车型——威然(Viloran)凭...浏览全文>>
-
QQ多米新车报价2025款,买车省钱秘籍随着汽车市场的不断发展,消费者在选购车辆时不仅关注车型的性能和配置,...浏览全文>>
-
滁州途观X 2024款最新价格及买车省钱秘籍随着汽车市场的不断发展,大众途观X作为一款兼具时尚与性能的中型SUV...浏览全文>>
-
随着汽车市场的不断发展,大众蔚揽以其优雅的设计和卓越的性能赢得了众多消费者的青睐。作为一款兼具实用性和...浏览全文>>
- Nvidia DLSS 4 有望将游戏性能提高 8 倍
- 人工智能在预测自身免疫性疾病进展方面显示出良好的前景
- 心理物理实验揭示皮肤水分感知是如何改变的
- 科茨沃尔德公司庆祝圣诞节圆满成功
- 南法纳姆学校被评为萨里郡表现最好的小学
- 约克区九所小学将削减招生人数
- 松下新款电动汽车电池为 Lucid Gravity 带来 450 英里续航里程
- 泰国旅游呈现新趋势
- 研究人员找到在细胞水平上饿死前列腺癌肿瘤的新方法
- 领先的人工智能聊天机器人在测试中表现出类似痴呆症的认知能力下降
- 庞大的 Project Zomboid build 42 终于可以玩了
- Steam Replay 回归向您展示 2024 年您玩得最多的 PC 游戏
- Jollyes 推出强化的人才支持和招聘措施
- Karen Millen 与 Simon Harrison 共同推出全新高级珠宝系列
- 奇瑞风云A8L电动轿车刷新续航里程世界纪录
- 虚拟艺术家将别克 Cascada 带回 2026 款车型
- OnePlus 宣布推出新计划解决绿线问题
- OnePlus Watch 3 将拥有更大的电池和更薄的机身
- 研究人员发现可变剪接与自身免疫性疾病遗传之间的细胞类型特异性联系
- 科学家确定脑细胞类型是排尿的主要控制者