SeeDream4.5 这提示词有点意思,时间法则!

国内最强的图片生成模型 SeeDream 已经更新到 4.5 版本,我很好奇,4.5 到底有啥提升,强到什么程度!

可能有人还不知道 SeeDream 是什么?它就是豆包和即梦背后的图片生成模型。

豆包上已经可以使用了,但没有说具体更新了什么。

即梦这边终于也更新到了 4.5,并且发布了官方文档。

从官方文档中可以知道,这次的主要更新是:

即梦图片 4.5 相较于 4.0 有整体提升,在人像场景和美观度等 4.0 高频反馈问题上,4.5 得到显著改善,同时在画面美感和推理能力也有所增强。4.5 参数量更大,生成时长也增加一倍。

这话可能有点抽象,先用一个直观的例子热热场子。

我提供一朵盛开的向日葵,然后让它把盛开的向日葵 P 成快要枯萎的样子。

然后就得到了下面这张图:

QQ20251208-145046

🌻 向日葵一下子就从朝气蓬勃变成了死气沉沉。

我们似乎拥有了奇异博士的时间宝石,掌握了控制时间的奥秘。 我觉得这是所有例子中最有意思的一个。

下面用多个实例来对比一下 4.0 和 4.5 的差别。

下面我要提供一朵喇叭花,然后让 SeeDream 帮我生成这朵花从含苞待放到枯萎的四个阶段。

下面是 4.5(4.1)版本的效果:

下面是4.0的结果:

image-20251208150958041

从这个例子来说,4.5 的生命周期更加完整,形态也保持得更好;4.1 差一点,但整体也算做到了。而 4.0 略微有点离谱,形态大变,周期不完整。

除了这个例子之外,还有以下几个方面的提升。

人物形象与风格一致性提升:

4.0 是完全把人物抠出来,看起来有点突兀;而 4.5 则让人物更符合图片的整体形态。

编辑效果更精准:

4.0 直接换了个方向,基本就是 Bug 级别的存在;4.5 就正常了很多,而且上色之后的效果也更像是画出来的。

优化微小文字的生成清晰度与准确性:

这个例子是展示文字能力的。4.0 小字完全看不清楚,几乎是乱码;而 4.5 能看清楚,而且内容通顺。

美观度

缓解色彩饱和度过高问题、文生图美感(画面虚实)提升。

这个问题在 4.0 上确实特别明显,饱和度特别高,厚重感强;4.5 淡了很多。

人像场景

人脸一致性提升,主体识别更准确:

将自拍照中的人物自然地嵌入罗马广场背景,适当拉远构图以展现更多建筑空间与景深层次,保持人物比例与环境透视关系自然真实。

在这个例子中,4.0 主体识别错误,少了一个人、衣服穿错;同时画面仍然高饱和,导致人物显得不自然。 4.5 的表现明显好很多。

多张参考图人脸、性别混淆问题缓解:

比例1:1,日系视觉系风格,纯白色简洁背景,高角度俯拍,头部比例夸张放大,符合日韩视觉自拍风格

这基本就是 Bug 级别的存在。4.0 处于完全无法使用的状态:性别、长相、服装全部乱套;4.5 基本解决了这几个问题。

美颜效果更自然:

这不是技术问题,是审美问题。很多人可能喜欢 4.0 哈哈~~,但 4.5 的效果更真实!

小人脸结构提升

参考图1的人物形象和图2的杂志风格,给图1的人换上时尚的黑色风衣生成一张新的图

这个例子也非常明显,4.0 发型和长相都发生了变化;4.5 的头部还原度非常高。

这就是这次更新的主要内容了。这次更新给人的感觉是:修 Bug 为主,提升为辅! 据说下一个版本已经在制作中了,可以期待一下。

我理工科专业毕业,一直做软件开发,从未学习过美术,也没有从事过设计类工作,所以这方面不太专业,词汇量有限,没法很好地评论。写这一类文章比写代码还累。

但我很想学习,所以一个点一个点地整理出来与大家分享,核心目的就是做笔记、强化记忆。

你们也可以好好看一下,了解一下当前的技术能做到什么程度了。

对我而言,主要是…1899 年费不能白花啊!

官方 Wiki:

https://bytedance.larkoffice.com/wiki/GTA7wTKRDi1SxKk4joMcftz5nfe

这里有很多官方例子,有兴趣的可以去学习!比二道贩子的好多了。

 

小尾巴==========================
公众号:托尼不是塔克
交流群
知识星球
==============================

 



发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注