如果锁定角色,还可以操作“多科目”! Bunsei 的自定义照片打造类似 PS 的互动体验

新智慧报告编辑器:LRST【新智慧介绍】LayerComposer彻底改变了自定义图像生成,让用户可以像Photoshop一样自由控制元素的位置和大小,解决传统方法的交互性和多主体扩展问题,使创建更加自然高效,将自定义生成提升到主动交互的新阶段。大规模扩散模型(例如稳定扩散)可用于从文本生成高保真图像。然而,当用户想要“生成自己和朋友在不同场景下的照片”时,现有的自定义生成方法(DreamBooth、IP适配器等)仍然面临两个根本问题。就是缺乏互动性,无法自由控制角色的空间位置、大小和关系。很难扩展到多个代理。每增加一个人,内存和计算能力就会线性增加。 LayerComposer 的目标是克服这两个限制,让用户直观地控制哪些元素放置在哪里,从而实现可控且高效的自定义生成。项目地址:https://snap-research.github.io/layercomposer/ 文章地址:https://arxiv.org/abs/2510.20820 《一个雪人和三个女孩的合成照片》:你可以像在 Photoshop 中一样定位、缩放和锁定人物,剩下的让模型来做。 LayerComposer 的三个主要布局分层画布将每个字符、对象或背景放置在单独的 RGBA 图层(具有透明通道的图像)上。这使您能够: 避免由于字符遮挡而导致信息丢失。透明的潜在剪枝大大减少了计算量。支持任意数量的主题组合。就像在Photoshop中一样,每一层都是一个独立的角色,可以随意移动、缩放和删除。每层锁定机构都可以选择“锁定”或“解锁”。锁定层→模型应保留该层具有高保真度,并且仅允许进行较小的照明调整。解锁图层 → 模型可以根据文本描述自由生成姿势、表情和交互。您可以锁定背景以按照指示更改角色,或锁定角色的姿势以便其他人在他们周围进行互动。这种“可选择的保真度”LayerComposer 比以前的方法更接近人类的创作过程。数据和模型协同设计LayerComposer的锁定机制不需要改变网络结构。研究人员通过“位置嵌入”和“数据采样策略”共同实现了这一目标。大写字母 ace 共享相同的空间编码。分辨率锁定层使用不同的编码以避免由于重复而造成的混乱。这种轻量级设计可以直接应用于现有的广播模型,例如 FLUX Kontext。实验结果 四人(4P)场景,多主体,高保真,高度可控 对于四人任务 i在同一帧下,LayerComposer的输出质量明显优于FLUX Kontext、Qwen-Image-Edit和Gemini 2.5 Flash Image等模型。即使存在遮挡,它也能保持角色结构的完整性,从而忠实地恢复每个角色。两人交互(2P) 在需要两个人交互的场景中(例如“一起吃饭”或“握手”),LayerComposer 可以生成自然的姿势和空间关系,解决“复制粘贴”和“人数少”等问题。用户偏好度达到83.3%,明显高于OmniGen2等最新型号。单人个性化(1P) 即使只生成一个人的肖像,LayerComposer 也表现出良好的性能。它可以灵活地生成不同的面部表情和动作(例如微笑、闭眼、吃饭等),在保持相同身份的同时避免“面对面”的效果。块状和分层烧蚀实验中的效应 锁定机制 为了证明锁定机制的有效性,研究人员分阶段锁定了每一层的输入。锁定的图层仅通过“外部绘画”和基于此的小细节照明调整来保留角色的姿势。值得注意的是,这与“屏蔽推理”不同。在实验设置中,解锁的图层会根据锁定的内容和场景的整体上下文进行灵活调整,从而实现自然的调整和融合。分层画布(Layered Canvas) 如果不使用分层画布,模型在训练时只能使用拼贴图像作为条件输入,如图中的Input一栏所示。您可以看到“No Layered Canvas”结果由于重叠拼贴造成的遮挡而丢失了信息。例如,左侧女士圣诞帽中的球被遮挡并在生成的结果中完全消失。相比之下,专业所提出的分层画布可以显式地处理遮挡问题,从而避免此类伪影和细节丢失。通过调整 Layered Cavas 各层中每个主体的位置,LayerComposer 支持空间布局的直观控制。摘要:LayerComposer le pe允许您将多代理自定义生成从“被动输入”转移到“主动创建”。用户现在参与创建过程,而不仅仅是输入文本。从DreamBooth到LayerComposer,自定义生成终于可以用于交互式灵魂了。未来展望 LayerComposer 为交互式个性化带来了新的范例。然而,一些挑战仍然存在。在需要“复杂物理推理”的场景中(例如“坐在椅子上输入图像”),它可能会失败。未来,研究人员计划让 LayerComposer 支持更强的理解能力和更多的模式,以促进人机共同创作。它结合了大规模语言理解g 和视觉模型 (VLM) 功能,可在语义级别提供自动布局和构图建议。支持视频级别的分层定制,并允许从静态图像交互式创建动态场景。探索统一的生成和编辑界面,允许用户在同一画布上无缝更改、添加和重新生成内容。这种以“分层画布”为核心的交互式个性化范式将成为下一代生成工具的关键方向。参考:https://arxiv.org/abs/2510.20820
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。
收藏!右2026年山东大学高考报名时间表!请于18日付款!第七条 特别关注高校和公安专项!

admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注