视频生成模子当中照旧不缺铁汉了爷爱撸影院,但保持多主体一致性依然是一项紧要挑战。
字节智能创作团队有益针对这个问题,推出了主体一致性视频生成模子Phantom("幻影")。
Phantom 在主体一致性保持方面得回了冲突性进展,不仅维持多主体,还能同期保持主体的完整性。
不论是东说念主物、物品、服装、动物,如故充满魔幻颜色的捏造变装,它都能精确握取其要津特征,并天然地融入生成的视频中。
比如底下这段视频当中,"幻影"就阿谀了场景、服装、配饰等身分,原创出了"歌剧魅影"的片断:
精确握取要津特征,视频会通更天然身份保持视频生成
借助面部参考图像,Phantom 生成的视频不仅能严格锁定主体的身份特征,还能依据丰富种种的辅导词,演绎出种种精彩内容。
举例,上传一张东说念主物像片,模子会以此为原来,生成该东说念主物在不同场景下言语、行为的视频。
东说念主物的面部玄虚、五官细节以及特有的阵势心思,都能被高度复原,仿佛像片中的东说念主物"活"了过来,在屏幕上信得过地演绎着种种故事。
单参考主体视频生成
只需一张参考图像,不论是可人小动物的萌态蓦的,如故前锋服装的特有魔力,亦或是机要捏造变装的魔幻冒险,Phantom 都能精确捕捉主体的细节,将其生动地呈当前视频中。
还有底下的小狗像片,Phantom 不错呈现它在温馨的房间里悠然驰驱的可人形式,柔滑的毛发、灵动的目光和俏皮的心思,都被细巧地描摹出来,让东说念主仿佛能感受到轩敞与快意。
多参考主体视频生成
Phantom 维持同期上传多张参考图像,这一弘远功能使得复杂交互场景的视频生成成为可能。
在群体场景创作中,只需上传多个东说念主物的像片,就能让他们在视频中天然地聊天。
在一些产物展示的场景,阿谀产物图片和联系场景图片,Phantom 能生成十分具有招引力的产物展示视频,将产物的特质和上风好意思满呈现,为产物实施注入弘远能源。
在捏造试穿场景,只需上传服装和东说念主物像片,就能看到东说念主物身着该服装的动态后果,这有望为电商行业带来全新的营销模式,让谗谄者的购物体验愈加直不雅和好奇赞佩好奇赞佩。
总之,Phantom 在和一众最初的营业化器具对比中,从视频质地,文本反映,主体一致性等多个维度处于上风,尤其在东说念主脸 ID 一致性方面的评估最初。
基于主体的 DiT 视频生成决议
当前,基础视频生成模子主要集会在两个主要任务——文本生成视频(Text-to-Video,T2V)和图像生成视频(Image-to-Video,I2V)。
视频生成 T2V 控制语言模子来领会输入文本指示,并生成形色预期变装、手脚和布景的视觉内容。
尽管它允许创造性和敷裕念念象力的内容组合,但由于固有的立时性,每每难以生成一直妥当预期的落幕。
另一方面,I2V 频繁是提供图像的首帧以及可选的文本形色,以将静态图像退换为动态视频。
天然更具可控性,但内容的丰富度每每受到首帧"复制粘贴"性质的收尾。通过从图像中捕捉主体并凭据文本辅导活泼生成视频。
Phantom 是一个基于 DiT 的视频生成框架,它的主要意图是罢了主体到视频的生成 ( Subject-to-video,S2V ) 。
其本质在于均衡文本和图像这两种模式的辅导,条目模子同期对皆文本指示和参考图像内容。
从而既知足 T2V 所深远创造性的上风,又不像 I2V 生成的视频收尾为输入图的延展。
具体来说,数据层面 Phantom 通过构建文本 - 图片 - 视频三元组数据,让模子学习不同模态之间的对皆。
为了缓解肖似 I2V 生成视频"复制粘贴"输入图的问题,通过匹配不同视频中的主体元素,并过滤掉具有高度视觉相同性的对象来构建交叉配对数据。
交叉配对数据不错来自统一长视频的不同片断,也不错来自数据库中检索参考对象。这些主体元素主要包括东说念主、动物、物体、布景等等。
此外,多个元素之间的交互不错进一步对场景进行分类,举例多东说念主交互、东说念主与宠物交互、东说念主与物体交互。
模子层面,Phantom 继承自 MMDiT 的架构。
在输入头部分,视频编码器和文本编码器辞别继承自基模权重,将输入视频和文本 prompt 辞别编码得到相应的 latent feature。
为了不影响 MMDiT 本人的结构,参考图被特定视觉编码器编码,然后辞别与视频特征和文本特征拼接,并辞别输入到 MMDiT 的 vision branch 和 text branch 进行蓄意。
团队简介
智能创作团队是字节杰出 AI& 多媒体技能中台,通过缔造最初的蓄意机视觉、音视频剪辑、殊效处理等技能,维持抖音、剪映、即梦等公司内广宽产物线;
同期通及其山引擎为外部 ToB 配合股伴提供业界最前沿的智能创作智力与行业解决决议。
文中示例仅为展示模子后果。如有侵权或冒犯,请讨论论文作家,将实时删除。
E-mail:libingchuan@bytedance.com
论文贯穿:
https://arxiv.org/abs/2502.11079
名堂网站:
https://phantom-video.github.io/Phantom/
代码网址:
https://github.com/Phantom-video/Phantom
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 名堂主页贯穿,以及讨论方式哦
吴梦菲 反差咱们会(尽量)实时回话你
一键热心 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「提神心」
接待在驳倒区留住你的念念法!爷爱撸影院