TS伪娘-爷爱撸影院 字节视频生成新冲突!Phantom惩处多东说念主物/主体一致性
  • 你的位置:TS伪娘 > 咪咪色吧 > 爷爱撸影院 字节视频生成新冲突!Phantom惩处多东说念主物/主体一致性

爷爱撸影院 字节视频生成新冲突!Phantom惩处多东说念主物/主体一致性

发布日期:2025-07-06 00:06  点击次数:176

爷爱撸影院 字节视频生成新冲突!Phantom惩处多东说念主物/主体一致性

视频生成模子当中照旧不缺铁汉了爷爱撸影院,但保持多主体一致性依然是一项紧要挑战。

字节智能创作团队有益针对这个问题,推出了主体一致性视频生成模子Phantom("幻影")。

Phantom 在主体一致性保持方面得回了冲突性进展,不仅维持多主体,还能同期保持主体的完整性。

不论是东说念主物、物品、服装、动物,如故充满魔幻颜色的捏造变装,它都能精确握取其要津特征,并天然地融入生成的视频中。

比如底下这段视频当中,"幻影"就阿谀了场景、服装、配饰等身分,原创出了"歌剧魅影"的片断:

精确握取要津特征,视频会通更天然身份保持视频生成

借助面部参考图像,Phantom 生成的视频不仅能严格锁定主体的身份特征,还能依据丰富种种的辅导词,演绎出种种精彩内容。

举例,上传一张东说念主物像片,模子会以此为原来,生成该东说念主物在不同场景下言语、行为的视频。

东说念主物的面部玄虚、五官细节以及特有的阵势心思,都能被高度复原,仿佛像片中的东说念主物"活"了过来,在屏幕上信得过地演绎着种种故事。

单参考主体视频生成

只需一张参考图像,不论是可人小动物的萌态蓦的,如故前锋服装的特有魔力,亦或是机要捏造变装的魔幻冒险,Phantom 都能精确捕捉主体的细节,将其生动地呈当前视频中。

还有底下的小狗像片,Phantom 不错呈现它在温馨的房间里悠然驰驱的可人形式,柔滑的毛发、灵动的目光和俏皮的心思,都被细巧地描摹出来,让东说念主仿佛能感受到轩敞与快意。

多参考主体视频生成

Phantom 维持同期上传多张参考图像,这一弘远功能使得复杂交互场景的视频生成成为可能。

在群体场景创作中,只需上传多个东说念主物的像片,就能让他们在视频中天然地聊天。

在一些产物展示的场景,阿谀产物图片和联系场景图片,Phantom 能生成十分具有招引力的产物展示视频,将产物的特质和上风好意思满呈现,为产物实施注入弘远能源。

在捏造试穿场景,只需上传服装和东说念主物像片,就能看到东说念主物身着该服装的动态后果,这有望为电商行业带来全新的营销模式,让谗谄者的购物体验愈加直不雅和好奇赞佩好奇赞佩。

总之,Phantom 在和一众最初的营业化器具对比中,从视频质地,文本反映,主体一致性等多个维度处于上风,尤其在东说念主脸 ID 一致性方面的评估最初。

基于主体的 DiT 视频生成决议

当前,基础视频生成模子主要集会在两个主要任务——文本生成视频(Text-to-Video,T2V)和图像生成视频(Image-to-Video,I2V)。

视频生成 T2V 控制语言模子来领会输入文本指示,并生成形色预期变装、手脚和布景的视觉内容。

尽管它允许创造性和敷裕念念象力的内容组合,但由于固有的立时性,每每难以生成一直妥当预期的落幕。

另一方面,I2V 频繁是提供图像的首帧以及可选的文本形色,以将静态图像退换为动态视频。

天然更具可控性,但内容的丰富度每每受到首帧"复制粘贴"性质的收尾。通过从图像中捕捉主体并凭据文本辅导活泼生成视频。

Phantom 是一个基于 DiT 的视频生成框架,它的主要意图是罢了主体到视频的生成 ( Subject-to-video,S2V ) 。

其本质在于均衡文本和图像这两种模式的辅导,条目模子同期对皆文本指示和参考图像内容。

从而既知足 T2V 所深远创造性的上风,又不像 I2V 生成的视频收尾为输入图的延展。

具体来说,数据层面 Phantom 通过构建文本 - 图片 - 视频三元组数据,让模子学习不同模态之间的对皆。

为了缓解肖似 I2V 生成视频"复制粘贴"输入图的问题,通过匹配不同视频中的主体元素,并过滤掉具有高度视觉相同性的对象来构建交叉配对数据。

交叉配对数据不错来自统一长视频的不同片断,也不错来自数据库中检索参考对象。这些主体元素主要包括东说念主、动物、物体、布景等等。

此外,多个元素之间的交互不错进一步对场景进行分类,举例多东说念主交互、东说念主与宠物交互、东说念主与物体交互。

模子层面,Phantom 继承自 MMDiT 的架构。

在输入头部分,视频编码器和文本编码器辞别继承自基模权重,将输入视频和文本 prompt 辞别编码得到相应的 latent feature。

为了不影响 MMDiT 本人的结构,参考图被特定视觉编码器编码,然后辞别与视频特征和文本特征拼接,并辞别输入到 MMDiT 的 vision branch 和 text branch 进行蓄意。

团队简介

智能创作团队是字节杰出 AI& 多媒体技能中台,通过缔造最初的蓄意机视觉、音视频剪辑、殊效处理等技能,维持抖音、剪映、即梦等公司内广宽产物线;

同期通及其山引擎为外部 ToB 配合股伴提供业界最前沿的智能创作智力与行业解决决议。

文中示例仅为展示模子后果。如有侵权或冒犯,请讨论论文作家,将实时删除。

E-mail:libingchuan@bytedance.com

论文贯穿:

https://arxiv.org/abs/2502.11079

名堂网站:

https://phantom-video.github.io/Phantom/

代码网址:

https://github.com/Phantom-video/Phantom

—  完  —

学术投稿请于责任日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿内容‍

附上论文 / 名堂主页贯穿,以及讨论方式哦

吴梦菲 反差

咱们会(尽量)实时回话你

一键热心 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「提神心」

接待在驳倒区留住你的念念法!爷爱撸影院



相关资讯
热点资讯
  • 友情链接:

Powered by TS伪娘 @2013-2022 RSS地图 HTML地图

Copyright © 2013-2022 版权所有