偷拍无需微调，一张相片即可换脸、换布景，NUS 等团队破局个性化视频生成

发布日期：2024-10-09 04:07 点击次数：189

只有一张参考图片偷拍，任何东谈主都不错替换成视频的主角。

跟着扩散模子的发展，基于输入文本生成高质地的图片和视频仍是成为现实，然则仅使用文本生成视觉内容的可控性有限。

为了克服这个问题，盘问东谈主员们开动探索稀奇的舍弃信号和对现存内容进行剪辑的设施。这两个标的在一定进度上杀青了生成进程的可控性，但仍然需要依赖文原来刻画筹画生成内容。

在实践应用中，咱们靠近着一个新的需求：若是用户念念要生成的内容无法用讲话刻画呢？

举例，用户念念生成某一个正常东谈主的视频，但仅在输入文本中使用正常东谈主的名字是意外旨的，因为讲话模子无法识别不在熟识语料中的个体姓名。

针对这个问题，一种可行的处理决策是基于给定个体熟识个性化的模子。

举例，DreamBooth 和 Dreamix 通过多张图片不绝个体看法，从而进行个性化的内容生成，不外这两种设施需要对每个个体区分进行学习，何况需要该个体的多张熟识图片和精良化调参。

最近，来改过加坡国立大学（NUS）和华为诺亚实验室的盘问者们在个性化视频剪辑上取得了新的施展，通过多个集成模子的协同责任，无需对个性化看法进行稀奇的熟识和微调，只是需要一张筹画参考图片，就能杀青对已有视频的主角替换、布景替换以及特定主角的文生视频。

无需微调，一张相片即可换脸、换布景，NUS 等团队破局个性化视频生成

名目主页：https://make-a-protagonist.github.io/

论文地址：https://arxiv.org/ pdf / 2305.08850.pdf

代码地址：https://github.com/ Make-A-Protagonist / Make-A-Protagonist

这项盘问为个性化视频剪辑鸿沟带来了新的可能性，使得生成个性化内容变得愈加方便和高效。

无需微调，一张相片即可换脸、换布景，NUS 等团队破局个性化视频生成

女生自慰先容

Make-A-Protagonist 将视频分为主角和布景，对二者使用视觉或讲话参考信息，从而杀青主角剪辑、布景剪辑和特定主角的文生视频。

无需微调，一张相片即可换脸、换布景，NUS 等团队破局个性化视频生成

主角剪辑功能允许用户使用换取的场景刻画，但通过参考图像来替换视频中的主角。这意味着用户不错使用我方采用的图像来替换视频中的主要变装。

无需微调，一张相片即可换脸、换布景，NUS 等团队破局个性化视频生成

布景剪辑功能允许用户使用与原始视频换取的主角刻画（例「Suzuki Jimny」），并使用原始视频帧行为视觉信息，但不错改造对场景的翰墨刻画（举例「in the rain」）。这么，用户不错保抓换取的主角，但改变场景的刻画，营造出不同的视觉恶果。

无需微调，一张相片即可换脸、换布景，NUS 等团队破局个性化视频生成

特定主角的文生视频功能将主角剪辑和布景剪辑集合起来。用户不错使用参考图像行为主角，并对场景进行刻画，从而创造出全新的视频内容。此外，关于多主角视频，Make-A-Protagonist 还不错对单个或多个变装进行改造。

无需微调，一张相片即可换脸、换布景，NUS 等团队破局个性化视频生成

与 DreamBooth 和 Dreamix 不同，Make-A-Protagonist 仅需要单张参考图像，不需要对每个看法进行微调，因此在应用场景上愈加活泼种种。Make-A-Protagonist 为用户提供了一种方便而高效的边幅来杀青个性化的视频剪辑和生成。

设施

无需微调，一张相片即可换脸、换布景，NUS 等团队破局个性化视频生成

Make-A-Protagonist 使用多个弘大的各人模子，对原视频、视觉和讲话信息进行表现，并集合基于视觉讲话的视频生成模子和基于掩码的去噪采样算法，杀青通用视频剪辑。该模子主要由三个要道部分构成：原视频表现，视觉和讲话信息表现，以及视频生成。

具体来说，Make-A-Protagonist 推理进程包括以下三步：最初使用 BLIP-2， GroundingDINO、Segment Anything 和 XMem 等模子对原视频进行表现，赢得视频的主角掩码，并表现原视频的舍弃信号。

接下来，使用 CLIP 和 DALL-E 2 Prior 对视觉和讲话信息进行表现。终末，使用基于视觉讲话的视频生成模子和基于掩码的去噪采样算法，利用表现信息生成新的内容。

Make-A-Protagonist 的改造之处在于引入了基于视觉讲话的视频生成模子和基于掩码的去噪采样算法，通过整合多个各人模子并表现、交融多种信息，杀青了视频剪辑的冲破。

这些模子的诓骗使得该系统愈加精确地不绝原视频、视觉和讲话信息，并大致生成高质地的视频内容。

Make-A-Protagonist 为用户提供了一款弘大而活泼的器具，让他们大致放纵进行通用的视频剪辑，创作出特有而令东谈主惊艳的视觉作品。

1. 原视频表现

原视频表现的筹画是获取原视频的讲话刻画（caption）、主角翰墨刻画、主角分割舍弃以及 ControlNet 所需的舍弃信号。

针对 caption 和主角翰墨刻画，Make-A-Protagonist 选择了 BLIP-2 模子。

通过对 BLIP-2 的图像汇集进行修改，杀青了对视频的表现，并使用 captioning 花样生成视频的刻画，这些刻画在熟识和视频剪辑顶用于视频生成汇集。

关于主角翰墨刻画，Make-A-Protagonist 使用 VQA 花样，冷落问题：「视频的主角是什么？」并使用谜底进一步表现原视频中的主角信息。

在原视频中的主角分割方面，Make-A-Protagonist 利用上述得到的主角翰墨刻画，在第一帧中使用 GroundingDINO 模子来定位相应的检测内容，并使用 Segment Anything 模子赢得第一帧的分割掩码。然后，借助追踪汇集（XMem），Make-A-Protagonist 得到通盘这个词视频序列的分割舍弃。

除此以外，Make-A-Protagonist 利用 ControlNet 来保留原视频的细节和动作，因此需要提真金不怕火原视频的舍弃信号。文中使用了深度信号和姿态信号。

通过这些改造的表现设施和技艺，Make-A-Protagonist 大致准确地表现原视频的讲话刻画、主角信息和分割舍弃，并提真金不怕火舍弃信号，为后续的视频生成和剪辑打下了坚实的基础。

2. 视觉和讲话信息表现

关于视觉信号，Make-A-Protagonist 在本文中选择 CLIP image embedding 行为生成条目，为了去除参考图像布景的影响，一样于原视频表现，Make-A-Protagonist 使用 GroundingDINO 和 Segment Anything 得到参考图像主角的分割掩码，使用掩码将分割后的图像输入 CLIP 视觉模子，以获取参考视觉信息。

讲话信息主要用于舍弃布景，本文将讲话信息用于两方面，一方面使用 CLIP 讲话模子提真金不怕火特征，行为提神力汇集的 key 和 value。

另一方面，使用 DALL-E 2 Prior 汇集，将讲话特征滚动为视觉特征，从而增强表征技艺。

3. 视频生成

无需微调，一张相片即可换脸、换布景，NUS 等团队破局个性化视频生成

3.1 视频生成汇集熟识

为了充分利用视觉信息，Make-A-Protagonist 使用 Stable UnCLIP 行为预熟识模子，并对原视频进行微调，从而杀青利用视觉信息进行视频生成。

在每个熟识迭代中，Make-A-Protagonist 提真金不怕火视频中飞速一帧的 CLIP image embedding，将其行为视觉信息输入到 Residual block 中。

3.2 基于掩码的去噪采样

无需微调，一张相片即可换脸、换布景，NUS 等团队破局个性化视频生成

为交融视觉信息和讲话信息，本文冷落基于掩码的去噪采样，在特征空间和隐空间对两种信息进行交融。

具体来说，在特征域，Make-A-Protagonist 使用原视频的主角掩码，将主角对应部分使用视觉信息，布景对应部分使用 DALL-E 2 Prior 滚动后的讲话信息：

无需微调，一张相片即可换脸、换布景，NUS 等团队破局个性化视频生成

在隐空间中，Make-A-Protagonist 将仅使用视觉信息的推理舍弃和经过特征交融的推理舍弃按照原视频的主角掩码进行交融：

无需微调，一张相片即可换脸、换布景，NUS 等团队破局个性化视频生成

通过特征空间和隐空间的信息交融，生成的舍弃愈加实在，何况与视觉讲话表述愈加一致。

纪念

Make-A-Protagonist 引颈了一种全新的视频剪辑框架，充分利用了视觉和讲话信息。

该框架为杀青对视觉和讲话的孤立剪辑提供了处理决策，通过多个各人汇集对原视频、视觉和讲话信息进行表现，并选择视频生成汇集和基于掩码的采样战略将这些信息交融在一王人。

Make-A-Protagonist 展现了出色的视频剪辑技艺，可世俗应用于主角剪辑、布景剪辑和特定主角的文生视频任务。

Make-A-Protagonist 的出现为视频剪辑鸿沟带来了新的可能性。它为用户创造了一个活泼且改造的器具，让他们大致昔时所未有的边幅剪辑和塑造视频内容。

非论是专科剪辑东谈主员照旧创意青睐者，都大致通过 Make-A-Protagonist 打造出特有而精彩的视觉作品。

参考尊府：

https://make-a-protagonist.github.io/

本文来自微信公众号：新智元（ID：AI_era）

告白声明：文内含有的对外跳转不绝（包括不限于超不绝、二维码、口令等体式），用于传递更多信息偷拍，爽朗甄选时候，舍弃仅供参考，IT之家通盘著作均包含本声明。

上一篇：黄色图片大姑姐：外甥买房，你们掏50万给他；弟妇妇：我们不是你的父母|李琴|保姆|小辉|我们一家东说念主

下一篇：匿名文爱 app 邢波专访：东说念主工智能尚未成为一门严实表率的工程制造学科

热点资讯

“在波希米亚地区，再浸礼派稀稀落落地散居于其他各派之中；而在摩拉维亚地区，这个教派却领有多数成员，何况确立了很多教区。再浸礼派在1530年往日就仍是迁入摩拉维亚地区，并获取了马上的发展，确立了七十多个教区。当局对他们的蹂躏时轻时重彩虹小马，未尝断绝彩虹小马，但他们却在一些贵族的坦护下生涯下来；固然，贵族们聘用这么的作为，是进程仔细衡量的。 “在摩拉维亚地区，再浸礼派屡遭放置，但每一次放置王人不显著之。马克西米利安[44]也对再浸礼派聘用反对的态度。他按照他父亲缔结的老例，于1567年向议会残酷...

偷拍 无需微调，一张相片即可换脸、换布景，NUS 等团队破局个性化视频生成

热点资讯

相关资讯

偷拍无需微调，一张相片即可换脸、换布景，NUS 等团队破局个性化视频生成