偷拍 无需微调,一张相片即可换脸、换布景,NUS 等团队破局个性化视频生成

发布日期:2024-10-09 04:07    点击次数:186

偷拍 无需微调,一张相片即可换脸、换布景,NUS 等团队破局个性化视频生成

只有一张参考图片偷拍,任何东谈主都不错替换成视频的主角。

跟着扩散模子的发展,基于输入文本生成高质地的图片和视频仍是成为现实,然则仅使用文本生成视觉内容的可控性有限。

为了克服这个问题,盘问东谈主员们开动探索稀奇的舍弃信号和对现存内容进行剪辑的设施。这两个标的在一定进度上杀青了生成进程的可控性,但仍然需要依赖文原来刻画筹画生成内容。

在实践应用中,咱们靠近着一个新的需求:若是用户念念要生成的内容无法用讲话刻画呢?

举例,用户念念生成某一个正常东谈主的视频,但仅在输入文本中使用正常东谈主的名字是意外旨的,因为讲话模子无法识别不在熟识语料中的个体姓名。

针对这个问题,一种可行的处理决策是基于给定个体熟识个性化的模子。

举例,DreamBooth 和 Dreamix 通过多张图片不绝个体看法,从而进行个性化的内容生成,不外这两种设施需要对每个个体区分进行学习,何况需要该个体的多张熟识图片和精良化调参。

最近,来改过加坡国立大学(NUS)和华为诺亚实验室的盘问者们在个性化视频剪辑上取得了新的施展,通过多个集成模子的协同责任,无需对个性化看法进行稀奇的熟识和微调,只是需要一张筹画参考图片,就能杀青对已有视频的主角替换、布景替换以及特定主角的文生视频。

名目主页:https://make-a-protagonist.github.io/

论文地址:https://arxiv.org/ pdf / 2305.08850.pdf

代码地址:https://github.com/ Make-A-Protagonist / Make-A-Protagonist

这项盘问为个性化视频剪辑鸿沟带来了新的可能性,使得生成个性化内容变得愈加方便和高效。

女生 自慰先容

Make-A-Protagonist 将视频分为主角和布景,对二者使用视觉或讲话参考信息,从而杀青主角剪辑、布景剪辑和特定主角的文生视频。

主角剪辑功能允许用户使用换取的场景刻画,但通过参考图像来替换视频中的主角。这意味着用户不错使用我方采用的图像来替换视频中的主要变装。

布景剪辑功能允许用户使用与原始视频换取的主角刻画(例「Suzuki Jimny」),并使用原始视频帧行为视觉信息,但不错改造对场景的翰墨刻画(举例「in the rain」)。这么,用户不错保抓换取的主角,但改变场景的刻画,营造出不同的视觉恶果。

特定主角的文生视频功能将主角剪辑和布景剪辑集合起来。用户不错使用参考图像行为主角,并对场景进行刻画,从而创造出全新的视频内容。此外,关于多主角视频,Make-A-Protagonist 还不错对单个或多个变装进行改造。

与 DreamBooth 和 Dreamix 不同,Make-A-Protagonist 仅需要单张参考图像,不需要对每个看法进行微调,因此在应用场景上愈加活泼种种。Make-A-Protagonist 为用户提供了一种方便而高效的边幅来杀青个性化的视频剪辑和生成。

设施

Make-A-Protagonist 使用多个弘大的各人模子,对原视频、视觉和讲话信息进行表现,并集合基于视觉讲话的视频生成模子和基于掩码的去噪采样算法,杀青通用视频剪辑。该模子主要由三个要道部分构成:原视频表现,视觉和讲话信息表现,以及视频生成。

具体来说,Make-A-Protagonist 推理进程包括以下三步:最初使用 BLIP-2, GroundingDINO、Segment Anything 和 XMem 等模子对原视频进行表现,赢得视频的主角掩码,并表现原视频的舍弃信号。

接下来,使用 CLIP 和 DALL-E 2 Prior 对视觉和讲话信息进行表现。终末,使用基于视觉讲话的视频生成模子和基于掩码的去噪采样算法,利用表现信息生成新的内容。

Make-A-Protagonist 的改造之处在于引入了基于视觉讲话的视频生成模子和基于掩码的去噪采样算法,通过整合多个各人模子并表现、交融多种信息,杀青了视频剪辑的冲破。

这些模子的诓骗使得该系统愈加精确地不绝原视频、视觉和讲话信息,并大致生成高质地的视频内容。

Make-A-Protagonist 为用户提供了一款弘大而活泼的器具,让他们大致放纵进行通用的视频剪辑,创作出特有而令东谈主惊艳的视觉作品。

1. 原视频表现

原视频表现的筹画是获取原视频的讲话刻画(caption)、主角翰墨刻画、主角分割舍弃以及 ControlNet 所需的舍弃信号。

针对 caption 和主角翰墨刻画,Make-A-Protagonist 选择了 BLIP-2 模子。

通过对 BLIP-2 的图像汇集进行修改,杀青了对视频的表现,并使用 captioning 花样生成视频的刻画,这些刻画在熟识和视频剪辑顶用于视频生成汇集。

关于主角翰墨刻画,Make-A-Protagonist 使用 VQA 花样,冷落问题:「视频的主角是什么?」并使用谜底进一步表现原视频中的主角信息。

在原视频中的主角分割方面,Make-A-Protagonist 利用上述得到的主角翰墨刻画,在第一帧中使用 GroundingDINO 模子来定位相应的检测内容,并使用 Segment Anything 模子赢得第一帧的分割掩码。然后,借助追踪汇集(XMem),Make-A-Protagonist 得到通盘这个词视频序列的分割舍弃。

除此以外,Make-A-Protagonist 利用 ControlNet 来保留原视频的细节和动作,因此需要提真金不怕火原视频的舍弃信号。文中使用了深度信号和姿态信号。

通过这些改造的表现设施和技艺,Make-A-Protagonist 大致准确地表现原视频的讲话刻画、主角信息和分割舍弃,并提真金不怕火舍弃信号,为后续的视频生成和剪辑打下了坚实的基础。

2. 视觉和讲话信息表现

关于视觉信号,Make-A-Protagonist 在本文中选择 CLIP image embedding 行为生成条目,为了去除参考图像布景的影响,一样于原视频表现,Make-A-Protagonist 使用 GroundingDINO 和 Segment Anything 得到参考图像主角的分割掩码,使用掩码将分割后的图像输入 CLIP 视觉模子,以获取参考视觉信息。

讲话信息主要用于舍弃布景,本文将讲话信息用于两方面,一方面使用 CLIP 讲话模子提真金不怕火特征,行为提神力汇集的 key 和 value。

另一方面,使用 DALL-E 2 Prior 汇集,将讲话特征滚动为视觉特征,从而增强表征技艺。

3. 视频生成

3.1 视频生成汇集熟识

为了充分利用视觉信息,Make-A-Protagonist 使用 Stable UnCLIP 行为预熟识模子,并对原视频进行微调,从而杀青利用视觉信息进行视频生成。

在每个熟识迭代中,Make-A-Protagonist 提真金不怕火视频中飞速一帧的 CLIP image embedding,将其行为视觉信息输入到 Residual block 中。

3.2 基于掩码的去噪采样

为交融视觉信息和讲话信息,本文冷落基于掩码的去噪采样,在特征空间和隐空间对两种信息进行交融。

具体来说,在特征域,Make-A-Protagonist 使用原视频的主角掩码,将主角对应部分使用视觉信息,布景对应部分使用 DALL-E 2 Prior 滚动后的讲话信息:

在隐空间中,Make-A-Protagonist 将仅使用视觉信息的推理舍弃和经过特征交融的推理舍弃按照原视频的主角掩码进行交融:

通过特征空间和隐空间的信息交融,生成的舍弃愈加实在,何况与视觉讲话表述愈加一致。

纪念

Make-A-Protagonist 引颈了一种全新的视频剪辑框架,充分利用了视觉和讲话信息。

该框架为杀青对视觉和讲话的孤立剪辑提供了处理决策,通过多个各人汇集对原视频、视觉和讲话信息进行表现,并选择视频生成汇集和基于掩码的采样战略将这些信息交融在一王人。

Make-A-Protagonist 展现了出色的视频剪辑技艺,可世俗应用于主角剪辑、布景剪辑和特定主角的文生视频任务。

Make-A-Protagonist 的出现为视频剪辑鸿沟带来了新的可能性。它为用户创造了一个活泼且改造的器具,让他们大致昔时所未有的边幅剪辑和塑造视频内容。

非论是专科剪辑东谈主员照旧创意青睐者,都大致通过 Make-A-Protagonist 打造出特有而精彩的视觉作品。

参考尊府:

https://make-a-protagonist.github.io/

本文来自微信公众号:新智元 (ID:AI_era)

告白声明:文内含有的对外跳转不绝(包括不限于超不绝、二维码、口令等体式),用于传递更多信息偷拍,爽朗甄选时候,舍弃仅供参考,IT之家通盘著作均包含本声明。



热点资讯

偷偷撸 年味最广州·南沙 | 湿地不雅候鸟 海上叹烟花

“湾区之心”年味浓!烟花汇演、海上看烟花……春节时期,南沙逾百场活动送上,让庞大市民群众和搭客在升腾的焰火里感受南沙这座翌日之城的浓浓年味。这个春节偷偷撸,南沙邀请众人来过大年! 广州无处不飞花,花城最好意思是南沙!接待过年到南沙! 局长邀您来过年 在南沙,咱们能看到山水萧索:在南沙湿地恍悟万鸟都飞的壮不雅;在东涌水乡恍悟疍家水上泛舟的诗意;在漫深广际的大海中扬帆启程。在南沙,咱们更能恍悟到年青活力、前锋动感与外欧化、当代化的城市气质:大湾区标记性工程外洋金融论坛(IFF)恒久会址宛如“木棉花...

相关资讯

  • 偷偷撸 年味最广州·南沙 | 湿地不雅候鸟 海上叹烟花

    “湾区之心”年味浓!烟花汇演、海上看烟花……春节时期,南沙逾百场活动送上,让庞大市民群众和搭客在升腾的焰火里感受南沙这座翌日之城的浓浓年味。这个春节偷偷撸,南沙邀请众人来过大年! 广州无处不飞花,花城...

  • 探花 “小兔牙”流行 “减龄审好意思”可取吗?

    最近,“幼态牙”成为网上一种新兴的审好意思趋势。“幼态牙”也叫“小兔牙”“宝宝牙”,顾名想义等于两颗像宝宝似的小兔牙,能让东说念主看起来更有亲和力、更具“幼态感”。一方面有网友不吝消费数万元换来一双“...

  • 柠檬皮 丝袜 川井宪次

    川井宪次(かわいけんじ柠檬皮 丝袜,1957年4月23日-),树立在日本东京齐品川区,日本男作曲家、音乐制作主说念主[1]。 1987年,在押井守握导的电影《红眼镜》中担任音乐制作[2]。1989年-...

  • 黄色图片 秘鲁华东说念主团体称当地对华友善 料自贸协定故意秘鲁农家具输港

    正举行APEC亚太经合组织会议的秘鲁,是拉好意思地区华裔东说念主口数目及占比最多的国度之一,宇宙当今有约300万华东说念主,占总东说念主口约一成,主要来自广东,大部分在皆门利马居住。 位于利马唐东说念...