发布日期:2024-10-09 04:07 点击次数:184
只有一张参考图片偷拍,任何东谈主都不错替换成视频的主角。
跟着扩散模子的发展,基于输入文本生成高质地的图片和视频仍是成为现实,然则仅使用文本生成视觉内容的可控性有限。
为了克服这个问题,盘问东谈主员们开动探索稀奇的舍弃信号和对现存内容进行剪辑的设施。这两个标的在一定进度上杀青了生成进程的可控性,但仍然需要依赖文原来刻画筹画生成内容。
在实践应用中,咱们靠近着一个新的需求:若是用户念念要生成的内容无法用讲话刻画呢?
举例,用户念念生成某一个正常东谈主的视频,但仅在输入文本中使用正常东谈主的名字是意外旨的,因为讲话模子无法识别不在熟识语料中的个体姓名。
针对这个问题,一种可行的处理决策是基于给定个体熟识个性化的模子。
举例,DreamBooth 和 Dreamix 通过多张图片不绝个体看法,从而进行个性化的内容生成,不外这两种设施需要对每个个体区分进行学习,何况需要该个体的多张熟识图片和精良化调参。
最近,来改过加坡国立大学(NUS)和华为诺亚实验室的盘问者们在个性化视频剪辑上取得了新的施展,通过多个集成模子的协同责任,无需对个性化看法进行稀奇的熟识和微调,只是需要一张筹画参考图片,就能杀青对已有视频的主角替换、布景替换以及特定主角的文生视频。
名目主页:https://make-a-protagonist.github.io/
论文地址:https://arxiv.org/ pdf / 2305.08850.pdf
代码地址:https://github.com/ Make-A-Protagonist / Make-A-Protagonist
这项盘问为个性化视频剪辑鸿沟带来了新的可能性,使得生成个性化内容变得愈加方便和高效。
女生 自慰先容Make-A-Protagonist 将视频分为主角和布景,对二者使用视觉或讲话参考信息,从而杀青主角剪辑、布景剪辑和特定主角的文生视频。
主角剪辑功能允许用户使用换取的场景刻画,但通过参考图像来替换视频中的主角。这意味着用户不错使用我方采用的图像来替换视频中的主要变装。
布景剪辑功能允许用户使用与原始视频换取的主角刻画(例「Suzuki Jimny」),并使用原始视频帧行为视觉信息,但不错改造对场景的翰墨刻画(举例「in the rain」)。这么,用户不错保抓换取的主角,但改变场景的刻画,营造出不同的视觉恶果。
特定主角的文生视频功能将主角剪辑和布景剪辑集合起来。用户不错使用参考图像行为主角,并对场景进行刻画,从而创造出全新的视频内容。此外,关于多主角视频,Make-A-Protagonist 还不错对单个或多个变装进行改造。
与 DreamBooth 和 Dreamix 不同,Make-A-Protagonist 仅需要单张参考图像,不需要对每个看法进行微调,因此在应用场景上愈加活泼种种。Make-A-Protagonist 为用户提供了一种方便而高效的边幅来杀青个性化的视频剪辑和生成。
设施Make-A-Protagonist 使用多个弘大的各人模子,对原视频、视觉和讲话信息进行表现,并集合基于视觉讲话的视频生成模子和基于掩码的去噪采样算法,杀青通用视频剪辑。该模子主要由三个要道部分构成:原视频表现,视觉和讲话信息表现,以及视频生成。
具体来说,Make-A-Protagonist 推理进程包括以下三步:最初使用 BLIP-2, GroundingDINO、Segment Anything 和 XMem 等模子对原视频进行表现,赢得视频的主角掩码,并表现原视频的舍弃信号。
接下来,使用 CLIP 和 DALL-E 2 Prior 对视觉和讲话信息进行表现。终末,使用基于视觉讲话的视频生成模子和基于掩码的去噪采样算法,利用表现信息生成新的内容。
Make-A-Protagonist 的改造之处在于引入了基于视觉讲话的视频生成模子和基于掩码的去噪采样算法,通过整合多个各人模子并表现、交融多种信息,杀青了视频剪辑的冲破。
这些模子的诓骗使得该系统愈加精确地不绝原视频、视觉和讲话信息,并大致生成高质地的视频内容。
Make-A-Protagonist 为用户提供了一款弘大而活泼的器具,让他们大致放纵进行通用的视频剪辑,创作出特有而令东谈主惊艳的视觉作品。
1. 原视频表现原视频表现的筹画是获取原视频的讲话刻画(caption)、主角翰墨刻画、主角分割舍弃以及 ControlNet 所需的舍弃信号。
针对 caption 和主角翰墨刻画,Make-A-Protagonist 选择了 BLIP-2 模子。
通过对 BLIP-2 的图像汇集进行修改,杀青了对视频的表现,并使用 captioning 花样生成视频的刻画,这些刻画在熟识和视频剪辑顶用于视频生成汇集。
关于主角翰墨刻画,Make-A-Protagonist 使用 VQA 花样,冷落问题:「视频的主角是什么?」并使用谜底进一步表现原视频中的主角信息。
在原视频中的主角分割方面,Make-A-Protagonist 利用上述得到的主角翰墨刻画,在第一帧中使用 GroundingDINO 模子来定位相应的检测内容,并使用 Segment Anything 模子赢得第一帧的分割掩码。然后,借助追踪汇集(XMem),Make-A-Protagonist 得到通盘这个词视频序列的分割舍弃。
除此以外,Make-A-Protagonist 利用 ControlNet 来保留原视频的细节和动作,因此需要提真金不怕火原视频的舍弃信号。文中使用了深度信号和姿态信号。
通过这些改造的表现设施和技艺,Make-A-Protagonist 大致准确地表现原视频的讲话刻画、主角信息和分割舍弃,并提真金不怕火舍弃信号,为后续的视频生成和剪辑打下了坚实的基础。
2. 视觉和讲话信息表现关于视觉信号,Make-A-Protagonist 在本文中选择 CLIP image embedding 行为生成条目,为了去除参考图像布景的影响,一样于原视频表现,Make-A-Protagonist 使用 GroundingDINO 和 Segment Anything 得到参考图像主角的分割掩码,使用掩码将分割后的图像输入 CLIP 视觉模子,以获取参考视觉信息。
讲话信息主要用于舍弃布景,本文将讲话信息用于两方面,一方面使用 CLIP 讲话模子提真金不怕火特征,行为提神力汇集的 key 和 value。
另一方面,使用 DALL-E 2 Prior 汇集,将讲话特征滚动为视觉特征,从而增强表征技艺。
3. 视频生成3.1 视频生成汇集熟识
为了充分利用视觉信息,Make-A-Protagonist 使用 Stable UnCLIP 行为预熟识模子,并对原视频进行微调,从而杀青利用视觉信息进行视频生成。
在每个熟识迭代中,Make-A-Protagonist 提真金不怕火视频中飞速一帧的 CLIP image embedding,将其行为视觉信息输入到 Residual block 中。
3.2 基于掩码的去噪采样
为交融视觉信息和讲话信息,本文冷落基于掩码的去噪采样,在特征空间和隐空间对两种信息进行交融。
具体来说,在特征域,Make-A-Protagonist 使用原视频的主角掩码,将主角对应部分使用视觉信息,布景对应部分使用 DALL-E 2 Prior 滚动后的讲话信息:
在隐空间中,Make-A-Protagonist 将仅使用视觉信息的推理舍弃和经过特征交融的推理舍弃按照原视频的主角掩码进行交融:
通过特征空间和隐空间的信息交融,生成的舍弃愈加实在,何况与视觉讲话表述愈加一致。
纪念Make-A-Protagonist 引颈了一种全新的视频剪辑框架,充分利用了视觉和讲话信息。
该框架为杀青对视觉和讲话的孤立剪辑提供了处理决策,通过多个各人汇集对原视频、视觉和讲话信息进行表现,并选择视频生成汇集和基于掩码的采样战略将这些信息交融在一王人。
Make-A-Protagonist 展现了出色的视频剪辑技艺,可世俗应用于主角剪辑、布景剪辑和特定主角的文生视频任务。
Make-A-Protagonist 的出现为视频剪辑鸿沟带来了新的可能性。它为用户创造了一个活泼且改造的器具,让他们大致昔时所未有的边幅剪辑和塑造视频内容。
非论是专科剪辑东谈主员照旧创意青睐者,都大致通过 Make-A-Protagonist 打造出特有而精彩的视觉作品。
参考尊府:
https://make-a-protagonist.github.io/
本文来自微信公众号:新智元 (ID:AI_era)
告白声明:文内含有的对外跳转不绝(包括不限于超不绝、二维码、口令等体式),用于传递更多信息偷拍,爽朗甄选时候,舍弃仅供参考,IT之家通盘著作均包含本声明。
正举行APEC亚太经合组织会议的秘鲁,是拉好意思地区华裔东说念主口数目及占比最多的国度之一,宇宙当今有约300万华东说念主,占总东说念主口约一成,主要来自广东,大部分在皆门利马居住。 位于利马唐东说念主街、有近140年历史的「中华通惠总局」是秘鲁最大华东说念主团体。主席罗杰文罗致本台专访时示意,最早一批于百多年前到秘鲁的华工黄色图片,生计很贫窭黄色图片,但历程几代东说念主立志,华东说念主在秘鲁的社会、经济、政事地位已擢升许多,很融入当地社会。秘鲁东说念主对华东说念主的印象是吃力、淳厚、灵巧,他...
正举行APEC亚太经合组织会议的秘鲁,是拉好意思地区华裔东说念主口数目及占比最多的国度之一,宇宙当今有约300万华东说念主,占总东说念主口约一成,主要来自广东,大部分在皆门利马居住。 位于利马唐东说念...
先说一个坏音信黄色图片,再说一个好音信。 坏音信。 3月11日下昼,上海闵行区发生一说念民警际遇犯法侵害事件。一良马车司机不听民警规劝,强行在路口转弯,将民警重重拖倒在地。该民警被送往病院后,不治身一...
1月23日偷拍,哈萨克斯坦共和国阿拉木图州州长照应人、工业与物流园区协会会长阿扎玛特•阿斯卡尔吾勒、哈萨克斯坦共和国驻西安总领事馆领事萨金德克夫•叶达、哈萨克斯坦共和国驻西安总领事馆总领事助理叶尔努尔...
跟着二孩、三孩渐渐到了入学年齿好利来 丝袜,让弟弟妹妹和哥哥姐姐在吞并所学校就读,如故成为部分多孩家庭急迫的执行需求。 赞助部日前发出请教,明确暗意饱读动各地出台多孩子女同校就读具体实施主义,匡助处置...