电话

020-955774

全网都在模仿的「科目三」梅西、钢铁侠、二次元小姐姐马上拿下

标签: 网络设计 2023-12-03 

  来自阿里的研究团队提出了一种名为 Animate Anyone 的方法,只需一张人物照片,再配合骨骼动画引导,就能生成动画视频。

  最近一段时间,你可能或多或少的听到过「科目三」,摇花手、半崴不崴的脚,配合着节奏鲜明的音乐,这一舞蹈动作遭全网模仿。

  如果相似的舞蹈,让 AI 生成会怎样?就像下图所展示的,不管是现代人、还是纸片人,都做着整齐划一的动作。你可能猜不到的是,这是根据一张图片生成的舞蹈视频。

  角色动画(Character Animation)是将源角色图像按照所需的姿态序列动画化为逼真视频的任务,具有许多潜在的应用,例如在线零售、娱乐视频、艺术创作和虚拟角色等。

  从 GAN 开始,研究者一直在不断深入了解将图像进行动画化以及进行姿态迁移的探索,然而,生成的图像或视频仍然存在局部失真、细节模糊、语义不一致和时间不稳定等问题,从而阻碍了这些方法的应用。

  本文,来自阿里的研究者提出了一种名为 Animate Anybody 的方法,该方法能够将角色图像转换为动画视频,而形成的视频遵循所要求的姿态序列。该研究继承了 Stable Diffusion 的网络设计和预训练权重,并修改了去噪 UNet 以适应多帧输入。

  为了保持外观一致性,该研究还引入了 ReferenceNet,它被设计为对称的 UNet 结构,用于捕获参考图像的空间细节。在 UNet 块的每个相应层,该研究使用空间 - 注意力将 ReferenceNet 的特征集成到去噪 UNet 中,这种架构使模型能够在一致的特征空间中全面学习与参考图像的关系。

  为了确保姿态可控性,该研究设计了一种轻量级姿态引导器,以有效地将姿态控制信号集成到去噪过程中。为了实现时间稳定性,本文引入了时间层( temporal layer)来对多个帧之间的关系进行建模,从而在模拟连续且平滑的时间运动过程的同时保留视觉质量的高分辨率细节。

  Animate Anybody 是在5K 角剪辑的内部数据集上训练而成,图1显示了各种角色的动画结果。与以前的方法相比,本文的方法具有几个显着的优点:

  本文在两个特定的人类视频合成基准(UBC 时尚视频数据集和 TikTok 数据集)上进行了评估。结果显示,Animate Anybody 取得了 SOTA 结果。此外,该研究还将 Animate Anybody 方法与在大规模数据上训练的一般图像到视频方法进行了比较,结果显示 Animate Anybody 在角色动画方面展示了卓越的能力。

  本文方法如下图2所示,网络的初始输入由多帧噪声组成。研究者基于 SD 设计来配置去噪 UNet,采用了相同的框架和块单元,并继承了来自 SD 的训练权重。具体来讲,该方法包含了三个关键组成部分,分别如下:

  Pose Guider(姿态引导器),编码动作控制信号以实现可控角色运动;

  Temporal layer(时间层),编码时间关系以确保角色动作的连续性。

  ReferenceNet 是一个参考图像特征提取网络,它的框架与去噪 UNet 大致相同,仅有时间层不同。因此,ReferenceNet 继承了与去噪 UNet 类似的原始 SD 权重,并且每个权重更新都是独立进行的。研究者解释了将 ReferenceNet 的特征集成到去噪 UNet 的方法。

  ReferenceNet 的设计有两个优势。第一,ReferenceNet 可以利用原始 SD 的预训练图像特征建模能力,产生初始化良好的特征。第二,由于 ReferenceNet 与去噪 UNet 本质上具有相同的网络结构和共享初始化权重,因而去噪 UNet 可以选择性地从 ReferenceNet 中学习在同一特征空间关联的特征。

  轻量级的姿态引导器使用四个卷积层(4×4内核、2×2步幅、使用16、32、64、128个通道,类似于 [56] 中的条件编码器)来对齐分辨率与潜在噪声相同的姿态图像,接着处理后的姿态图像在被输入到去噪 UNet 之前添加到潜在噪声中。姿态引导器使用高斯权重进行初始化,并在最终的映射层用到了零卷积。

  时间层的设计灵感来自 AnimateDiff。对于一个特征图 x∈R^b×t×h×w×c,研究者首先将它变形为 x∈R^(b×h×w)×t×c,然后执行时间注意力,即沿着维度 t 的自注意力。时间层的特征通过残差连接合并到了原始特征中,这种设计与下文的双阶段训练方法相一致。时间层专门在去噪 UNet 的 Res-Trans 块内使用。

  第一阶段,使用单个视频帧进行训练。在去噪 UNet 中,研究者暂时排除了时间层,模型将单帧噪声作为输入。参考网络和姿态引导器也在这一阶段进行训练。参考图像是从整个视频片段中随机选取的。他们根据 SD 的预训练权重初始化去噪 UNet 和 ReferenceNet 的模型。姿态引导器使用高斯权重进行初始化,但最后的投影层除外,该层使用零卷积。VAE 的编码器和解码器以及 CLIP 图像编码器的权重都保持不变。这一阶段的优化目标是使模型在给定参考图像和目标姿态的条件下生成高质量的动画图像。

  在第二阶段,研究者将时间层引入先前训练好的模型,并使用 AnimateDiff 中预先训练好的权重对其进行初始化。模型的输入包括一个24帧的视频片段。在这一阶段,只训练时间层,同时固定网络其他部分的权重。

  定性结果:如图3显示,本文方法可以制作任意角色的动画,包括全身人像、半身人像、卡通人物和仿人角色。该方法能够生成高清晰度和逼真的人物细节。即使在大幅度运动的情况下,它也能与参考图像保持时间上的一致性,并在帧与帧之间表现出时间上的连续性。

  时尚视频合成。时尚视频合成的目的是利用驱动姿态序列将时尚照片转化为逼真的动画视频。实验在 UBC 时尚视频数据集上进行,该数据集由500个训练视频和100个测试视频组成,每个视频包含约350个帧。定量比较见表1。在结果中可以发现,本文方法优于其他方法,尤其是在视频度量指标方面表现出明显的领先优势。

  定性比较如图4所示。为了进行公平比较,研究者使用 DreamPose 的开源代码获得了未进行样本微调的结果。在时尚视频领域,对服装细节的要求非常严格。然而,DreamPose 和 BDMM 生成的视频无法保持服装细节的一致性,并在颜色和精细结构元素方面表现出明显的误差。相比之下,本文方法生成的结果能更有效保持服装细节的一致性。

  人类舞蹈生成。人类舞蹈生成聚焦于将现实舞蹈场景图像进行动画处理。研究者们使用了 TikTok 数据集,其中包括340个训练视频和100个测试视频。按照 DisCo 的数据集划分方法,使用利用相同的测试集,其中包含10个 TikTok 风格的视频,研究者进行了定量比较,见表2。本文方法取得了最佳结果。为了增强泛化能力,DisCo 结合了人类属性预训练,利用大量图像对进行模型预训练。相比之下,研究者训练只在 TikTok 数据集上进行,结果优于 DisCo。

  图5中展示了与 DisCo 的定性比较。考虑到场景的复杂性,DisCo 的方法需要额外使用 SAM 来生成人类前景掩码。相反,本文方法表明,即使没有明确的人体掩码学习,模型也能从被摄体的运动中掌握前景与背景的关系,而无需事先进行人体分割。此外,在复杂的舞蹈序列中,该模型在保持整个动作的视觉连续性方面表现突出,并在处理不同的角色外观方面表现出更强的稳健性。

  图像 - 视频的通用方法。目前,许多研究都提出了基于大规模训练数据、具有强大生成能力的视频扩散模型。研究者选择了两种最著名、最有效的图像 - 视频方法进行比较:AnimateDiff 和 Gen2。由于这两种方法不进行姿态控制,因此研究者只比较了它们保持参考图像外观保线所示,当前的图像 - 视频方法在生成大量角色动作方面面临挑战,并且难以在视频中保持长期的外观一致性,从而阻碍了对一致角色动画的有效支持。

  11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!

  11月25日消息,最近,不少人被海底捞的科目三”刷屏了。有学车的网友表示,自己想网上搜索科目三”的教学视频,结果搜出来的都是海底捞跳舞。在部分海底捞门店,只需要对服务员说我要科目三”,就会有服务员为你来上一段魔性的舞蹈。他们一边摇花手、一边扭腰,还有半崴不崴的脚,配上《一笑江湖》的BGM,动感、热闹又魔性。据了解,海底捞科目三相关话题先后登上微博、抖音、百度等多平台热搜,抖音累计播放量更是超10亿次。原本是驾驶证考试的名称,怎么科目三”还成了舞蹈了呢?一项主流的解释是,这一叫法来源于广西:每一个广西人都?

  科目三的风,终究还是吹到了海底捞。只要你在小红书和海底捞看过科目三相关内容,一定会在最近几天刷到海底捞和科目三的奇妙融合。希望海底捞小哥的脚踝还撑得住。

  11月27日消息,近期海底捞的科目三”火遍全网,引发关注。一位网友在社交平台上表示,他和家人去海底捞吃饭,看到科目三”感觉很不适。对此,有网友建议海底捞对餐桌进行分区,喜欢清净的在一个区,喜欢科目三舞蹈的在一个区。有网友说,这种事有争议也正常,因为有的人爱看热闹,有的人只想好好吃个饭。分区是个不错的办法,就我个人而言,有服务员集体在我面前跳这种,我只会觉得尬,并不爱看,我只需要好吃加上做好正常服务就OK,不会要求打工人跳舞。公开报道显示,科目三”原是机动车驾驶证考核的一部分,该梗出自网络上网友分享的一

  一位00后小伙跳了舞蹈科目三”后,膝盖疼痛难忍无法下蹲,最终诊断为胫骨平台骨挫伤”。胫骨平台骨挫伤是指胫骨平台的骨质发生损伤,出现局部充血水肿的情况。如果不慎扭伤,可以马上用冷水冲洗或者冰块冷敷,不能自行揉按受伤部位,及时就医处理,以防伤势加重。

  如果你手机里有一些修图软件,你可能用过里面的「AI绘画」功能,它通常会提供一些把照片转换为不同风格的选项,比如动漫风格、写真风格。视频也可以这么做了:这些动图来自X平台网友@CoffeeVectors生成的一段视频。你需要更新到最新版本的ComfyUI才能用这个采样器。

  跳火科目三”的第一人、海底捞青州泰华城店的员工小庞表示,舞蹈是他在网络上自学的,平常也喜欢跳舞,所以试着跳了几遍就学会了。最近一段时间,海底捞科目三”舞蹈在社交平台、短视频平台刷屏,伴随着科目三”的走红,这个舞蹈也引发了争议。业内人士建议,海底捞门店可以针对想看”与不想看”客户群体做出平衡,采用分区域表演,如果顾客想看,可到固定区域进行观看。

  海底捞门店近日因顾客在庆祝生日时点“科目三”表演引发冲突,有人因音乐嫌吵报警。此前有报道称,部分门店已因版权原因不再允许跳“科目三”舞蹈。事态的发展可能引起更多关于文娱活动与顾客体验的讨论。

  近日,海底捞服务员跳科目三”舞蹈火爆出圈,引起热议,另有网友表示,其员工表演科目三”太吵,影响了顾客就餐体验。海底捞方面今日向媒体回应称,海底捞一直鼓励门店伙伴结合自身特长和顾客需求进行各类创新,并设立了相应的创新激励机制,门店岗位实行计件薪酬,多劳多得。那么问题来了,你会跳科目三”吗?

  针对网传跳科目三的服务员月薪过万”一事,海底捞作出回应,称门店岗位实行计件薪酬,多劳多得。海底捞科目三”舞蹈在社交平台上刷屏,科目三”原是机动车驾驶证考核的一部分,该梗出自网络上网友分享的一段新人婚礼视频。品牌也利用社交媒体平台,通过科目三”这项有趣且互动性强的活动,进一步增强了消费者的品牌黏性。

  “不是男模点不起是海底捞更有性价比。”最近,全国各地不少网友涌进海底捞的线下门店,就为了看海底捞的小哥哥跳一下科目三。海底捞科目三不是第一个,也不会是最后一个。

  Unlost是一个通过AI轻松导航您的记忆宫殿的工具。只需搜索和询问,即可快速回忆和查找任何信息。

  VizGPT是一个使用聊天界面进行上下文数据可视化的工具。它能够从表格数据集中分析数据,并生成相应的图表。用户可以通过自定义数据集、编辑图表和与工具进行交互来完成数据分析任务。VizGPT还提供了可视化数据分享功能,用户可以将生成的图表分享给他人。VizGPT Plus是该工具的高级版本,包括自定义数据集、可编辑图表、聊天互动等功能。早鸟特价为48美元/年。

  HustleSEO是一款为网站主提供简单的关键词研究工具的产品。您可以通过该工具研究新的关键词想法,并跟踪历史搜索数据,了解哪些关键词和主题值得进行SEO优化。此外,AI会为您生成10个与关键词相关的内容想法。

  Moncelo是一款AI智能个人项目管理工具,可以帮助用户更智能地管理和完成项目。它通过AI生成任务,跟踪进展并提供项目概览仪表盘等功能。Moncelo提供两种定价方案,月付5美元的订阅和一次性支付60美元的终身许可。它适用于各种项目管理场景。

  AutoMagic AI是一个强大且快速的写作工具,通过AI驱动的写作和图像生成,轻松转录音频为文本,帮助用户创建令人惊叹的内容。它适用于作家、博主、市场营销人员、企业家和商业专业人士,提高工作效率,节省时间,同时不降低质量。

  PhotoTag.ai是一个AI图像标签生成器,可以帮助用户快速生成准确、相关的关键词、标题和描述。适用于股票摄影师、AI专家等。用户只需点击一次,即可在几秒钟内获得图片的关键词,并可轻松导出到各大平台。定价请参考官网。

  CoolMindMaps是一个可以创建和搜索酷炫思维导图的在线平台。它提供丰富的功能和优势,用户可以轻松创建各种思维导图,并通过搜索功能找到感兴趣的导图。CoolMindMaps的定价灵活,并提供免费试用和付费订阅的选项,适合个人和团队使用。

  Great Pickup Lines for Dating Apps是一个提供在约会应用中使用的绝佳开场白的工具。无论你使用的是Tinder、Bumble、Hinge、OkCupid、Coffee Meets Bagel等约会应用,我们都为你提供适合的开场白。无需再为第一条信息发愁,用我们的开场白迅速吸引对方的注意力!

  Calligrapher.ai是一个使用浏览器中的循环神经网络将文字转换为真实手写的工具。用户可以选择不同的印刷和草书风格,自定义输出并将其下载为SVG文件。该工具能够生成逼真的手写效果,方便用户在设计、文案制作等场景下使用。

  Facia是最快的人脸识别与3D活体检测解决方案。通过3D活体检测,确保快速准确的人脸匹配和验证。产品具有高速响应时间、多种活体检测方式、防止欺诈和冒充攻击、快速准确的验证等优势。请访问官网了解详细信息。

  Gruntly是一个个性化的内容集成平台。它可以根据用户的独特兴趣和当前任务,从大量渠道中智能筛选出相关和有价值的信息,生成个性化的内容摘要,帮助用户管理信息过载。主要功能包括:交互式登记用户兴趣、监控多种渠道、智能分析与集成、生成个性化内容摘要、支持频率和内容自定义等。适用于专业人士、创作者、投资人员、企业管理者等用户群体。

  SEO GPT by Writesonic是一个SEO在线工具,内置在ChatGPT中,提供页面SEO分析、关键词洞察等功能,帮助优化页面SEO。主要功能包括页面SEO评分检查、关键词优化建议、competitor分析等。定价免费,定位页面SEO优化工具。

  Flowlie for Founders是一个一站式的筹资中心,专为创始人提供融资服务。它可以帮助创始人规划融资轮次,确定融资金额和公司估值;准备投资者介绍材料;创建并分享演示文稿、数据等内容;追踪投资者的参与度和兴趣。该产品提供了轮次规划、股权稀释计算、行业术语解释等工具,使创始人能够顺利完成融资工作。

  Universe是一款无代码建站工具,可以从任何地方创建自定义网站,无需编码。用户可以使用其直观的可视化编辑器进行拖放操作,轻松构建网站。Universe还提供电子商务功能,用户可以轻松地出售各种物品。Universe有三个计划:免费计划、域名计划和专业计划,满足不同用户的需求。

  DB Pilot是一个数据库GUI工具,支持PostgreSQL、MySQL、SQLite等多种数据库。它还集成了OLAP数据库,可以连接各种数据源。内置的AI助手使得编写SQL查询变得简单易懂。定价分为免费版、Plus版和Pro版。

  IPscreener是一款基于语义AI的工具,可以帮助用户分析和理解专利信息。它能够从文本中提取相关的商业智能,为用户提供即时的见解,帮助用户更有效地探索和理解专利中隐藏的宝藏信息。IPscreener可以用于验证创新想法、了解竞争对手、掌握行业趋势等。该工具可在网站上使用,为用户提供便捷的分析和报告功能。

  Competitors App是一款帮助市场营销人员监测竞争对手在线活动的工具。它可以监测竞争对手的网站变化、试用邮件、通讯、社交媒体、博客、排名和广告等各种在线渠道。

  Papper是一款创新的iOS应用,旨在使您的生活有序和高效。它允许您将手写的笔记转换为数字待办事项列表,创建并打印自己的清单,直接从这些清单扫描进度,并提供广泛的预制清单。Papper使用先进的OCR(光学字符识别)和GPT技术来扫描您的手写笔记并将其转换为可管理的数字待办事项列表。

  VITALENTUM是一个社交网络平台,提供免费的AI生成图片库、中途旅程的提示、免费聊天GPT等强大工具。加入我们,改变您的内容旅程,与热情的社区互动,分享和分发有用的内容。注册即可获得20个VTL代币,用于下载20张免费图片。

  AuTool Framework是一款基于AI的工作流自动化框架。它提供了一个插件系统,可以将AI技术应用于工作流中。用户可以通过集成云服务和构建GUI工作流助手来提高工作效率。AuTool Framework简单易用,适用于各种场景,包括AI助手、图像处理、文本生成等。请访问官方网站了解更多信息。

推荐新闻