无限新衣服零元购阿里Outfit Anyone实现真人百变换半岛装

衣服 | 2023-12-25 11:57:07

　　半岛不实际试穿，就能尝试各种服饰，虚拟试衣技术让「QQ秀」升级成了真人版，为时尚行业打开了新世界的大门。

　　Outfit Anyone 利用了一种创新的双流条件扩散模型，有效地解决了这些问题，能够精确地处理服装的变形效果，实现更加逼真的试穿体验。Outfit Anyone

　　的特点是其极强的适应性和广泛的应用范围，不仅能调整以适应不同的姿势和体形，无论是动画形象还是真人，都可以一键换装。现已开放试玩。

　　虚拟试衣任务本质是一个条件生成的任务，也就是基于给定一张服饰图片作为条件输入，控制生成服饰在人身上的试衣图片。当前的 diffusion model 在生成的可控性方面做了很多工作，比如基于 tuning-based 的方法半岛，如 lora， dreambooth 等，可以实现通过针对某一个或几个概念的样本图片进行针对性训练，学习对应的某个 concept，在生成的过程中可以实现对应 concept 或者物体的生成。然而这种方式以来 finetuning，计算和时间成本高，且难以扩展到多个物体的同时生成。

　　另外一类控制生成的方法是以 controlnet 为代表，其主要原理是通过 zero-conv 训练一个插件的网络，可以实现利用 mask，canny edge， depth 等多种信号控制最终生成图片的 layout。这种方式的

　　的弊端在于控制信号与目标图像在空间上是 align 的，但服饰与控制信号和目标图像在空间分布上有较大的差异，导致无法直接使用，从而限制了其应用的拓展范围。

　　因此，作者提出了一种新的支持试衣功能的条件生成网络，实现服饰的形变，光照的变化半岛，服饰新视角变化情况下的生成，同时能够保持服饰的纹理，版型，细节的一致性。相比 lora，dreambooth 等方法的好处是，不再需要针对每个物体进行 finetuning，具有很强的泛化性，从而可以实现 zero-shot 一键试衣。

　　此外，为了提升试衣结果的真实性，作者提出了 refiner 网络，对服饰的细节进行提升，从而能够提升服饰的材质、色彩，使其更接近真实的试衣效果。Outfit Anyone也支持各种复杂的服饰，多样的姿势，以及适配多种体型，使其能够满足用户多样化的试衣需求。

　　近些年，虽然模型仍层出不穷，但模型设计逐渐走向同质化。主要可以分为3个部分:（1）输入信号(图像 / 视频 / 文本 /timestep)转化为 embedding 参入到后续网络计算中;

　　在框架设计上，研究团队遵循简洁有效的原则，按以上的基础思路，首先确定了需要何种输入信号，并根据信号的差异化采用不同的特征交互方式。

　　模特控制:利用 spatially aligned operation ，本身作为模特图抽取特征内容，与目标图像在空间对齐。

　　服饰控制:本身与模特图空间不能对齐，需要进行形变操作，再通过非线性的操作进行特征融合。

　　背景、质量等控制:利用 attention 机制实现语义层次特征与图像特征的融合。

　　目前，基于 Diffusion Model 的生成模型强调生成内容在语义层面的对齐性，所以常采用以 CLIP 为代表的图像语义抽取模型进行特征提取，但这对于试衣模型需要保留所输入服饰的纹理细节矛盾。因此，现有基于 CLIP 特征的试衣模型难以准确完整的还原服饰本身的特性，采用对服饰纹理细节可还原 / 生成的网络为佳。

　　基于以上思考，作者设计了 Outfit Anyone 的模型框架，将多种不同的输入信号，输入进两个网络流中，通过融合的方式实现可控生成。

　　作者扩充了现有的公开服饰数据集，构建了一个大规模的虚拟试衣服饰数据集。整个数据涵盖了各种类目，包含大量高质量图片。此外，为了实现高质量的服饰还原，作者充分地整理和提取了服饰相关的材质属性等信息。

　　站在服饰商家的角度，需要以平铺图作为输入，避免需要上身图的额外要求。但这也在服饰上身后的自然度方面对算法提出了更高的要求。Outfit Anyone 支持平铺图的输入，并且可同时支持单件或者上下搭配。模型根据模特姿势身材的不同，相应生成褶皱、光照等细节不同的服饰上身效果，从而实现百变的换装体验。

　　在时尚浪潮的前沿，除了常规版型的服饰，还有更多有创意的新奇服饰。Outfit Anyone对这类服饰也能提供很好的支持。

　　为了使Outfit Anyone所生成的试衣图片达到摄影级别的质量，作者进一步基于试衣模型结构开发了 refiner。可以在保留服饰基本 ID 的基础上，显著提升服饰的材料质感，模特的皮肤真实度。（举报）

　　查看更多相关信息

　　OutfitAnyone是一项由阿里巴巴集团智能计算研究所推动的高质量虚拟试穿技术。该技术通过采用双流条件扩散模型，能够独立处理模特和服装数据，然后在融合网络中将服装细节嵌入到模特的特征表示中，从实现更逼真、高保真度的虚拟试穿效果。模型和服装图像主要来自互联网和公共数据集，所有图像和品牌均为其各自所有者的财产。

　　AI视野：谷歌Gemini Pro开放；文心一言插件商城上线；谷歌图像生成模型Imagen2发布；

　　谷歌GeminiPro大模型在研究基准测试中表现优异，支持32K上下文窗口的文本输入和生成功能，向VertexAI云计算客户和AIStudio开发人员开放，提供多种功能和SDK，为构建AI应用程序提供更多可能性。文心一言插件商城上线百度文心一言插件商城正式上线，提供多功能插件，包括PPT生成、音视频提取、思维导图等，用户可通过简单指令满足多场景需求。库提供开放访问，支持Unity和Unreal

　　随着阿里巴巴智能计算研究所开发的“AnimateAnyone”技术的推出，图像生成视频的领域迈出了重要一步。该技术通过从参考图像提取面部特征、模式和姿势等细节，然后将这些细节映射到略微不同的姿势上，生成一系列图像，形成动态视频。未来将会揭示互联网是否会迎来“舞蹈伪造”的狂潮，这可能比我们预想的还要更快到来。

　　阿里推出了一项名为AnimateAnyone的研究，该研究通过引入扩散模型，克服当前图像到视频合成中的一些挑战，特别是在角色动画领域。论文提出了一种全新的框架，通过巧妙设计的ReferenceNet、姿势引导器和时间建模方法，解决了维持细节一致性和运动连贯性的问题。带来的技术突破和实证结果表明，这一方法在角色动画领域具有巨大的潜力，为数字媒体和创意产业注入了新的活

　　AnimateAnyone是一个由阿里巴巴智能计算研究院开发的软件，它可以从静态图像生成动态视频，可将任意图像角色动画化。AnimateAnyone软件的体验入口在哪呢，这里我们来看下AnimateAnyone的官方体验入口。以上就是AnimateAnyone的全部介绍了，感兴趣的小伙伴可以点击上方链接前往体验。

　　Spiritme AI ScriptWriter:AI视频平台，创建个性化数字化身视频

　　Spiritme是一个AI视频平台，专注于使用数字化身创建个性化视频。用户可以通过简单的文本输入，由AI驱动的数字化身来表达内容，无需专业演技。该平台提供基础、高级、无限和定制等多种订阅计划，适用于不同的需求和预算。

　　ml-ferret是一个端到端的机器学习语言模型（MLLM），能够接受各种形式的引用并响应性地在多模态环境中进行精准定位。它结合了混合区域表示和空间感知的视觉采样器，支持细粒度和开放词汇的引用和定位。此外，ml-ferret还包括GRIT数据集（约110万个样本）和Ferret-Bench评估基准半岛。

　　Rope是一个以图形用户界面为重点的AI换脸工具。它实现了insightface inswapper_128模型，并提供了一个有用的图形界面。该工具特点包括闪电般的面部交换速度、图像升级器、相似度调整器半岛、方向管理等。此外，Rope支持图像和视频的面部交换，并具有自动保存文件名生成、视频播放器的停靠/解除停靠、实时播放、特定帧的图像设置标记等功能。

　　NSFWLover: - NSFW AI女友与AI男友，动漫浪漫AI妹子

　　NSFWLover是一个能与虚拟女友和虚拟男友进行AI爱情聊天的最佳AI站点，可以进行角色扮演半岛，与浪漫的聊天机器人和AI女孩交谈，无限制，没有过滤。该产品提供多种虚拟人物供用户选择，每个人物都有自己独特的故事和特点。用户可以根据自己的喜好和需求选择合适的虚拟伴侣。

　　Reference Finder By Custom Writings:查找可靠的引用来源

　　Reference Finder是一个帮助学生快速找到可靠引用来源的工具。它可以提供一系列与您的论文主题相关的可靠来源，帮助您快速完成论文。使用我们的引用查找工具，轻松快捷地撰写论文。

　　SparkSocial:AI驱动的关键词监控，实时社交媒体关键词跟踪，自动生成智能回复。

　　SparkSocial是一款AI驱动的社交媒体营销工具，通过监控关键词、实时追踪、情感分析和全面报告，帮助用户更接近受众。它提供自动生成回复、竞争分析、受众发现等功能，帮助用户发现潜在客户、提升品牌曝光、进行大规模冷外联等，同时提供数据驱动的报告和分析。定价灵活，适用于企业、代理机构、SaaS以及创作者。