通过渐进式混合语境扩散完成Amodal

通过渐进式混合语境扩散完成Amodal
即使部分隐藏在视线之外,大脑也能毫不费力地识别物体。看到隐藏的可见物被称为amodal完成;然而,尽管进展迅速,但这项任务对生成式人工智能来说仍然是一个挑战。建议避开现有方法的许多困难,这些方法通常涉及预测amodal掩模然后生成像素的两步过程。方法涉及跳出思维定势,真的!走出对象边界框,使用其上下文来指导预训练的扩散修复模型,然后逐步生长被遮挡的对象并修剪额外的背景。克服了两个技术挑战:1)如何避免不必要的共现偏差,这往往会使类似的封堵器再生,2)如何判断amodal完成是否成功。在许多成功的完井案例中,与现有方法相比,amodal完井方法显示出更高的真实感完井结果。最好的部分呢?它不需要任何特殊的训练或对模型进行快速调整。
新方法可以恢复不同图像中对象的隐藏像素,如图3-12所示。
 
图3-12 新方法可以恢复不同图像中对象的隐藏像素
在图3-12中,遮挡物可能是同时发生的(冲浪板上的人)、意外发生的(微波炉前的猫)、图像边界(长颈鹿)或这些情况的组合。
渐进式闭塞感知完管道,如图3-13所示。
 
图3-13 渐进式闭塞感知完管道
在图3-13中,第一次迭代:执行实例分割并分析对象掩码以确定遮挡物。如果查询对象接触到图像边界,则填充图像和掩码,以使对象在这些方向上完成边界之外的操作。使用此输入包,运行混合上下文扩散采样以获得新的amodal完成图像。接下来,检查生成的对象是否有新的遮挡物或是否接触到图像边界。原始图像中的男子看起来像一个以前未被发现的新封堵器。附加迭代:如果查询对象仍然被遮挡,那么将运行管道的附加迭代。
输出:返回最终的amodal完成图像和amodal选框的外部,可以修剪额外的背景以覆盖在原始图像上。
混合上下文(MC)扩散采样,如图3-14所示。
 
图3-4 混合上下文(MC)扩散采样
在图3-4中,1)交换背景(红色):使用
 
创建
 
来替换
 
的背景,然后扩散修复到第k个时间步,得到
 
。2)创建对象移除背景图像(蓝色):使用移除修复器从
 
中移除查询对象和遮挡物,然后将噪声添加到第
 
个时间步,产生
 
。3)在嘈杂图像中分割对象(绿色):从
 
中提取扩散特征,对其进行聚类,并通过与
 
对齐,在第
 
个时间步选择查询对象的amodal掩码
 
。4) 复合(紫色):使用
 
 
中的查询对象放置在去除对象的背景图像
 
上。最终图像
 
是通过完成剩余的
 
个扩散步骤获得的,其中
 
是总步骤数。右上角:如果删除此MC

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/830472.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度学习工程实践:PyTorch Lightning与Ignite框架的技术特性对比分析

在深度学习框架的选择上,PyTorch Lightning和Ignite代表了两种不同的技术路线。本文将从技术实现的角度,深入分析这两个框架在实际应用中的差异,为开发者提供客观的技术参考。 核心技术差异 PyTorch Lightning和Ignite在架构设计上采用了不同的方法论。Lightning通过提供高层…

TinyVue v3.19.0 正式发布!Tree 组件终于支持虚拟滚动啦!UI 也升级啦,更更符合现代审美~

你好,我是 Kagol,个人公众号:前端开源星球。 我们非常高兴地宣布,2024年10月28日,TinyVue 发布了 v3.19.0 🎉。 本次 3.19.0 版本主要有以下重大变更:所有组件全面升级到 OpenTiny Design 新设计规范,UI 更美观、更符合现代审美。 增加 VirtualTree 虚拟树组件。 增加…

macOS nginx 编译安装教程

nginx 有多种安装方式 方式一:可以通过包管理器(homebrew)安装,安装较为简单brew install nginx 即可,使用方式查看brew info nginx 方式二:通过源码编译的方式,本篇主要介绍这种安装方式 源码编译安装 1、打卡官方下载页面 https://nginx.org/en/download.html 选择稳定…

财务知识-计提

什么是计提?为什么要计提,常见的计提分录

还在搞传统爬虫吗?2025年用人工智能轻松抓取几乎所有网站

今天,我将介绍一种简单的方法,帮助大家从各种网站上收集数据,搭建一个能够像人在浏览器中操作的网页爬虫。这种爬虫甚至可以在 Upwork 等平台上独立完成一些网页抓取的自由职业任务。 自2024年以来,随着 AI 的发展,网页抓取发生了巨大的变化。以前,大公司如亚马逊或沃尔玛…

终端仿真软件:SecureCRT macOS+Windows电脑安装包

SecureCRT是一款广受好评的终端仿真软件,专为IT专业人员设计。它支持SSH、Telnet、RLogin等多种协议,提供安全的远程访问功能。用户可以通过该软件安全地连接到远程服务器,进行命令行操作、文件传输等任务。SecureCRT还具备脚本自动化、会话管理、多窗口操作等核心功能,其稳…

输入法双拼方案哪个好?

简单介绍下各个方案常见的双拼方案有:小鹤双拼、微软双拼、自然码等,智能 ABC,拼音加加,紫光双拼,国标双拼,甚至可以自定义方案。 本文会简单介绍下各个方案,让读者参考。 ‍ 各输入法支持情况 有位 UP 主做了一张图:可以几乎所有输入法都支持微软双拼,此外小鹤双拼和…

从精准表达到成交绝技,解锁业绩飙升的钥匙

众多人误以为,销售仅凭口才出众便能驾轻就熟,实则不然。关键在于能否精准表达,字字珠玑,直击客户心扉。销售精英实为卓越的交流大师,其衡量标尺在于能否有效说服并触动顾客。面对形形色色的顾客,我们需灵活调整语言风格,即便是同一商品,也应采用多样化的介绍方式。接下…

苹果专用解压缩:BetterZip 5 中文注册安装版(含注册码)

BetterZip 5是一款专为Mac用户设计的压缩与解压软件。它支持多种主流压缩格式,如ZIP、RAR、7-Zip等,并具备文件预览、编辑与加密功能。用户无需解压整个文件即可预览内容,提高了工作效率。同时,它还提供了AES-256加密保护,确保数据安全。BetterZip 5界面简洁直观,易于上手…

新手入门Java自动化测试的利器:Selenium WebDriver

今天我们将深入探讨一款强大的Java自动化测试工具——Selenium WebDriver。在正式介绍Selenium WebDriver之前,让我们首先对Selenium本身进行简要概述,以便更好地理解其背景和功能。 官方学习网站:https://www.selenium.dev/ Selenium 是一个开源的自动化测试框架,WebDrive…

鸿蒙NEXT开发案例:转盘

【1】引言(完整代码在最后面) 在鸿蒙NEXT系统中,开发一个有趣且实用的转盘应用不仅可以提升用户体验,还能展示鸿蒙系统的强大功能。本文将详细介绍如何使用鸿蒙NEXT系统开发一个转盘应用,涵盖从组件定义到用户交互的完整过程。 【2】环境准备 电脑系统:windows 10 开发工…