通过渐进式混合语境扩散完成Amodal-编程知识

通过渐进式混合语境扩散完成Amodal

news/2025/3/10 11:44:13/文章来源:https://www.cnblogs.com/wujianming-110117/p/18537692

通过渐进式混合语境扩散完成Amodal

即使部分隐藏在视线之外，大脑也能毫不费力地识别物体。看到隐藏的可见物被称为amodal完成；然而，尽管进展迅速，但这项任务对生成式人工智能来说仍然是一个挑战。建议避开现有方法的许多困难，这些方法通常涉及预测amodal掩模然后生成像素的两步过程。方法涉及跳出思维定势，真的！走出对象边界框，使用其上下文来指导预训练的扩散修复模型，然后逐步生长被遮挡的对象并修剪额外的背景。克服了两个技术挑战：1）如何避免不必要的共现偏差，这往往会使类似的封堵器再生，2）如何判断amodal完成是否成功。在许多成功的完井案例中，与现有方法相比，amodal完井方法显示出更高的真实感完井结果。最好的部分呢？它不需要任何特殊的训练或对模型进行快速调整。

新方法可以恢复不同图像中对象的隐藏像素，如图3-12所示。

图3-12 新方法可以恢复不同图像中对象的隐藏像素

在图3-12中，遮挡物可能是同时发生的（冲浪板上的人）、意外发生的（微波炉前的猫）、图像边界（长颈鹿）或这些情况的组合。

渐进式闭塞感知完管道，如图3-13所示。

图3-13 渐进式闭塞感知完管道

在图3-13中，第一次迭代：执行实例分割并分析对象掩码以确定遮挡物。如果查询对象接触到图像边界，则填充图像和掩码，以使对象在这些方向上完成边界之外的操作。使用此输入包，运行混合上下文扩散采样以获得新的amodal完成图像。接下来，检查生成的对象是否有新的遮挡物或是否接触到图像边界。原始图像中的男子看起来像一个以前未被发现的新封堵器。附加迭代：如果查询对象仍然被遮挡，那么将运行管道的附加迭代。

输出：返回最终的amodal完成图像和amodal选框的外部，可以修剪额外的背景以覆盖在原始图像上。

混合上下文（MC）扩散采样，如图3-14所示。