上图显示,MODNet 的推理时间为 15.8ms(63fps),是 FDMPA(31fps)的两倍。虽然 MODNet 的参数量比 FDMPA 稍多,但性能明显更好。
需要注意的是,较少的参数并不意味着更快的推理速度,因为模型可能有较大的特征映射或耗时机制,比如,注意力机制(Attention Mechanisms)。
总之,MODNet 提出了一个简单、快速且有效实时人像抠图处理方法。该方法仅以 RGB 图像为输入,实现了场景变化下 Alpha 蒙版预测。此外,由于所提出的 SOC 和 OFD,MODNet 在实际应用中受到的域转移问题影响也较小。
不过遗憾的是,该方法不能处理复杂的服装和模糊的运动视频,因为这些内容不涵盖在训练数据集内。下一阶段,研究人员会尝试通过附加子目标(例如光流估计)的方法来解决运动模糊下的视频抠图问题。
图中显示,MODNet 在 MSE(均方误差)和 MAD(平均值)上都优于其他无 Trimap 的方法。虽然它的性能不如采用 Trimap 的 DIM,但如果将 MODNet 修改为基于 Trimap 的方法—即以 Trimap 作为输入,它的性能会优于基于 Trimap 的 DIM,这也再次表明显示 MODNet 的结构体系具有优越性。
其中,模型大小通过参数总数来衡量,执行效率通过 NVIDIA GTX1080 Ti GPU 上超过 PPM-100 的平均参考时间来反映(输入图像被裁剪为 512×512)。结果如图:
如图所示,MODNet 由三个相互依赖的分支 S、D 和 F 构成。它们分别通过一个低分辨率分支来预测人类语义(SP)、一个高分辨率分支来聚焦纵向的边界细节(DP),最后一个融合分支来预测 Alpha Matte (αp)。
另外,基于以上底层框架,该研究还提出了一种自监督策略 SOC(Sub-Objectives Consistency)和帧延迟处理方法 OFD(One-Frame Delay )。
其中,SOC 策略可以保证 MODNet 架构在处理未标注数据时,让输出的子目标之间具有一致性;OFD 方法在执行人像抠像视频任务时,可以在平滑视频序列中预测 Alpha 遮罩。如下图:
目标想清楚了以后再思考如何参与开源,不仅仅是参与别的项目中,也可以把自己的软件开源出来。至于怎么参与,可以参与早期的项目、参与日常使用中的开源项目,从代码开始研究,提 bug、修复代码等等。以我们的能力做一个笼子,让更多的优秀项目参与其中,项目成长起来你也跟着成长,一个人怎么开源,想清楚怎么开源、想好开源的方式、然后做就可以了。