当前位置:首页 > 技术分析 > 正文内容

冲顶会必备!ECCV 2024高分论文合集,代码全开源可复现

ruisui882周前 (06-04)技术分析11

最近ECCV 2024也公布录用论文名单了,录用率18%,比ECCV 2022录用率降低了10%。虽然更有挑战了,但入选获奖的含金量也直线上升。

这是因为ECCV是与ICCV和CVPR并称为计算机视觉“三大顶会”的国际会议之一,能被录用的论文质量都是在线的。而今年的更是炸裂,登顶了三维重建等多个领域,比如MVSGaussian,实现300+FPS渲染速度和13.3倍训练提速;还有HTCL,在多个基准测试中超过所有视觉方案。

从这些高质量成果的研究方向来看,投稿的热门主题主要有三维重建、图像处理、多模态大模型、3D视觉等领域,想发paper的同学可以参考一下。

为助力想要冲顶会的同学,我这次整理了ECCV 2024这些热门方向的高质量论文15篇,全部都有开源代码,创新点也提炼好了,方便大家复现并找到自己的idea。

论文原文+开源代码需要的同学关注“学姐带你玩AI”公众号,那边回复“ECCV开源”获取。

高斯溅射

MVSGaussian: Fast Generalizable Gaussian Splatting Reconstruction from Multi-View Stereo

方法:本文研究了用于未知场景中新视角合成的高效通用高斯溅射方法。该方法利用需要进行预处理的三维高斯波及表示来表示场景,通过编码和解码过程来生成高斯参数。

MVSGaussian在单个RTX 3090 GPU上,与传统3D-GS相比,在实现更好的新视点合成的同时,具有类似的渲染速度(300+ FPS),且仅需 45 秒(约为 3D-GS 的 1/10)即可完成高质量的实时渲染。

创新点:

  • 引入了一个新的通用高斯模型方法,该方法源自于多视图立体匹配和像素对齐的高斯表示。
  • 提出了一种高效的混合高斯渲染方法,用于提高模型的泛化性能。
  • 引入了一种一致性聚合策略,为快速的场景优化提供高质量的初始化。

MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images

方法:论文介绍了一种高效的前馈三维高斯分布模型MVSplat,该模型通过稀疏多视角图像训练得到。研究团队构建了一种成本体积(cost volume)来利用多视角的对应信息进行更好的几何结构学习。与最新的方法pixelSplat相比,MVSplat使用的参数数量少10倍,推理速度快2倍,同时提供更高的外观和几何质量以及更好的跨数据集泛化能力。

创新点:

  • 提出了一种基于代价体积的几何表示方法,通过在三维空间中进行平面扫描,构建了代价体积来存储不同深度候选点的跨视图特征相似性,从而为几何定位提供了有价值的几何线索。
  • MVSplat模型在RealEstate10K和ACID基准测试中取得了最先进的性能,并且具有最快的前向推理速度。

语义分割

Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively

方法:作者将VLMs和SAM结合起来,实现对新类别的分割和识别的任务,填补了这一领域的研究空白,并提出了Open-Vocabulary SAM模型,通过联合训练和特征融合,实现了更好的分割和识别性能,能分割和识别 22,000 种类别,登顶3D重建。

创新点:

  • 通过将SAM编码器的知识转移到CLIP编码器,实现了SAM和CLIP之间的双向知识传递。这种知识传递过程在一个轻量级的transformer-like adapter上执行,使用像素级的蒸馏损失将多尺度特征与SAM的表示进行对齐。
  • CLIP2SAM模块将来自冻结的CLIP编码器的知识传递到SAM解码器。为了实现这一目标,作者设计了一个特征金字塔适配器,并使用RoIAlign运算符与SAM解码器联合训练。

3D语义场景补全

Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion

方法:论文提出了一种创新的分层时态上下文学习范式,用于改进基于摄像机的语义场景补全,通过引入模式亲和度来衡量当前帧与历史帧之间的上下文对应关系,进而动态补偿不完整的观测,实现更好的语义场景补全效果。该方法在SemanticKITTI基准测试上排名第一,并在OpenOccupancy基准测试上超过了基于LiDAR的方法,超过所有视觉方案。

创新点:

  • 提出了一个有层次的时空上下文学习范式(HTCL),用于语义场景完成(SSC),能够更好地捕捉当前和历史帧之间的上下文关系。
  • 引入了模式亲和度来衡量当前帧和历史帧之间的上下文对应关系,以突出最相关的模式。
  • 提出了一种基于亲和度的动态精细特征采样策略,以根据初始的高亲和度位置和其邻近相关区域动态补偿不完整的观测。

论文原文+开源代码需要的同学关注“学姐带你玩AI”公众号,那边回复“ECCV开源”获取。

扫描二维码推送至手机访问。

版权声明:本文由ruisui88发布,如需转载请注明出处。

本文链接:http://www.ruisui88.com/post/4410.html

标签: 复现论文
分享给朋友:

“冲顶会必备!ECCV 2024高分论文合集,代码全开源可复现” 的相关文章

最古老的Linux发行版刚刚进行了重大更新

Slackware 15.0 带来了全新的 KDE Plasma 5 桌面体验。Slackware Linux(仍然维护的最古老的Linux发行版)的制造商刚刚发布了Linux发行版的15.0版本。Slackware Linux于1993年出现,创始人Patrick Volderding今天继续维护...

Python 幕后:Python导入import的工作原理

更多互联网精彩资讯、工作效率提升关注【飞鱼在浪屿】(日更新)Python 最容易被误解的方面其中之一是import。Python 导入系统不仅看起来很复杂。因此,即使文档非常好,它也不能让您全面了解正在发生的事情。唯一方法是研究 Python 执行 import 语句时幕后发生的事情。注意:在这篇文...

BuildKit 镜像构建工具

#暑期创作大赛#快速开始 对于 Kubernetes 部署,请参阅examples/kubernetes。BuildKit 由buildkitd守护进程和buildctl客户端组成。虽然buildctl客户端可用于 Linux、macOS 和 Windows,但buildkitd守护程序目前仅适用于...

30 个纯 HTML5 实现的游戏

浏览器和 JavaScript 的功能逐年不断的变强变大。曾几何时,任何类型的游戏都需要Flash。但随着 HTML5 发展,HTML5 + WebGL 游戏式就慢慢占领着这个舞台。以下是30款流行的游戏,它们可以在所有现代浏览器中运行,并且只使用web技术构建。1. HexGL地址:http://...

Vue实战篇|使用路由管理用户权限(动态路由)

权限控制是后台管理系统比较常见的需求,如果我们需要对某些页面的添加权限控制的话,那我们可以在路由管理中的权限做一些校验,没有通过权限校验的给出相应的提示或者直接跳转到报错页面。跟着我一起来学vue实战篇路由管理权限吧!权限校验函数getCurrentAuthority()函数用于获取当前用户权限,一...

一套代码,多端运行——使用Vue3开发兼容多平台的小程序

介绍Vue3发布已经有一段时间了,从目前来看,其生态还算可以,也已经有了各种组件库给予了支持,但是不管是Vue3还是Vue2都无法直接用来开发小程序,因此国内一些技术团队针对Vue开发了一些多端兼容运行的开发框架,今天来体验一下使用Taro来体验一下使用Vue3开发多平台运行的小程序,以便于兼容各大...