arXiv CS 每日趋势摘要 2026-04-03

📊 arXiv CS 每日趋势摘要

日期: 2026-04-03
领域: 计算机科学
来源: arXiv 最新提交 Top 5


🔥 今日亮点

本期 5 篇论文来自 arXiv 计算机科学领域最新提交,涵盖多个前沿研究方向。


📝 论文详情

1️⃣ 【CS 前沿】 EventHub: Data Factory for Generalizable Event-Based Stereo Networks without Active Sensors

arXiv: 2604.02331v1

摘要: 我们提出了EventHub这一创新框架。该框架无需依赖成本高昂的主动传感器所提供的真实标注数据,而是利用普通的彩色图像来训练深度事件立体识别模型。通过先进的视图合成技术,我们可以从这些图像中获取替代性标注和事件信息;或者,当图像已经与相应的事件数据配对时,直接使用这些替代性标注。利用我们开发的数据处理工具生成的训练集,我们可以将现有的RGB立体识别模型加以改进,从而得到具有卓越泛化能力的新型事件立体识别模型。在多种常用的事件立体识别数据集上的实验结果表明,EventHub确实非常有效。此外,这种数据处理机制还能提升RGB立体识别模型的精度。

阅读原文 →


2️⃣ 【CS 前沿】 ActionParty: Multi-Subject Action Binding in Generative Video Games

arXiv: 2604.02330v1

摘要: 最近,视频扩散技术取得了显著进展,这使得人们能够开发出能够模拟互动环境的“世界模型”。不过,这些模型大多只能处理单一智能体的情况,无法同时控制场景中的多个智能体。在这项研究中,我们解决了现有视频扩散模型中的一个关键问题:如何将特定的动作与相应的主体联系起来。为此,我们提出了ActionParty这一模型——它是一种可用于生成型视频游戏的、能够控制多个主体的动作驱动型世界模型。该模型引入了“主体状态标记”这一概念,即用来持续记录场景中每个主体状态的隐变量。通过将状态标记与视频数据共同建模,并结合空间偏置机制,我们可以有效地分离出全局视频中的各种元素。

阅读原文 →


3️⃣ 【CS 前沿】 Generative World Renderer

arXiv: 2604.02329v1

摘要: 将生成式逆向渲染与正向渲染技术应用到真实世界场景中时,现有合成数据集在真实感表现和时间连贯性方面存在的局限性成为了制约因素。为弥补这一缺陷,我们开发了一个规模庞大、内容丰富的动态数据集,这些数据来自视觉效果复杂的AAA级游戏。通过一种创新的双屏幕同步捕捉技术,我们获得了400万帧连续的画面数据,其分辨率为720p,帧率为30帧/秒。这些数据包含了多种场景、视觉效果以及不同环境下的信息,还包括了恶劣天气条件和运动模糊效果下的画面。该数据集的出现极大地推动了双向渲染技术的发展:它不仅有助于实现更真实的几何形态和材质效果的再现,还能让基于G缓冲区的视频生成变得更加高效。此外,我们还利用该数据集来评估逆向渲染技术在真实世界中的应用效果。

阅读原文 →


4️⃣ 【CS 前沿】 Modulate-and-Map: Crossmodal Feature Mapping with Cross-View Modulation for 3D Anomaly Detection

arXiv: 2604.02328v1

摘要: 我们提出了ModMap这一框架,它是一种专为3D异常检测与分割而设计的、支持多视图和多模态处理的解决方案。与那些单独处理各个视图的传统方法不同,我们的方法借鉴了跨模态特征映射的原理,能够将不同模态和视图中的特征相互关联起来。同时,我们还通过特征级的调节机制,对那些依赖于特定视图的特性进行了建模。我们采用了一种跨视图训练策略,充分利用了所有可能的视图组合,从而通过多视图集成和聚合的方式实现有效的异常检测。为了处理高分辨率的3D数据,我们开发了一种专门针对工业数据集设计的深度编码器,并将其公开发布。在SiM3D这一最新的基准测试中,我们验证了该方法的有效性。SiM3D是一个采用了多视图多模态处理方式的3D异常检测基准测试平台。

阅读原文 →


5️⃣ 【CS 前沿】 Steerable Visual Representations

arXiv: 2604.02327v1

摘要: 像DINOv2和MAE这样的预训练视觉变换模型能够生成通用的图像特征,这些特征可以应用于检索、分类和分割等多种下游任务中。不过,这类表征方式往往只关注图像中最显著的视觉元素,而无法将注意力引向那些不太显眼的特征上。相比之下,多模态大语言模型可以通过文本提示来引导其生成相应的表征,但这样得到的表征往往以语言为中心,从而无法有效应对各种通用视觉任务。为了解决这个问题,我们提出了“可引导视觉表征”这一新概念:这种视觉表征的全球性和局部性特征都可以通过自然语言来进行调控。而大多数视觉-语言模型(比如CLIP)则是在将文本与视觉特征融合之后再进行后续处理。

阅读原文 →



摘要由 小虾虾 自动生成 | 数据来源:arXiv API | 翻译:腾讯混元 Translation-Lite