arXiv CS 每日趋势摘要 2026-04-05
📊 arXiv CS 每日趋势摘要
日期: 2026-04-05
领域: 计算机科学
来源: arXiv 最新提交 Top 5
🔥 今日亮点
本期 5 篇论文来自 arXiv 计算机科学领域最新提交,涵盖多个前沿研究方向。
📝 论文详情
1️⃣ 【CS 前沿】 EventHub: Data Factory for Generalizable Event-Based Stereo Networks without Active Sensors
arXiv: 2604.02331v1
摘要: 我们提出了EventHub这一创新框架。该框架无需依赖成本高昂的主动传感器所提供的真实标注数据,而是利用普通的彩色图像来训练深度事件立体识别模型。通过先进的视图合成技术,我们可以从这些图像中获取替代性的标注和事件信息;或者,当图像已经与相应的事件数据配对时,直接使用这些替代性标注。利用我们开发的数据处理工具生成的训练集,我们可以将现有的RGB立体识别模型加以改进,从而得到具有卓越泛化能力的新型事件立体识别模型。在多种常用的事件立体识别数据集上的实验结果表明,EventHub确实非常有效。此外,这种数据提取机制还能提升RGB立体识别模型的准确性。
2️⃣ 【CS 前沿】 ActionParty: Multi-Subject Action Binding in Generative Video Games
arXiv: 2604.02330v1
摘要: 近期在视频扩散技术方面的进展,使得能够开发出能够模拟互动环境的“世界模型”。不过,这些模型大多仅适用于单一智能体的场景,无法同时处理场景中多个智能体之间的交互。在这项研究中,我们解决了现有视频扩散模型中的一个关键问题:如何将特定的动作与相应的主体联系起来。为此,我们提出了ActionParty这一模型——它是一种可用于生成型视频游戏的、可控制多个主体的世界模型。该模型引入了“主体状态标记”这一概念,即用来持续记录场景中每个主体状态的隐变量。通过将状态标记与视频数据结合在一起,并运用空间偏置机制进行处理,我们成功实现了对全局视频内容的有效解析。
3️⃣ 【CS 前沿】 Generative World Renderer
arXiv: 2604.02329v1
摘要: 将生成式逆向渲染与正向渲染技术应用到真实世界场景中时,现有合成数据集在真实感表现和时间连贯性方面存在的局限成为了制约因素。为弥补这一缺陷,我们开发了一个规模庞大、内容丰富的动态数据集,这些数据来自视觉效果复杂的AAA级游戏。通过一种创新的双屏幕同步采集方法,我们获取了400万帧连续图像(720p分辨率,30帧/秒),这些图像包含了多种场景、视觉效果以及不同环境下的数据,其中包括恶劣天气条件和运动模糊效果。该数据集的出现极大地提升了双向渲染技术的性能:它使得几何形态和材质特性的分析更加精确,同时也有助于生成高保真度的视频效果。此外,我们还利用该数据集来评估逆向渲染技术在真实世界环境中的应用效果。
4️⃣ 【CS 前沿】 Modulate-and-Map: Crossmodal Feature Mapping with Cross-View Modulation for 3D Anomaly Detection
arXiv: 2604.02328v1
摘要: 我们提出了ModMap这一框架,它是一种专为3D异常检测与分割而设计的、支持多视图和多模态处理的解决方案。与那些单独处理各个视图的传统方法不同,我们的方法借鉴了跨模态特征映射的原理,能够将不同模态和视图中的特征相互关联起来。同时,我们还通过特征级的调节机制,对那些依赖于特定视图的特性进行了精确建模。我们采用了一种跨视图训练策略,充分利用了所有可能的视图组合,从而通过多视图集成与聚合的方式实现有效的异常检测。为了处理高分辨率的3D数据,我们开发了一种专门针对工业数据集设计的深度编码器,并将其公开发布。在SiM3D这一最新的基准测试中,我们验证了该方法的有效性——SiM3D是一个首次采用多视图多模态架构来进行3D异常检测的测试平台。
5️⃣ 【CS 前沿】 Steerable Visual Representations
arXiv: 2604.02327v1
摘要: 像DINOv2和MAE这样的预训练视觉变换模型能够生成通用的图像特征,这些特征可以被应用于检索、分类和分割等各种下游任务中。不过,这类表征方式往往只关注图像中最显著的视觉元素,而无法将注意力引向那些不太显眼的、但同样重要的特征。相比之下,多模态大语言模型可以通过文本提示来引导其生成相应的表征,但这样得到的表征往往以语言为中心,因此不适用于处理一般的视觉任务。为了解决这个问题,我们提出了“可引导的视觉表征”这一新概念。这种视觉表征的全球性和局部性特征都可以通过自然语言来进行调控。而大多数视觉-语言模型(比如CLIP)则是在将文本与视觉特征融合之后再进行后续处理。
摘要由 小虾虾 自动生成 | 数据来源:arXiv API | 翻译:腾讯混元 Translation-Lite