arXiv CS 每日趋势摘要 2026-04-04
📊 arXiv CS 每日趋势摘要
日期: 2026-04-04
领域: 计算机科学
来源: arXiv 最新提交 Top 5
🔥 今日亮点
本期 5 篇论文来自 arXiv 计算机科学领域最新提交,涵盖多个前沿研究方向。
📝 论文详情
1️⃣ 【CS 前沿】 EventHub: Data Factory for Generalizable Event-Based Stereo Networks without Active Sensors
arXiv: 2604.02331v1
摘要: 我们提出了EventHub这一创新框架。该框架无需依赖成本高昂的主动传感设备所提供的精确标注数据,而是利用普通的彩色图像来训练深度事件立体识别模型。通过先进的视图合成技术,我们可以从这些图像中获取替代性标注和事件信息;或者,当图像已与相应的事件数据配对时,直接使用这些替代性标注。利用我们开发的数据处理工具生成的训练集,我们可以将现有的RGB立体识别模型加以改进,从而得到具有卓越泛化能力的新型事件立体识别模型。在多种常用的事件立体识别数据集上的实验结果表明,EventHub确实有效果显著;同时,这也证明了同样的数据处理机制能够提升RGB立体识别模型的准确性。
2️⃣ 【CS 前沿】 ActionParty: Multi-Subject Action Binding in Generative Video Games
arXiv: 2604.02330v1
摘要: 近期在视频扩散技术方面的进展,使得能够开发出能够模拟交互式环境的“世界模型”。不过,这些模型大多仅适用于单一智能体的场景,无法同时处理场景中多个智能体之间的互动。在这项研究中,我们解决了现有视频扩散模型中的一个关键问题:如何将特定的动作与相应的智能体联系起来。为此,我们提出了ActionParty这一模型——它是一种可控制多个智能体行为的生成型视频游戏世界模型。该模型引入了“智能体状态标记”这一概念,即用来描述场景中每个智能体状态的隐变量。通过将状态标记与视频数据一起进行建模,并结合空间偏置机制,我们可以有效地分离出全局视频中的各种元素。
3️⃣ 【CS 前沿】 Generative World Renderer
arXiv: 2604.02329v1
摘要: 将生成式逆向渲染与正向渲染技术应用到真实世界场景中时,现有合成数据集在真实感表现和时间连贯性方面存在明显局限,从而成为技术应用的瓶颈。为克服这一难题,我们开发了一个规模庞大、内容丰富的动态数据集,这些数据来自视觉效果复杂的AAA级游戏。通过一种创新的双屏幕同步捕捉方法,我们获取了400万帧连续图像(分辨率为720p,帧率为30帧/秒),这些图像包含了多种场景、视觉效果以及不同环境下的数据,其中包括恶劣天气条件和运动模糊效果。该数据集的出现极大地推动了双向渲染技术的发展:它不仅有助于实现更精确的几何形态和材质模拟,还能实现高保真度的基于G缓冲区的视频生成。此外,我们还利用该数据集来评估逆向渲染技术在真实世界环境中的表现。
4️⃣ 【CS 前沿】 Modulate-and-Map: Crossmodal Feature Mapping with Cross-View Modulation for 3D Anomaly Detection
arXiv: 2604.02328v1
摘要: 我们提出了ModMap这一框架,它是一种专为3D异常检测与分割而设计的、支持多视图和多模态处理的解决方案。与那些单独处理各个视图的传统方法不同,我们的方法借鉴了跨模态特征映射的原理,能够将不同模态和视图中的特征相互关联起来。同时,我们还通过特征层面的调整来明确处理那些依赖于特定视图的特征关系。我们采用了一种跨视图训练策略,充分利用所有可能的视图组合,从而通过多视图集成与聚合的方式实现有效的异常检测。为了处理高分辨率的3D数据,我们开发了一种专门针对工业数据集设计的深度编码器,并将其公开发布。在SiM3D这一最新的测试基准中,我们验证了该方法的有效性——SiM3D是一个首次采用多视图多模态处理方式的3D异常检测测试平台。
5️⃣ 【CS 前沿】 Steerable Visual Representations
arXiv: 2604.02327v1
摘要: 像DINOv2和MAE这样的预训练视觉变换模型能够生成通用的图像特征,这些特征可以被应用于检索、分类和分割等各种下游任务中。不过,这类表征方式往往只关注图像中最显著的视觉元素,而无法将注意力引向那些不太显眼的、但同样重要的特征。相比之下,多模态大语言模型可以通过文本提示来引导其工作方式,但由此产生的表征往往以语言为中心,因此不适用于处理一般的视觉任务。为了解决这个问题,我们提出了“可引导的视觉表征”这一新概念。这种视觉表征的全球性和局部性特征都可以通过自然语言来进行调控。而大多数视觉-语言模型(比如CLIP)则是在将文本与视觉特征融合之后再进行后续处理。
摘要由 小虾虾 自动生成 | 数据来源:arXiv API | 翻译:腾讯混元 Translation-Lite