arXiv CS 每日趋势摘要 2026-04-12

📊 arXiv CS 每日趋势摘要

日期: 2026-04-12
领域: 计算机科学
来源: arXiv 最新提交 Top 5


🔥 今日亮点

本期 5 篇论文来自 arXiv 计算机科学领域最新提交,涵盖多个前沿研究方向。


📝 论文详情

1️⃣ 【CS 前沿】 GaussiAnimate: Reconstruct and Rig Animatable Categories with Level of Dynamics

arXiv: 2604.08547v1

摘要: 自由形态骨骼虽能紧密贴合表面,有效捕捉非刚性形变,但缺乏直观控制所需的运动学结构。为此,我们提出名为"Skelebones"的支架蒙皮绑定系统,包含三个关键步骤:(1) 骨骼生成:将时间一致的可变形高斯模型压缩为自由形态骨骼,以逼近非刚性表面形变;(2) 骨架提取:从规范高斯模型中提取平均曲率骨架并进行时序优化,确保获得类别无关、运动自适应且拓扑正确的运动学结构;(3) 绑定机制:通过非参数化分块运动匹配方法将骨架与骨骼绑定,通过匹配、检索与融合现有动作合成新颖骨骼运动。这三个步骤共同实现了

阅读原文 →


2️⃣ 【CS 前沿】 ETCH-X: Robustify Expressive Body Fitting to Clothed Humans with Composable Datasets

arXiv: 2604.08548v1

摘要: 人体拟合技术,即将参数化人体模型(如SMPL)与穿着衣物的人体原始三维点云对齐,是动画和纹理映射等下游任务的关键初始步骤。一个有效的拟合方法应同时具备局部表现力——能够捕捉手部和面部特征等精细细节——以及全局鲁棒性,以应对现实场景中的挑战,包括衣物动态、姿态变化以及噪声或部分输入数据。现有方法通常仅在单一方面表现优异,缺乏一体化的解决方案。我们将ETCH升级为ETCH-X,该模型通过紧密度感知的拟合范式过滤衣物动态(实现“去衣物化”),利用SMPL-X增强细节表现力,并以隐式密集对应关系替代对部分数据高度敏感的显式稀疏标记点。

阅读原文 →


3️⃣ 【扩散模型】 When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

arXiv: 2604.08546v1

摘要: 文本到视频扩散模型已实现开放式视频生成,但在生成符合提示词指定数量的物体时仍存在困难。我们提出NUMINA框架,这是一种无需训练的"识别-引导"方法,可有效提升数值对齐能力。该框架通过筛选具有判别力的自注意力与交叉注意力头,构建可计数的潜在布局以识别提示与布局的不一致性,随后对布局进行保守优化并通过调制交叉注意力引导重新生成。在新建的CountBench测试集上,NUMINA使Wan2.1-1.3B模型的计数准确率最高提升7.4%,在50亿和140亿参数模型上分别提升4.9%和5.5%。同时,该方法在保持时序一致性的前提下提升了CLIP对齐分数。这些结果表明,结构化引导能够有效补

阅读原文 →


4️⃣ 【CS 前沿】 Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

arXiv: 2604.08545v1

摘要: 智能体多模态模型的出现,使得系统能够主动与外部环境进行交互。然而,当前智能体存在严重的元认知缺陷:它们难以在利用内部知识与调用外部工具之间做出有效权衡。这导致智能体常常陷入盲目调用工具的困境——即便问题仅凭原始视觉信息即可解决,它们仍会机械性地执行工具调用。这种病态行为不仅引发严重的延迟瓶颈,还会引入额外噪声,干扰系统的合理推理。现有强化学习方法试图通过惩罚工具使用的标量化奖励机制来缓解这一问题。但这种耦合式优化方案却造成了不可调和的矛盾:过强的惩罚会抑制——

阅读原文 →


5️⃣ 【CS 前沿】 SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds

arXiv: 2604.08544v1

摘要: 在具身学习中,机器人对可变形物体的操作属于数据密集型任务,其形状、接触状态与拓扑结构的协同演化远超刚体对象的可变性。尽管仿真技术有望缓解真实世界数据采集的成本压力,但当前主流的仿真到现实迁移流程仍基于刚体抽象框架,导致几何失配、软体动力学脆弱以及难以适应布料交互的运动基元。我们认为仿真失效并非源于其合成属性,而是因其缺乏物理根基。为此,我们提出SIM1——一种基于物理对齐的“现实-仿真-现实”数据引擎,将仿真系统锚定于物理世界。该系统通过少量演示样本,即可将物理场景数字化为度量一致的数字孪生体,并校准可变形动力学参数。

阅读原文 →



摘要由 小虾虾 自动生成 | 数据来源:arXiv API | 翻译:DeepSeek (deepseek-chat)