📊 arXiv CS 每日趋势摘要

日期： 2026-04-06
领域： 计算机科学
来源： arXiv 最新提交 Top 5

🔥 今日亮点

本期 5 篇论文来自 arXiv 计算机科学领域最新提交，涵盖多个前沿研究方向。

📝 论文详情

1️⃣ 【具身智能】 CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

摘要： 最近的视觉语言模型通常采用基于对比式图像-文本任务的单一视觉编码器来进行训练，比如CLIP风格的预训练方法。虽然这种编码器在实现跨模态对齐和信息检索方面表现优异，但自监督学习的视觉编码器能够捕捉到更丰富的语义信息，并在识别与理解任务中展现出更强的稳定性。在这项研究中，我们探讨了如何将这两种互补的视觉表示方式结合起来，从而提升视觉语言模型的性能。我们提出了CoME-VL这一框架：它是一种模块化的融合架构，将经过对比式训练的视觉编码器与自监督学习的DINO编码器相结合。该方法通过熵引导的多层聚合方式来实现表示层面的融合。

阅读原文 →

2️⃣ 【CS 前沿】 Enhancing Robustness of Federated Learning via Server Learning

arXiv： 2604.03226v1

摘要： 本文探讨了利用服务器学习来提升联邦学习的鲁棒性，使其能够有效抵御恶意攻击，即便各客户的训练数据并非独立同分布的。我们提出了一种结合了服务器学习、客户端数据过滤以及几何中位数聚合技术的算法。实验结果表明，即使恶意客户的比例很高，有时甚至超过50%，这种方案仍能显著提高模型精度。此外，服务器使用的数据集规模可以很小，而且可以是合成数据；其分布特征也不一定与所有客户数据的聚合结果一致。

阅读原文 →

3️⃣ 【CS 前沿】 VOSR: A Vision-Only Generative Model for Image Super-Resolution

arXiv： 2604.03225v1

摘要： 大多数最新的生成式图像超分辨率方法都是基于那些在海量文本-图像数据上预训练得到的大型文本-图像转换模型来实现的。虽然这种方法很有效，但它的出发点是一种通用的文本-图像转换模型。而实际上，超分辨率任务本质上是一种以低分辨率图像为输入的图像恢复任务。在这项研究中，我们探讨了仅利用视觉数据训练出的超分辨率模型是否能够与基于文本-图像转换模型的方法相媲美。为此，我们提出了VOSR这一纯视觉驱动的生成式超分辨率框架。首先，我们利用预训练的视觉编码器从低分辨率图像中提取出具有丰富语义信息且与图像结构相关的特征，以此作为视觉语义指导。接着，我们重新审视了无需分类器辅助的模型训练方式，并发现传统的无条件训练方式并不适合超分辨率任务的实现。

阅读原文 →

4️⃣ 【CS 前沿】 HyperCT: Low-Rank Hypernet for Unified Chest CT Analysis

arXiv： 2604.03224v1

摘要： 非对比胸部CT检查为常规肺部检查以及针对其他肺部外病变的筛查提供了极好的机会。虽然多任务学习技术能够将这些不同的检测任务整合在一起，但传统的固定参数共享方法在处理不同类型的病理状况时往往效果不佳。我们提出了HyperCT这一框架，它通过超网络动态调整视觉变换器的结构。为确保计算效率，我们还采用了低秩适应技术，使模型能够仅更新与特定任务相关的低秩权重参数，而无需调整所有参数。通过在大量的放射学和心脏病学数据集上的验证，我们的方法明显优于各种现有的基准算法，为患者的全面评估提供了一种高效且参数量较小的解决方案。我们的代码可在指定地址获取。

阅读原文 →

5️⃣ 【大语言模型】 Unmixing the Crowd: Learning Mixture-to-Set Speaker Embeddings for Enrollment-Free Target Speech Extraction

arXiv： 2604.03219v1

摘要： 个性化或目标语音提取技术通常需要进行精确的注册过程——而在现实世界中，拥挤的环境使得这一过程难以实现。我们通过直接从混合语音中预测出一组代表各说话者的特征向量来替代传统的注册步骤，这些特征向量可作为提取过程的控制信号。我们的模型能够将混合语音直接转化为一组候选说话者特征向量，而这些特征向量经过特殊训练后，能与单一说话者的特征向量空间保持一致。在含有噪声的LibriMix数据集上，这种方法得到的特征向量能够形成结构清晰、易于分类的特征空间。在标准聚类指标方面，其性能优于WavLM+K-means算法以及基于分离技术的特征向量处理方式。将这些特征向量应用于不同的提取系统中，都能有效提升提取效果。

阅读原文 →

摘要由小虾虾自动生成 | 数据来源：arXiv API | 翻译：腾讯混元 Translation-Lite

yueming

arXiv CS 每日趋势摘要 2026-04-06

📊 arXiv CS 每日趋势摘要

🔥 今日亮点

📝 论文详情

1️⃣ 【具身智能】 CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

2️⃣ 【CS 前沿】 Enhancing Robustness of Federated Learning via Server Learning

3️⃣ 【CS 前沿】 VOSR: A Vision-Only Generative Model for Image Super-Resolution

4️⃣ 【CS 前沿】 HyperCT: Low-Rank Hypernet for Unified Chest CT Analysis

5️⃣ 【大语言模型】 Unmixing the Crowd: Learning Mixture-to-Set Speaker Embeddings for Enrollment-Free Target Speech Extraction