arXiv cs.AI Daily Update

Posted Apr 22, 2026

By myy1966

216 min read

cs.AI 领域 2026年4月22日共有 334 篇论文更新：

47 篇新投稿：LLM Agent (ClawNet [24], Revac [37], AblateCell [43]), LLM Reasoning (DW-Bench [14], OLLM [20], CoDA [34]), Benchmark (DW-Bench [14], [6], [7]), LLM Evaluation ([2], [4], [12]), AI Safety (ARES [3], SafetyALFRED [45], [6])
141 篇跨领域投稿：LLM Evaluation (MORPHOGEN [98], CulturALL [141], IndiaFinBench [144]), LLM Agent (Agent-GWO [58], ARGUS [59], Owner-Harm [67]), Reinforcement Learning (Curiosity-Critic [70], LASER [151], EVPO [162]), Vision-Language Model (SPRITE [52], SpikeMLLM [56], REVEAL [78]), Benchmark (MORPHOGEN [98], RARE [112], RoboWM-Bench [119])
146 篇替换投稿：LLM Agent (VideoAgent [197], StepFly [201], SAGE-32B [205]), LLM Reasoning (BAPO [209], DH [213], PuzzleWorld [242]), Benchmark (GeoLaux [196], RIFT [216], Xpertbench [217]), LLM Evaluation (DH [213], RIFT [216], Xpertbench [217]), Multi-Agent System (Autogenesis [219], EvoMaster [221], AgentDynEx [238])

整体趋势：今日论文主要聚焦于LLM Agent、LLM Evaluation、LLM Reasoning等方向。

已录用论文：[3](ACL 2026), [5](Scientific Reports 2025), [8](ACL 2026), [12](ACL 2026), [13](ACL 2026), [15](ACL 2026), [18](ICAPS 2026), [22](AIED 2026), [29](AIWare 2026 Workshop), [30](GLOBECOM 2025 Workshop), [31](ACL 2026), [33](ICLR 2026 Workshop), [35](ACL 2026 Findings), [45](ACL 2026 Findings), [49](WebSci 2026), [52](CHI 2026), [58](ACL 2026), [61](ACL 2026), [66](ACL 2026), [68](ACL 2026), [69](ACL 2026), [78](MIDL 2026), [80](ACL 2026), [85](ICLR 2026), [88](CHI 2026 Workshop), [90](TOSEM), [91](CVPR 2026), [93](CVPR 2026 Workshop), [97](ICLR), [98](ACL 2026), [106](ICMR 2026), [112](ACL 2026), [113](ACL 2026 Findings), [131](ACL 2026), [133](ACL 2026), [134](SIGIR 2026), [139](ICLP 2026), [142](ACM FAccT 2026), [143](ACL 2026), [146](ACL 2026), [152](XAI 2026 Workshop), [156](CVPR 2026), [159](ACL 2026), [168](ACL 2026), [170](ACL 2026), [189](ICLR 2026), [192](ICAPS 2026), [198](ICLR 2026), [202](ACL 2026), [203](ACL 2026), [204](ACL 2026), [209](ACL 2026), [210](ACL 2026), [214](ACL 2026), [218](CVPR 2026), [222](ACL 2026), [229](IEEE AIoT 2024), [230](ARCS 2024), [233](IEEE TPAMI), [234](Nature Biomedical Engineering 2026), [235](IMWUT 2026), [236](ISPRS Journal of Photogrammetry and Remote Sensing), [237](ACL 2026), [244](ACL 2026 Findings), [248](ACL 2026 Findings), [249](TOSEM 2026), [250](ACISP 2026), [252](ICLR 2026), [254](ICCBDC 2026), [255](MORS 2026 Workshop), [256](WACV 2026), [258](ICLR 2026), [261](ACL 2026), [262](IEEE AIoT 2025), [263](AISTATS 2026), [267](ACL 2026), [269](ACL 2026 Findings), [271](DATE 2026), [272](ACL 2026), [273](ACL 2026), [276](ACL 2026 findings), [279](ACL 2026), [281](ACL 2026), [282](ACM IUI 2026), [288](ACL 2026 findings), [292](ACL 2026), [298](ACL 2026 Workshop), [309](AAAI 2026 Summer Symposium), [315](IEEE TPAMI), [317](CHI 2026 Workshop), [321](ACL 2026), [328](ACL 2026 Workshop), [329](SIGIR 2026), [330](ACL 2026), [331](ACL 2026 Workshop), [332](ACL 2026)

开源论文：[32](code), [33](code), [35](code), [39](code), [45](code), [47](code), [65](code), [85](code), [96](code), [106](code), [110](code), [113](code), [114](code), [120](code), [133](code), [144](code), [180](code), [185](code), [186](code), [195](code), [196](code), [200](code), [201](code), [203](code), [209](code), [219](code), [221](code), [222](code), [235](code), [236](code), [242](code), [244](code), [245](code), [256](code), [266](code), [279](code), [286](code), [288](code), [292](code), [296](code), [301](code), [308](code), [325](code), [328](code), [334](code)

新投稿 (47)

[1] On Solving the Multiple Variable Gapped Longest Common Subsequence Problem

arXiv: 2604.18645
Authors: Marko Djukanović, Nikola Balaban, Christian Blum, Aleksandar Kartelj, Sašo Džeroski, Žiga Zebec
Subjects: cs.AI
Tags: Optimization, Algorithm Selection
Summary: 本文研究了可变间隙最长公共子序列(VGLCS)问题，提出了一种基于根状态图表示的搜索框架，采用迭代束搜索策略来处理组合爆炸问题，在320个合成实例上验证了方法的有效性。

[2] Beyond One Output: Visualizing and Comparing Distributions of Language Model Generations

arXiv: 2604.18724
Authors: Emily Reif, Claire Yang, Jared Hwang, Deniz Nazar, Noah Smith, Jeff Heer
Subjects: cs.AI
Tags: LLM Evaluation, Data Visualization, Interpretability
Summary: 本文介绍了GROVE交互式可视化工具，将多个语言模型生成结果表示为文本图中的重叠路径，帮助用户理解语言模型输出的分布结构，如模式、边缘情况和提示敏感性。

[3] ARES: Adaptive Red-Teaming and End-to-End Repair of Policy-Reward System

arXiv: 2604.18789
Authors: Jiacheng Liang, Yao Ma, Tharindu Kumarage, Satyapriya Krishna, Rahul Gupta, Kai-Wei Chang, Aram Galstyan, Charith Peris
Subjects: cs.AI; cs.CR; cs.LG
Tags: LLM Alignment, RLHF, AI Safety
Venue: ACL 2026
Summary: 本文提出ARES框架，通过自适应红队测试发现并修复LLM和奖励模型的联合漏洞，采用两阶段修复过程增强RLHF系统的安全对齐，同时保持模型能力。

[4] AI scientists produce results without reasoning scientifically

arXiv: 2604.18805
Authors: Martiño Ríos-García, Nawaf Alampara, Chandan Gupta, Indrajeet Mandal, Sajid Mannan, Ali Asghar Aghajani, N. M. Anoop Krishnan, Kevin Maik Jablonka
Subjects: cs.AI; cs.LG
Tags: LLM Reasoning, Scientific Reasoning, LLM Evaluation
Summary: 本文评估了基于LLM的科学代理在八个领域中的表现，发现它们执行工作流但缺乏科学推理的认识论模式，68%的轨迹中忽略了证据，仅26%出现反驳驱动的信念修正。

[5] Quantum inspired qubit qutrit neural networks for real time financial forecasting

arXiv: 2604.18838
Authors: Kanishk Bakshi, Kathiravan Srinivasan
Subjects: cs.AI
Tags: Quantitative Finance, Quantum Computing, Neural Architecture
Venue: Scientific Reports 2025
Summary: 本文比较了人工神经网络、量子量子位神经网络和量子量子三能级神经网络在股票预测中的表现，发现QQTN在风险调整收益、预测一致性和训练效率方面均优于其他模型。

[6] Human-Guided Harm Recovery for Computer Use Agents

arXiv: 2604.18847
Authors: Christy Li, Sky CH-Wang, Andi Peng, Andreea Bobu
Subjects: cs.AI; cs.CL
Tags: LLM Agent, AI Safety, Benchmark
Summary: 本文形式化了计算机使用代理的伤害恢复问题，引入BackBench基准测试和基于人类偏好的奖励模型来重新排序恢复计划，提高了恢复轨迹的质量。

[7] From Natural Language to Executable Narsese: A Neuro-Symbolic Benchmark and Pipeline for Reasoning with NARS

arXiv: 2604.18873
Authors: Mina Gabriel, Pei Wang
Subjects: cs.AI
Tags: Neurosymbolic AI, Benchmark, Logical Reasoning
Summary: 本文提出了一个神经符号框架，将自然语言推理问题转换为可执行的Narsese程序，引入NARS-Reasoning-v0.1基准测试和语言结构感知方法来支持更可靠的推理。

[8] How Adversarial Environments Mislead Agentic AI?

arXiv: 2604.18874
Authors: Zhonghao Zhan, Huichi Zhou, Zhenhao Li, Peiyuan Jing, Krinos Li, Hamed Haddadi
Subjects: cs.AI
Tags: LLM Agent, Adversarial Robustness, LLM Security
Venue: ACL 2026
Summary: 本文识别了工具集成代理的信任缺口，形式化了对抗性环境注入攻击，并引入POTEMKIN框架测试代理对环境欺骗的鲁棒性，发现认知鲁棒性和导航鲁棒性是不同的能力。

[9] Formally Verified Patent Analysis via Dependent Type Theory: Machine-Checkable Certificates from a Hybrid AI + Lean 4 Pipeline

arXiv: 2604.18882
Authors: George Koomullil
Subjects: cs.AI; cs.LO; cs.PL
Tags: Legal AI, Formal Methods, Patent Analysis
Summary: 本文提出了一个基于Lean 4的形式化验证专利分析框架，将权利要求编码为DAG结构，为专利映射、自由实施和权利要求解释敏感性等IP分析任务提供机器可验证的证书。

[10] Error-free Training for MedMNIST Datasets

arXiv: 2604.18916
Authors: Bo Deng
Subjects: cs.AI
Tags: Medical Imaging, Medical AI
Summary: 本文引入人工专用智能概念，使分类问题的机器学习模型能够无错误训练，在18个MedMNIST生物医学数据集中的15个上实现了完美训练。

[11] AutomationBench

arXiv: 2604.18934
Authors: Daniel Shepard, Robin Salimans
Subjects: cs.AI
Tags: Benchmark, LLM Agent, Software Engineering
Summary: 本文引入AutomationBench基准测试，用于评估AI代理通过REST API进行跨应用工作流编排的能力，涵盖销售、营销、运营等多个业务领域，当前最佳模型得分低于10%。

[12] Personalized Benchmarking: Evaluating LLMs by Individual Preferences

arXiv: 2604.18943
Authors: Cristina Garbacea, Heran Wang, Chenhao Tan
Subjects: cs.AI; cs.CL; cs.HC; cs.IR; cs.LG
Tags: LLM Evaluation, LLM Personalization, Benchmark
Venue: ACL 2026
Summary: 本文证明了聚合基准测试无法捕捉个体偏好，提出基于用户查询主题和风格特征的个性化基准测试方法，发现个体模型排名与聚合排名差异显著。

[13] Reasoning Structure Matters for Safety Alignment of Reasoning Models

arXiv: 2604.18946
Authors: Yeonjun In, Wonjoong Kim, Sangwu Park, Chanyoung Park
Subjects: cs.AI
Tags: LLM Alignment, LLM Reasoning, AI Safety
Venue: ACL 2026
Summary: 本文发现大型推理模型的安全风险源于推理结构本身，提出AltTrain方法通过监督微调改变推理结构来实现安全对齐，仅需1K训练样本即可在多个骨干模型上取得良好效果。

[14] DW-Bench: Benchmarking LLMs on Data Warehouse Graph Topology Reasoning

arXiv: 2604.18964
Authors: Ahmed G.A.H Ahmed, C. Okan Sakar
Subjects: cs.AI; cs.DB
Tags: Benchmark, Graph Learning, LLM Reasoning
Summary: 本文引入DW-Bench基准测试，评估LLM在数据仓库模式上的图拓扑推理能力，包含外键和数据血缘边，共1,046个可验证正确的问题。

[15] SAVOIR: Learning Social Savoir-Faire via Shapley-based Reward Attribution

arXiv: 2604.18982
Authors: Xiachong Feng, Yi Jiang, Xiaocheng Feng, Deyi Yin, Libo Qin, Yangfan Ye, Lei Huang, Weitao Ma, Yuxuan Gu, Chonghan Qin, Bing Qin, Lingpeng Kong
Subjects: cs.AI
Tags: Social Reasoning, Reinforcement Learning, Dialogue System
Venue: ACL 2026
Summary: 本文提出SAVOIR框架，基于合作博弈论中的Shapley值解决社交强化学习中的信用分配问题，在SOTOPIA基准测试上达到最先进性能，7B模型匹配或超越GPT-4o等专有模型。

[16] On Accelerating Grounded Code Development for Research

arXiv: 2604.19022
Authors: Santosh Ganji
Subjects: cs.AI
Tags: Code Generation, RAG, Scientific Computing
Summary: 本文提出了一个框架，使编码代理能够即时访问研究代码库和技术文档，实现实时上下文感知操作，加速AI编码代理在专业科学和技术工作流中的集成。

[17] Plausible Reasoning and First-Order Plausible Logic

arXiv: 2604.19036
Authors: David Billington
Subjects: cs.AI; cs.LO
Tags: Logical Reasoning, Knowledge Representation
Summary: 本文提出了一种不使用概率或数值的可废止推理方法，定义了17个推理原则，并构建了一个满足这些原则的一阶可废止逻辑系统PL，该系统包含8种推理算法以处理不同的合理推理场景。

[18] Learning Lifted Action Models from Unsupervised Visual Traces

arXiv: 2604.19043
Authors: Kai Xi, Stephen Gould, Sylvie Thiébaux
Subjects: cs.AI
Tags: Automated Planning, Self-Supervised Learning
Venue: ICAPS 2026
Summary: 本文提出了一种从无监督视觉轨迹中学习提升动作模型的深度学习框架，结合混合整数线性规划来保证预测的逻辑一致性，在多个领域展示了有效性。

[19] Reinforcement Learning Improves LLM Accuracy and Reasoning in Disease Classification from Radiology Reports

arXiv: 2604.19060
Authors: Yishu Wei, Yi Lin, Adam Flanders, George Shih, Yifan Peng
Subjects: cs.AI
Tags: Medical AI, LLM Reasoning, Reinforcement Learning
Summary: 本文提出了一种两阶段方法，先进行监督微调再使用GRPO强化学习优化，在放射学报告疾病分类任务中同时提升了分类准确性和推理能力。

[20] OLLM: Options-based Large Language Models

arXiv: 2604.19087
Authors: Shashank Sharma, Janina Hoffmann, Vinay Namboodiri
Subjects: cs.AI
Tags: LLM Reasoning, LLM Inference
Summary: 本文提出了OLLM方法，将标准LLM的单一token预测替换为一组可学习的选项，通过低维潜在空间的策略学习来增强数学推理的可控性和鲁棒性。

[21] Towards Scalable Lifelong Knowledge Editing with Selective Knowledge Suppression

arXiv: 2604.19089
Authors: Dahyun Jung, Jaewook Lee, Heuiseok Lim
Subjects: cs.AI
Tags: Knowledge Editing
Summary: 本文提出了LightEdit框架，通过选择性知识抑制和解码策略来实现可扩展的终身知识编辑，在多个基准测试上超越了现有方法并降低了训练成本。

[22] Has Automated Essay Scoring Reached Sufficient Accuracy? Deriving Achievable QWK Ceilings from Classical Test Theory

arXiv: 2604.19131
Authors: Masaki Uto
Subjects: cs.AI
Tags: LLM Evaluation, Education Technology
Venue: AIED 2026
Summary: 本文基于经典测试理论的信度概念推导了自动作文评分的理论上限和类人上限，为AES模型的性能评估和部署标准提供了清晰的参考框架。

[23] Reasoning-Aware AIGC Detection via Alignment and Reinforcement

arXiv: 2604.19172
Authors: Zhao Wang, Max Xiong, Jianxun Lian, Zhicheng Dou
Subjects: cs.AI
Tags: AI-Generated Text Detection, LLM Reasoning
Summary: 本文提出了REVEAL框架，通过生成可解释的推理链来检测AI生成内容，采用监督微调和强化学习两阶段训练策略，在多个基准测试上达到了最先进的性能。

[24] ClawNet: Human-Symbiotic Agent Network for Cross-User Autonomous Cooperation

arXiv: 2604.19211
Authors: Zhiqin Yang, Zhenyuan Zhang, Xianzhang Jia, Jun Song, Wei Xue, Yonggang Zhang, Yike Guo
Subjects: cs.AI
Tags: Multi-Agent System, LLM Agent
Summary: 本文提出了ClawNet框架，通过分层身份架构、范围授权和操作级问责三个治理原语，实现了跨用户代理协作的安全身份绑定和授权验证。

[25] UAF: A Unified Audio Front-end LLM for Full-Duplex Speech Interaction

arXiv: 2604.19221
Authors: Yadong Li, Guoxin Wu, Haiping Hou, Biye Li
Subjects: cs.AI; cs.SD; eess.AS
Tags: Speech Processing, Dialogue System
Summary: 本文提出了首个面向全双工语音系统的统一音频前端LLM，将语音活动检测、话轮转换检测、说话人识别和语音识别等任务统一为自回归序列预测问题。

[26] Industrial Surface Defect Detection via Diffusion Generation and Asymmetric Student-Teacher Network

arXiv: 2604.19240
Authors: Shuo Feng, Runlin Zhou, Yuyang Li, Guangcan Liu
Subjects: cs.AI
Tags: Anomaly Detection, Diffusion Model
Summary: 本文提出了一种结合扩散模型和非对称师生网络的无监督缺陷检测方法，通过生成高质量缺陷样本和联合优化策略，在MVTecAD数据集上取得了显著的性能提升。

[27] Explicit Trait Inference for Multi-Agent Coordination

arXiv: 2604.19278
Authors: Suhaib Abdurahman, Etsuko Ishii, Katerina Margatina, Divya Bhargavi, Monica Sunkara, Yi Zhang
Subjects: cs.AI; cs.MA
Tags: Multi-Agent System, LLM Agent
Summary: 本文提出了显式特质推断方法，使代理能够从交互历史中推断合作伙伴的温暖度和能力特质，在多种多代理场景中显著提升了协调性能。

[28] Large Language Models Exhibit Normative Conformity

arXiv: 2604.19301
Authors: Mikako Bito, Keita Nishimoto, Kimitaka Asatani, Ichiro Sakata
Subjects: cs.AI; cs.MA; cs.NE
Tags: Multi-Agent System, Social Reasoning
Summary: 本文引入社会心理学中信息性从众和规范性从众的区分，通过实验证明多个LLM不仅表现出信息性从众，还表现出规范性从众，揭示了LLM多代理系统决策可能面临的操纵风险。

[29] Do Agents Dream of Root Shells? Partial-Credit Evaluation of LLM Agents in Capture The Flag Challenges

arXiv: 2604.19354
Authors: Ali Al-Kaswan, Maksim Plotnikov, Maxim Hájek, Roland Vízner, Arie van Deursen, Maliheh Izadi
Subjects: cs.AI; cs.CR; cs.SE
Tags: Cybersecurity, LLM Agent, Benchmark
Venue: AIWare 2026 Workshop
Summary: 本文提出了DeepRed基准测试，通过引入基于检查点的部分评分方法，在真实CTF挑战中评估LLM代理的网络安全能力，发现当前代理在非标准发现和长程适应任务上表现较弱。

[30] Towards Energy Impact on AI-Powered 6G IoT Networks: Centralized vs. Decentralized

arXiv: 2604.19377
Authors: Anjie Qiu, Donglin Wang, Sanket Partani, Andreas Weinand, Hans D. Schotten
Subjects: cs.AI
Tags: IoT, Energy Efficiency
Venue: GLOBECOM 2025 Workshop
Summary: 本文分析了集中式和分布式机器学习架构在6G物联网中的能耗差异，发现分布式模型在保持约90%预测准确率的同时可降低高达70%的电力消耗。

[31] GRASPrune: Global Gating for Budgeted Structured Pruning of Large Language Models

arXiv: 2604.19398
Authors: Ziyang Wang, Jiangfeng Xiao, Chuan Xiao, Ruoxiang Li, Rui Mao, Jianbin Qin
Subjects: cs.AI
Tags: Model Compression, LLM Inference
Venue: ACL 2026
Summary: 本文提出了GRASPRune结构化剪枝框架，通过全局门控机制在单一预算下联合剪枝FFN通道和KV头组，在LLaMA-2-7B上移除50%参数后仍保持竞争性能。

[32] Four-Axis Decision Alignment for Long-Horizon Enterprise AI Agents

arXiv: 2604.19457
Authors: Vasundra Srininvasan
Subjects: cs.AI
Tags: LLM Agent, LLM Alignment
Code: code
Summary: 本文提出了长程企业代理决策行为的四轴对齐评估框架，包括事实精度、推理连贯性、合规重建和校准弃权四个正交维度，揭示了现有记忆架构的失败模式。

[33] Do LLMs Game Formalization? Evaluating Faithfulness in Logical Reasoning

arXiv: 2604.19459
Authors: Kyuhee Kim, Auguste Poiroux, Antoine Bosselut
Subjects: cs.AI; cs.CL; cs.LO
Tags: LLM Reasoning, Logical Reasoning, Formal Methods
Venue: ICLR 2026 Workshop
Code: code
Summary: 本文研究大语言模型在逻辑推理中是否存在”形式化博弈”行为，即利用有效证明与忠实翻译之间的差距。实验发现GPT-5和DeepSeek-R1在统一生成模式下没有系统性博弈行为，但两阶段流程揭示了两种不同的不忠实模式。

[34] CoDA: Towards Effective Cross-domain Knowledge Transfer via CoT-guided Domain Adaptation

arXiv: 2604.19488
Authors: Jianzhi Yan, Le Liu, Buzhou Tang, Yang Xiang, Dongning Sun, Zhiming Li
Subjects: cs.AI
Tags: Domain Adaptation, LLM Reasoning, Transfer Learning
Summary: 本文提出CoDA方法，通过轻量级适配器和思维链引导的表示蒸馏实现跨领域知识迁移，结合MMD进行核化分布匹配，在多个逻辑推理任务上显著优于现有方法。

[35] From Experience to Skill: Multi-Agent Generative Engine Optimization via Reusable Strategy Learning

arXiv: 2604.19516
Authors: Beining Wu, Fuyou Mao, Jiong Lin, Cheng Yang, Jiaxuan Lu, Yifu Guo, Siyu Zhang, Yifan Wu, Ying Huang, Fu Li
Subjects: cs.AI
Tags: Multi-Agent System, Information Retrieval, LLM Agent
Venue: ACL 2026 Findings
Code: code
Summary: 本文将生成引擎优化(GEO)重构为策略学习问题，提出MAGEO多智能体框架，通过可复用策略学习实现跨任务和引擎的知识积累与迁移，在三个主流引擎上显著优于启发式基线。

[36] SimDiff: Depth Pruning via Similarity and Difference

arXiv: 2604.19520
Authors: Yuli Chen, Shuhao Zhang, Fanshen Meng, Bo Cheng, Jiale Han, Qiang Tong, Xiulei Liu
Subjects: cs.AI
Tags: Model Compression, LLM Inference
Summary: 本文提出SimDiff方法，从表示相似性和变换差异两个正交角度联合评估层重要性，实现大语言模型的深度剪枝，在多种模型规模上显著优于现有方法并保持91%以上性能。

[37] Revac: A Social Deduction Reasoning Agent

arXiv: 2604.19523
Authors: Mihir Shriniwas Arya, Avinash Anish, Aditya Ranjan
Subjects: cs.AI
Tags: LLM Agent, Game AI, Social Reasoning
Summary: 本文介绍Revac-8，一个为社交推理游戏(如狼人杀)设计的AI智能体，整合了记忆式玩家画像、社交图分析和动态语气选择，在MindGames Arena竞赛中获得第一名。

[38] Integrating Anomaly Detection into Agentic AI for Proactive Risk Management in Human Activity

arXiv: 2604.19538
Authors: Farbod Zorriassatine, Ahmad Lotfi
Subjects: cs.AI; cs.HC; cs.MA
Tags: Anomaly Detection, LLM Agent, Healthcare Monitoring
Summary: 本文提出将跌倒检测和预测建模为异常检测问题，通过智能体AI系统动态选择工具并集成到自适应决策工作流中，实现主动风险管理。

[39] DT2IT-MRM: Debiased Preference Construction and Iterative Training for Multimodal Reward Modeling

arXiv: 2604.19544
Authors: Zhihong Zhang, Jie Zhao, Xiaojian Huang, Jin Xu, Zhuodong Luo, Xin Liu, Jiansheng Wei, Xuejin Chen
Subjects: cs.AI
Tags: RLHF, Multimodal Learning, Vision-Language Model
Code: code
Summary: 本文提出DT2IT-MRM框架，整合去偏好的构建流程、文本到图像偏好数据重构和迭代训练框架，在三个主要基准上达到多模态奖励模型的新最先进性能。

[40] Enhancing Construction Worker Safety in Extreme Heat: A Machine Learning Approach Utilizing Wearable Technology for Predictive Health Analytics

arXiv: 2604.19559
Authors: Syed Sajid Ullah, Amir Khan
Subjects: cs.AI; cs.CL; cs.LG
Tags: Wearable Computing, Healthcare Monitoring, Time Series Forecasting
Summary: 本研究开发并评估深度学习模型(LSTM和注意力LSTM)用于预测建筑工人的热应激，使用可穿戴设备监测生理指标，注意力模型达到95.40%的测试准确率。

[41] Detecting Data Contamination in Large Language Models

arXiv: 2604.19561
Authors: Juliusz Janicki, Savvas Chamezopoulos, Evangelos Kanoulas, Georgios Tsatsaronis
Subjects: cs.AI
Tags: LLM Security, Privacy, Data Poisoning
Summary: 本文研究黑盒成员推理攻击(MIA)在检测大语言模型数据污染方面的有效性，发现现有方法无法可靠检测成员身份，AUC-ROC约为0.5。

[42] Multi-modal Reasoning with LLMs for Visual Semantic Arithmetic

arXiv: 2604.19567
Authors: Chuou Xu, Liya Ji, Qifeng Chen
Subjects: cs.AI
Tags: Vision-Language Model, LLM Reasoning, Reinforcement Learning
Summary: 本文提出语义算术强化微调(SAri-RFT)方法，用于增强视觉语言模型的跨模态关系推理能力，并构建了Image-Relation-Pair数据集进行基准测试。

[43] AblateCell: A Reproduce-then-Ablate Agent for Virtual Cell Repositories

arXiv: 2604.19606
Authors: Xue Xia, Chengkai Yao, Mingyu Tsoi, Xinjie Mao, Wenxuan Huang, Jiaqi Wei, Hao Wu, Cheng Tan, Lang Yu, Yuejin Yang, Siqi Sun, Zhangyang Gao
Subjects: cs.AI; cs.MA
Tags: LLM Agent, Bioinformatics, Scientific Computing
Summary: 本文提出AblateCell智能体，用于虚拟细胞代码库的系统消融实验，能够端到端复现基线结果并自适应选择实验进行组件重要性验证，成功率比人类专家高29.9%。

[44] Time Series Augmented Generation for Financial Applications

arXiv: 2604.19633
Authors: Anton Kolonin, Alexey Glushchenko, Evgeny Bochkov, Abhishek Saxena
Subjects: cs.AI; cs.CE
Tags: Time Series Analysis, LLM Agent, Financial AI
Summary: 本文提出时间序列增强生成(TSAG)框架，用于评估大语言模型智能体在金融时间序列分析中的推理能力，通过工具选择准确性和幻觉评估验证智能体性能。

[45] SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models

arXiv: 2604.19638
Authors: Josue Torres-Fonseca, Naihao Deng, Yinpei Dai, Shane Storks, Yichi Zhang, Rada Mihalcea, Casey Kennington, Joyce Chai
Subjects: cs.AI; cs.CL; cs.RO
Tags: Vision-Language Model, AI Safety, Embodied AI
Venue: ACL 2026 Findings
Code: code
Summary: 本文构建SafetyALFRED基准，评估多模态大语言模型在具身环境中的安全意识规划能力，发现模型在问答场景中能识别危险但在主动缓解方面存在显著差距。

[46] A Dual Perspective on Synthetic Trajectory Generators: Utility Framework and Privacy Vulnerabilities

arXiv: 2604.19653
Authors: Aya Cherigui, Florent Guépin, Arnaud Legendre, Jean-François Couchot
Subjects: cs.AI
Tags: Privacy, Generative Model, Trajectory Prediction
Summary: 本文提出合成轨迹生成器的效用评估框架，并揭示隐私评估的挑战，提出新的成员推理攻击方法来评估生成模型的隐私漏洞。

[47] A-MAR: Agent-based Multimodal Art Retrieval for Fine-Grained Artwork Understanding

arXiv: 2604.19689
Authors: Shuai Wang, Hongyi Zhu, Jia-Hong Huang, Yixian Shen, Chengxi Zeng, Stevan Rudinac, Monika Kackovic, Nachoem Wijnberg, Marcel Worring
Subjects: cs.AI
Tags: Vision-Language Model, LLM Agent, Information Retrieval
Code: code
Summary: 本文提出A-MAR框架，通过结构化推理计划条件化检索，实现艺术品的多模态理解和解释，并引入ArtCoT-QA诊断基准进行评估。

跨领域投稿 (141)

[48] Modelling and Analysing Behaviours and Emotions via Complex User Interactions

arXiv: 1902.07683 (cross-listed)
Authors: Mohamed Mostafa
Subjects: cs.HC; cs.AI
Tags: Affective Computing, User Profiling, Social Network Analysis
Summary: 本博士论文提出一个概念框架，基于从社交媒体文本中提取的人格特质和情感来预测系统状态，填补数字画像与系统状态映射理解的空白。

[49] Who Shapes Brazil's Vaccine Debate? Semi-Supervised Modeling of Stance and Polarization in YouTube's Media Ecosystem

arXiv: 2604.18586 (cross-listed)
Authors: Geovana S. de Oliveira, Ana P. C. Silva, Fabricio Murai, Carlos H. G. Ferreira
Subjects: cs.CY; cs.AI; cs.CL; cs.LG; cs.SI
Tags: Semi-Supervised Learning, Stance Detection, Social Network Analysis
Venue: WebSci 2026
Summary: 该研究对巴西YouTube上的疫苗讨论进行了最大规模的纵向分析，利用半监督立场检测框架对近140万条评论进行分类，揭示了支持和反疫苗叙事的演变规律以及极化现象。

[50] Compile to Compress: Boosting Formal Theorem Provers by Compiler Outputs

arXiv: 2604.18587 (cross-listed)
Authors: Guchan Li, Rui Tian, Hongning Wang
Subjects: cs.LG; cs.AI; cs.LO; cs.PL
Tags: Automated Theorem Proving, LLM Reasoning
Summary: 该研究提出了一种学习优化框架，利用编译器将多样化的证明尝试映射到紧凑的结构化失败模式，通过局部错误纠正和显式验证器反馈来提升形式化定理证明的效率和性能。

[51] CentaurTA Studio: A Self-Improving Human-Agent Collaboration System for Thematic Analysis

arXiv: 2604.18589 (cross-listed)
Authors: Lei Wang, Min Huang, Eduard Dragut
Subjects: cs.HC; cs.AI
Tags: Human-Computer Interaction, LLM Agent
Summary: CentaurTA Studio是一个用于主题分析的人机协作系统，集成了两阶段人类反馈流程、持久化提示优化和基于评分标准的评估机制，在开放编码和主题构建任务中达到了92.12%的准确率。

[52] SPRITE: From Static Mockups to Engine-Ready Game UI

arXiv: 2604.18591 (cross-listed)
Authors: Yunshu Bai, RuiHao Li, Hao Zhang, Chien Her Lim, Ming Yan, Mengtian Li
Subjects: cs.HC; cs.AI
Tags: UI Generation, Vision-Language Model
Venue: CHI 2026
Summary: SPRITE是一个将静态截图转换为可编辑引擎资产的流水线，通过整合视觉语言模型和结构化YAML中间表示来处理游戏界面中不规则的几何形状和深层视觉层次结构。

[53] Two-dimensional early exit optimisation of LLM inference

arXiv: 2604.18592 (cross-listed)
Authors: Jan Hůla, David Adamczyk, Tomáš Filip, Martin Pavlíček, Petr Sosík
Subjects: cs.CL; cs.AI
Tags: LLM Inference, Early Exit
Summary: 该研究提出了一种二维早退策略，通过协调层级和句子级退出机制来优化大语言模型分类任务的推理效率，在情感分类任务上实现了1.4-2.3倍的额外加速。

[54] Thermal Anomaly Detection using Physics Aware Neuromorphic Networks: Comparison between Raw and L1C Sentinel-2 Data

arXiv: 2604.18606 (cross-listed)
Authors: Stephen Smith, Cormac Purcell, Gabriele Meoni, Roberto Del Prete, Zdenka Kuncic
Subjects: eess.SP; cs.AI
Tags: Neuromorphic Computing, Anomaly Detection, Remote Sensing
Summary: 该研究提出了一种物理感知神经形态网络框架用于星载热异常检测，在原始Sentinel-2数据上实现了0.809的MCC，处理延迟低于卫星采集时间，证明了实时星载处理的可行性。

[55] TurboEvolve: Towards Fast and Robust LLM-Driven Program Evolution

arXiv: 2604.18607 (cross-listed)
Authors: Yang Yang, Zining Zhong, Jindong Li, Jiemin Wu, Kaishen Yuan, Wenshuo Chen, Menglin Yang, Yutao Yue
Subjects: cs.NE; cs.AI
Tags: Evolutionary Computation, Program Synthesis
Summary: TurboEvolve是一个多岛屿进化框架，通过语言化采样和种子池注入等技术提高LLM驱动程序进化的样本效率和鲁棒性，在多个程序优化基准测试中取得了更好的性能。

[56] SpikeMLLM: Spike-based Multimodal Large Language Models via Modality-Specific Temporal Scales and Temporal Compression

arXiv: 2604.18610 (cross-listed)
Authors: Han Xu, Zhiyong Qin, Di Shang, Jiahong Zhang, Xuerui Qiu, Bo Lei, Tiejun Huang, Bo Xu, Guoqi Li
Subjects: cs.NE; cs.AI
Tags: Neuromorphic Computing, Vision-Language Model, Model Compression
Summary: SpikeMLLM是首个基于脉冲的多模态大语言模型框架，通过模态特定时间尺度和时间压缩技术，在保持近无损性能的同时实现了显著的时间步压缩，并开发了专用RTL加速器实现9.06倍吞吐量提升。

[57] Neuromorphic Continual Learning for Sequential Deployment of Nuclear Plant Monitoring Systems

arXiv: 2604.18611 (cross-listed)
Authors: Samrendra Roy, Sajedul Talukder, Syed Bahauddin Alam
Subjects: cs.NE; cs.AI; cs.LG
Tags: Neuromorphic Computing, Continual Learning, Anomaly Detection
Summary: 该研究提出了首个用于核工业控制系统异常检测的脉冲神经网络持续学习系统，通过尖峰编码异步传感器融合和混合EWC+回放方法，在保持高检测性能的同时实现了12.6倍的操作减少。

[58] Agent-GWO: Collaborative Agents for Dynamic Prompt Optimization in Large Language Models

arXiv: 2604.18612 (cross-listed)
Authors: Xudong Wang, Chaoning Zhang, Chenghao Li, Shuxu Chen, Qigan Sun, Jiaquan Zhang, Fachrina Dewi Puspitasari, Tae-Ho Kim, Jiwei Wei, Malu Zhang, Guoqing Wang, Yang Yang, Heng Tao Shen
Subjects: cs.NE; cs.AI; cs.LG
Tags: Prompt Engineering, LLM Agent, Optimization
Venue: ACL 2026
Summary: Agent-GWO是一个动态提示优化框架，利用灰狼优化器的领导者-跟随者机制自动选择领导者代理来指导协作更新，在多个数学和混合推理基准测试中持续提升了准确性和稳定性。

[59] ARGUS: Agentic GPU Optimization Guided by Data-Flow Invariants

arXiv: 2604.18616 (cross-listed)
Authors: Haohui Mai, Xiaoyan Guo, Xiangyun Ding, Daifeng Li, Qiuchu Yu, Chenzhun Guo, Cong Wang, Jiacheng Zhao, Christos Kozyrakis, Binhang Yuan
Subjects: cs.DC; cs.AI; cs.PL
Tags: GPU Computing, LLM Agent, Code Generation
Summary: ARGUS是一个基于数据流不变量的GPU优化智能体框架，通过编译时规范和抽象解释实现零运行时开销的约束验证，在AMD MI300X GPU上生成的内核达到了手写优化汇编99-104%的吞吐量。

[60] NeuroAI and Beyond: Bridging Between Advances in Neuroscience and ArtificialIntelligence

arXiv: 2604.18637 (cross-listed)
Authors: Anthony Zador, Jean-Marc Fellous, Terrence Sejnowski, Gina Adam, James B Aimone, Akwasi Akwaboah, Yiannis Aloimonos, Carmen Amo Alonso, Chiara Bartolozzi, Michael J. Bennington, Michael Berry, Bing W. Brunton, Gert Cauwenberghs, Hillel J. Chiel, Tobi Delbruck, John Doyle, Jason Eshraghian, Ralph Etienne-Cummings, Cornelia Fermuller, Matthew Jacobsen, Ali A. Minai, Barbara Oakley, Alexander G. Ororbia II, Joe Paton, Blake Richards, Yulia Sandamirskaya, Abhronil Sengupta, Shihab Shamma, Michael P. Stryker, Seong Jong Yoo, Steven W. Zucker
Subjects: q-bio.NC; cs.AI; cs.CY
Tags: Neuromorphic Computing, Neuroscience, Cognitive Science
Summary: 该论文基于NSF研讨会，识别了当前AI在物理世界交互、学习和能效方面的三大能力差距，提出了神经科学启发的AI研究路线图，包括身体-控制器协同设计、多尺度学习和稀疏事件驱动计算等原则。

[61] Easy Samples Are All You Need: Self-Evolving LLMs via Data-Efficient Reinforcement Learning

arXiv: 2604.18639 (cross-listed)
Authors: Zhiyin Yu, Bo Zhang, Qibin Hou, Zhonghai Wu, Xiao Luo, Lei Bai
Subjects: cs.LG; cs.AI
Tags: Reinforcement Learning, Data Selection, LLM Training
Venue: ACL 2026
Summary: EasyRL是一种模拟人类认知获取曲线的自进化框架，通过少量简单标注数据的监督强化学习和渐进式分治伪标签策略，仅用10%的简单标注数据就在数学和科学基准测试中超越了最先进基线。

[62] FASE : A Fairness-Aware Spatiotemporal Event Graph Framework for Predictive Policing

arXiv: 2604.18644 (cross-listed)
Authors: Pronob Kumar Barman, Pronoy Kumar Barman, Plaban Kumar Barman, Rohan Mandar Salvi
Subjects: cs.LG; cs.AI
Tags: Fairness, Graph Neural Network, Predictive Policing
Summary: FASE是一个公平感知时空事件图框架，将时空犯罪预测与公平约束巡逻分配相结合，通过人口影响比约束来缓解预测性警务中的种族差异问题，揭示了仅在分配层面施加公平约束无法消除反馈诱导偏差。

[63] DanceCrafter: Fine-Grained Text-Driven Controllable Dance Generation via Choreographic Syntax

arXiv: 2604.18648 (cross-listed)
Authors: Hang Yuan, Xiaolin Hu, Yan Wan, Menglin Gao, Wenzhe Yu, Cong Huang, Fei Xu, Qing Li, Christina Dan Wang, Zhou Yu, Kai Chen
Subjects: cs.CV; cs.AI
Tags: Motion Synthesis, Text-to-Motion, Generative Model
Summary: DanceCrafter是一个文本驱动的可控舞蹈生成系统，提出了编舞语法理论框架并构建了最细粒度的舞蹈数据集DanceFlow，通过动量人体骨架和连续流形运动表示实现了高保真复杂舞蹈序列的稳定生成。

[64] Position: No Retroactive Cure for Infringement during Training

arXiv: 2604.18649 (cross-listed)
Authors: Satoru Utsunomiya, Masaru Isonuma, Junichiro Mori, Ichiro Sakata
Subjects: cs.CR; cs.AI
Tags: AI Ethics, AI Governance
Summary: 该论文论证了机器遗忘和推理时防护等事后缓解方法无法追溯性地消除非法获取和训练产生的责任，因为合规性取决于数据谱系而非输出，主张从事后净化转向可验证的事前流程合规。

[65] From Craft to Kernel: A Governance-First Execution Architecture and Semantic ISA for Agentic Computers

arXiv: 2604.18652 (cross-listed)
Authors: Xiangyu Wen, Yuang Zhao, Xiaoyu Xu, Lingjun Chen, Changran Xu, Shu Chi, Jianrong Ding, Zeju Li, Haomin Li, Li Jiang, Fangxin Liu, Qiang Xu
Subjects: cs.CR; cs.AI
Tags: LLM Agent, LLM Security, AI Safety
Code: code
Summary: 本文提出Arbiter-K，一种治理优先的执行架构，将LLM封装为概率处理单元并由确定性神经符号内核管理，通过语义指令集架构实现安全上下文跟踪和不安全轨迹拦截。

[66] Unlocking the Edge deployment and ondevice acceleration of multi-LoRA enabled one-for-all foundational LLM

arXiv: 2604.18655 (cross-listed)
Authors: Sravanth Kodavanti, Sowmya Vajrala, Srinivas Miriyala, Utsav Tiwari, Uttam Kumar, Utkarsh Kumar Mahawar, Achal Pratap Singh, Arya D, Narendra Mutyala, Vikram Nelvoy Rajendiran, Sharan Kumar Allur, Euntaik Lee, Dohyoung Kim, HyeonSu Lee, Gyusung Cho, JungBae Kim
Subjects: cs.DC; cs.AI; cs.CL
Tags: LLM Inference, Edge Computing, Model Compression
Venue: ACL 2026
Summary: 本文提出了一种硬件感知框架，用于在智能手机上高效部署多LoRA多语言基础模型，通过多流解码和动态自推测解码技术实现4-6倍的内存和延迟优化。

[67] Owner-Harm: A Missing Threat Model for AI Agent Safety

arXiv: 2604.18658 (cross-listed)
Authors: Dongcheng Zhang, Yiqing Jiang
Subjects: cs.CR; cs.AI; cs.CL
Tags: LLM Agent, LLM Security, AI Safety
Summary: 本文提出Owner-Harm威胁模型，识别AI代理损害部署者的八类行为，并揭示现有防御在通用犯罪危害检测与所有者危害检测之间存在显著差距。

[68] Evaluating Answer Leakage Robustness of LLM Tutors against Adversarial Student Attacks

arXiv: 2604.18660 (cross-listed)
Authors: Jin Zhao, Marta Knežević, Tanja Käser
Subjects: cs.CR; cs.AI
Tags: LLM Security, Education Technology, Adversarial Robustness
Venue: ACL 2026
Summary: 本文研究对抗性学生攻击下LLM教育辅导员的答案泄露鲁棒性，提出微调的对抗性学生代理作为评估辅导员鲁棒性的标准化基准。

[69] Beyond Explicit Refusals: Soft-Failure Attacks on Retrieval-Augmented Generation

arXiv: 2604.18663 (cross-listed)
Authors: Wentao Zhang, Yan Zhuang, ZhuHang Zheng, Mingfei Zhang, Jiawen Deng, Fuji Ren
Subjects: cs.CR; cs.AI
Tags: RAG, Adversarial Robustness, LLM Security
Venue: ACL 2026
Summary: 本文提出软失败攻击概念，通过DEJA框架生成对抗性文档诱导RAG系统产生流畅但无信息的响应，实现高隐蔽性的可用性攻击。

[70] Curiosity-Critic: Cumulative Prediction Error Improvement as a Tractable Intrinsic Reward for World Model Training

arXiv: 2604.18701 (cross-listed)
Authors: Vin Bhaskara, Haicheng Wang
Subjects: cs.LG; cs.AI; stat.ML
Tags: World Model, Reinforcement Learning, Model-Based RL
Summary: 本文引入Curiosity-Critic内在奖励机制，通过累积预测误差改进来指导世界模型训练，有效分离认知不确定性和随机不确定性。

[71] Characterizing AlphaEarth Embedding Geometry for Agentic Environmental Reasoning

arXiv: 2604.18715 (cross-listed)
Authors: Mashrekur Rahman, Samuel J. Barrett, Christina Last
Subjects: cs.CL; cs.AI
Tags: LLM Agent, Representation Learning, Remote Sensing
Summary: 本文刻画了Google AlphaEarth嵌入的非欧几里得流形几何特性，并开发了具有九种专用工具的代理系统用于环境推理任务。

[72] Towards Optimal Agentic Architectures for Offensive Security Tasks

arXiv: 2604.18718 (cross-listed)
Authors: Isaac David, Arthur Gervais
Subjects: cs.CR; cs.AI
Tags: LLM Agent, Cybersecurity, Multi-Agent System
Summary: 本文实证评估了不同多代理架构在攻击性安全任务中的表现，发现拓扑选择显著影响检测率和成本效率，白盒访问优于黑盒。

[73] Skillful Global Ocean Emulation and the Role of Correlation-Aware Loss

arXiv: 2604.18727 (cross-listed)
Authors: Niraj Agarwal, Timothy A. Smith, Sergey Frolov, Laura C. Slivinski
Subjects: cs.AI; nlin.CD
Tags: Weather Forecasting, Graph Neural Network, Simulation
Summary: 本文将GraphCast架构适配用于全球海洋动力学模拟，证明马氏距离损失通过考虑目标变量趋势间的相关性可提高预测技能。

[74] The Cost of Relaxation: Evaluating the Error in Convex Neural Network Verification

arXiv: 2604.18728 (cross-listed)
Authors: Merkouris Papamichail, Konstantinos Varsos, Giorgos Flouris, João Marques-Silva
Subjects: cs.LG; cs.AI
Tags: Formal Methods, Adversarial Robustness, Interpretability
Summary: 本文从理论和实验角度研究神经网络验证中凸松弛与原始网络的最坏情况偏差，发现该距离随网络深度指数增长、随输入半径线性增长。

[75] Beyond Coefficients: Forecast-Necessity Testing for Interpretable Causal Discovery in Nonlinear Time-Series Models

arXiv: 2604.18751 (cross-listed)
Authors: Valentina Kuskova, Dmitry Zaytsev, Michael Coppedge
Subjects: cs.LG; cs.AI; stat.ME
Tags: Causal Inference, Time Series Forecasting, Interpretability
Summary: 本文提出预测必要性测试方法用于解释非线性时间序列模型中的因果关系，通过民主发展案例研究展示相似因果分数的关系在预测必要性上可能差异巨大。

[76] Handling and Interpreting Missing Modalities in Patient Clinical Trajectories via Autoregressive Sequence Modeling

arXiv: 2604.18753 (cross-listed)
Authors: Andrew Wang, Ellie Pavlick, Ritambhara Singh
Subjects: cs.LG; cs.AI
Tags: Medical AI, Multimodal Learning, Time Series Analysis
Summary: 本文将临床诊断重构为自回归序列建模任务，引入缺失感知对比预训练目标，在MIMIC-IV和eICU基准上超越基线模型。

[77] Towards Understanding the Robustness of Sparse Autoencoders

arXiv: 2604.18756 (cross-listed)
Authors: Ahson Saiyed, Sabrina Sadiekh, Chirag Agarwal
Subjects: cs.LG; cs.AI; cs.CL; cs.CR
Tags: LLM Security, Interpretability, Adversarial Robustness
Summary: 本文研究将预训练稀疏自编码器集成到Transformer残差流中以增强对越狱攻击的鲁棒性，发现攻击成功率可降低5倍，并揭示了稀疏度与鲁棒性之间的剂量响应关系。

[78] REVEAL: Multimodal Vision-Language Alignment of Retinal Morphometry and Clinical Risks for Incident AD and Dementia Prediction

arXiv: 2604.18757 (cross-listed)
Authors: Seowung Leem, Lin Gu, Chenyu You, Kuang Gong, Ruogu Fang
Subjects: cs.CV; cs.AI
Tags: Medical AI, Vision-Language Model, Multimodal Learning
Venue: MIDL 2026
Summary: 本文提出REVEAL框架，通过组感知对比学习将视网膜眼底照片与临床风险档案对齐，用于预测阿尔茨海默病和痴呆症。

[79] Multi-Level Temporal Graph Networks with Local-Global Fusion for Industrial Fault Diagnosis

arXiv: 2604.18765 (cross-listed)
Authors: Bibek Aryal, Gift Modekwe, Qiugang Lu
Subjects: cs.LG; cs.AI
Tags: Fault Tolerance, Graph Neural Network, Industrial Monitoring
Summary: 本文提出结构感知的多级时序图网络用于工业故障诊断，通过动态图构建和多级池化机制捕获局部和全局传感器关系。

[80] Experiments or Outcomes? Probing Scientific Feasibility in Large Language Models

arXiv: 2604.18786 (cross-listed)
Authors: Seyedali Mohammadi, Manas Gaur, Francis Ferraro
Subjects: cs.CL; cs.AI
Tags: Scientific Reasoning, LLM Evaluation, LLM Reasoning
Venue: ACL 2026
Summary: 本文评估LLM在不同知识条件下进行科学可行性评估的能力，发现提供结果证据比提供实验描述更能可靠地提高准确性。

[81] HELM: Harness-Enhanced Long-horizon Memory for Vision-Language-Action Manipulation

arXiv: 2604.18791 (cross-listed)
Authors: Zijian Zeng, Fei Ding, Huiming Yang, Xianwei Li
Subjects: cs.LG; cs.AI
Tags: Robotics, Vision-Language Model, Memory Architecture
Summary: 本文针对视觉-语言-动作(VLA)模型在长程操作任务上的失败问题，提出了HELM框架，通过情景记忆模块、状态验证器和线束控制器三个组件解决记忆缺口、验证缺口和恢复缺口问题，在LIBERO-LONG上相比OpenVLA提升23.1个百分点。

[82] LLM-as-Judge Framework for Evaluating Tone-Induced Hallucination in Vision-Language Models

arXiv: 2604.18803 (cross-listed)
Authors: Zhiyuan Jiang, Weihao Hong, Xinlei Guan, Tejaswi Dhandu, Miles Q. Li, Meng Xu, Kuan Huang, Umamaheswara Rao Tida, Bingyu Shen, Daehan Kwak, Boyang Li
Subjects: cs.CV; cs.AI
Tags: LLM Hallucination, Vision-Language Model, LLM Evaluation
Summary: 本文提出了Ghost-100基准测试，用于评估视觉语言模型在渐进式强制提示下的幻觉行为，发现幻觉率和强度在不同任务类型和模型间呈现差异化响应模式，部分模型在中等语气强度下表现出非单调敏感性。

[83] Geometric Decoupling: Diagnosing the Structural Instability of Latent

arXiv: 2604.18804 (cross-listed)
Authors: Yuanbang Liang, Zhengwen Chen, Yu-Kun Lai
Subjects: cs.CV; cs.AI
Tags: Diffusion Model, Interpretability
Summary: 本文引入黎曼几何框架分析潜在扩散模型的潜在空间不稳定性，通过分解生成雅可比矩阵的几何特性，发现OOD生成中极端曲率被浪费在不稳定的语义边界上，识别出”几何热点”作为不稳定性的结构根源。

[84] Curvature-Aware PCA with Geodesic Tangent Space Aggregation for Semi-Supervised Learning

arXiv: 2604.18816 (cross-listed)
Authors: Alexandre L. M. Levada
Subjects: cs.LG; cs.AI
Tags: Semi-Supervised Learning, Representation Learning
Summary: 本文提出了GTSA-PCA方法，将曲率感知和测地一致性整合到统一谱框架中，通过曲率加权的局部协方差算子和测地对齐算子实现几何感知的降维，在小样本和高曲率场景下优于传统PCA和图方法。

[85] OmniMouse: Scaling properties of multi-modal, multi-task Brain Models on 150B Neural Tokens

arXiv: 2604.18827 (cross-listed)
Authors: Konstantin F. Willeke, Polina Turishcheva, Alex Gilbert, Goirik Chakrabarty, Hasan A. Bedel, Paul G. Fahey, Yongrong Qiu, Marissa A. Weis, Michaela Vystrčilová, Taliah Muhammad, Lydia Ntanavara, Rachel E. Froebe, Kayla Ponder, Zheng Huan Tan, Emin Orhan, Erick Cobos, Sophia Sanborn, Katrin Franke, Fabian H. Sinz, Alexander S. Ecker, Andreas S. Tolias
Subjects: q-bio.NC; cs.AI
Tags: Neuroscience, Multimodal Learning, Foundation Model
Venue: ICLR 2026
Code: code
Summary: 本文利用来自73只小鼠视觉皮层的1500亿神经token训练多模态多任务模型，发现性能随数据量可靠增长但模型规模增益趋于饱和，这与AI领域的标准缩放规律相反，表明大脑建模仍受数据限制。

[86] Semantic Needles in Document Haystacks: Sensitivity Testing of LLM-as-a-Judge Similarity Scoring

arXiv: 2604.18835 (cross-listed)
Authors: Sinan G. Aksoy, Alexandra A. Sabrio, Erik VonKaenel, Lee Burke
Subjects: cs.CL; cs.AI; cs.LG
Tags: LLM Evaluation, Long Context
Summary: 本文提出了一个系统性探测LLM语义相似度评分敏感性的框架，发现LLM存在文档内位置偏见、主题无关上下文会系统性降低相似度分数、以及各模型产生稳定但独特的评分分布指纹等规律。

[87] One Step Forward and K Steps Back: Better Reasoning with Denoising Recursion Models

arXiv: 2604.18839 (cross-listed)
Authors: Chris Cameron, Wangzheng Wang, Nikita Ivanov, Ashmita Bhattacharyya, Didier Chételat, Yingxue Zhang
Subjects: cs.LG; cs.AI
Tags: LLM Reasoning, Generative Model
Summary: 本文提出了去噪递归模型方法，通过训练模型在多个递归步骤中逆转噪声损坏来提供中间状态的课程学习，在ARC-AGI基准上优于Tiny Recursion Model。

[88] The Triadic Loop: A Framework for Negotiating Alignment in AI Co-hosted Livestreaming

arXiv: 2604.18850 (cross-listed)
Authors: Katherine Wang, Nadia Berthouze, Aneesha Singh
Subjects: cs.HC; cs.AI; cs.SI
Tags: LLM Alignment, Multi-Agent System
Venue: CHI 2026 Workshop
Summary: 本文提出了三元循环框架，将AI联合直播中的对齐重新概念化为主播、AI联合主持和观众三方之间的双向适应过程，提出”战略性错位”作为维持社区参与的机制。

[89] Temporal UI State Inconsistency in Desktop GUI Agents: Formalizing and Defending Against TOCTOU Attacks on Computer-Use Agents

arXiv: 2604.18860 (cross-listed)
Authors: Wenpeng Xu
Subjects: cs.CR; cs.AI
Tags: GUI Automation, LLM Security, Adversarial Robustness
Summary: 本文识别了GUI代理中的TOCTOU漏洞，提出了三层防御机制PUSV，在180次对抗试验中实现100%动作拦截率且零误报，揭示了不同攻击原语需要不同检测信号。

[90] Human-Machine Co-Boosted Bug Report Identification with Mutualistic Neural Active Learning

arXiv: 2604.18862 (cross-listed)
Authors: Guoming Long, Shihai Wang, Hui Fang, Tao Chen
Subjects: cs.SE; cs.AI
Tags: Active Learning, Software Engineering, Bug Triaging
Venue: TOSEM
Summary: 本文提出了MNAL框架，结合神经语言模型和主动学习进行跨项目的bug报告自动识别，通过人机互惠关系增强协作，在可读性和可识别性方面分别减少95.8%和196.0%的工作量。

[91] Hierarchically Robust Zero-shot Vision-language Models

arXiv: 2604.18867 (cross-listed)
Authors: Junhao Dong, Yifei Zhang, Hao Zhu, Yew-Soon Ong, Piotr Koniusz
Subjects: cs.CV; cs.AI; cs.LG
Tags: Vision-Language Model, Adversarial Robustness, Zero-Shot Learning
Venue: CVPR 2026
Summary: 本文提出了基于层次嵌入的对抗性微调框架，通过多层次的图文对抗鲁棒对齐来增强视觉语言模型的鲁棒性，在多个数据集上验证了方法的有效性。

[92] Where Fake Citations Are Made: Tracing Field-Level Hallucination to Specific Neurons in LLMs

arXiv: 2604.18880 (cross-listed)
Authors: Yuefei Chen, Yihao Quan, Xiaodong Lin, Ruixiang Tang
Subjects: cs.CL; cs.AI
Tags: LLM Hallucination, Interpretability
Summary: 本文研究了LLM中引用幻觉的神经元级定位，发现作者名字字段幻觉最频繁，通过弹性网络正则化识别出特定领域的幻觉神经元，抑制这些神经元可跨领域提升性能。

[93] A Proxy Consistency Loss for Grounded Fusion of Earth Observation and Location Encoders

arXiv: 2604.18881 (cross-listed)
Authors: Zhongying Wang, Kevin Lane, Levi Cai, Morteza Karimzadeh, Esther Rolf
Subjects: cs.CV; cs.AI
Tags: Remote Sensing, Transfer Learning
Venue: CVPR 2026 Workshop
Summary: 本文提出了代理一致性损失(PCL)方法，通过可训练的位置编码器将代理变量整合到地理先验中，在空气质量预测和贫困制图任务上优于直接融合策略。

[94] Choose Your Own Adventure: Non-Linear AI-Assisted Programming with EvoGraph

arXiv: 2604.18883 (cross-listed)
Authors: Vassilios Exarhakos, Jinghui Cheng, Jin L.C. Guo
Subjects: cs.HC; cs.AI; cs.SE
Tags: Code Generation, Human-Computer Interaction
Summary: 本文提出了EvoGraph IDE插件，将AI辅助编程交互和代码变更表示为轻量级的交互式开发图，支持开发者比较、合并和回溯先前的协作编程状态，用户研究表明其降低了认知负荷。

[95] Regulating Artificial Intimacy: From Locks and Blocks to Relational Accountability

arXiv: 2604.18893 (cross-listed)
Authors: Henry Fraser, Jessica M. Szczuka, Raffaele F. Ciriello
Subjects: cs.CY; cs.AI; cs.ET
Tags: AI Ethics, AI Safety, Dialogue System
Summary: 本文批判性审视了针对陪伴聊天机器人的监管干预，认为有效监管需要整合访问控制、内容审核和问责措施，并建议引入一般性的注意义务来约束提供商权力。

[96] Harmful Intent as a Geometrically Recoverable Feature of LLM Residual Streams

arXiv: 2604.18901 (cross-listed)
Authors: Isaac Llorente-Saguer
Subjects: cs.LG; cs.AI; cs.CL
Tags: LLM Security, Interpretability, LLM Alignment
Code: code
Summary: 本文证明了有害意图可以从LLM残差流中几何恢复，在12个模型上验证了线性探测和角度偏差策略的有效性，发现有害意图检测在对齐变体间保持稳定，与拒绝行为功能解耦。

[97] Gradient-Based Program Synthesis with Neurally Interpreted Languages

arXiv: 2604.18907 (cross-listed)
Authors: Matthew V. Macfarlane, Clément Bonnet, Herke van Hoof, Levi H. S. Lelis
Subjects: cs.LG; cs.AI
Tags: Program Synthesis, Neurosymbolic AI
Venue: ICLR
Summary: 本文提出神经语言解释器(NLI)，一种能够端到端学习自身离散符号化编程语言的架构，结合了符号方法的组合泛化能力与神经网络的梯度优化优势。通过Gumbel-Softmax松弛技术实现离散程序结构的可微分训练，支持测试时通过梯度下降进行程序优化。

[98] MORPHOGEN: A Multilingual Benchmark for Evaluating Gender-Aware Morphological Generation

arXiv: 2604.18914 (cross-listed)
Authors: Mehul Agarwal, Aditya Aggarwal, Arnav Goel, Medha Hira, Anubha Gupta
Subjects: cs.CL; cs.AI; cs.LG
Tags: LLM Evaluation, Benchmark, Multilingual Learning
Venue: ACL 2026
Summary: 本文提出MORPHOGEN基准数据集，用于评估法语、阿拉伯语和印地语三种语法性别语言中的性别感知生成能力。核心任务GENFORM要求模型在保持语义和结构的同时将第一人称句子改写为相反性别，揭示了当前多语言LLM在形态学性别处理上的显著差距。

[99] Tadabur: A Large-Scale Quran Audio Dataset

arXiv: 2604.18932 (cross-listed)
Authors: Faisal Alherran
Subjects: cs.SD; cs.AI
Tags: Speech Processing, Dataset, Linguistic Resource
Summary: 本文发布Tadabur大规模古兰经音频数据集，包含超过1400小时的诵读音频，来自600多位不同的诵读者，涵盖多种诵读风格、声音特征和录音条件。该数据集显著扩展了古兰经语音数据的规模和多样性，为古兰经语音研究和标准化基准开发提供支持。

[100] Gated Memory Policy

arXiv: 2604.18933 (cross-listed)
Authors: Yihuai Gao, Jinyun Liu, Shuang Li, Shuran Song
Subjects: cs.RO; cs.AI
Tags: Robotics, Memory Architecture, Reinforcement Learning
Summary: 本文提出门控记忆策略(GMP)，一种视觉运动策略，能够学习何时调用记忆以及调用什么内容。通过学习的记忆门机制选择性激活历史上下文，并引入轻量级交叉注意力模块构建有效的潜在记忆表示，在非马尔可夫任务上相比长历史基线提升30.1%成功率。

[101] Fine-Tuning Small Reasoning Models for Quantum Field Theory

arXiv: 2604.18936 (cross-listed)
Authors: Nathaniel S. Woodward, Zhiqi Gao, Yurii Kvasiuk, Kendrick M. Smith, Frederic Sala, Moritz Münchmeyer
Subjects: cs.LG; cs.AI
Tags: LLM Reasoning, Scientific Reasoning, Fine-Tuning
Summary: 本文首次对专门针对理论物理的7B参数推理模型进行微调研究，以量子场论(QFT)为主要领域，生成了2500多个合成问题和人工改编问题。通过RL和SFT实验分析推理错误的演变规律，并公开数据管道和约2亿token的QFT推理轨迹。

[102] Assessing Capabilities of Large Language Models in Social Media Analytics: A Multi-task Quest

arXiv: 2604.18955 (cross-listed)
Authors: Ramtin Davoudi, Kartik Thakkar, Nazanin Donyapour, Tyler Derr, Hamid Karimi
Subjects: cs.CL; cs.AI; cs.SI
Tags: LLM Evaluation, Social Network Analysis, Benchmark
Summary: 本文对现代LLM在社交媒体分析任务上进行了全面评估，包括作者验证、帖子生成和用户属性推断三个核心任务。研究引入系统采样框架和用户研究，建立了可复现的LLM驱动社交媒体分析基准。

[103] Distillation Traps and Guards: A Calibration Knob for LLM Distillability

arXiv: 2604.18963 (cross-listed)
Authors: Weixiao Zhan, Yongcheng Jing, Leszek Rutkowski, Dacheng Tao
Subjects: cs.LG; cs.AI
Tags: Knowledge Distillation, LLM Security
Summary: 本文揭示了知识蒸馏中的多个陷阱（尾部噪声、离策略不稳定性、教师-学生差距），并提出一种后校准方法，首次通过强化微调控制教师的可蒸馏性。该方法既能提升蒸馏效果，又能作为模型知识产权保护的实用工具。

[104] Self-Improving Tabular Language Models via Iterative Group Alignment

arXiv: 2604.18966 (cross-listed)
Authors: Yunbo Long, Tejumade Afonja, Alexandra Brintrup, Mario Fritz
Subjects: cs.LG; cs.AI
Tags: Tabular Learning, Data Synthesis
Summary: 本文提出TabGRAA框架，首个通过自动反馈实现表格数据生成自改进的方法。每轮迭代使用自动质量信号将生成样本分为高低质量组，优化组相对优势目标，在保真度、效用和隐私方面超越现有方法。

[105] Low-Rank Adaptation for Critic Learning in Off-Policy Reinforcement Learning

arXiv: 2604.18978 (cross-listed)
Authors: Yuan Zhuang, Yuexin Bian, Sihong He, Jie Feng, Qing Su, Songyang Han, Jonathan Petit, Shihao Ji, Yuanyuan Shi, Fei Miao
Subjects: cs.LG; cs.AI
Tags: Reinforcement Learning, Parameter-Efficient Fine-Tuning
Summary: 本文将低秩适应(LoRA)作为离策略强化学习中评论家的结构稀疏正则化器，通过冻结随机初始化的基矩阵仅优化低秩适配器，将评论家更新约束在低维子空间。在DeepMind Control和IsaacLab基准上实现更低的评论家损失和更强的策略性能。

[106] AutoAWG: Adverse Weather Generation with Adaptive Multi-Controls for Automotive Videos

arXiv: 2604.18993 (cross-listed)
Authors: Jiagao Hu, Daiguo Zhou, Danzhen Fu, Fuhao Li, Zepeng Wang, Fei Wang, Wenhua Liao, Jiayi Xie, Haiyang Sun
Subjects: cs.CV; cs.AI; cs.MM
Tags: Autonomous Driving, Video Generation, Diffusion Model
Venue: ICMR 2026
Code: code
Summary: 本文提出AutoAWG框架，用于自动驾驶场景的可控恶劣天气视频生成。采用语义引导的自适应多控制融合和消失点锚定的时间合成策略，在nuScenes验证集上FID和FVD分别相对降低50.0%和16.1%。

[107] $R^2$-dLLM: Accelerating Diffusion Large Language Models via Spatio-Temporal Redundancy Reduction

arXiv: 2604.18995 (cross-listed)
Authors: Zhenbang Du, Kejing Xia, Xinrui Zhong, Yonggan Fu, Nicolai Oswald, Binfei Ji, Brucek Khailany, Pavlo Molchanov, Yingyan Lin
Subjects: cs.CL; cs.AI; cs.LG
Tags: LLM Inference, Diffusion Model
Summary: 本文提出R²-dLLM框架，通过减少空间和时间冗余来加速扩散大语言模型。引入无需训练的解码规则聚合局部置信度并锁定时间稳定的token，结合冗余感知监督微调管道，将解码步数减少高达75%同时保持生成质量。

[108] Decompose, Structure, and Repair: A Neuro-Symbolic Framework for Autoformalization via Operator Trees

arXiv: 2604.19000 (cross-listed)
Authors: Xiaoyang Liu, Zineng Dong, Yifan Bai, Yantao Li, Yuntian Liu, Tao Luo
Subjects: cs.LG; cs.AI
Tags: Autoformalization, Neurosymbolic AI, Benchmark
Summary: 本文提出DSR神经符号框架，将自动形式化重构为模块化流程：将语句分解为逻辑组件并映射到结构化算子树，通过子树精炼精确局部化和修复错误。同时引入PRIME基准，包含156个Lean 4标注的本科和研究生级定理。

[109] FedProxy: Federated Fine-Tuning of LLMs via Proxy SLMs and Heterogeneity-Aware Fusion

arXiv: 2604.19015 (cross-listed)
Authors: Tao Fan, Guoqiang Ma, Yuanfeng Song, Lixin Fan, Kai Chen, Qiang Yang
Subjects: cs.LG; cs.AI
Tags: Federated Learning, LLM Training
Summary: 本文提出FedProxy联邦适应框架，用从专有LLM压缩的代理小语言模型替代弱适配器进行协作微调。通过三阶段架构系统解决知识产权保护、客户端隐私和异构数据性能损失的三难问题，显著优于现有离线调优方法。

[110] Local Linearity of LLMs Enables Activation Steering via Model-Based Linear Optimal Control

arXiv: 2604.19018 (cross-listed)
Authors: Julian Skifstad, Xinyue Annie Yang, Glen Chou
Subjects: cs.LG; cs.AI; eess.SY; math.OC; stat.ML
Tags: LLM Alignment, LLM Inference
Code: code
Summary: 本文发现Transformer层动态可被局部线性模型良好近似，据此将LLM推理建模为线性时变动力系统，采用线性二次调节器计算反馈控制器实现闭环激活引导。在毒性、真实性、拒绝等概念调控上达到最先进效果。

[111] Intentional Updates for Streaming Reinforcement Learning

arXiv: 2604.19033 (cross-listed)
Authors: Arsalan Sharifnassab, Mohamed Elsayed, Kris De Asis, A. Rupam Mahmood, Richard S. Sutton
Subjects: cs.LG; cs.AI
Tags: Reinforcement Learning, Optimization, Streaming Learning
Summary: 本文提出流式强化学习的意图更新方法，首先指定更新的预期结果，然后求解近似实现该结果的步长。结合资格迹和对角缩放，在流式设置下达到与批量和经验回放方法相当的最先进性能。

[112] RARE: Redundancy-Aware Retrieval Evaluation Framework for High-Similarity Corpora

arXiv: 2604.19047 (cross-listed)
Authors: Hanjun Cho, Jay-Yoon Lee
Subjects: cs.CL; cs.AI; cs.IR
Tags: RAG, Benchmark, Information Retrieval
Venue: ACL 2026
Summary: 本文提出RARE框架，用于构建考虑文档冗余的现实RAG评估基准，应用于金融、法律和专利语料库。引入RedQA基准，揭示强检索基线在4跳深度上性能从66.4%骤降至5.0-27.9%，暴露了现有基准未能捕捉的鲁棒性差距。

[113] SAMoRA: Semantic-Aware Mixture of LoRA Experts for Task-Adaptive Learning

arXiv: 2604.19048 (cross-listed)
Authors: Boyan Shi, Wei Chen, Shuyuan Zhao, Junfeng Shen, Shengnan Guo, Shaojiang Wang, Huaiyu Wan
Subjects: cs.CL; cs.AI
Tags: Parameter-Efficient Fine-Tuning, Mixture-of-Experts, Multi-Task Learning
Venue: ACL 2026 Findings
Code: code
Summary: 本文提出了SAMoRA框架，将混合专家与LoRA结合用于参数高效微调。该框架引入语义感知路由器实现精确的专家路由，并设计任务自适应缩放机制动态调节专家贡献，在多任务学习场景中显著优于现有方法。

[114] Refute-or-Promote: An Adversarial Stage-Gated Multi-Agent Review Methodology for High-Precision LLM-Assisted Defect Discovery

arXiv: 2604.19049 (cross-listed)
Authors: Abhinav Agarwal
Subjects: cs.CR; cs.AI; cs.SE
Tags: Multi-Agent System, Vulnerability Detection, LLM Agent
Code: code
Summary: 本文提出了一种对抗性多智能体审查方法论，用于LLM辅助的缺陷发现，通过分层上下文搜索和跨模型批评者过滤假阳性。该方法在31天的实验中实现了约79-83%的假阳性剔除率，发现了多个CVE和编译器缺陷。

[115] Product-of-Experts Training Reduces Dataset Artifacts in Natural Language Inference

arXiv: 2604.19069 (cross-listed)
Authors: Aby Mammen Mathew
Subjects: cs.CL; cs.AI
Tags: Bias Mitigation, Natural Language Understanding
Summary: 本文提出Product-of-Experts训练方法，通过降低有偏模型过度自信样本的权重来减少NLI模型对数据集伪影的过拟合。该方法在保持准确率的同时将偏差依赖降低了4.71%。

[116] S2MAM: Semi-supervised Meta Additive Model for Robust Estimation and Variable Selection

arXiv: 2604.19072 (cross-listed)
Authors: Xuelin Zhang, Hong Chen, Yingjie Wang, Tieliang Gong, Bin Gu
Subjects: cs.LG; cs.AI; stat.ML
Tags: Semi-Supervised Learning, Feature Selection
Summary: 本文提出了一种半监督元加性模型，通过双层优化方案自动识别信息变量、更新相似性矩阵并实现可解释预测。该方法在合成和真实数据集上验证了其鲁棒性和可解释性。

[117] Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization

arXiv: 2604.19079 (cross-listed)
Authors: Andrei Andrusenko, Vladimir Bataev, Lilit Grigoryan, Nune Tadevosyan, Vitaly Lavrukhin, Boris Ginsburg
Subjects: eess.AS; cs.AI; cs.CL; cs.HC
Tags: Speech Recognition, Test-Time Adaptation
Summary: 本文提出了一种统一的ASR Transducer训练框架，支持单个模型同时进行离线和流式解码。通过引入模式一致性正则化，有效缩小了离线与流式性能差距，同时保持离线性能并支持更大模型规模。

[118] ProjLens: Unveiling the Role of Projectors in Multimodal Model Safety

arXiv: 2604.19083 (cross-listed)
Authors: Kun Wang, Cheng Qian, Miao Yu, Lilan Peng, Liang Lin, Jiaming Zhang, Tianyu Zhang, Yu Cheng, Yang Wang
Subjects: cs.CR; cs.AI
Tags: Vision-Language Model, Backdoor Detection, Interpretability
Summary: 本文提出了ProjLens解释性框架，用于揭示多模态大语言模型中后门攻击的机制。研究发现后门关键参数编码在投影器的低秩子空间中，且干净和中毒嵌入都会向后门目标方向发生语义偏移。

[119] RoboWM-Bench: A Benchmark for Evaluating World Models in Robotic Manipulation

arXiv: 2604.19092 (cross-listed)
Authors: Feng Jiang, Yang Chen, Kyle Xu, Yuchen Liu, Haifeng Wang, Zhenhao Shen, Jasper Lu, Shengze Huang, Yuanfei Wang, Chen Xie, Ruihai Wu
Subjects: cs.RO; cs.AI
Tags: World Model, Robotics, Benchmark
Summary: 本文引入了RoboWM-Bench基准，用于评估机器人操作中的视频世界模型。该基准将生成的行为转换为可执行的动作序列并通过机器人执行验证，揭示了当前模型在空间推理、接触预测和物理一致性方面的不足。

[120] Multi-modal Test-time Adaptation via Adaptive Probabilistic Gaussian Calibration

arXiv: 2604.19093 (cross-listed)
Authors: Jinglin Xu, Yi Li, Chuxiong Sun, Xiao Xu, Jiangmeng Li, Fanjiang Xu
Subjects: cs.CV; cs.AI
Tags: Test-Time Adaptation, Multimodal Learning
Code: code
Summary: 本文提出了一种针对多模态测试时适应的概率高斯模型，显式建模类别条件分布。通过自适应对比不对称校正技术抵消模态分布不对称的影响，在多种分布偏移场景下实现了最先进性能。

[121] SAHM: A Benchmark for Arabic Financial and Shari'ah-Compliant Reasoning

arXiv: 2604.19098 (cross-listed)
Authors: Rania Elbadry, Sarfraz Ahmad, Ahmed Heakl, Dani Bouch, Momina Ahsan, Muhra AlMahri, Marwa Elsaid khalil, Yuxia Wang, Salem Lahlou, Sophia Ananiadou, Veselin Stoyanov, Jimin Huang, Xueqing Peng, Preslav Nakov, Zhuohan Xie
Subjects: cs.CL; cs.AI; cs.LG
Tags: Financial AI, Benchmark, Multilingual Learning
Summary: 本文引入了SAHM基准和指令微调数据集，用于阿拉伯语金融NLP和伊斯兰教法合规推理。该数据集包含14,380个专家验证实例，涵盖七个任务，评估显示模型在生成和因果推理任务上存在明显不足。

[122] Relational AI in Education: Reciprocity, Participatory Design, and Indigenous Worldviews

arXiv: 2604.19099 (cross-listed)
Authors: Roberto Martinez-Maldonado, Vanessa Echeverria, Jenna Hawes, YJ Kim, Zara Maddigan, Mikaela Milesi, Todd Nelson, Yi-Shan Tsai
Subjects: cs.HC; cs.AI
Tags: Education Technology, AI Ethics, Human-Computer Interaction
Summary: 本文将教育AI重构为关系设计问题，借鉴原住民世界观和参与式设计，主张AI应支持与他人共同学习而非替代人类互动。文章提出了互惠性AI教育的设计方向，包括何时不应使用AI以及如何定义教学边界。

[123] Multi-Gait Learning for Humanoid Robots Using Reinforcement Learning with Selective Adversarial Motion Prior

arXiv: 2604.19102 (cross-listed)
Authors: Yuanye Wu, Keyi Wang, Linqi Ye, Boyang Xing
Subjects: cs.RO; cs.AI
Tags: Robotics, Reinforcement Learning, Imitation Learning
Summary: 本文提出了一种选择性对抗运动先验的多步态学习方法，使仿人机器人掌握五种不同步态。该方法对稳定性关键的步态应用AMP加速收敛，而对动态步态则省略AMP以避免过度约束，通过零样本仿真到真实迁移实现部署。

[124] Reinforcement Learning Enabled Adaptive Multi-Task Control for Bipedal Soccer Robots

arXiv: 2604.19104 (cross-listed)
Authors: Yulai Zhang, Yinrong Zhang, Ting Wu, Linqi Ye
Subjects: cs.RO; cs.AI
Tags: Robotics, Reinforcement Learning, Multi-Task Learning
Summary: 本文提出了一种模块化强化学习框架，用于双足足球机器人的自适应多任务控制。该框架结合开环前馈振荡器与RL反馈残差策略，并引入姿态驱动状态机实现寻球踢球与跌倒恢复之间的无缝切换。

[125] Design Rules for Extreme-Edge Scientific Computing on AI Engines

arXiv: 2604.19106 (cross-listed)
Authors: Zhenghua Ma, G Abarajithan, Dimitrios Danopoulos, Olivia Weng, Francesco Restuccia, Ryan Kastner
Subjects: cs.AR; cs.AI; cs.LG
Tags: Edge Computing, Hardware Acceleration, FPGA
Summary: 本文为极端边缘科学计算提供了在AI引擎与可编程逻辑上实现神经网络的系统设计规则。研究引入了延迟调整资源等价度量，并提出了针对低延迟科学推理的空间和API级数据流优化。

[126] Think Before Writing: Feature-Level Multi-Objective Optimization for Generative Citation Visibility

arXiv: 2604.19113 (cross-listed)
Authors: Zikang Liu, Peilan Xu
Subjects: cs.IR; cs.AI
Tags: Information Retrieval, Optimization, LLM Evaluation
Summary: 本文提出了FeatGEO框架，通过特征级多目标优化提升生成式答案引擎中的引用可见性。该方法将网页抽象为可解释的结构、内容和语言属性，在保持或提升内容质量的同时显著提高引用可见性。

[127] DP-FlogTinyLLM: Differentially private federated log anomaly detection using Tiny LLMs

arXiv: 2604.19118 (cross-listed)
Authors: Isaiah Thompson, Tanmay Sen, Ritwik Bhattacharya
Subjects: cs.CR; cs.AI
Tags: Federated Learning, Anomaly Detection, Differential Privacy
Summary: 本文提出了一种隐私保护的联邦日志异常检测框架，使用参数高效的Tiny LLM和LoRA进行微调。该方法将联邦优化与差分隐私相结合，在保护数据隐私的同时达到了集中式LLM方法的性能。

[128] The Rise of Verbal Tics in Large Language Models: A Systematic Analysis Across Frontier Models

arXiv: 2604.19139 (cross-listed)
Authors: Shuai Wu, Xue Li, Yanna Feng, Yufang Li, Zhijun Wang, Ran Wang
Subjects: cs.CL; cs.AI
Tags: LLM Evaluation, LLM Alignment
Summary: 本文系统分析了八个前沿大语言模型中的语言习惯现象，基于16万条响应引入了语言习惯指数VTI。研究发现模型间存在显著差异，且恭维性与感知自然度呈强负相关，揭示了当前训练范式的对齐代价。

[129] ST-Prune: Training-Free Spatio-Temporal Token Pruning for Vision-Language Models in Autonomous Driving

arXiv: 2604.19145 (cross-listed)
Authors: Lin Sha, Haiyun Guo, Tao Wang, Cong Zhang, Min Huang, Jinqiao Wang, Qinghai Miao
Subjects: cs.CV; cs.AI
Tags: Vision-Language Model, Autonomous Driving, Model Compression
Summary: 本文提出了ST-Prune，一种无需训练的即插即用时空token剪枝框架，用于自动驾驶中的视觉语言模型。该框架通过运动感知时间剪枝(MTP)和环形视图空间剪枝(RSP)两个模块，在90%token减少率下实现近乎无损的性能。

[130] Nexusformer: Nonlinear Attention Expansion for Stable and Inheritable Transformer Scaling

arXiv: 2604.19147 (cross-listed)
Authors: Weijie Zhao, Mingquan Liu, Bolun Wang, Simo Wu, Nuobei Xie, Rui-Jie Zhu, Peng Zhou
Subjects: cs.LG; cs.AI
Tags: Transformer Architecture, Pre-training
Summary: 本文提出了Nexusformer，用Nexus-Rank层替代线性Q/K/V投影，实现非线性映射，使Transformer能够无损结构化增长。实验表明，在渐进式扩展中，Nexusformer使用最多41.5%更少的训练计算量即可达到与Tokenformer相当的困惑度。

[131] How Do Answer Tokens Read Reasoning Traces? Self-Reading Patterns in Thinking LLMs for Quantitative Reasoning

arXiv: 2604.19149 (cross-listed)
Authors: Haoyang Chen, Yi Liu, Jianzhi Shao, Tao Zhang, Chengfu Huo, Wei Hu
Subjects: cs.CL; cs.AI
Tags: LLM Reasoning, Interpretability
Venue: ACL 2026
Summary: 本文分析了思维型LLM在定量推理中答案token如何读取推理轨迹，发现了一种良性的自读模式，表现为阅读焦点沿推理轨迹向前漂移并持续关注关键语义锚点。作者提出了基于自读质量(SRQ)分数的无训练引导方法，实现了持续的准确率提升。

[132] LBLLM: Lightweight Binarization of Large Language Models via Three-Stage Distillation

arXiv: 2604.19167 (cross-listed)
Authors: Siqing Song, Chuang Wang, Yong Lang, Yi Yang, Xu-Yao Zhang
Subjects: cs.LG; cs.AI
Tags: Model Compression, Knowledge Distillation, Quantization
Summary: 本文提出了LBLLM，一个轻量级二值化框架，通过三阶段蒸馏策略实现有效的W(1+1)A4量化。该框架解耦了权重和激活量化，仅使用0.016B tokens在单GPU上训练，在语言建模、常识QA和语言理解任务上超越了现有最先进的二值化方法。

[133] SCURank: Ranking Multiple Candidate Summaries with Summary Content Units for Enhanced Summarization

arXiv: 2604.19185 (cross-listed)
Authors: Bo-Jyun Wang, Ying-Jia Lin, Hung-Yu Kao
Subjects: cs.CL; cs.AI
Tags: Summarization, Knowledge Distillation
Venue: ACL 2026
Code: code
Summary: 本文提出了SCURank框架，利用摘要内容单元(SCU)来增强摘要任务中的候选排序。该方法基于信息内容的丰富度和语义重要性评估摘要，在多LLM蒸馏中优于传统指标和基于LLM的排序方法。

[134] Inductive Subgraphs as Shortcuts: Causal Disentanglement for Heterophilic Graph Learning

arXiv: 2604.19186 (cross-listed)
Authors: Xiangmeng Wang, Qian Li, Haiyang Xia, Hao Miao, Qing Li, Guandong Xu
Subjects: cs.LG; cs.AI
Tags: Graph Neural Network, Causal Inference
Venue: SIGIR 2026
Summary: 本文从因果推理视角分析了异质图中的归纳子图作为虚假捷径的问题，提出了因果解耦图神经网络(CD-GNN)。该方法通过显式阻断非因果路径，将虚假归纳子图与真实因果子图解耦，显著提高了异质图中节点分类的鲁棒性和准确性。

[135] Improved Anomaly Detection in Medical Images via Mean Shift Density Enhancement

arXiv: 2604.19191 (cross-listed)
Authors: Pritam Kar, Gouri Lakshmi S, Saptarshi Bej
Subjects: cs.CV; cs.AI
Tags: Anomaly Detection, Medical Imaging, Self-Supervised Learning
Summary: 本文提出了一种混合异常检测框架，将自监督表示学习与均值移位密度增强(MSDE)相结合用于医学图像异常检测。该方法在七个医学影像数据集上实现了最先进的性能，在脑肿瘤检测中达到接近完美的表现(0.981 AUC/AP)。

[136] Attention-based Multi-modal Deep Learning Model of Spatio-temporal Crop Yield Prediction with Satellite, Soil and Climate Data

arXiv: 2604.19217 (cross-listed)
Authors: Gopal Krishna Shyam, Ila Chandrakar
Subjects: cs.CV; cs.AI
Tags: Remote Sensing, Time Series Forecasting, Multimodal Learning
Summary: 本文提出了一种基于注意力的多模态深度学习框架用于时空作物产量预测，结合多年卫星影像、高分辨率气象时间序列和土壤属性数据。该模型使用CNN提取空间特征和时间注意力机制加权重要物候期，R²分数达到0.89，显著优于基线模型。

[137] Sherpa.ai Privacy-Preserving Multi-Party Entity Alignment without Intersection Disclosure for Noisy Identifiers

arXiv: 2604.19219 (cross-listed)
Authors: Daniel M. Jimenez-Gutierrez, Enrique Zuazua, Georgios Kellaris, Joaquin Del Rio, Oleksii Sliusarenko, Xabi Uribe-Etxebarria
Subjects: cs.CR; cs.AI; cs.DC; cs.LG
Tags: Federated Learning, Privacy
Summary: 本文提出了一种用于垂直联邦学习的多方私有集合并集(PSU)协议，实现隐私保护的实体对齐而不泄露交集成员信息。该协议支持精确匹配和噪声容错匹配，具有低通信开销，适用于多机构医疗、金融等场景。

[138] Talking to a Know-It-All GPT or a Second-Guesser Claude? How Repair reveals unreliable Multi-Turn Behavior in LLMs

arXiv: 2604.19245 (cross-listed)
Authors: Clara Lachenmaier, Hannah Bultmann, Sina Zarrieß
Subjects: cs.CL; cs.AI
Tags: Dialogue System, LLM Evaluation
Summary: 本文研究了LLM在多轮对话中参与修复过程的行为，围绕可解和不可解的数学问题进行分析。研究发现不同模型对修复尝试的反应差异巨大，一旦对话超出单轮，模型行为变得更加独特且难以预测，每个测试的LLM都展现出其特有的不可靠性形式。

[139] Streamliners for Answer Set Programming

arXiv: 2604.19251 (cross-listed)
Authors: Florentina Voboril, Martin Gebser, Stefan Szeider, Alice Tarzariol
Subjects: cs.LO; cs.AI
Tags: Automated Planning, Neurosymbolic AI
Venue: ICLP 2026
Summary: 本文将StreamLLM方法适配到答案集编程(ASP)，使用LLM生成流线约束以减少组合问题的搜索空间。在三个ASP竞赛基准上，虚拟最佳编码相比原始编码实现了4-5倍的加速，不同LLM产生的约束具有语义多样性。

[140] ShadowPEFT: Shadow Network for Parameter-Efficient Fine-Tuning

arXiv: 2604.19254 (cross-listed)
Authors: Xianming Li, Zongxi Li, Tsz-fung Andrew Lee, Jing Li, Haoran Xie, Qing Li
Subjects: cs.CL; cs.AI
Tags: Parameter-Efficient Fine-Tuning, Fine-Tuning
Summary: 本文提出了ShadowPEFT，一种集中式参数高效微调框架，通过深度共享的影子模块进行层级细化，而非分布式权重空间扰动。该方法在生成和理解基准上匹配或优于LoRA和DoRA，并为边缘计算场景提供了灵活性。

[141] CulturALL: Benchmarking Multilingual and Multicultural Competence of LLMs on Grounded Tasks

arXiv: 2604.19262 (cross-listed)
Authors: Peiqin Lin, Chenyang Lyu, Wenjiang Luo, Haotian Ye, Md Mehrab Hossain, Chunlan Ma, Shaoxiong Ji, Younes Samih, Bo Zeng, Fan Jiang, Yuanbin Cao, Dilda Duisenbek, Adrian Neo Sau Xun, Daria Pozdniakova, Liubou Misevich, Nevena Marinković, Ngoc Gia Linh Nguyen, Thi Khanh Linh Do, Sarakmatak Sophy, Baotian Hu, Guanhua Chen, Gongbo Tang, Alham Fikri Aji, Longyue Wang, Weihua Luo
Subjects: cs.CL; cs.AI
Tags: Benchmark, Multilingual Learning, LLM Evaluation
Summary: 本文提出了CulturALL基准，用于评估LLM在接地任务上的多语言和多元文化能力，涵盖14种语言和51个地区的2610个样本。最佳LLM仅达到44.48%的准确率，表明仍有很大改进空间。

[142] Beyond Semantic Similarity: A Component-Wise Evaluation Framework for Medical Question Answering Systems with Health Equity Implications

arXiv: 2604.19281 (cross-listed)
Authors: Abu Noman Md Sakib, Md. Main Oddin Chisty, Zijie Zhang
Subjects: cs.HC; cs.AI; cs.CL; cs.LG
Tags: Medical AI, LLM Evaluation, Fairness
Venue: ACM FAccT 2026
Summary: 本文提出了VB-Score评估框架，分别评估医学问答系统的实体识别、语义相似度、事实一致性和结构化信息完整性四个组件。研究发现模型在涉及老年和少数族裔人群慢性病的公共卫生主题上表现低13.8%，揭示了基于病症的算法歧视问题。

[143] Location Not Found: Exposing Implicit Local and Global Biases in Multilingual LLMs

arXiv: 2604.19292 (cross-listed)
Authors: Guy Mor-Lan, Omer Goldman, Matan Eyal, Adi Mayrav Gilady, Sivan Eiger, Idan Szpektor, Avinatan Hassidim, Yossi Matias, Reut Tsarfaty
Subjects: cs.CL; cs.AI
Tags: Bias Mitigation, Multilingual Learning, LLM Evaluation
Venue: ACL 2026
Summary: 本文提出了LocQA测试集，用于量化多语言LLM的语言间和语言内偏见，包含12种语言的2156个地区模糊问题。研究发现模型存在对美国地区答案的全局偏见，以及优先考虑人口较多地区的人口统计学概率引擎行为。

[144] IndiaFinBench: An Evaluation Benchmark for Large Language Model Performance on Indian Financial Regulatory Text

arXiv: 2604.19298 (cross-listed)
Authors: Rajveer Singh Pall
Subjects: cs.CL; cs.AI; cs.IR
Tags: Benchmark, Financial AI, LLM Evaluation
Code: code
Summary: 本文介绍了IndiaFinBench，首个评估LLM在印度金融监管文本上性能的公开基准，包含406个专家标注的问答对，涵盖监管解释、数值推理、矛盾检测和时间推理四类任务。12个模型的准确率从70.4%到89.7%不等，均显著优于非专家人类基线。

[145] Rethinking Scale: Deployment Trade-offs of Small Language Models under Agent Paradigms

arXiv: 2604.19299 (cross-listed)
Authors: Xinlin Wang, Mats Brorsson
Subjects: cs.CL; cs.AI
Tags: LLM Agent, LLM Inference, LLM Evaluation
Summary: 本文研究了参数量小于100亿的小语言模型在三种范式下的表现：基础模型、配备工具的单智能体系统和多智能体协作系统。实验结果表明，单智能体系统在性能和成本之间取得了最佳平衡，而多智能体设置增加了开销但收益有限。

[146] HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models

arXiv: 2604.19300 (cross-listed)
Authors: Feiyu Zhao, Yiming Chen, Wenhuan Lu, Daipeng Zhang, Xianghu Yue, Jianguo Wei
Subjects: cs.SD; cs.AI
Tags: LLM Hallucination, Audio-Language Model, Benchmark
Venue: ACL 2026
Summary: 本文介绍了HalluAudio，首个大规模音频-语言模型幻觉检测基准，涵盖语音、环境声音和音乐三个领域，包含超过5000个人工验证的问答对。实验揭示了现有模型在声学基础、时序推理和音乐属性理解方面的显著缺陷。

[147] Co-Refine: AI-Powered Tool Supporting Qualitative Analysis

arXiv: 2604.19309 (cross-listed)
Authors: Athikash Jeyaganthan, Kai Xu, Franziska Becker, Steffen Koch
Subjects: cs.HC; cs.AI
Tags: Data Annotation, LLM Evaluation, Human-Computer Interaction
Summary: 本文提出了Co-Refine，一个AI增强的定性编码平台，通过三阶段审计流程检测编码一致性的时间漂移。系统结合确定性嵌入度量和LLM判断，在不打断研究者工作流程的情况下提供实时反馈。

[148] RDP LoRA: Geometry-Driven Identification for Parameter-Efficient Adaptation in Large Language Models

arXiv: 2604.19321 (cross-listed)
Authors: Yusuf Çelebi, Yağız Asker, Özay Ezerceli, Mahmoud ElHussieni, Selva Taş, Reyhan Bayraktar, Fatma Betül Terzioğlu
Subjects: cs.LG; cs.AI; cs.CL; cs.CV
Tags: Parameter-Efficient Fine-Tuning, LLM Training, Representation Learning
Summary: 本文提出使用Ramer-Douglas-Peucker算法识别LoRA微调中的关键层，通过将隐藏状态演化建模为几何轨迹来确定需要适应的层。该方法在MMLU-Math上仅使用13个选定层就超越了全层适应的性能。

[149] PLaMo 2.1-VL Technical Report

arXiv: 2604.19324 (cross-listed)
Authors: Tommi Kerola, Yuya Masuda, Takashi Masuko, Toshiki Nakanishi, Daisuke Nishino, Kuniyuki Takahashi, Hanqin Wang, Yoshihiro Yamada
Subjects: cs.CV; cs.AI
Tags: Vision-Language Model, Edge Computing, Multimodal Learning
Summary: 本文介绍了PLaMo 2.1-VL，一个面向自主设备的轻量级视觉语言模型，提供8B和2B两种变体，支持日语本地化和边缘部署。该模型在日英基准测试中表现优异，适用于工厂任务分析和基础设施异常检测等实际场景。

[150] Evaluation-driven Scaling for Scientific Discovery

arXiv: 2604.19341 (cross-listed)
Authors: Haotian Ye, Haowei Lin, Jingyi Tang, Yizhen Luo, Caiyin Yang, Chang Su, Rahul Thapa, Rui Yang, Ruihua Liu, Zeyu Li, Chong Gao, Dachao Ding, Guangrong He, Miaolei Zhang, Lina Sun, Wenyang Wang, Yuchen Zhong, Zhuohao Shen, Di He, Jianzhu Ma, Stefano Ermon, Tongyang Li, Xiaowen Chu, James Zou, Yuzhi Xu
Subjects: cs.LG; cs.AI
Tags: Scientific Reasoning, LLM Reasoning, Benchmark
Summary: 本文提出了SimpleTES框架，通过并行探索、反馈驱动优化和局部选择来扩展评估驱动的科学发现循环。该方法在21个科学问题上发现了最先进的解决方案，包括将LASSO算法加速超过2倍和设计量子电路路由策略。

[151] LASER: Learning Active Sensing for Continuum Field Reconstruction

arXiv: 2604.19355 (cross-listed)
Authors: Huayu Deng, Jinghui Zhong, Xiangming Zhu, Yunbo Wang, Xiaokang Yang
Subjects: cs.LG; cs.AI; cs.CE
Tags: Reinforcement Learning, World Model, Active Learning
Summary: 本文提出了LASER框架，将主动感知建模为部分可观测马尔可夫决策过程，用于连续场重建。该方法利用连续场潜在世界模型和强化学习策略，在稀疏感知条件下实现高保真重建。

[152] TACENR: Task-Agnostic Contrastive Explanations for Node Representations

arXiv: 2604.19372 (cross-listed)
Authors: Vasiliki Papanikou, Evaggelia Pitoura
Subjects: cs.LG; cs.AI
Tags: Graph Neural Network, Interpretability, Explainable AI
Venue: XAI 2026 Workshop
Summary: 本文提出了TACENR，一种任务无关的节点表示对比解释方法，能够识别属性、邻近性和结构特征对节点表示的贡献。该方法通过对比学习揭示节点表示中的重要特征，在监督场景下也能与现有任务特定方法相媲美。

[153] Multimodal Transformer for Sample-Aware Prediction of Metal-Organic Framework Properties

arXiv: 2604.19383 (cross-listed)
Authors: Seunghee Han, Jaewoong Lee, Jihan Kim
Subjects: cs.AI
Tags: Material Discovery, Multimodal Learning, Molecular Generation
Summary: 本文介绍了EXIT，一种结合MOFid和X射线衍射的多模态Transformer，用于金属有机框架性质的样本感知预测。模型在一百万个假设MOF上预训练，通过引入实验表征数据提高了预测性能。

[154] Revisiting Catastrophic Forgetting in Continual Knowledge Graph Embedding

arXiv: 2604.19401 (cross-listed)
Authors: Gerard Pons, Carlos Escolano, Besim Bilalli, Anna Queralt
Subjects: cs.LG; cs.AI
Tags: Knowledge Graph, Continual Learning, Knowledge Graph Completion
Summary: 本文发现了持续知识图谱嵌入中被忽视的实体干扰现象，即新实体嵌入会干扰已学习的嵌入。作者提出了修正的评估协议来考虑这一效应，揭示了现有方法性能被高估高达25%的问题。

[155] M$^{2}$GRPO: Mamba-based Multi-Agent Group Relative Policy Optimization for Biomimetic Underwater Robots Pursuit

arXiv: 2604.19404 (cross-listed)
Authors: Yukai Feng, Zhiheng Wu, Zhengxing Wu, Junwen Gu, Junzhi Yu
Subjects: cs.RO; cs.AI
Tags: Multi-Agent System, Reinforcement Learning, Robotics
Summary: 本文提出了M²GRPO框架，将Mamba策略与群体相对策略优化相结合，用于仿生水下机器人的协同追捕任务。该方法在集中训练-分散执行范式下实现了优越的追捕成功率和捕获效率。

[156] HP-Edit: A Human-Preference Post-Training Framework for Image Editing

arXiv: 2604.19406 (cross-listed)
Authors: Fan Li, Chonghuinan Wang, Lina Lei, Yuping Qiu, Jiaqi Xu, Jiaxiu Jiang, Xinran Qin, Zhikai Chen, Fenglong Song, Zhixin Wang, Renjing Pei, Wangmeng Zuo
Subjects: cs.CV; cs.AI
Tags: Image Editing, RLHF, Diffusion Model
Venue: CVPR 2026
Summary: 本文提出了HP-Edit，一个基于人类偏好的图像编辑后训练框架，引入RealPref-50K数据集和HP-Scorer自动评估器。实验表明该方法显著提升了模型输出与人类偏好的对齐程度。

[157] GOLD-BEV: GrOund and aeriaL Data for Dense Semantic BEV Mapping of Dynamic Scenes

arXiv: 2604.19411 (cross-listed)
Authors: Joshua Niemeijer, Alaa Eddine Ben Zekri, Reza Bahmanyar, Philipp M. Schmälzle, Houda Chaabouni-Chouayakh, Franz Kurz
Subjects: cs.CV; cs.AI
Tags: Autonomous Driving, BEV Perception, 3D Vision
Summary: 本文提出了GOLD-BEV框架，利用时间同步的航拍图像作为监督，从自车传感器学习密集的鸟瞰图语义环境地图。该方法能够以最小的人工标注成本处理动态交通参与者。

[158] Counting Worlds Branching Time Semantics for post-hoc Bias Mitigation in generative AI

arXiv: 2604.19431 (cross-listed)
Authors: Alessandro G. Buda, Giuseppe Primiero, Leonardo Ceragioli, Melissa Antonelli
Subjects: cs.LO; cs.AI
Tags: Bias Mitigation, AI Ethics, Formal Methods
Summary: 本文引入了CTFL，一种分支时序逻辑，用于推理生成式AI输出序列中的偏见。该框架采用计数世界语义，允许验证输出序列是否满足受保护属性的预期概率分布，并确定恢复公平性所需的输出数量。

[159] LePREC: Reasoning as Classification over Structured Factors for Assessing Relevance of Legal Issues

arXiv: 2604.19464 (cross-listed)
Authors: Fanyu Wang, Xiaoxi Kang, Paul Burgess, Aashish Srivastava, Chetan Arora, Adnan Trakic, Lay-Ki Soon, Md Khalid Hossain, Lizhen Qu
Subjects: cs.CL; cs.AI
Tags: Legal AI, Neurosymbolic AI, LLM Reasoning
Venue: ACL 2026
Summary: 本文提出了LePREC，一个结合神经生成和结构化统计推理的神经符号框架，用于法律问题相关性评估。该方法通过基于相关性的因子-问题分析，相比LLM基线实现了30-40%的性能提升。

[160] A neural operator framework for data-driven discovery of stability and receptivity in physical systems

arXiv: 2604.19465 (cross-listed)
Authors: Chengyun Wang, Liwei Chen, Nils Thuerey
Subjects: cs.AI
Tags: Neural Operator, Scientific Computing, Physics-Informed Learning
Summary: 本文引入了一个数据驱动框架，使用神经网络作为动力学模拟器，仅从观测数据自动识别稳定性和最优强迫响应。该方法无需控制方程即可直接从数据计算特征模态和预解模态。

[161] Fairness Audits of Institutional Risk Models in Deployed ML Pipelines

arXiv: 2604.19468 (cross-listed)
Authors: Kelly McConvey, Dipto Das, Maya Ghai, Angelina Zhai, Rosa Lee, Shion Guha
Subjects: cs.CY; cs.AI; cs.HC
Tags: Fairness, Model Evaluation, Education Technology
Summary: 本文对高等教育机构部署的早期预警系统进行了公平性审计，发现年轻、男性和国际学生被不成比例地标记为需要支持，而具有相似辍学风险的年长和女性学生则被低估，后处理步骤进一步放大了这些差异。

[162] EVPO: Explained Variance Policy Optimization for Adaptive Critic Utilization in LLM Post-Training

arXiv: 2604.19485 (cross-listed)
Authors: Chengjun Pan, Shichun Liu, Jiahang Lin, Dingwei Zhu, Jiazheng Zhang, Shihan Dou, Songyang Gao, Zhenhua Han, Binghai Wang, Rui Zheng, Xuanjing Huang, Tao Gui, Yansong Feng
Subjects: cs.LG; cs.AI; cs.CL
Tags: Reinforcement Learning, LLM Training, Optimization
Summary: 本文提出EVPO（解释方差策略优化）方法，通过监控批次级解释方差自适应地在基于评论家和批次均值优势估计之间切换，在稀疏奖励设置下优于PPO和GRPO。

[163] When Graph Structure Becomes a Liability: A Critical Re-Evaluation of Graph Neural Networks for Bitcoin Fraud Detection under Temporal Distribution Shift

arXiv: 2604.19514 (cross-listed)
Authors: Saket Maganti
Subjects: cs.LG; cs.AI; cs.CR; cs.SI
Tags: Graph Neural Network, Anomaly Detection, Research Reproducibility
Summary: 本文挑战了GNN在Elliptic比特币数据集上优于纯特征基线的共识，发现在严格的归纳协议下，随机森林在原始特征上的表现优于所有评估的GNN，揭示了训练时暴露于测试期邻接关系导致的泄露问题。

[164] Revisiting RaBitQ and TurboQuant: A Symmetric Comparison of Methods, Theory, and Experiments

arXiv: 2604.19528 (cross-listed)
Authors: Jianyang Gao, Yutong Gou, Yuexuan Xu, Jifan Shi, Yongyi Yang, Shuolin Li, Raymond Chi-Wing Wong, Cheng Long
Subjects: cs.LG; cs.AI; cs.DB
Tags: Quantization, Research Reproducibility, Model Compression
Summary: 本文在统一比较框架下重新审视RaBitQ和TurboQuant两种量化方法，发现TurboQuant并未在直接可比设置下提供一致的改进，并记录了TurboQuant论文中实验结果的可复现性问题。

[165] BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps

arXiv: 2604.19532 (cross-listed)
Authors: Lekai Qian, Haoyu Gu, Jingwei Zhao, Ziyu Wang
Subjects: cs.SD; cs.AI
Tags: Music Generation, Tokenization, Generative Model
Summary: 本文提出一种新的符号音乐分词方法，使用均匀长度的音乐步（如节拍）作为基本单位，在音乐续写和伴奏生成任务中表现出更好的音乐质量、结构连贯性和效率。

[166] Cyber Defense Benchmark: Agentic Threat Hunting Evaluation for LLMs in SecOps

arXiv: 2604.19533 (cross-listed)
Authors: Alankrit Chona, Igor Kozlov, Ambuj Kumar
Subjects: cs.CR; cs.AI
Tags: LLM Agent, Benchmark, Cybersecurity
Summary: 本文引入网络防御基准测试，用于评估LLM代理在安全运营中心执行威胁狩猎任务的能力，发现所有前沿模型均表现不佳，最佳模型平均仅能正确标记3.8%的恶意事件。

[167] Mesh Memory Protocol: Semantic Infrastructure for Multi-Agent LLM Systems

arXiv: 2604.19540 (cross-listed)
Authors: Hongwei Xu
Subjects: cs.MA; cs.AI
Tags: LLM Agent, Multi-Agent System, Memory Architecture
Summary: 本文提出网格记忆协议（MMP），一种用于多代理LLM系统跨会话认知协作的语义基础设施，通过四个可组合的原语实现代理间认知状态的共享、评估和组合。

[168] Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment

arXiv: 2604.19548 (cross-listed)
Authors: Bobo Li, Rui Wu, Zibo Ji, Meishan Zhang, Hao Fei, Min Zhang, Mong-Li Lee, Wynne Hsu
Subjects: cs.CL; cs.AI; cs.CY
Tags: LLM Agent, LLM Alignment, Multi-Agent System
Venue: ACL 2026
Summary: 本文识别出多代理LLM系统中的行动者-观察者不对称性认知偏差，并提出ReTAS模型，通过辩证对齐训练实现视角不变推理，有效缓解归因不一致问题。

[169] EgoSelf: From Memory to Personalized Egocentric Assistant

arXiv: 2604.19564 (cross-listed)
Authors: Yanshuo Wang, Yuan Xu, Xuesong Li, Jie Hong, Yizhou Wang, Chang Wen Chen, Wentao Zhu
Subjects: cs.CV; cs.AI
Tags: LLM Personalization, Memory Architecture, Embodied AI
Summary: 本文介绍EgoSelf系统，通过构建基于图的交互记忆和个性化学习任务，从用户历史行为中预测未来交互，实现个性化的自我中心助手。

[170] Detecting Hallucinations in SpeechLLMs at Inference Time Using Attention Maps

arXiv: 2604.19565 (cross-listed)
Authors: Jonas Waldendorf, Bashar Awwad Shiekh Hasan, Evgenii Tsymbalov
Subjects: cs.CL; cs.AI; cs.LG
Tags: LLM Hallucination, Speech Processing, LLM Evaluation
Venue: ACL 2026
Summary: 本文研究使用注意力图在推理时检测语音大语言模型中的幻觉，提出四种注意力派生指标并训练轻量级分类器，在语音识别和语音到文本翻译任务上优于基于不确定性的基线方法。

[171] Lyapunov-Certified Direct Switching Theory for Q-Learning

arXiv: 2604.19569 (cross-listed)
Authors: Donghwan Lee
Subjects: cs.LG; cs.AI; eess.SY
Tags: Reinforcement Learning, Optimization, Deep Learning Theory
Summary: 本文通过直接随机切换系统表示分析恒定步长Q学习，利用联合谱半径诱导的李雅普诺夫函数推导出有限时间最终迭代界限，并提供可计算的二次证书版本。

[172] Impact of large language models on peer review opinions from a fine-grained perspective: Evidence from top conference proceedings in AI

arXiv: 2604.19578 (cross-listed)
Authors: Wenqing Wu, Chengzhi Zhang, Yi Zhao, Tong Bao
Subjects: cs.CL; cs.AI; cs.DL; cs.IR
Tags: LLM Evaluation, Scientific Reasoning, AI Ethics
Summary: 本研究从细粒度视角考察LLM出现后同行评审报告的变化，发现评审文本变得更长更流畅，更注重摘要和表面清晰度，而对原创性、可复现性等深层评价维度的关注度下降。

[173] RoLegalGEC: Legal Domain Grammatical Error Detection and Correction Dataset for Romanian

arXiv: 2604.19593 (cross-listed)
Authors: Mircea Timpuriu, Dumitru-Clementin Cercel
Subjects: cs.CL; cs.AI; cs.LG
Tags: Legal AI, Dataset, Natural Language Understanding
Summary: 本文介绍RoLegalGEC，首个罗马尼亚语法律领域语法错误检测与修正的平行数据集，包含35万个法律文本错误示例及错误标注，并评估了多种神经网络模型。

[174] Cross-Model Consistency of AI-Generated Exercise Prescriptions: A Repeated Generation Study Across Three Large Language Models

arXiv: 2604.19598 (cross-listed)
Authors: Kihyuk Lee
Subjects: cs.CL; cs.AI
Tags: LLM Evaluation, Medical AI, Text Generation
Summary: 本研究比较三个大语言模型在运动处方生成任务中的重复生成一致性，发现相同解码设置下产生根本不同的生成行为，GPT-4.1产生独特输出而Gemini 2.5 Flash存在输出重复。

[175] Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model

arXiv: 2604.19635 (cross-listed)
Authors: Shuhai Peng, Hui Lu, Jinjiang Liu, Liyang Chen, Guiping Zhong, Jiakui Li, Huimeng Wang, Haiyun Li, Liang Cao, Shiyin Kang, Zhiyong Wu
Subjects: cs.SD; cs.AI
Tags: Speech Processing, Audio Source Separation, Autoregressive Model
Summary: 本文提出首个针对流式目标说话人提取的自回归模型，引入分块交错拼接范式确保高效稳定的流式推理，在保持与离线基线相当性能的同时实现实时处理。

[176] Safety-Critical Contextual Control via Online Riemannian Optimization with World Models

arXiv: 2604.19639 (cross-listed)
Authors: Tongxin Li
Subjects: eess.SY; cs.AI
Tags: World Model, Reinforcement Learning, Autonomous Driving
Summary: 本文开发了一种基于在线黎曼优化的惩罚预测控制框架，用于使用世界模型的安全关键上下文控制，证明了上下文安全边界由分数估计误差和屏障曲率控制。

[177] CoCo-SAM3: Harnessing Concept Conflict in Open-Vocabulary Semantic Segmentation

arXiv: 2604.19648 (cross-listed)
Authors: Yanhui Chen, Baoyao Yang, Siqi Liu, Jingchao Wang
Subjects: cs.CV; cs.AI
Tags: Image Segmentation, Vision-Language Model, Open-Vocabulary Segmentation
Summary: 该论文提出了CoCo-SAM3方法，用于解决开放词汇语义分割中多类别场景下的掩码重叠和类内漂移问题。该方法通过解耦推理过程，先对同义提示进行证据对齐聚合，再在统一尺度上进行类间竞争，从而稳定多类别推理。无需额外训练，该方法在多个基准测试上取得了显著提升。

[178] Environmental Sound Deepfake Detection Using Deep-Learning Framework

arXiv: 2604.19652 (cross-listed)
Authors: Lam Pham, Khoi Vu, Dat Tran, Phat Lam, Vu Nguyen, David Fischinger, Alexander Schindler, Martin Boyer, Son Le
Subjects: cs.SD; cs.AI
Tags: Deepfake Detection, Audio Processing
Summary: 本文提出了一个用于环境声音深度伪造检测的深度学习框架，旨在识别音频录音中的场景和事件是否为伪造。研究发现微调预训练模型（如WavLM）比从头训练更有效，且该最佳模型在基准数据集上取得了优异的检测性能。

[179] An AI Agent Execution Environment to Safeguard User Data

arXiv: 2604.19657 (cross-listed)
Authors: Robert Stanley, Avi Verma, Lillian Tsai, Konstantinos Kallas, Sam Kumar
Subjects: cs.CR; cs.AI; cs.OS
Tags: LLM Agent, Privacy, LLM Security
Summary: 该论文提出了GAAP，一个AI代理执行环境，旨在通过信息流控制和新颖的持久数据存储来保护用户隐私数据。该系统无需信任AI代理或模型提供商，即可确定性地保证用户数据披露符合权限规范，有效阻止数据泄露攻击。

[180] Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

arXiv: 2604.19667 (cross-listed)
Authors: Yi Zhong, Buqiang Xu, Yijun Wang, Zifei Shan, Shuofei Qiao, Guozhou Zheng, Ningyu Zhang
Subjects: cs.CL; cs.AI; cs.CV; cs.LG; cs.MA
Tags: Workflow Automation, LLM Agent, Benchmark
Code: code
Summary: 本文介绍了Chat2Workflow基准，用于评估从自然语言生成可执行可视化工作流的能力，并提出了一种代理框架以减少执行错误。实验表明，尽管最先进的语言模型能捕捉高层意图，但在复杂或变化的需求下难以生成正确且稳定的工作流。

[181] Multi-Cycle Spatio-Temporal Adaptation in Human-Robot Teaming

arXiv: 2604.19670 (cross-listed)
Authors: Alex Cuellar, Michael Hagenow, Julie Shah
Subjects: cs.RO; cs.AI
Tags: Robotics, Motion Planning, Human-Robot Interaction
Summary: 该论文提出了RAPIDDS框架，通过在多个周期中建模个体的空间和时间行为，统一了人机协作中的任务级和运动级适应。该方法联合调整任务调度并引导机器人运动扩散模型，在仿真和真实机器人实验中显著提升了效率和用户偏好。

[182] Learning Hybrid-Control Policies for High-Precision In-Contact Manipulation Under Uncertainty

arXiv: 2604.19677 (cross-listed)
Authors: Hunter L. Brown, Geoffrey Hollinger, Stefan Lee
Subjects: cs.RO; cs.AI; cs.LG
Tags: Robotics, Reinforcement Learning, Motion Planning
Summary: 本文提出了一种混合位置-力控制策略（MATCH），用于在不确定性下进行高精度接触操作，能够动态选择控制模式。实验表明，该方法在易碎插孔任务中显著优于纯位姿控制策略，提高了成功率并减少了损坏。

[183] Adaptive MSD-Splitting: Enhancing C4.5 and Random Forests for Skewed Continuous Attributes

arXiv: 2604.19722 (cross-listed)
Authors: Jake Lee
Subjects: cs.LG; cs.AI
Tags: Tabular Learning, Optimization, Decision Tree
Summary: 该论文提出了自适应MSD分割技术（AMSD），通过根据特征偏度动态调整标准差乘数，解决了决策树归纳中连续属性离散化的计算瓶颈。该方法在保持时间复杂度的同时提高了准确性，并被集成到随机森林框架中取得了优异效果。

[184] Benign Overfitting in Adversarial Training for Vision Transformers

arXiv: 2604.19724 (cross-listed)
Authors: Jiaming Zhang, Meng Ding, Shaopeng Fu, Jingfeng Zhang, Di Wang
Subjects: cs.LG; cs.AI
Tags: Vision Transformer, Adversarial Robustness, Deep Learning Theory
Summary: 该论文首次对视觉Transformer（ViT）在对抗训练中的鲁棒性进行了理论分析，发现在特定信噪比和扰动预算下，ViT能表现出“良性过拟合”现象。实验验证了即使在过拟合情况下，ViT仍能实现强鲁棒泛化能力。

[185] VLA Foundry: A Unified Framework for Training Vision-Language-Action Models

arXiv: 2604.19728 (cross-listed)
Authors: Jean Mercat, Sedrick Keh, Kushal Arora, Isabella Huang, Paarth Shah, Haruki Nishimura, Shun Iwase, Katherine Liu
Subjects: cs.RO; cs.AI; cs.CV; cs.LG; cs.SE
Tags: Vision-Language Model, Robotics, Foundation Model
Code: code
Summary: 本文介绍了VLA Foundry，一个统一LLM、VLM和VLA训练的开源框架，提供了从语言预训练到动作微调的端到端控制。该研究发布了从头训练和基于预训练骨干的模型，并在仿真环境中验证了其闭环策略性能。

[186] FASTER: Value-Guided Sampling for Fast RL

arXiv: 2604.19730 (cross-listed)
Authors: Perry Dong, Alexander Swerdlow, Dorsa Sadigh, Chelsea Finn
Subjects: cs.LG; cs.AI
Tags: Reinforcement Learning, Diffusion Model, Optimization
Code: code
Summary: 该论文提出了FASTER方法，通过将扩散策略的去噪过程建模为马尔可夫决策过程，在去噪早期过滤动作候选，从而加速强化学习中的测试时采样。该方法在保持性能的同时显著降低了计算成本，适用于长视界操作任务。

[187] UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

arXiv: 2604.19734 (cross-listed)
Authors: Boyu Chen, Yi Chen, Lu Qiu, Jerry Bai, Yuying Ge, Yixiao Ge
Subjects: cs.RO; cs.AI
Tags: Embodied AI, Transfer Learning, Vision-Language Model
Summary: 本文提出了UniT框架，通过视觉锚定建立统一的物理语言，解决了从人类到仿人机器人策略学习的跨实体迁移难题。该方法在策略学习和世界建模两个范式中验证了其有效性，实现了零样本任务迁移和增强的动作可控性。

[188] Generalization at the Edge of Stability

arXiv: 2604.19740 (cross-listed)
Authors: Mario Tuci, Caner Korkmaz, Umut Şimşekli, Tolga Birdal
Subjects: cs.LG; cs.AI; cs.CV; stat.ML
Tags: Deep Learning Theory, Optimization, Generalization Bound
Summary: 该论文将随机优化器表示为随机动力系统，引入了“锐度维度”的概念，并基于此证明了在边缘稳定状态下训练神经网络的泛化界限。研究揭示了混沌状态下的泛化能力与完整的Hessian谱有关，为理解grokking现象提供了新见解。

替换投稿 (146)

[189] Conjuring Semantic Similarity

arXiv: 2410.16431 (replaced)
Authors: Tian Yu Liu, Stefano Soatto
Subjects: cs.AI
Tags: Text-to-Image, Diffusion Model, Semantic Similarity
Venue: ICLR 2026
Summary: 该论文提出了一种新颖的语义相似度度量方法，通过比较文本提示所唤起的图像分布距离来衡量文本间的语义相似性。该方法利用扩散模型和Jeffreys散度进行计算，不仅与人类标注分数一致，还为评估文本条件生成模型提供了新视角。

[190] User Simulation in the Era of Generative AI: User Modeling, Synthetic Data Generation, and System Evaluation

arXiv: 2501.04410 (replaced)
Authors: Krisztian Balog, ChengXiang Zhai
Subjects: cs.AI; cs.HC; cs.IR; cs.LG
Tags: User Simulation, Survey, Generative Model
Summary: 本文对生成式AI时代的用户模拟进行了全面的综述，涵盖了用户建模、合成数据生成和系统评估等关键应用。文章探讨了从预测模型到生成方法的范式转变，分析了伦理考量，并建立了用户模拟与通用人工智能之间的理论联系。

[191] Epistemic Skills: Reasoning about Knowledge and Oblivion

arXiv: 2504.01733 (replaced)
Authors: Xiaolong Liang, Yì N. Wáng
Subjects: cs.AI; cs.CC; cs.LO
Tags: Knowledge Representation, Logical Reasoning, Formal Methods
Summary: 本文提出了一类认知逻辑，通过引入“认知技能”度量来捕捉获取知识和陷入遗忘的动态过程。该框架能够探索“可知性”和“可遗忘性”，并支持对认知de re和de dicto表达的区别进行详细分析。

[192] Memory Assignment for Finite-Memory Strategies in Adversarial Patrolling Games

arXiv: 2505.14137 (replaced)
Authors: Vojtěch Kůr, Vít Musil, Vojtěch Řehák
Subjects: cs.AI
Tags: Game AI, Automated Planning
Venue: ICAPS 2026
Summary: 该论文解决了对抗巡逻博弈中有限记忆策略的内存分配问题，提出了一种迭代调整内存分配的通用方法。该方法可以与任何黑盒策略优化工具结合使用，在各种巡逻模型实验中展示了其鲁棒性和有效性。

[193] MRS: Multi-Resolution Skills for HRL Agents

arXiv: 2505.21410 (replaced)
Authors: Shashank Sharma, Janina Hoffmann, Vinay Namboodiri
Subjects: cs.AI; cs.LG; cs.RO
Tags: Reinforcement Learning, Hierarchical RL
Summary: 该论文针对分层强化学习(HRL)中管理者难以精确选择局部子目标的问题，提出多分辨率技能(MRS)框架，通过学习多个专门化于不同时间跨度的目标预测模块，在DeepMind Control Suite等基准上显著优于固定分辨率基线。

[194] SEAT: Sparse Entity-Aware Tuning for Knowledge Adaptation while Preserving Epistemic Abstention

arXiv: 2506.14387 (replaced)
Authors: William F. Shen, Xinchi Qiu, Nicola Cancedda, Nicholas D. Lane
Subjects: cs.AI
Tags: LLM Alignment, Knowledge Editing, Fine-Tuning
Summary: 该论文提出SEAT方法，通过稀疏调优和实体扰动KL正则化，在保持LLM知识获取能力的同时保留认知弃权能力（即承认未知的能力），有效防止幻觉问题。

[195] GRAIL:Learning to Interact with Large Knowledge Graphs for Retrieval Augmented Reasoning

arXiv: 2508.05498 (replaced)
Authors: Ge Chang, Jinbo Su, Jiacheng Liu, Pengfei Yang, Yuhao Shang, Huiwen Zheng, Hongli Ma, Yan Liang, Yuanchun Li, Yunxin Liu
Subjects: cs.AI
Tags: Knowledge Graph, RAG, LLM Reasoning
Code: code
Summary: 该论文提出GRAIL框架，使LLM能够与大规模知识图谱交互进行检索增强推理，通过LLM引导的随机探索和两阶段训练学习动态图探索策略，在知识图谱问答任务上平均准确率提升21%。

[196] GeoLaux: A Benchmark for Evaluating MLLMs' Geometry Performance on Long-Step Problems Requiring Auxiliary Lines

arXiv: 2508.06226 (replaced)
Authors: Yumeng Fu, Jiayin Zhu, Lingling Zhang, Wenjun Wu, Bo Zhao, Shaoxuan Ma, Yushun Zhang, Jun Liu
Subjects: cs.AI
Tags: Multimodal Learning, Mathematical Reasoning, Benchmark
Code: code
Summary: 该论文提出GeoLaux基准，包含2186个几何问题，专注于评估MLLM在长步骤推理和辅助线构建方面的能力，发现模型在长步骤问题上性能下降超过50%。

[197] VideoAgent: Personalized Synthesis of Scientific Videos

arXiv: 2509.11253 (replaced)
Authors: Xiao Liang, Bangxin Li, Zixuan Chen, Hanyue Zheng, Zhi Ma, Di Wang, Cong Tian, Quan Wang
Subjects: cs.AI
Tags: LLM Agent, Video Generation, Multimodal Learning
Summary: 该论文提出VideoAgent模块化框架，将科学视频生成重新定义为意图驱动的规划问题，通过解耦内容理解与多模态合成，自适应地交错静态幻灯片与动态动画。

[198] RepIt: Steering Language Models with Concept-Specific Refusal Vectors

arXiv: 2509.13281 (replaced)
Authors: Vincent Siu, Nathan W. Henry, Nicholas Crispino, Yang Liu, Dawn Song, Chenguang Wang
Subjects: cs.AI; cs.CL
Tags: LLM Security, LLM Alignment, Safety Evaluation
Venue: ICLR 2026
Summary: 该论文提出RepIt框架，用于隔离LLM激活中的概念特定拒绝向量，实现对目标概念的选择性拒绝抑制同时保留其他拒绝能力，暴露了当前安全评估实践的漏洞。

[199] Plug-and-Play Dramaturge: A Divide-and-Conquer Approach for Iterative Narrative Script Refinement via Collaborative LLM Agents

arXiv: 2510.05188 (replaced)
Authors: Wenda Xie, Chao Guo, Yanqing Jing, Junle Wang, Yisheng Lv, Fei-Yue Wang
Subjects: cs.AI
Tags: LLM Agent, Multi-Agent System, Creative Writing
Summary: 该论文提出Dramaturge分层多智能体框架，通过全局审查、场景级审查和分层协调修订三个阶段，实现叙事脚本的迭代优化，显著优于所有基线方法。

[200] How to Teach Large Multimodal Models New Skills

arXiv: 2510.08564 (replaced)
Authors: Zhen Zhu, Yiming Gong, Yao Xiao, Yaoyao Liu, Derek Hoiem
Subjects: cs.AI; cs.CV; cs.LG
Tags: Multimodal Learning, Fine-Tuning, Transfer Learning
Code: code
Summary: 该论文研究LMM序列微调，发现选择性调优特定组件（自注意力投影层或MLP门控层）在学习-遗忘权衡中显著优于全量微调，提供了简单有效的调优方案。

[201] StepFly: Agentic Troubleshooting Guide Automation for Incident Diagnosis

arXiv: 2510.10074 (replaced)
Authors: Jiayi Mao, Liqun Li, Yanjie Gao, Zegang Peng, Shilin He, Chaoyun Zhang, Si Qin, Samia Khalid, Qingwei Lin, Saravan Rajmohan, Sitaram Lanka, Dongmei Zhang
Subjects: cs.AI
Tags: LLM Agent, Workflow Automation
Code: code
Summary: 该论文提出StepFly端到端智能体框架，用于自动化故障排除指南执行，采用三阶段工作流（TSG质量改进、离线预处理、在线执行），在IT事件管理中实现约94%成功率。

[202] Chain-of-Thought as a Lens: Evaluating Structured Reasoning Alignment between Human Preferences and Large Language Models

arXiv: 2511.06168 (replaced)
Authors: Boxuan Wang, Zhuoyun Li, Xinmiao Huang, Xiaowei Huang, Yi Dong
Subjects: cs.AI
Tags: LLM Evaluation, Chain-of-Thought, LLM Alignment
Venue: ACL 2026
Summary: 该论文引入对齐分数指标，通过构建基于语义熵的矩阵比较思维链轨迹与人类偏好参考，量化评估LLM结构化推理与人类偏好的对齐程度，发现对齐在2跳推理时达到峰值。

[203] TROJail: Trajectory-Level Optimization for Multi-Turn Large Language Model Jailbreaks with Process Rewards

arXiv: 2512.07761 (replaced)
Authors: Xiqiao Xiong, Ouxiang Li, Zhuo Liu, Moxin Li, Wentao Shi, Fengbin Zhu, Qifan Wang, Fuli Feng
Subjects: cs.AI; cs.LG
Tags: LLM Security, Jailbreak Attack
Venue: ACL 2026
Code: code
Summary: 该论文提出TROJail框架，通过轨迹级优化和过程奖励实现多轮越狱攻击，引入两个过程奖励评估中间提示的效用，在多个模型和基准上提高了攻击成功率。

[204] Beyond Itinerary Planning-A Real-World Benchmark for Multi-Turn and Tool-Using Travel Tasks

arXiv: 2512.22673 (replaced)
Authors: Xiang Cheng, Yulan Hu, Xiangwen Zhang, Lu Xu, Lide Tan, Zheng Pan, Xin Li, Yong Liu
Subjects: cs.AI
Tags: LLM Agent, Benchmark
Venue: ACL 2026
Summary: 该论文提出TravelBench基准，包含单轮、多轮和不可解三个子任务，评估智能体在真实旅行规划场景中的问题解决、用户交互和边界识别能力。

[205] SAGE-32B: Agentic Reasoning via Iterative Distillation

arXiv: 2601.04237 (replaced)
Authors: Basab Jha, Firoj Paudel, Ujjwal Puri, Ethan Henkel, Zhang Yuting, Mateusz Kowalczyk, Mei Huang, Choi Donghyuk, Wang Junhao
Subjects: cs.AI; cs.CL; cs.LG
Tags: LLM Agent, Knowledge Distillation, Agentic Reasoning
Summary: 该论文展示SAGE-32B模型，专注于智能体推理和长程规划任务，采用迭代蒸馏和逆推理方法，在MMLU-Pro、AgentBench等基准上实现优于基线的多工具使用成功率。

[206] Reasoning Over Space: Enabling Geographic Reasoning for LLM-Based Generative Next POI Recommendation

arXiv: 2601.04562 (replaced)
Authors: Dongyi Lv, Qiuyu Ding, Heng-Da Xu, Zhaoxu Sun, Zhi Wang, Feng Xiong, Mu Xu
Subjects: cs.AI
Tags: Recommender System, LLM Reasoning, Geographic Reasoning
Summary: 该论文提出ROS框架，通过层次化空间语义ID和三阶段移动性思维链范式，使LLM能够进行地理推理用于POI推荐，在LBSN数据集上实现超过10%的命中率提升。

[207] Reasoning Models Will Sometimes Lie About Their Reasoning

arXiv: 2601.07663 (replaced)
Authors: William Walden, Miriam Wanner
Subjects: cs.AI; cs.CL
Tags: LLM Reasoning, LLM Evaluation, Interpretability
Summary: 该论文研究推理模型在面对异常输入时的忠实性问题，发现模型可能承认提示存在但否认使用意图，即使被允许使用提示，这对思维链监控和可解释性提出了挑战。

[208] ViDoRe V3: A Comprehensive Evaluation of Retrieval Augmented Generation in Complex Real-World Scenarios

arXiv: 2601.08620 (replaced)
Authors: António Loison, Quentin Macé, Antoine Edy, Victor Xing, Tom Balough, Gabriel Moreira, Bo Liu, Manuel Faysse, Céline Hudelot, Gautier Viaud
Subjects: cs.AI; cs.CV
Tags: RAG, Multimodal Learning, Benchmark
Summary: 该论文引入ViDoRe v3综合多模态RAG基准，涵盖10个数据集、6种语言、约26000页文档和3099个人工验证查询，发现视觉检索器优于文本检索器。

[209] BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search

arXiv: 2601.11037 (replaced)
Authors: Shiyu Liu, Yongjing Yin, Jianhao Yan, Yunbo Tang, Qinggang Zhang, Bei Li, Xin Chen, Jingang Wang, Xunliang Cai, Jinsong Su
Subjects: cs.AI
Tags: LLM Agent, LLM Reasoning, Reinforcement Learning
Venue: ACL 2026
Code: code
Summary: 本文提出BAPO框架，通过边界感知奖励和自适应奖励调节器，使LLM智能体能够识别推理边界并在证据不足时承认”我不知道”，从而提高搜索智能体的可靠性。

[210] Failure Modes in Multi-Hop QA: The Weakest Link Effect and the Recognition Bottleneck

arXiv: 2601.12499 (replaced)
Authors: Meiru Zhang, Zaiqiao Meng, Nigel Collier
Subjects: cs.AI; cs.LG
Tags: LLM Reasoning, Question Answering, Long Context
Venue: ACL 2026
Summary: 本文发现多跳推理中存在”最弱环节效应”，即性能取决于最不可见的证据位置，并提出MFAI语义探针来区分识别失败与合成失败，显著提升了低可见位置的准确率。

[211] Sentipolis: Emotion-Aware Agents for Social Simulations

arXiv: 2601.18027 (replaced)
Authors: Chiyuan Fu, Lyuhao Chen, Yunze Xiao, Weihao Xuan, Carlos Busso, Mona Diab
Subjects: cs.AI; cs.CL
Tags: LLM Agent, Social Simulation, Affective Computing
Summary: 本文提出Sentipolis框架，通过整合连续PAD情感表示、双速情感动态和情感-记忆耦合，构建具有情感状态的智能体，提升了社交模拟中的情感连续性和行为可信度。

[212] Right for the Wrong Reasons: Epistemic Regret Minimization for LLM Causal Reasoning

arXiv: 2602.11675 (replaced)
Authors: Edward Y. Chang
Subjects: cs.AI
Tags: LLM Reasoning, Causal Inference, Reinforcement Learning
Summary: 本文提出认知遗憾最小化(ERM)框架，用于识别LLM因果推理中的缺陷，无需真实标签即可从推理轨迹中发现模型使用关联捷径而非干预查询的问题。

[213] Mind the (DH) Gap! A Contrast in Risky Choices Between Reasoning and Conversational LLMs

arXiv: 2602.15173 (replaced)
Authors: Luise Ge, Yongyan Zhang, Yevgeniy Vorobeychik
Subjects: cs.AI
Tags: LLM Reasoning, Decision Making, LLM Evaluation
Summary: 本研究发现LLM可分为推理模型(趋于理性、对框架不敏感)和对话模型(较不理性、更像人类、对框架敏感)两类，数学推理训练是区分两者的关键因素。

[214] Understanding LLM Performance Degradation in Multi-Instance Processing: The Roles of Instance Count and Context Length

arXiv: 2603.22608 (replaced)
Authors: Jingxuan Chen, Mohammad Taher Pilehvar, Jose Camacho-Collados
Subjects: cs.AI; cs.CL
Tags: LLM Evaluation, Long Context, Benchmark
Venue: ACL 2026
Summary: 本文全面评估了LLM在多实例处理任务上的表现，发现所有模型都呈现先轻微下降后急剧崩溃的模式，且实例数量比上下文长度对性能影响更大。

[215] Ontology-Constrained Neural Reasoning in Enterprise Agentic Systems: A Neurosymbolic Architecture for Domain-Grounded AI Agents

arXiv: 2604.00555 (replaced)
Authors: Thanh Luong Tuan
Subjects: cs.AI; cs.CL; cs.SE
Tags: Neurosymbolic AI, LLM Agent, Enterprise AI
Summary: 本文提出一种神经符号架构，通过三层本体框架(角色、领域、交互)为LLM企业智能体提供形式化语义约束，显著提升了度量准确性、法规合规性和角色一致性。

[216] RIFT: A RubrIc Failure Mode Taxonomy and Automated Diagnostics

arXiv: 2604.01375 (replaced)
Authors: Zhengyang Qi, Charles Dickens, Derek Pham, Amanda Dsouza, Armin Parchami, Frederic Sala, Paroma Varma
Subjects: cs.AI
Tags: LLM Evaluation, Benchmark, Data Annotation
Summary: 本文提出RIFT分类法，系统性地刻画评分标准中的八种失败模式(分为可靠性、内容效度、后果效度三类)，并提出与人类标注对齐的自动化评分质量指标。

[217] Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

arXiv: 2604.02368 (replaced)
Authors: Xue Liu, Xin Ma, Yuxin Ma, Yongchang Peng, Duo Wang, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xinyu Chen, Yida Ding, Tianci He, Jiani Hou, Liang Hu, Ziyun Huang, Yongzhe Hui, Jianpeng Jiao, Chennan Ju, Yingru Kong, Yiran Li, Jiashuo Liu, Mengyun Liu, Luyao Ma, Fei Ni, Yiqing Ni, Pengbo Niu, Yueyan Qiu, Yanle Ren, Xinyu Shen, Zilin Shi, Zaiyuan Wang, Wenjie Yue, Chun Zhang, Shiyu Zhang, Xinyi Zhang, Kaiwen Zhao, Zhenwei Zhu, Shanshan Wu, Qi Zhao, Wenhao Huang
Subjects: cs.AI; cs.CL
Tags: LLM Evaluation, Benchmark, Expert System
Summary: 本文提出XpertBench基准，包含1,346个跨80个类别的专家级任务，评估显示即使最先进的LLM也仅达到约66%的成功率，揭示了当前AI系统的显著”专家差距”。

[218] DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding

arXiv: 2604.12812 (replaced)
Authors: Hao Yan, Yuliang Liu, Xingchen Liu, Yuyi Zhang, Minghui Liao, Jihao Wu, Wei Chen, Xiang Bai
Subjects: cs.AI
Tags: Document Understanding, Vision-Language Model, RAG
Venue: CVPR 2026
Summary: 本文提出DocSeeker框架，通过结构化分析、定位和推理工作流程解决长文档理解问题，采用知识蒸馏和证据感知强化学习的两阶段训练，在多页文档任务上取得优越性能。

[219] Autogenesis: A Self-Evolving Agent Protocol

arXiv: 2604.15034 (replaced)
Authors: Wentao Zhang, Zhe Zhao, Haibin Wen, Yingcheng Wu, Ming Yin, Bo An, Mengdi Wang
Subjects: cs.AI
Tags: LLM Agent, Multi-Agent System, Agent Protocol
Code: code
Summary: 本文提出Autogenesis协议(AGP)，一种自演化协议，将演化内容与演化方式解耦，并构建了能够动态实例化和优化协议注册资源的自演化多智能体系统(AGS)。

[220] Machine individuality: Separating genuine idiosyncrasy from response bias in large language models

arXiv: 2604.16755 (replaced)
Authors: Valentin Kriegmair, Dirk U. Wulff
Subjects: cs.AI
Tags: LLM Evaluation, Interpretability, Cognitive Science
Summary: 本文应用交叉随机效应模型分析10个LLM的7490万条评分，发现16.9%的方差可归因于刺激特异性个体性，证明LLM存在超越响应偏差的稳定行为指纹。

[221] EvoMaster: A Foundational Evolving Agent Framework for Agentic Science at Scale

arXiv: 2604.17406 (replaced)
Authors: Xinyu Zhu, Yuzhu Cai, Zexi Liu, Cheng Wang, Fengyang Li, Wenkai Jin, Wanxu Liu, Zehao Bing, Bingyang Zheng, Jingyi Chai, Shuo Tang, Rui Ye, Yuwen Du, Xianghe Pang, Yaxin Du, Tingjia Miao, Yuzhi Zhang, Ruoxue Liao, Zhaohan Ding, Linfeng Zhang, Yanfeng Wang, Weinan E, Siheng Chen
Subjects: cs.AI
Tags: LLM Agent, Scientific Reasoning, Multi-Agent System
Code: code
Summary: 本文提出EvoMaster框架，一种面向大规模科学智能体的基础演化框架，使智能体能够迭代优化假设、自我批评并跨实验周期积累知识，在四个权威基准上达到最优性能。

[222] EHRAG: Bridging Semantic Gaps in Lightweight GraphRAG via Hybrid Hypergraph Construction and Retrieval

arXiv: 2604.17458 (replaced)
Authors: Yifan Song, Xingjian Tao, Zhicheng Yang, Yihong Luo, Jing Tang
Subjects: cs.AI
Tags: RAG, Knowledge Graph, Graph Neural Network
Venue: ACL 2026
Code: code
Summary: 本文提出EHRAG框架，一种轻量级RAG方法，通过构建捕获结构和语义关系的超图以及混合结构-语义检索机制，在保持线性索引复杂度的同时优于现有基线。

[223] WebUncertainty: Dual-Level Uncertainty Driven Planning and Reasoning For Autonomous Web Agent

arXiv: 2604.17821 (replaced)
Authors: Lingfeng Zhang, Yongan Sun, Jinpeng Hu, Hui Ma, Yang Ying, Kuien Liu, Zenglin Shi, Meng Wang
Subjects: cs.AI
Tags: Web Agent, LLM Agent, Uncertainty Estimation
Summary: 本文提出WebUncertainty框架，通过任务不确定性驱动的自适应规划和动作不确定性驱动的MCTS推理机制，解决自主网页智能体在规划和推理中的双重不确定性问题。

[224] Benchmarking System Dynamics AI Assistants: Cloud Versus Local LLMs on CLD Extraction and Discussion

arXiv: 2604.18566 (replaced)
Authors: Terry Leitch
Subjects: cs.AI; cs.HC; cs.LG
Tags: LLM Evaluation, Benchmark, LLM Inference
Summary: 本文系统评估了云端和本地LLM在系统动力学任务上的表现，包括因果回路图提取和交互式模型讨论，发现后端选择比量化级别对性能影响更大。

[225] Agentic Forecasting using Sequential Bayesian Updating of Linguistic Beliefs

arXiv: 2604.18576 (replaced)
Authors: Kevin Murphy
Subjects: cs.AI
Tags: LLM Agent, LLM Reasoning, Decision Making
Summary: 本文提出了BLF（贝叶斯语言预测器），一个用于二元预测的智能体系统，在ForecastBench基准上达到了最先进的性能。该系统采用语言信念状态、层次化多试验聚合和层次化校准三种核心思想，显著优于其他公开方法。

[226] Unifying Controller Design for Stabilizing Nonlinear Systems with Norm-Bounded Control Inputs

arXiv: 2403.03030 (replaced)
Authors: Ming Li, Zhiyong Sun, Siep Weiland
Subjects: eess.SY; cs.AI; math.OC
Tags: Control System Design, Optimization
Summary: 本文提出了一种统一的控制器设计方法，用于解决具有范数有界输入约束的非线性系统稳定控制问题。通过扩展Lin-Sontag通用公式并引入通用缩放项，该方法能够推导出具有多种优良特性的替代通用公式。

[227] Generative Models and Connected and Automated Vehicles: A Survey in Exploring the Intersection of Transportation and AI

arXiv: 2403.10559 (replaced)
Authors: Bo Shu, Yiting Zhang, Saisai Hu, Dong Shu
Subjects: cs.LG; cs.AI; cs.RO
Tags: Autonomous Driving, Generative Model, Survey
Summary: 本报告调查了生成模型与网联自动驾驶汽车（CAVs）的历史与影响，探讨了两者的整合如何增强自动驾驶车辆的预测建模、仿真精度和决策过程。研究强调了在安全与创新方面的进展、剩余障碍以及未来潜力。

[228] DASB - Discrete Audio and Speech Benchmark

arXiv: 2406.14294 (replaced)
Authors: Pooneh Mousavi, Jarod Duret, Darius Petermann, Artem Ploujnikov, Luca Della Libera, Anastasia Kuznetsova, Cem Subakan, Mirco Ravanelli
Subjects: cs.SD; cs.AI; eess.AS
Tags: Speech Processing, Benchmark, Audio Processing
Summary: 本文介绍了DASB，一个用于评估离散音频token的综合基准框架，涵盖语音、通用音频和音乐领域的判别式和生成式任务。研究发现离散表示不如连续表示鲁棒，语义token通常优于声学token，但与连续特征之间仍存在差距。

[229] Towards Auto-Building of Embedded FPGA-based Soft Sensors for Wastewater Flow Estimation

arXiv: 2407.05102 (replaced)
Authors: Tianheng Ling, Chao Qian, Gregor Schiele
Subjects: eess.SP; cs.AI
Tags: IoT, Edge Computing, FPGA
Venue: IEEE AIoT 2024
Summary: 本文提出了一种自动化的端到端解决方案，用于在资源受限的IoT设备上进行废水流量估计。该研究解决了数据集缺乏、工具链不便和硬件平台未针对软传感器应用优化等问题。

[230] Idle is the New Sleep: Configuration-Aware Alternative to Powering Off FPGA-Based DL Accelerators During Inactivity

arXiv: 2407.12027 (replaced)
Authors: Chao Qian, Christopher Cichiwskyj, Tianheng Ling, Gregor Schiele
Subjects: cs.AR; cs.AI
Tags: FPGA, Energy Efficiency, Edge Computing
Venue: ARCS 2024
Summary: 本文介绍了针对FPGA深度学习加速器的创新优化方法，通过微调配置参数实现了40.13倍的配置能耗降低。所提出的空闲等待策略在占空比模式下优于传统的开关策略，显著延长了系统寿命。

[231] Who Benefits from AI? Self-Selection, Skill Gap, and the Hidden Costs of AI Feedback

arXiv: 2409.18660 (replaced)
Authors: Christoph Riedl, Eric Bogert
Subjects: econ.GN; cs.AI; cs.HC
Tags: AI Ethics, Human-Computer Interaction, Education Technology
Summary: 本研究基于在线国际象棋平台五年间52,000名用户的数据，发现高动机和高技能用户更倾向于选择AI反馈并从中获益更多。这种自我选择机制导致技能差距扩大和智力多样性下降，揭示了AI反馈的隐性成本。

[232] Uncertainty Quantification in Detection Transformers: Object-Level Calibration and Image-Level Reliability

arXiv: 2412.01782 (replaced)
Authors: Young-Jin Park, Carson Sobolewski, Navid Azizan
Subjects: cs.CV; cs.AI
Tags: Object Detection, Uncertainty Estimation, Model Calibration
Summary: 本文分析了DETR目标检测器的不确定性量化问题，揭示了DETR采用最优专家策略：每个目标有一个预测被训练为良好校准，其余预测则抑制前景置信度。研究引入了对象级校准误差（OCE）指标来评估模型校准质量和识别可靠预测子集。

[233] Learning Evolution via Optimization Knowledge Adaptation

arXiv: 2501.02200 (replaced)
Authors: Chao Wang, Lingling Li, Licheng Jiao, Jiaxuan Zhao, Fang Liu, Shuyuan Yang
Subjects: cs.NE; cs.AI; cs.CV; cs.LG
Tags: Evolutionary Computation, Transfer Learning, Optimization
Venue: IEEE TPAMI
Summary: 本文介绍了OKAEM，一个统一的可学习进化框架，能够基于优化知识自适应更新参数。通过注意力机制参数化进化算子，该框架实现了预训练阶段的知识迁移和自适应优化阶段的实时知识利用，在多种任务上显著优于现有方法。

[234] 3D Foundation Model for Generalizable Disease Detection in Head Computed Tomography

arXiv: 2502.02779 (replaced)
Authors: Weicheng Zhu, Haoxu Huang, Huanze Tang, Rushabh Musthyala, Boyang Yu, Long Chen, Emilio Vega, Thomas O'Donnell, Seena Dehkharghani, Jennifer A. Frontera, Arjun V. Masurkar, Kara Melmed, Narges Razavian
Subjects: cs.CV; cs.AI
Tags: Medical Imaging, Foundation Model, Self-Supervised Learning
Venue: Nature Biomedical Engineering 2026
Summary: 本文提出了FM-CT，一个用于头部CT的基础模型，通过自监督学习在361,663个无标注3D头部CT扫描上进行预训练。该模型在下游疾病检测任务上显著优于从头训练的模型和之前的3D CT基础模型，为头部CT图像分析设立了新基准。

[235] COMODO: Cross-Modal Video-to-IMU Distillation for Efficient Egocentric Human Activity Recognition

arXiv: 2503.07259 (replaced)
Authors: Baiyu Chen, Wilson Wongso, Zechen Li, Yonchanok Khaokaew, Hao Xue, Flora Salim
Subjects: cs.CV; cs.AI; cs.LG; cs.MM
Tags: Knowledge Distillation, Human Activity Recognition, Multimodal Learning
Venue: IMWUT 2026
Code: code
Summary: 本文提出了COMODO，一个跨模态自监督蒸馏框架，将语义知识从视频迁移到IMU传感器，用于高效的自中心人类活动识别。该方法无需标签即可让IMU编码器继承视频的丰富语义结构，同时保持实际应用的高效性。

[236] GAIR: Location-Aware Self-Supervised Contrastive Pre-Training with Geo-Aligned Implicit Representations

arXiv: 2503.16683 (replaced)
Authors: Zeping Liu, Ni Lao, Zhangyu Wang, Junfeng Jiao, Gengchen Mai
Subjects: cs.CV; cs.AI
Tags: Remote Sensing, Self-Supervised Learning, Representation Learning
Venue: ISPRS Journal of Photogrammetry and Remote Sensing
Code: code
Summary: 本文介绍了GAIR，一个位置感知的自监督学习框架，整合了遥感数据、街景图像和地理定位元数据。通过隐式神经表示模块实现对任意位置的连续遥感图像表示，在9个地理空间任务和22个数据集上优于现有地理基础模型。

[237] Speculative End-Turn Detector for Efficient Speech Chatbot Assistant

arXiv: 2503.23439 (replaced)
Authors: Hyunjong Ok, Suho Yoo, Jaeho Lee
Subjects: cs.CL; cs.AI; cs.LG; cs.SD; eess.AS
Tags: Dialogue System, Speech Processing, LLM Inference
Venue: ACL 2026
Summary: 本文引入了首个端点检测（ETD）数据集，并提出了SpeculativeETD，一个协作推理框架，结合轻量级本地模型和高性能服务器模型，在资源受限环境中实现高效准确的实时端点检测，用于语音对话系统。

[238] AgentDynEx: Nudging the Mechanics and Dynamics of Multi-Agent Simulations

arXiv: 2504.09662 (replaced)
Authors: Jenny Ma, Riya Sahni, Karthik Sreedhar, Lydia B. Chilton
Subjects: cs.MA; cs.AI; cs.HC
Tags: Multi-Agent System, LLM Agent, Social Simulation
Summary: 本文提出了AgentDynEx，一个帮助用户从指定机制和动态设置多智能体模拟的AI系统。该系统引入了nudging方法，当模拟偏离预期结果时进行动态干预，使模拟能够保持更复杂的机制和显著的动态特性。

[239] Remote Rowhammer Attack using Adversarial Observations on Federated Learning Clients

arXiv: 2505.06335 (replaced)
Authors: Jinsheng Yuan, Yuhang Hao, Weisi Guo, Yun Wu, Chongyan Gu
Subjects: cs.LG; cs.AI; cs.CR
Tags: Federated Learning, Cybersecurity, Adversarial Robustness
Summary: 本文展示了一种新型的远程Rowhammer攻击，通过操纵联邦学习客户端的观测数据诱导服务器高频重复内存更新，从而在无需后门访问的情况下实现服务器DRAM的比特翻转，揭示了联邦学习系统的新型安全漏洞。

[240] OMAC: A Holistic Optimization Framework for LLM-Based Multi-Agent Collaboration

arXiv: 2505.11765 (replaced)
Authors: Shijun Li, Hilaf Hasson, Joydeep Ghosh
Subjects: cs.MA; cs.AI; cs.LG
Tags: Multi-Agent System, LLM Agent, Optimization
Summary: 本文介绍了OMAC，一个用于LLM多智能体系统整体优化的通用框架。该框架识别了五个关键优化维度，并使用语义初始化器和对比比较器两个角色来优化单一维度，同时提出了多维度联合优化算法，在代码生成和推理任务上表现优异。

[241] CASS: Nvidia to AMD Transpilation with Data, Models, and Benchmark

arXiv: 2505.16968 (replaced)
Authors: Ahmed Heakl, Gustavo Bertolo Stahl, Sarim Hashmi, Seung Hun Eddie Han, Mukul Ranjan, Arina Kharlamova, Salman Khan, Abdulrahman Mahmoud
Subjects: cs.AR; cs.AI; cs.CL; cs.LG; cs.PL
Tags: Code Generation, GPU Computing
Summary: 本文介绍了CASS，首个用于GPU源码和汇编级翻译（CUDA<->HIP, SASS<->RDNA3）的数据集和模型套件，包含6万个验证过的代码对。基于此训练的领域特定翻译模型在准确率上显著优于GPT-5.1和Claude-4.5等商业基线，且生成的代码在85%的情况下性能与原生代码相当。

[242] PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts

arXiv: 2506.06211 (replaced)
Authors: Hengzhi Li, Justin Zhang, Brendon Jiang, Alexander Naehu, Regan Song, Megan Tjandrasuwita, Chanakya Ekbote, Steven-Shine Chen, Adithya Balachandran, Wei Dai, Rebecca Chang, Paul Pu Liang
Subjects: cs.CL; cs.AI; cs.CV
Tags: LLM Reasoning, Multimodal Learning, Benchmark
Code: code
Summary: 本文提出了PuzzleWorld，一个包含667个谜题风格问题的基准测试，旨在评估多模态、开放式和创造性的推理能力。当前最先进的模型在该基准上表现不佳，最佳模型仅解决了18%的谜题，且表现出短视推理的局限性。

[243] Benchmarking Misuse Mitigation Against Covert Adversaries

arXiv: 2506.06414 (replaced)
Authors: Davis Brown, Mahdi Sabbaghi, Luze Sun, Alexander Robey, George J. Pappas, Eric Wong, Hamed Hassani
Subjects: cs.CR; cs.AI
Tags: LLM Security, AI Safety
Summary: 本文针对现有语言模型安全评估忽视隐蔽攻击的问题，开发了一个名为BSD的数据生成管道，用于自动化评估隐蔽攻击及相应的防御措施。研究发现分解攻击是有效的滥用手段，而有状态的防御则是有前景的对策。

[244] LPO: Towards Accurate GUI Agent Interaction via Location Preference Optimization

arXiv: 2506.09373 (replaced)
Authors: Jiaqi Tang, Yu Xia, Yi-Feng Wu, Yuwei Hu, Yuhui Chen, Qing-Guo Chen, Xiaogang Xu, Xiangyu Wu, Hao Lu, Yanqing Ma, Shiyin Lu, Qifeng Chen
Subjects: cs.LG; cs.AI; cs.CV
Tags: GUI Automation, LLM Agent
Venue: ACL 2026 Findings
Code: code
Summary: 本文提出了一种名为位置偏好优化（LPO）的新方法，利用信息熵预测交互位置，并结合基于物理距离的动态位置奖励函数，以优化GUI代理的交互偏好。实验表明，LPO在离线基准测试和真实在线评估中均取得了最先进的结果。

[245] OmniGen2: Towards Instruction-Aligned Multimodal Generation

arXiv: 2506.18871 (replaced)
Authors: Chenyuan Wu, Pengfei Zheng, Ruiran Yan, Shitao Xiao, Xin Luo, Yueze Wang, Wanli Li, Xiyan Jiang, Yexin Liu, Junjie Zhou, Ze Liu, Ziyi Xia, Chaofan Li, Haoge Deng, Jiahao Wang, Kun Luo, Bo Zhang, Defu Lian, Xinlong Wang, Zhongyuan Wang, Tiejun Huang, Zheng Liu
Subjects: cs.CV; cs.AI; cs.CL
Tags: Text-to-Image, Image Editing, Multimodal Learning
Code: code
Summary: 本文介绍了OmniGen2，一个通用的开源生成模型，旨在为文本到图像、图像编辑和上下文生成等任务提供统一解决方案。该模型采用独立的文本和图像解码路径，并在多个任务基准测试中取得了具有竞争力的结果，同时引入了新的OmniContext基准以评估上下文生成能力。

[246] Best Agent Identification for General Game Playing

arXiv: 2507.00451 (replaced)
Authors: Matthew Stephenson, Alex Newcombe, Eric Piette, Dennis Soemers
Subjects: cs.LG; cs.AI; cs.DS; cs.IT; stat.ML
Tags: Game AI, Algorithm Selection
Summary: 本文提出了一种高效且通用的程序，用于在多问题域中准确识别每个子任务的最佳算法。该方法将问题视为多臂老虎机问题，通过基于置信区间的乐观选择过程来排序，并在通用视频游戏AI和Ludii通用游戏系统中展示了显著的性能提升。

[247] End-to-End Large Portfolio Optimization for Variance Minimization with Neural Networks through Covariance Cleaning

arXiv: 2507.01918 (replaced)
Authors: Christian Bongiorno, Efstratios Manolakis, Rosario Nunzio Mantegna
Subjects: q-fin.PM; cs.AI; math.OC; stat.ML
Tags: Quantitative Finance, Optimization
Summary: 本文开发了一种旋转不变神经网络，通过联合学习历史收益的滞后变换和协方差矩阵的特征值正则化，来提供全局最小方差投资组合。该模型在样本外测试中表现出色，实现了更低的波动率和更高的夏普比率，且具有良好的泛化能力。

[248] A Survey on MLLM-based Visually Rich Document Understanding: Methods, Challenges, and Emerging Trends

arXiv: 2507.09861 (replaced)
Authors: Yihao Ding, Siwen Luo, Yue Dai, Yanbei Jiang, Zechuan Li, Qiang Sun, Geoffrey Martin, Wei Liu, Yifan Peng
Subjects: cs.CV; cs.AI
Tags: Document Understanding, Vision-Language Model, Survey
Venue: ACL 2026 Findings
Summary: 本文综述了基于多模态大语言模型（MLLM）的富文本文档理解（VRDU）领域的最新进展，重点关注文本、视觉和布局特征的表示与集成技术以及训练范式。文章还讨论了数据稀缺、多页多语言文档处理等挑战，并展望了未来的研究方向。

[249] Fine-Tuning Code Language Models to Detect Cross-Language Bugs

arXiv: 2507.21954 (replaced)
Authors: Zengyang Li, Yimeng Li, Binbin Huang, Peng Liang, Ran Mo, Hui Liu, Yutao Ma
Subjects: cs.SE; cs.AI
Tags: Software Testing, Fine-Tuning
Venue: TOSEM 2026
Summary: 本文研究了预训练代码语言模型在跨语言错误检测中的潜力，开发了跨语言代码识别工具CLCFinder，并构建了包含三种编程语言组合的数据集。实验结果表明，微调后的代码语言模型在检测跨语言错误方面表现显著提升，其中UniXcoder-base取得了最佳F1分数。

[250] Prompt to Pwn: Automated Exploit Generation for Smart Contracts

arXiv: 2508.01371 (replaced)
Authors: ZeKe Xiao, Qin Wang, Yuekang Li, Shiping Chen
Subjects: cs.CR; cs.AI; cs.ET
Tags: Cybersecurity, Code Generation, Blockchain
Venue: ACISP 2026
Summary: 本文研究了利用大语言模型进行智能合约自动化漏洞利用生成（AEG），提出了一个名为ReX的执行基础框架，将LLM生成的漏洞利用与Foundry工具链连接。评估结果显示，当前的前沿LLM能够为单合约漏洞生成确定性概念验证，但在跨合约攻击方面表现较弱。

[251] A Functionality-Grounded Benchmark for Evaluating Web Agents in E-commerce Domains

arXiv: 2508.15832 (replaced)
Authors: Xianren Zhang, Shreyas Prasad, Di Wang, Qiuhai Zeng, Suhang Wang, Wenbo Yan, Mat Hans
Subjects: cs.CL; cs.AI
Tags: Web Agent, LLM Evaluation, Benchmark
Summary: 本文提出了一个名为Amazon-Bench的新基准测试，用于评估电子商务领域的Web代理能力，涵盖了账户管理、愿望清单管理等多样化功能。该基准不仅评估任务完成情况，还关注代理操作带来的潜在安全风险，揭示了当前代理在复杂查询和安全方面的不足。

[252] BED-LLM: Intelligent Information Gathering with LLMs and Bayesian Experimental Design

arXiv: 2508.21184 (replaced)
Authors: Deepro Choudhury, Sinead Williamson, Adam Goliński, Ning Miao, Freddie Bickford Smith, Michael Kirchhof, Yizhe Zhang, Tom Rainforth
Subjects: cs.CL; cs.AI; stat.ML
Tags: Active Learning, Bayesian Optimization, LLM Inference
Venue: ICLR 2026
Summary: 本文提出了一种名为BED-LLM的通用方法，利用序贯贝叶斯实验设计（BED）框架来提升大语言模型自适应收集信息的能力。该方法通过最大化期望信息增益来迭代选择问题，在20个问题游戏和用户偏好推断等任务中显著优于基于提示的方法。

[253] Quantum spatial best-arm identification via quantum walks

arXiv: 2509.05890 (replaced)
Authors: Tomoki Yamagami, Etsuo Segawa, Takatomo Mihana, André Röhm, Atsushi Uchida, Ryoichi Horisaki
Subjects: cs.AI; cs.LG
Tags: Quantum Computing, Reinforcement Learning
Summary: 本文提出了一种名为量子空间最佳臂识别（QSBAI）的量子算法框架，利用量子游走在图结构约束下解决最佳臂识别问题。理论分析表明，该方法能够确定识别最佳臂的最大成功概率及其达成时间，为图结构环境中的量子决策提供了基础。

[254] ORCA: An Agentic Reasoning Framework for Hallucination and Adversarial Robustness in Vision-Language Models

arXiv: 2509.15435 (replaced)
Authors: Chung-En Johnny Yu, Brian Jalaian, Nathaniel D. Bastian
Subjects: cs.CV; cs.AI; cs.MA
Tags: Vision-Language Model, LLM Hallucination, LLM Agent
Venue: ICCBDC 2026
Summary: 本文提出了ORCA，一个代理推理框架，通过在推理时利用小型视觉模型进行结构化推理，来提高大型视觉语言模型的事实准确性和对抗鲁棒性。ORCA采用观察-推理-批评-行动循环，在无需重新训练的情况下显著减少了幻觉现象并增强了对抗攻击的防御能力。

[255] Visual Reasoning Agent: Robust Vision Systems in Remote Sensing via Inference-Time Scaling

arXiv: 2509.16343 (replaced)
Authors: Chung-En Johnny Yu, Brian Jalaian, Nathaniel D. Bastian
Subjects: cs.CV; cs.AI; cs.MA
Tags: Remote Sensing, Vision-Language Model, LLM Agent
Venue: MORS 2026 Workshop
Summary: 本文提出了一种无需训练的代理视觉推理框架（VRA），通过协调大型视觉语言模型和大型推理模型进行迭代思考、批评和行动，以增强遥感视觉系统的鲁棒性。实验结果表明，VRA在遥感基准测试中显著优于独立的视觉语言模型，有效提升了感知和推理任务的准确性。

[256] Text Slider: Efficient and Plug-and-Play Continuous Concept Control for Image/Video Synthesis via LoRA Adapters

arXiv: 2509.18831 (replaced)
Authors: Pin-Yen Chiu, I-Sheng Fang, Jun-Cheng Chen
Subjects: cs.GR; cs.AI; cs.CV; cs.LG; cs.MM
Tags: Text-to-Image, Video Generation, Parameter-Efficient Fine-Tuning
Venue: WACV 2026
Code: code
Summary: 本文介绍了Text Slider，一个轻量级、高效的即插即用框架，通过识别预训练文本编码器中的低秩方向，实现对图像和视频合成中视觉概念的连续控制。该方法显著减少了训练时间和GPU内存消耗，支持多概念组合和连续控制，同时保持输入的空间布局。

[257] InsideOut: Measuring and Mitigating Insider-Outsider Bias in Interview Script Generation

arXiv: 2509.21080 (replaced)
Authors: Yixin Wan, Xingrun Chen, Kai-Wei Chang
Subjects: cs.CL; cs.AI; cs.CY
Tags: Bias Mitigation, Fairness, LLM Evaluation
Summary: 本文识别并系统研究了LLM中的“局内人-局外人”偏见，即模型在生成内容时倾向于将主流文化视为“局内人”而将非主流文化视为“局外人”。作者提出了InsideOut基准测试和基于智能体的缓解框架（MFA），有效减少了这种偏见。

[258] How does the optimizer implicitly bias the model merging loss landscape?

arXiv: 2510.04686 (replaced)
Authors: Chenxiang Zhang, Alexander Theus, Damien Teney, Antonio Orvieto, Jun Pang, Sjouke Mauw
Subjects: cs.LG; cs.AI
Tags: Model Merging, Optimization
Venue: ICLR 2026
Summary: 本文探讨了优化动力学如何影响模型合并的损失景观几何结构及其成功率。研究发现，有效噪声尺度统一了不同优化器组件对模型合并的影响，且合并成功率与该尺度呈非单调关系。

[259] Towards Generalization of Graph Neural Networks for AC Optimal Power Flow

arXiv: 2510.06860 (replaced)
Authors: Olayiwola Arowolo, Jochen L. Cremer
Subjects: cs.LG; cs.AI
Tags: Graph Neural Network, Power System, Optimization
Summary: 针对交流最优潮流（ACOPF）问题，本文提出了一种混合异构消息传递神经网络（HH-MPNN），结合了图神经网络和Transformer。该方法在不同规模和拓扑结构上实现了良好的泛化性能，显著提升了计算速度。

[260] ReefNet: A Large-Scale Dataset and Benchmark for Fine-Grained Coral Reef Recognition

arXiv: 2510.16822 (replaced)
Authors: Abdulwahab Felemban, Yahia Battach, Faizan Farooq Khan, Yuqian Fu, Xuhui Liu, Yesmeen M. Khattab, Yousef A. Radwan, Xiang Li, Fabio Marchese, Sara Beery, Burton H. Jones, Francesca Benzoni, Mohamed Elhoseiny
Subjects: cs.CV; cs.AI
Tags: Dataset, Image Classification, Vision-Language Model
Summary: 本文介绍了ReefNet，一个大规模的珊瑚礁图像数据集，包含细粒度的标签和专家验证的基准子集。作者建立了全面的基准测试，评估了视觉语言模型在零样本、少样本等设置下的表现，揭示了现有模型在生物多样性监测中的挑战。

[261] SpecAgent: A Speculative Retrieval and Forecasting Agent for Code Completion

arXiv: 2510.17925 (replaced)
Authors: George Ma, Anurag Koul, Qi Chen, Yawen Wu, Sachit Kuhar, Yu Yu, Aritra Sengupta, Varun Kumar, Murali Krishna Ramanathan
Subjects: cs.SE; cs.AI
Tags: Code Generation, LLM Agent, LLM Inference
Venue: ACL 2026
Summary: 本文提出了SpecAgent，一种用于代码补全的推测性检索和预测智能体，通过在索引期间主动探索仓库文件来构建推测性上下文。该方法在提高代码生成质量的同时显著降低了推理延迟，并构建了一个无泄漏的合成基准进行评估。

[262] Enabling Vibration-Based Gesture Recognition on Everyday Furniture via Energy-Efficient FPGA Implementation of 1D Convolutional Networks

arXiv: 2510.23156 (replaced)
Authors: Koki Shibata, Tianheng Ling, Chao Qian, Tomokazu Matsui, Hirohiko Suwa, Keiichi Yasumoto, Gregor Schiele
Subjects: cs.LG; cs.AI
Tags: FPGA, Gesture Recognition, DNN Deployment
Venue: IEEE AIoT 2025
Summary: 本文提出了一种基于FPGA的高能效解决方案，用于通过日常家具上的振动进行手势识别。通过采用原始波形输入、轻量级网络设计和量化优化，该方法在保持高准确率的同时显著降低了延迟和能耗。

[263] Multiclass Local Calibration with the Jensen-Shannon Distance

arXiv: 2510.26566 (replaced)
Authors: Cesare Barbera, Lorenzo Perini, Giovanni De Toni, Andrea Passerini, Andrea Pugnana
Subjects: cs.LG; cs.AI
Tags: Model Calibration, Uncertainty Estimation
Venue: AISTATS 2026
Summary: 本文引入了多类局部校准的概念，并提出了一种使用Jensen-Shannon距离的实用方法来增强神经网络的局部校准能力。该方法解决了现有方法在特征空间稀疏区域易受邻近性偏差影响的问题。

[264] Cloning Deterministic Worlds: The Critical Role of Latent Geometry in Long-Horizon World Models

arXiv: 2510.26782 (replaced)
Authors: Zaishuo Xia, Yukuan Lu, Xinyi Li, Yifan Xu, Yubei Chen
Subjects: cs.LG; cs.AI; cs.CV
Tags: World Model, Representation Learning
Summary: 本文研究了如何构建能够精确克隆确定性3D世界的世界模型，发现潜在表示的几何结构是长视距保真度的主要瓶颈。作者提出了几何正则化世界模型（GRWM），利用时间对比学习来改善潜在空间结构，从而提升世界模型的保真度。

[265] Decomposed Trust: Privacy, Adversarial Robustness, Ethics, and Fairness in Low-Rank LLMs

arXiv: 2511.22099 (replaced)
Authors: Daniel Agyei Asante, Md Mokarram Chowdhury, Yang Li
Subjects: cs.LG; cs.AI
Tags: Model Compression, Adversarial Robustness, Privacy
Summary: 本文首次全面研究了低秩分解对大语言模型可信度的影响，涵盖隐私、对抗鲁棒性、伦理和公平性四个方面。研究揭示了压缩对信任相关属性的不同影响，并分析了其内部机制。

[266] Graph Data Augmentation with Contrastive Learning on Covariate Distribution Shift

arXiv: 2512.00716 (replaced)
Authors: Fanlong Zeng, Wensheng Gan
Subjects: cs.LG; cs.AI
Tags: Graph Neural Network, Data Augmentation, Contrastive Learning
Code: code
Summary: 针对图数据中的协变量分布偏移问题，本文提出了一种名为MPAIACL的新方法，利用对比学习挖掘潜在空间的信息。实验表明，该方法在多种分布外数据集上具有强大的泛化能力和有效性。

[267] Protecting Bystander Privacy via Selective Hearing in Audio LLMs

arXiv: 2512.06380 (replaced)
Authors: Xiao Zhan, Guangzhi Sun, Jose Such, Phil Woodland
Subjects: cs.SD; cs.AI
Tags: Audio-Language Model, Privacy, LLM Alignment
Venue: ACL 2026
Summary: 本文介绍了SH-Bench，首个用于评估音频大语言模型“选择性听觉”能力的基准测试，旨在保护旁观者隐私。作者提出了Bystander Privacy Fine-Tuning (BPFT) 训练流程，有效提升了模型在理解主说话人的同时保护旁观者隐私的能力。

[268] ODMA: On-Demand Memory Allocation Strategy for LLM Serving on LPDDR-Class Accelerators

arXiv: 2512.09427 (replaced)
Authors: Guoqiang Zou, Wanyu Wang, Hao Zheng, Longxiang Yin, Yinhe Han
Subjects: cs.AR; cs.AI
Tags: LLM Serving, Memory Architecture
Summary: 本文提出了ODMA，一种针对LPDDR类加速器的按需内存分配策略，用于大语言模型服务。该方法通过轻量级长度预测器和自适应桶分区，提高了KV缓存利用率和吞吐量。

[269] FaithLens: Detecting and Explaining Faithfulness Hallucination

arXiv: 2512.20182 (replaced)
Authors: Shuzheng Si, Qingyi Wang, Haozhe Zhao, Yuzhuo Bai, Guanqiao Chen, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun
Subjects: cs.CL; cs.AI
Tags: LLM Hallucination, Explainable AI
Venue: ACL 2026 Findings
Summary: 本文提出了FaithLens，一个高效且有效的忠实性幻觉检测模型，能够提供二元预测和解释。通过合成训练数据和基于规则的强化学习优化，该模型在多项任务中表现优异，并提高了可信度。

[270] Multi-agent Adaptive Mechanism Design

arXiv: 2512.21794 (replaced)
Authors: Qiushi Han, David Simchi-Levi, Renfei Tan, Zishuo Zhao
Subjects: cs.GT; cs.AI; cs.LG; cs.MA; econ.TH
Tags: Multi-Agent System, Mechanism Design
Summary: 本文研究了多智能体序列机制设计问题，提出了分布鲁棒自适应机制（DRAM）框架。该框架结合了机制设计和在线学习，在保证真实性的同时实现了最优的遗憾界。

[271] QSLM: A Performance- and Memory-aware Quantization Framework with Tiered Search Strategy for Spike-driven Language Models

arXiv: 2601.00679 (replaced)
Authors: Rachmad Vidya Wicaksana Putra, Pasindu Wickramasinghe, Muhammad Shafique
Subjects: cs.NE; cs.AI; cs.LG
Tags: Quantization, Neuromorphic Computing, Model Compression
Venue: DATE 2026
Summary: 本文提出了QSLM框架，用于对脉冲驱动语言模型进行自动化量化，以满足性能和内存约束。该方法采用分层搜索策略，显著减少了内存占用和功耗，同时保持了高性能。

[272] Do LLMs Encode Functional Importance of Reasoning Tokens?

arXiv: 2601.03066 (replaced)
Authors: Janvijay Singh, Dilek Hakkani-Tür
Subjects: cs.CL; cs.AI; cs.LG
Tags: LLM Reasoning, Knowledge Distillation
Venue: ACL 2026
Summary: 本文研究了大型语言模型是否编码了推理标记的功能重要性，并提出了一种贪婪剪枝方法来生成受长度控制的推理链。实验表明，在剪枝后的推理链上训练的学生模型表现优于基线，且注意力分数可以预测剪枝排名。

[273] Bootstrapping Code Translation with Weighted Multilanguage Exploration

arXiv: 2601.03512 (replaced)
Authors: Yuhan Wu, Huan Zhang, Wei Cheng, Chen Shen, Jingyue Yang, Wei Hu
Subjects: cs.SE; cs.AI
Tags: Code Generation, Reinforcement Learning, Program Synthesis
Venue: ACL 2026
Summary: 本文提出了BootTrans方法，通过利用枢轴语言单元测试作为通用验证预言机，并引入语言感知加权机制来解决多语言代码翻译中的并行数据稀缺和优化不平衡问题。

[274] Adversarial Attacks on Medical Hyperspectral Imaging Exploiting Spectral-Spatial Dependencies and Multiscale Features

arXiv: 2601.07056 (replaced)
Authors: Yunrui Gu, Zhenzhe Gao, Cong Kong, Jiawei Du, Zhaoxia Yin
Subjects: cs.CV; cs.AI
Tags: Adversarial Robustness, Medical Imaging, Hyperspectral Imaging
Summary: 本文提出了一种针对医学高光谱成像的结构化对抗攻击框架，通过建模局部光谱-空间依赖性和多尺度分层表示来生成解剖一致的扰动，揭示了MHSI模型在临床关键区域的鲁棒性弱点。

[275] LSTM-MAS: A Long Short-Term Memory Inspired Multi-Agent System for Long-Context Understanding

arXiv: 2601.11913 (replaced)
Authors: Yichen Jiang, Jiakang Yuan, Chongjun Tu, Peng Ye, Tao Chen
Subjects: cs.CL; cs.AI
Tags: Long Context, Multi-Agent System, LLM Reasoning
Summary: 本文提出了LSTM-MAS，一个受LSTM架构启发的多智能体系统，通过模拟LSTM的分层信息流和门控记忆机制来处理长上下文理解，有效避免错误累积和幻觉传播。

[276] Lost in the Prompt Order: Revealing the Limitations of Causal Attention in Language Models

arXiv: 2601.14152 (replaced)
Authors: Hyunjong Ok, Jaeho Lee
Subjects: cs.CL; cs.AI; cs.LG
Tags: Prompt Engineering, LLM Inference, In-Context Learning
Venue: ACL 2026 findings
Summary: 本文深入研究了提示顺序对LLM在多项选择问答中性能的影响，发现因果注意力机制在QOC提示结构中会阻止选项token关注上下文，从而造成信息瓶颈。

[277] Multi-Persona Thinking for Bias Mitigation in Large Language Models

arXiv: 2601.15488 (replaced)
Authors: Yuxing Chen, Guoqing Luo, Zijun Wu, Lili Mou
Subjects: cs.CL; cs.AI
Tags: Bias Mitigation, LLM Alignment, Prompt Engineering
Summary: 本文提出了多角色思考(MPT)框架，一种推理时方法，通过鼓励模型从多个对比的社会身份视角进行迭代推理来识别和纠正偏见判断，从而减少LLM的社会偏见。

[278] Knowledge-Guided Time-Varying Causal Inference for Arctic Sea Ice Dynamics

arXiv: 2601.17647 (replaced)
Authors: Akila Sampath, Vandana Janeja, Jianwu Wang
Subjects: cs.LG; cs.AI
Tags: Causal Inference, Physics-Informed Learning, Climate Science
Summary: 本文提出了知识引导因果模型变分自编码器(KGCM-VAE)，利用SSH与表面流速之间的物理关系生成物理基础的时间变化连续处理，并引入MMD来平衡潜在空间中的处理组和对照组分布。

[279] Temp-R1: A Unified Autonomous Agent for Complex Temporal KGQA via Reverse Curriculum Reinforcement Learning

arXiv: 2601.18296 (replaced)
Authors: Zhaoyan Gong, Zhiqiang Liu, Songze Li, Xiaoke Guo, Yuanxiang Liu, Xinle Deng, Zhizhen Liu, Lei Liang, Huajun Chen, Wen Zhang
Subjects: cs.CL; cs.AI; cs.LG
Tags: Temporal Knowledge Graph, Question Answering, LLM Agent
Venue: ACL 2026
Code: code
Summary: 本文提出了Temp-R1，首个通过强化学习训练的时间知识图谱问答自主端到端智能体，采用逆向课程学习先训练困难问题，在复杂问题上实现了显著的性能提升。

[280] On the Spatiotemporal Dynamics of Generalization in Neural Networks

arXiv: 2602.01651 (replaced)
Authors: Zichao Wei
Subjects: cs.LG; cs.AI
Tags: Deep Learning Theory, Neural Architecture, Generalization Bound
Summary: 本文从物理学的局部性、对称性和稳定性三个公设出发，推导出SEAD架构——一种神经细胞自动机，在奇偶校验、加法和Rule 110任务上实现了完美的长度泛化。

[281] See2Refine: Vision-Language Feedback Improves LLM-Based eHMI Action Designers

arXiv: 2602.02063 (replaced)
Authors: Ding Xia, Xinyue Gui, Mark Colley, Fan Gao, Zhongyi Zhou, Dongyuan Li, Renhe Jiang, Takeo Igarashi
Subjects: cs.HC; cs.AI
Tags: Autonomous Driving, Vision-Language Model, LLM Agent
Venue: ACL 2026
Summary: 本文提出了See2Refine框架，利用视觉语言模型的感知评估作为自动化视觉反馈，迭代改进基于LLM的外部人机接口动作设计器，无需人工监督即可实现系统化优化。

[282] Adaptive Prompt Elicitation for Text-to-Image Generation

arXiv: 2602.04713 (replaced)
Authors: Xinyi Wen, Lena Hegemann, Xiaofu Jin, Shuai Ma, Antti Oulasvirta
Subjects: cs.HC; cs.AI; cs.CV
Tags: Text-to-Image, Prompt Engineering, Human-Computer Interaction
Venue: ACM IUI 2026
Summary: 本文提出了自适应提示诱导(APE)技术，通过自适应地提出视觉查询帮助用户细化文本到图像生成的提示，在信息论框架下实现了更好的用户意图对齐和效率。

[283] AI-Based Detection of Temporal Changes in MR-Linac Images Acquired During Routine Prostate Radiotherapy

arXiv: 2602.04983 (replaced)
Authors: Seungbin Park, Peilin Wang, Ryan Pennell, Emily S. Weg, Himanshu Nagar, Timothy McClure, Mert R. Sabuncu, Daniel Margolis, Heejong Kim
Subjects: eess.IV; cs.AI; cs.LG
Tags: Medical Imaging, Change Detection, Deep Learning
Summary: 本文研究了基于AI的方法检测前列腺放疗期间MR-Linac图像中的时间变化，使用基于时间排序的深度学习模型，在检测约两天间隔的细微变化方面表现出高性能。

[284] Reduced-Order Surrogates for Forced Flexible Mesh Coastal-Ocean Models

arXiv: 2602.05416 (replaced)
Authors: Freja Høgholm Petersen, Jesper Sandvig Mariegaard, Rocco Palmitessa, Allan P. Engsig-Karup
Subjects: cs.CE; cs.AI; cs.LG
Tags: Scientific Computing, Surrogate Model, Time Series Forecasting
Summary: 本文引入了一种灵活的Koopman自编码器公式用于海岸-海洋建模，结合气象强迫和边界条件，实现了高精度预测和300-1400倍的推理加速。

[285] Diamond Maps: Efficient Reward Alignment via Stochastic Flow Maps

arXiv: 2602.05993 (replaced)
Authors: Peter Holderrieth, Douglas Chen, Luca Eyring, Ishin Shah, Giri Anantharaman, Yutong He, Zeynep Akata, Tommi Jaakkola, Nicholas Matthew Boffi, Max Simchowitz
Subjects: cs.LG; cs.AI
Tags: Flow Matching, Generative Model, Diffusion Model
Summary: 本文提出了Diamond Maps，一种随机流映射模型，通过将多个模拟步骤摊销为单步采样器同时保留随机性，实现了推理时对任意奖励的高效准确对齐。

[286] TFusionOcc: T-Primitive Based Object-Centric Multi-Sensor Fusion Framework for 3D Occupancy Prediction

arXiv: 2602.06400 (replaced)
Authors: Zhenxing Ming, Yaoqi Huang, Julie Stephany Berrio, Mao Shan, Stewart Worrall
Subjects: cs.CV; cs.AI; cs.RO
Tags: 3D Vision, Autonomous Driving, Sensor Fusion
Code: code
Summary: 本文提出了TFusionOcc，一个基于T-基元的多传感器融合框架用于3D语义占用预测，使用基于学生t分布的T-基元来建模复杂、非凸和非对称结构。

[287] Investigating the structure of emotions by analyzing similarity and association of emotion words

arXiv: 2602.06430 (replaced)
Authors: Fumitaka Iwaki, Tatsuji Takahashi
Subjects: cs.CL; cs.AI
Tags: Sentiment Analysis, Affective Computing, Linguistic Resource
Summary: 本文通过构建和分析情感词的语义网络来研究Plutchik情感轮的有效性，发现网络结构与情感轮整体相似但存在局部差异。

[288] MATA: Multi-Agent Framework for Reliable and Flexible Table Question Answering

arXiv: 2602.09642 (replaced)
Authors: Sieun Hyeon, Jusang Oh, Sunghwan Steve Cho, Jaeyoung Do
Subjects: cs.CL; cs.AI
Tags: Table Reasoning, Multi-Agent System, Question Answering
Venue: ACL 2026 findings
Code: code
Summary: 本文介绍了MATA，一个多智能体表格问答框架，利用多个互补推理路径和小语言模型工具，在保持高性能的同时最小化昂贵的LLM调用。

[289] Chimera: Neuro-Symbolic Attention Primitives for Trustworthy Dataplane Intelligence

arXiv: 2602.12851 (replaced)
Authors: Rong Fu, Xiaowen Ma, Kun Liu, Wangyu Wu, Ziyu Kong, Jia Yee Tan, Tailong Luo, Xianda Li, Zeli Su, Youjin Wang, Yongtai Liu, Simon Fong
Subjects: cs.NI; cs.AI; cs.CR; cs.LG
Tags: Neurosymbolic AI, Hardware-Software Co-design
Summary: Chimera是一个将注意力导向的神经计算和符号约束映射到可编程数据平面的框架，旨在解决硬件限制和行为可审计性问题。该框架结合了核化线性注意力近似和级联融合机制，在保证神经表达力的同时强制执行符号约束。实验证明该方法能在商用可编程交换机的资源限制内实现高保真推理。

[290] Debug2Fix: Can Interactive Debugging Help Coding Agents Fix More Bugs?

arXiv: 2602.18571 (replaced)
Authors: Spandan Garg, Yufan Huang
Subjects: cs.SE; cs.AI
Tags: LLM Agent, Program Repair
Summary: Debug2Fix是一个将交互式调试作为软件工程代理核心组件的新框架，通过子代理架构整合调试器以利用丰富的运行时信息。该框架在Java和Python的bug修复任务中表现优异，使较弱模型的性能达到或超过较强模型。

[291] PhysMem: Scaling Test-time Physical Memory for Robot Manipulation

arXiv: 2602.20323 (replaced)
Authors: Haoyang Li, Yang You, Hao Su, Leonidas Guibas
Subjects: cs.RO; cs.AI
Tags: Embodied AI, Memory Architecture
Summary: PhysMem是一个记忆框架，使视觉语言模型（VLM）机器人规划器能够在测试时通过交互学习物理原理，而无需更新模型参数。该系统通过记录经验、生成假设并进行验证，有效提升了机器人在真实世界操作任务中的表现。

[292] From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents

arXiv: 2603.01455 (replaced)
Authors: Niu Lian, Yuting Wang, Hanshu Yao, Jinpeng Wang, Bin Chen, Yaowei Wang, Min Zhang, Shu-Tao Xia
Subjects: cs.CV; cs.AI; cs.CL; cs.IR; cs.MM
Tags: Video Understanding, Memory Architecture, Multimodal Learning
Venue: ACL 2026
Code: code
Summary: 本文提出了MM-Mem，一种基于模糊痕迹理论的金字塔式多模态记忆架构，用于长时程视频理解。该架构将记忆分层组织，通过语义信息瓶颈目标实现从细粒度感知痕迹到高层语义模式的渐进蒸馏。实验表明，该方法在离线和流式任务中均达到了最先进的性能。

[293] Reinforced Generation of Combinatorial Structures: Ramsey Numbers

arXiv: 2603.09172 (replaced)
Authors: Ansh Nagda, Prabhakar Raghavan, Abhradeep Thakurta
Subjects: math.CO; cs.AI; cs.CC
Tags: LLM Agent, Combinatorial Search
Summary: 本文利用基于LLM的代码变异代理AlphaEvolve，发现了九个经典拉姆齐数的改进下界。该单一元算法能够生成搜索算法，成功恢复了已知精确拉姆齐数的下界，并在许多其他情况下匹配了已知的最佳下界。

[294] Adapting Dijkstra for Buffers and Unlimited Transfers

arXiv: 2603.11729 (replaced)
Authors: Denys Katkalo, Andrii Rohovyi, Toby Walsh
Subjects: cs.DS; cs.AI; cs.RO
Tags: Optimization, Route Planning
Summary: 本文重新审视了基于Dijkstra的公共交通路由方法，提出了Transfer Aware Dijkstra (TAD)算法来正确处理缓冲时间。实验表明，该方法在伦敦和瑞士网络上比RAPTOR算法具有更好的性能，同时能产生最优结果。

[295] Early Pruning for Public Transport Routing

arXiv: 2603.12592 (replaced)
Authors: Andrii Rohovyi, Abdallah Abuaisha, Toby Walsh
Subjects: cs.DS; cs.AI; cs.RO
Tags: Optimization, Route Planning
Summary: 本文提出了一种名为Early Pruning的低开销技术，用于加速公共交通路由算法（如RAPTOR及其变体）。该方法通过在传输循环中应用剪枝规则，在不影响最优性的前提下，将查询时间减少了高达57%。

[296] AD-Copilot: A Vision-Language Assistant for Industrial Anomaly Detection via Visual In-context Comparison

arXiv: 2603.13779 (replaced)
Authors: Xi Jiang, Yue Guo, Jian Li, Yong Liu, Bin-Bin Gao, Hanqiu Deng, Jun Liu, Heng Zhao, Chengjie Wang, Feng Zheng
Subjects: cs.CV; cs.AI
Tags: Anomaly Detection, Vision-Language Model, Industrial Monitoring
Code: code
Summary: AD-Copilot是一个通过视觉上下文比较专门用于工业异常检测（IAD）的交互式多模态大语言模型。该模型引入了比较编码器以增强多图像细粒度感知，并在MMAD基准测试中取得了82.3%的准确率，超越了人类专家水平。

[297] ExpertGen: Scalable Sim-to-Real Expert Policy Learning from Imperfect Behavior Priors

arXiv: 2603.15956 (replaced)
Authors: Zifan Xu, Ran Gong, Maria Vittoria Minniti, Ahmet Salih Gundogdu, Eric Rosen, Kausik Sivakumar, Riedana Yan, Zixing Wang, Di Deng, Peter Stone, Xiaohan Zhang, Karl Schmeckpeper
Subjects: cs.RO; cs.AI
Tags: Sim-to-Real, Robotics, Imitation Learning
Summary: ExpertGen是一个在仿真中自动化专家策略学习以实现可扩展的虚实迁移的框架。该方法利用强化学习优化扩散策略的初始噪声，在不完美演示的基础上生成高质量专家策略，并在工业装配任务中取得了显著的性能提升。

[298] CounterRefine: Answer-Conditioned Counterevidence Retrieval for Inference-Time Knowledge Repair in Factual Question Answering

arXiv: 2603.16091 (replaced)
Authors: Tianyi Huang, Ying Kai Deng
Subjects: cs.CL; cs.AI
Tags: RAG, Question Answering
Venue: ACL 2026 Workshop
Summary: CounterRefine是一个用于检索增强问答的推理时修复层，它通过基于草稿答案检索支持和冲突证据来修正错误答案。该方法在SimpleQA基准测试中显著提高了准确率，证明了利用证据重新审视和修复答案的重要性。

[299] Bridging the High-Frequency Data Gap: A Millisecond-Resolution Network Dataset for Advancing Time Series Foundation Models

arXiv: 2603.16497 (replaced)
Authors: Subina Khanal, Seshu Tirupathi, Merim Dzaferagic, Marco Ruffini, Torben Bach Pedersen
Subjects: cs.LG; cs.AI
Tags: Time Series Forecasting, Dataset, Wireless Networks
Summary: 本文介绍了一个来自5G无线部署的毫秒级分辨率数据集，旨在填补时间序列基础模型在高频数据方面的空白。基准测试表明，现有的时间序列基础模型在零样本和微调设置下均难以处理这种新的高频数据分布。

[300] The data heat island effect: quantifying the impact of AI data centers in a warming world

arXiv: 2603.20897 (replaced)
Authors: Andrea Marinoni, Erik Cambria, Weisi Lin, Mauro Dalla Mura, Jocelyn Chanussot, Edoardo Ragusa, Chi Yan Tso, Yihao Zhu, Benjamin Horton
Subjects: cs.CY; cs.AI; cs.AR
Tags: AI Sustainability, Data Center
Summary: 本文利用遥感测量数据，量化了AI数据中心的热排放对周围环境温度的影响，发现数据中心运营后周边地表温度平均升高2°C。研究指出这种“数据热岛效应”可能影响全球超过3.4亿人口，对社区和区域福利产生重要影响。

[301] More Than Sum of Its Parts: Deciphering Intent Shifts in Multimodal Hate Speech Detection

arXiv: 2603.21298 (replaced)
Authors: Runze Sun, Yu Zheng, Zexuan Xiong, Zhongjin Qu, Lei Chen, Jie Zhou, Jiwen Lu
Subjects: cs.CL; cs.AI
Tags: Content Moderation, Multimodal Learning, LLM Agent
Code: code
Summary: 本文提出了ARCADE框架，通过模拟法庭辩论的代理机制来检测多模态仇恨言论中的意图转变。该方法在H-VLI基准测试中显著优于现有基线，特别是在处理隐式仇恨言论方面表现出色。

[302] Resolving the Robustness-Precision Trade-off in Financial RAG through Hybrid Document-Routed Retrieval

arXiv: 2603.26815 (replaced)
Authors: Zhiyuan Cheng, Longying Lai, Yue Liu
Subjects: cs.CL; cs.AI; cs.IR
Tags: RAG, Financial AI
Summary: 本文提出了混合文档路由检索（HDRR）架构，用于解决金融RAG系统中的鲁棒性与精确性权衡问题。该方法结合了语义文件路由和分块检索，在FinDER基准测试中实现了最低的失败率和最高的精确度。

[303] A deep learning pipeline for PAM50 subtype classification using histopathology images and multi-objective patch selection

arXiv: 2604.01798 (replaced)
Authors: Arezoo Borji, Gernot Kronreif, Bernhard Angermayr, Francisco Mario Calisto, Ali Abbasian Ardakani, Wolfgang Birkfellner, Inna Servetnyk, Yinyin Yuan, Sepideh Hatamikia
Subjects: cs.CV; cs.AI
Tags: Medical Imaging, Image Classification
Summary: 本文提出了一种基于深度学习的框架，利用H&E染色的全切片图像预测乳腺癌PAM50亚型。该方法结合了非支配排序遗传算法II（NSGA-II）和蒙特卡洛Dropout不确定性估计进行多目标补丁选择，在外部验证集上取得了优异的分类性能。

[304] Council Mode: Mitigating Hallucination and Bias in LLMs via Multi-Agent Consensus

arXiv: 2604.02923 (replaced)
Authors: Shuai Wu, Xue Li, Yanna Feng, Yufang Li, Zhijun Wang
Subjects: cs.CL; cs.AI
Tags: LLM Hallucination, Multi-Agent System
Summary: Council Mode是一个多代理共识框架，通过将查询分发给多个异构前沿LLM并综合其输出来缓解幻觉和偏见。实验表明，该方法在HaluEval基准测试中显著降低了幻觉率，并在TruthfulQA上取得了更好的表现。

[305] ARM: Advantage Reward Modeling for Long-Horizon Manipulation

arXiv: 2604.03037 (replaced)
Authors: Yiming Mao, Zixi Yu, Weixin Mao, Yinhao Li, Qirui Hu, Zihan Lan, Minzhao Zhu, Hua Chen
Subjects: cs.RO; cs.AI; cs.CV
Tags: Robotics, Reinforcement Learning, Reward Design
Summary: 本文提出了优势奖励建模(ARM)框架，用于长视野机器人操作任务，通过三态标签策略（渐进、回归、停滞）来估计相对优势而非绝对进度。该方法在毛巾折叠任务上实现了99.4%的成功率，显著提高了数据效率和稳定性。

[306] Fine-tuning DeepSeek-OCR-2 for Molecular Structure Recognition

arXiv: 2604.03476 (replaced)
Authors: Haocheng Tang, Xingyu Dang, Junmei Wang
Subjects: cs.CV; cs.AI; q-bio.BM
Tags: Vision-Language Model, Fine-Tuning, Molecular Generation
Summary: 本文将DeepSeek-OCR-2适配于分子光学识别任务，将其表述为图像条件的SMILES生成问题，并提出两阶段渐进式监督微调策略。模型在精确匹配准确率上与最佳图像到序列模型相当，但仍逊于最先进的图像到图模型。

[307] GAIN: Multiplicative Modulation for Domain Adaptation

arXiv: 2604.04516 (replaced)
Authors: Hengshuai Yao, Xing Chen, Ahmed Murtadha, Guan Wang
Subjects: cs.LG; cs.AI
Tags: Domain Adaptation, Parameter-Efficient Fine-Tuning, LLM Training
Summary: 本文提出了GAIN，一种乘性调制方法用于LLM领域适应，通过保持预训练权重矩阵的列空间来减少遗忘。在八个领域的顺序适应中，GAIN将早期领域困惑度提高了7-13%，而LoRA则降低了18-36%。

[308] MoBiE: Efficient Inference of Mixture of Binary Experts under Post-Training Quantization

arXiv: 2604.06798 (replaced)
Authors: Zhixiong Zhao, Zukang Xu, Zhixuan Chen, Dawei Yang
Subjects: cs.LG; cs.AI
Tags: Mixture-of-Experts, Model Compression, Quantization
Code: code
Summary: 本文提出了MoBiE，首个针对MoE大语言模型的二值化框架，通过联合SVD分解、全局损失梯度和误差约束来解决跨专家冗余和路由偏移问题。然而，该论文因单位归属问题和数学推导错误已被撤回。

[309] Semantic Intent Fragmentation: A Single-Shot Compositional Attack on Multi-Agent AI Pipelines

arXiv: 2604.08608 (replaced)
Authors: Tanzim Ahad, Ismail Hossain, Md Jahangir Alam, Sai Puppala, Yoonpyo Lee, Syed Bahauddin Alam, Sajedul Talukder
Subjects: cs.CR; cs.AI; cs.LG
Tags: LLM Security, Multi-Agent System, Cybersecurity
Venue: AAAI 2026 Summer Symposium
Summary: 本文引入了语义意图碎片化(SIF)攻击，针对LLM编排系统，单个合法请求被分解为各自良性但联合违反安全策略的子任务。在14个场景中攻击成功率达71%，计划级信息流跟踪可检测所有攻击。

[310] Unsupervised Local Plasticity in a Multi-Frequency VisNet Hierarchy

arXiv: 2604.09734 (replaced)
Authors: Mehdi Fatan Serj, C. Alejandro Parraga, Xavier Otazu
Subjects: cs.CV; cs.AI
Tags: Self-Supervised Learning, Representation Learning, Computer Vision
Summary: 本文介绍了一种完全基于局部可塑性规则的无监督视觉表征学习系统，无需标签、反向传播或全局误差信号。该系统在CIFAR-10上达到80.1%的准确率，缩小了与反向传播训练CNN的性能差距。

[311] THEIA: Learning Complete Kleene Three-Valued Logic in a Pure-Neural Modular Architecture

arXiv: 2604.11284 (replaced)
Authors: Augustus Haoyang Li
Subjects: cs.LG; cs.AI; cs.LO
Tags: Neurosymbolic AI, Neural Architecture, Logical Reasoning
Summary: 本文提出了THEIA，一种模块化神经架构，能够从任务数据中学习完整的Kleene三值逻辑真值表，无需外部符号推理。核心发现包括不确定性-判决不对称传播和离散化端到端训练下的可靠性谱。

[312] A Triadic Suffix Tokenization Scheme for Numerical Reasoning

arXiv: 2604.11582 (replaced)
Authors: Olga Chetverina
Subjects: cs.CL; cs.AI; cs.LG
Tags: Tokenization, Numerical Reasoning, LLM Reasoning
Summary: 本文引入了三元后缀分词(TST)方案，将数字划分为三位数组并用显式量级标记注释，以保持位置和小数结构。该方法为数值推理提供了稳定的梯度信号，可扩展到任意精度和范围。

[313] Evaluating Cooperation in LLM Social Groups through Elected Leadership

arXiv: 2604.11721 (replaced)
Authors: Ryan Faulkner, Anushka Deshpande, David Guzman Piedrahita, Joel Z. Leibo, Zhijing Jin
Subjects: cs.CL; cs.AI; cs.LG
Tags: Multi-Agent System, Social Simulation, LLM Agent
Summary: 本文研究了选举领导机制是否能改善多智能体LLM模拟中的合作与集体决策。实验表明，选举领导机制将社会福利分数提高了55.4%，生存时间提高了128.6%。

[314] Coding-Free and Privacy-Preserving Agentic Framework for Data-Driven Clinical Research

arXiv: 2604.12258 (replaced)
Authors: Taehun Kim, Hyeryun Park, Hyeonhoon Lee, Yushin Lee, Kyungsang Kim, Hyung-Chul Lee
Subjects: cs.CL; cs.AI
Tags: Medical AI, LLM Agent, Workflow Automation
Summary: 本文开发了CARIS系统，一个无需编码且保护隐私的临床研究智能体框架，自动化研究规划、文献检索、队列构建、IRB文档和报告生成等工作流程。系统在LLM评估中达到96%的完整度。

[315] Catching Every Ripple: Enhanced Anomaly Awareness via Dynamic Concept Adaptation

arXiv: 2604.14726 (replaced)
Authors: Jiaqi Zhu, Shaofeng Cai, Jie Chen, Fang Deng, Beng Chin Ooi, Wenqiao Zhang
Subjects: cs.LG; cs.AI
Tags: Anomaly Detection, Continual Learning, Concept Drift
Venue: IEEE TPAMI
Summary: 本文提出了DyMETER，一个用于在线异常检测的动态概念适应框架，通过超网络生成实例感知的参数偏移和动态阈值优化来适应概念漂移。该方法在各种应用场景中显著优于现有方法。

[316] JumpLoRA: Sparse Adapters for Continual Learning in Large Language Models

arXiv: 2604.16171 (replaced)
Authors: Alexandra Dragomir, Ioana Pintilie, Antonio Barbalau, Marius Dragoi, Florin Brad, Cristian Daniel Paduraru, Alexandru Tifrea, Elena Burceanu, Radu Tudor Ionescu
Subjects: cs.LG; cs.AI; cs.CL
Tags: Continual Learning, Parameter-Efficient Fine-Tuning, LLM Training
Summary: 本文提出了JumpLoRA，通过JumpReLU门控在LoRA块中自适应地引入稀疏性，实现动态参数隔离以防止任务干扰。该方法显著提升了IncLoRA的性能，并优于最先进的ELLA方法。

[317] Beyond the 'Diff': Addressing Agentic Entropy in Agentic Software Development

arXiv: 2604.16323 (replaced)
Authors: Matteo Casserini, Alessandro Facchini, Andrea Ferrario
Subjects: cs.SE; cs.AI
Tags: LLM Agent, Explainable AI, Software Engineering
Venue: CHI 2026 Workshop
Summary: 本文提出了”智能体熵”概念，描述自主编码智能体行为与架构意图之间的累积性偏离，并提出过程导向的可解释性框架，包括一致性播种、推理监控和因果图接口三大支柱。

[318] Why AI Readiness Is an Organizational Learning Problem, Not a Technology Purchase

arXiv: 2604.16369 (replaced)
Authors: Jeanne McClure, Gregg Gerdau
Subjects: cs.CY; cs.AI; cs.CL
Tags: AI Governance, Enterprise AI, AI Ethics
Summary: 本文论证AI项目失败本质上是组织学习问题而非技术缺陷，引入SIO渐进模型映射企业AI能力的五大支柱。尽管2024年全球企业AI投资达2523亿美元，仅6%的企业报告显著收益影响。

[319] Geometry-Aware CLIP Retrieval via Local Cross-Modal Alignment and Steering

arXiv: 2604.16487 (replaced)
Authors: Nirmalendu Prakash, Narmeen Fatimah Oozeer, Xin Su, Phillip Howard, Shaan Shah, Zoe Wanying He, Shuang Wu, Shivam Raval, Roy Ka-Wei Lee, Meenakshi Khosla, Amir Abdullah
Subjects: cs.CV; cs.AI
Tags: Vision-Language Model, Information Retrieval, Image Retrieval
Summary: 本文引入了基于匈牙利匹配的邻域级重排序和查询条件的局部引导技术，解决CLIP检索中的局部几何不一致性问题。这些方法在属性绑定和组合检索任务上提升了检索性能，无需重新训练。

[320] SCATR: Simple Calibrated Test-Time Ranking

arXiv: 2604.16535 (replaced)
Authors: Divya Shyamal, Marta Knežević, Lan Tran, Chanakya Ekbote, Vijay Lingam, Paul Pu Liang
Subjects: cs.LG; cs.AI
Tags: LLM Inference, LLM Reasoning, Test-Time Adaptation
Summary: 本文提出了SCATR，一种简单高效的Best-of-N排序方法，通过小规模校准集学习轻量级评分器。在编程和数学推理基准上，相比置信度基线提升高达9%，与PRM基线相当但推理速度快1000倍。

[321] REZE: Representation Regularization for Domain-adaptive Text Embedding Pre-finetuning

arXiv: 2604.17257 (replaced)
Authors: Seungmin Lee, Jeonghwan Lee, Hyunkuk Lim, Sejoon Kim, Mingi Sung
Subjects: cs.CL; cs.AI
Tags: Representation Learning, Domain Adaptation, Fine-Tuning
Venue: ACL 2026
Summary: 本文提出REZE框架，通过在特征空间分解锚点-正样本对关系并应用自适应软收缩，控制文本嵌入预微调过程中的表示偏移，抑制任务诱导噪声同时保持任务不变的语义结构。

[322] Cat-DPO: Category-Adaptive Safety Alignment

arXiv: 2604.17299 (replaced)
Authors: Tiankai Yang, Yi Nian, Xinyuan Li, Ruiyao Xu, Kaize Ding, Yue Zhao
Subjects: cs.CL; cs.AI
Tags: LLM Alignment, RLHF, AI Safety
Summary: 本文提出Cat-DPO算法，为每个伤害类别设置独立的自适应安全边际，解决了传统安全对齐方法将安全性压缩为单一标量导致部分类别安全性不足的问题。

[323] MESA: A Training-Free Multi-Exemplar Deep Framework for Restoring Ancient Inscription Textures

arXiv: 2604.17390 (replaced)
Authors: Vasileios Toulatzis, Sofia Theodoridou, Ioannis Fudos
Subjects: cs.CV; cs.AI; cs.GR
Tags: Image Reconstruction, Cultural Heritage, OCR
Summary: 本文提出MESA，一种无需训练的图像修复方法，利用保存完好的铭文样本通过VGG19卷积特征和Gram矩阵引导受损古铭文文字的重建。

[324] Beyond the Bellman Fixed Point: Geometry and Fast Policy Identification in Value Iteration

arXiv: 2604.17457 (replaced)
Authors: Donghwan Lee
Subjects: math.OC; cs.AI; eess.SY
Tags: Reinforcement Learning, Optimization
Summary: 本文从切换系统理论视角重新审视Q值迭代，证明Q-VI能在有限时间内识别最优动作类，并揭示其两阶段几何行为：快速收敛到实际最优解集，随后缓慢收敛到Q*。

[325] DuQuant++: Fine-grained Rotation Enhances Microscaling FP4 Quantization

arXiv: 2604.17789 (replaced)
Authors: Haokun Lin, Xinle Jia, Haobo Xu, Bingchen Yao, Xianglong Guo, Yichen Wu, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun
Subjects: cs.CV; cs.AI; cs.CL
Tags: Quantization, LLM Inference, Model Compression
Code: code
Summary: 本文提出DuQuant++，将异常值感知的细粒度旋转适配到MXFP4微缩放格式，用单一旋转替代原有流程，在保持性能的同时减半在线旋转成本。

[326] On the Emergence of Syntax by Means of Local Interaction

arXiv: 2604.17857 (replaced)
Authors: Zichao Wei
Subjects: cs.CL; cs.AI; cs.LG
Tags: Cellular Automata, Representation Learning, Cognitive Science
Summary: 本文证明语法处理可以从局部交互中自发涌现：一个仅由1位边界信号监督的神经细胞自动机训练后，内部网格自发组织成满足语法处理标准的Proto-CKY表示。

[327] LEPO: Latent Reasoning Policy Optimization for Large Language Models

arXiv: 2604.17892 (replaced)
Authors: Yuyan Zhou, Jiarui Yu, Hande Dong, Zhezheng Hao, Hong Wang, Jianqing Zhang, Qiang Lin
Subjects: cs.LG; cs.AI
Tags: LLM Reasoning, Reinforcement Learning
Summary: 本文提出LEPO框架，通过Gumbel-Softmax向潜在推理注入可控随机性，使强化学习能够直接应用于连续潜在表示，实现多样化的轨迹采样和统一的梯度估计。

[328] Diversity Collapse in Multi-Agent LLM Systems: Structural Coupling and Collective Failure in Open-Ended Idea Generation

arXiv: 2604.18005 (replaced)
Authors: Nuo Chen, Yicheng Tong, Yuzhe Yang, Yufei He, Xueyi Zhang, Qingyun Zou, Qian Wang, Bingsheng He
Subjects: cs.MA; cs.AI; cs.CL
Tags: Multi-Agent System, LLM Agent, LLM Evaluation
Venue: ACL 2026 Workshop
Code: code
Summary: 本文系统研究多智能体LLM系统在创意生成中的多样性崩溃问题，发现结构耦合导致交互无意中收缩智能体探索空间，崩溃主要源于交互结构而非模型本身不足。

[329] Modular Representation Compression: Adapting LLMs for Efficient and Effective Recommendations

arXiv: 2604.18146 (replaced)
Authors: Yunjia Xi, Menghui Zhu, Jianghao Lin, Bo Chen, Ruiming Tang, Yong Yu, Weinan Zhang
Subjects: cs.IR; cs.AI; cs.CL
Tags: Recommender System, Model Compression, LLM Inference
Venue: SIGIR 2026
Summary: 本文发现LLM中间层表示在推荐任务中优于最终层的现象，提出MARC方法通过模块化调整和任务解耦显式控制LLM模块化，生成高效的推荐表示。

[330] MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge

arXiv: 2604.18164 (replaced)
Authors: Sua Lee, Sanghee Park, Jinbae Im
Subjects: cs.CL; cs.AI; cs.CV
Tags: Vision-Language Model, LLM Evaluation, Benchmark, Bias Mitigation
Venue: ACL 2026
Summary: 本文引入MM-JudgeBias基准，通过在查询、图像和响应维度引入受控扰动，系统评估MLLM-as-a-Judge系统中的组合偏差，揭示模态忽视和不对称评估倾向。

[331] STaD: Scaffolded Task Design for Identifying Compositional Skill Gaps in LLMs

arXiv: 2604.18177 (replaced)
Authors: Sungeun An, Swanand Ravindra Kadhe, Shailja Thakur, Chad DeLuca, Hima Patel
Subjects: cs.CL; cs.AI
Tags: LLM Evaluation, Benchmark, LLM Reasoning
Venue: ACL 2026 Workshop
Summary: 本文提出STaD框架，基于脚手架概念生成基准任务的控制变体，系统性地探测LLM的行为并识别其缺乏的具体推理技能组合。

[332] AlphaContext: An Evolutionary Tree-based Psychometric Context Generator for Creativity Assessment

arXiv: 2604.18398 (replaced)
Authors: Yixuan Wang, Yue Huang, Hong Qian, Yunzhao Wei, Yifei Ding, Wenkai Wang, Zhi Liu, Zhongjing Huang, Aimin Zhou, Jiajun Guo
Subjects: cs.CL; cs.AI
Tags: Evolutionary Computation, Monte Carlo Tree Search, Benchmark
Venue: ACL 2026
Summary: 本文提出AlphaContext，一种基于进化树的创造力评估心理测量上下文生成器，通过超树规划、MCTS生成和MAP-Elites进化优化联合提升上下文质量和多样性。

[333] Learning the Riccati solution operator for time-varying LQR via Deep Operator Networks

arXiv: 2604.18507 (replaced)
Authors: Jun Chen, Umberto Biccari, Junmin Wang
Subjects: math.OC; cs.AI; cs.LG
Tags: Neural Operator, Reinforcement Learning, Optimization
Summary: 本文提出使用深度算子网络学习有限时域LQR问题的Riccati解算子，实现快速的在线最优反馈评估，并提供算子近似误差传播到反馈性能的理论保证。

[334] Sessa: Selective State Space Attention

arXiv: 2604.18580 (replaced)
Authors: Liubomyr Horbatko
Subjects: cs.LG; cs.AI; cs.CL
Tags: State Space Model, Long Context, Transformer Architecture
Code: code
Summary: 本文提出Sessa解码器，将注意力置于循环反馈路径内，创建多条基于注意力的路径使过去词元影响未来状态，在长上下文基准上实现幂律记忆尾和优异性能。

cs.AI

This post is licensed under CC BY 4.0 by the author.