arXiv cs.AI Daily Update

Posted Apr 21, 2026

By myy1966

590 min read

cs.AI 领域 2026年4月21日共有 863 篇论文更新：

134 篇新投稿：LLM Agent (Skilldex [28], ClimAgent [30], AutoPKG [34]), LLM Reasoning (RankGuide [11], Step-GRPO [26], MCPO [35]), Reinforcement Learning (GRAIL [25], MCPO [35], AutoSearch [56]), LLM Evaluation (KnowledgeBerg [79], TPS-CalcBench [99], AJ-Bench [115]), Multi-Agent System (Graph-of-Agents [45], Hive [59], EvoMaster [65])
392 篇跨领域投稿：LLM Agent (BrainMem [148], HR-Agents [153], Elder-Sim [154]), Medical AI (SAND [199], PA-TCNet [241], LEOPs [323]), LLM Evaluation (RAG-DIVE [138], NL2SQLBench [219], PRISM [310]), Benchmark (StressWeb [170], SAND [199], EchoChain [201]), Vision-Language Model (HQA-VLAttack [222], ReconVLA [271], CoGR-MoE [313])
337 篇替换投稿：LLM Reasoning (MIRROR [540], HeroBench [542], SkipKV [558]), LLM Agent (ScienceBoard [537], NaturalGAIA [541], ORThought [543]), LLM Evaluation (SMART [535], BASIL [544], KnowMe-Bench [565]), Reinforcement Learning (AutoSculpt [532], PRL [534], OVOD-Agent [556]), Benchmark (SMART [535], ScienceBoard [537], NaturalGAIA [541])

整体趋势：今日论文主要聚焦于LLM Agent、LLM Reasoning、LLM Evaluation等方向。

已录用论文：[3](Frontiers in Artificial Intelligence 2026), [4](CVPR 2026 Workshop), [20](ICLR 2026), [26](ACL 2026), [34](ACL 2026 Findings), [41](CVPR 2026), [43](ACL Findings 2026), [45](ICLR 2026), [53](ACL 2026 Findings), [58](ACL 2026), [64](SIGIR 2026), [68](ACL 2026), [70](ACL 2026), [77](ICASSP 2026), [79](ACL 2026), [81](ACL 2026), [84](ACL 2026), [86](ACL 2026), [88](ACL 2026), [90](ICLR 2026 Workshop), [101](ACL 2026), [110](IEEE/CAA Journal of Automatica Sinica), [115](ACL 2026 Findings), [123](ICLR 2026 Workshop), [134](ICLR 2026), [138](CAIN 2026), [153](SBAI 2025), [160](ECIR 2026), [163](CVPR 2026), [173](AIED 2026), [174](SAML 2026), [176](iLRN 2026), [177](AIED 2026), [187](LREC 2026), [202](KDD 2026), [203](ACL 2026), [210](CVPR 2026), [219](VLDB 2026), [225](Algorithms), [236](CVPR 2026), [237](ACL 2026), [243](FSE Companion 2026), [244](CVPR 2026), [249](SBRC 2026 Workshop), [258](JCTC 2026), [267](ACL 2026), [275](ACL 2026), [278](DAC 2026), [281](ACL 2026), [283](CVPR 2026 Workshop), [284](FSE 2026), [291](ICLR 2026 Workshop), [296](ACL 2026 Findings), [309](ACL 2026), [310](ACL 2026), [311](ICLR 2026), [316](FSE 2026), [317](IBITeC 2025), [319](CASE 2025), [321](IROS 2025), [329](ACL 2026), [330](ACL Findings 2026), [333](IJCNN 2026), [334](WACV 2026), [336](ACL 2026), [337](ACL 2026 Findings), [346](ICAIL 2026), [350](CVPR 2026 Workshop), [353](CSTE 2026), [357](IEEE EMBC 2026), [359](ACL 2026), [360](IEEE EMBC 2026), [364](ACL 2026 Findings), [365](ACL 2026), [366](ACL 2026 Findings), [377](ACL 2026), [378](ACL 2026), [383](ACL 2026), [387](ICASSP 2025), [398](ACL 2026), [412](CVPR 2026), [414](ICPR 2026), [418](ICHI 2026), [420](JNVA 2026), [432](ACL 2026), [434](ACL 2026 Findings), [435](ARCC-EAAE 2026), [436](ACL 2026 Findings), [437](ACL 2026), [438](ACL 2026), [441](FJICAI 2026), [444](ACL 2026 Findings), [448](CHI 2026), [449](SSA 2026), [451](ICRA 2026), [457](ACL 2026 Findings), [461](ACL 2026), [462](ACL 2026 Findings), [465](ICLR 2026), [466](ACL 2026 Findings), [472](AIED 2026), [474](ECSCW 2026), [475](ACL 2026), [478](HPCA 2026), [479](ACL 2026), [480](SIGIR 2026), [481](ICLR 2026), [482](ACL 2026), [483](ACL 2026 Findings), [485](ACL 2026 Findings), [491](ECIR 2026 Workshop), [497](ICLR 2026), [501](CVPR 2026), [502](TPDP 2026 Workshop), [504](ACL 2026), [505](ChileCON 2025), [506](ACL 2026), [513](ACL 2026), [530](Synthese), [537](ICLR 2026), [543](Artificial Intelligence for Transportation), [545](TMLR 2025), [546](GenAI4PM 2025 Workshop), [547](KR 2026), [548](ICRA 2026), [551](ICLR 2026), [555](ACL 2026), [560](IASEAI 2026), [562](ACL 2026), [567](ACL 2026), [571](ACL 2026 Findings), [573](ACL 2026), [574](ACL 2026), [576](ACL 2026), [580](ACL 2026 Findings), [587](ACL 2026), [589](ACL 2026), [590](ACL 2026), [591](ICLR 2026 Workshop), [592](ACL 2026 Findings), [595](ACL 2026), [597](CVPR 2026), [608](MLSys 2026), [609](ACL 2026), [610](ACL 2026), [611](ISBI 2023), [612](ACL 2026 Findings), [613](ACL 2026 Findings), [615](ICLR 2026 Workshop), [616](ACL 2026), [618](ACL 2026 Findings), [620](AAAI 2025 Workshop), [621](NeurIPS 2025), [624](ACL 2026 Findings), [625](CSCW 2026), [626](AIAI 2026), [628](ACL Findings 2026), [630](ACL 2026), [632](ICLR 2026), [635](ICML 2025), [636](FSE 2026), [638](ACL 2026), [640](ACL 2026), [641](CVPR 2026), [642](ICLR 2026), [646](ACL 2026), [647](ICLR 2026), [648](ICLR 2026), [649](ACL 2026), [651](ICLR 2026), [653](TMLR), [654](ACL 2026), [657](ACL 2026), [658](ACL Industry 2026), [660](ACL 2026 Findings), [668](ICLR 2026), [670](CHI 2026), [677](ICLR 2026), [678](CVPR 2026), [679](CVPR 2026), [684](ICLR 2026), [685](ICLR 2026), [686](SIGIR 2026), [687](ACL 2026), [689](ICLR 2026), [690](ACL 2026), [691](ACL 2026), [692](ACL 2026), [696](ACL 2026), [697](ACL 2026), [698](ACL 2026), [699](ACL 2026), [701](ACL 2026), [702](EACL 2026), [703](ACL 2026), [707](SPIE Medical Imaging 2026), [708](ACL 2026 Findings), [709](ACL 2026), [710](IEEE-ICETISI 2025), [711](CVPR 2026 Workshop), [712](CVPR 2026 Findings), [718](CVPR 2026), [719](ACL 2026), [721](ICLR 2026), [722](MLSys 2026), [726](ACL 2026), [728](ACL 2026), [734](ACL 2026), [735](ACL 2026), [736](ACL 2026), [739](ACL 2026), [740](ACL 2026 Findings), [744](ACL 2026 Findings), [745](ACL 2026), [746](ACL 2026 Findings), [747](ACL 2026 Findings), [749](ACL 2026 Findings), [751](ACL 2026 Findings), [755](ACL 2026), [756](CVPR 2026 Findings), [757](ACL 2026), [761](ACL 2026 Findings), [762](ACL 2026 Findings), [763](AISTATS 2026), [764](SIGIR 2026), [766](ACL 2026 Findings), [767](ACL 2026), [768](ACL 2026), [769](ACL 2026), [772](CVPR 2026), [776](ICLR 2026), [781](ICLR 2026 Workshop), [782](CVPR 2026), [783](ACL 2026), [784](AIED 2026), [786](ACL 2026), [788](ICLR 2026), [796](AIPV 2026 Workshop), [797](XAI 2026), [798](ACL 2026), [799](AIED 2026), [800](ACL 2026), [804](LREC 2026), [806](FSE 2026 Workshop), [812](ACL 2026), [813](LREC 2026 Workshop), [815](ACL 2026), [817](XAI 2026), [819](ACL 2026), [820](ACL 2026 Findings), [821](ACL 2026 Findings), [822](SIGIR 2026), [824](ACL 2026), [825](ACL 2026), [829](ACL 2026), [831](XAI 2026), [849](ACL 2026), [852](ACM TOIS), [856](ACL 2026), [859](HPDC 2026), [861](ACL 2026), [862](FAccT 2026)

开源论文：[12](code), [20](code), [24](code), [27](code), [29](code), [30](code), [40](code), [41](code), [45](code), [52](code), [58](code), [64](code), [65](code), [67](code), [68](code), [69](code), [72](code), [77](code), [86](code), [107](code), [108](code), [121](code), [130](code), [135](code), [142](code), [156](code), [178](code), [186](code), [203](code), [225](code), [237](code), [241](code), [258](code), [260](code), [268](code), [296](code), [299](code), [300](code), [311](code), [314](code), [337](code), [353](code), [356](code), [364](code), [367](code), [369](code), [395](code), [401](code), [406](code), [416](code), [428](code), [429](code), [436](code), [440](code), [456](code), [460](code), [462](code), [466](code), [477](code), [487](code), [491](code), [492](code), [494](code), [496](code), [499](code), [502](code), [513](code), [518](code), [526](code), [532](code), [534](code), [539](code), [540](code), [541](code), [542](code), [543](code), [548](code), [550](code), [551](code), [552](code), [558](code), [565](code), [567](code), [573](code), [577](code), [579](code), [584](code), [586](code), [587](code), [588](code), [622](code), [630](code), [635](code), [641](code), [646](code), [647](code), [651](code), [662](code), [672](code), [679](code), [682](code), [684](code), [685](code), [689](code), [690](code), [697](code), [699](code), [701](code), [703](code), [704](code), [707](code), [710](code), [716](code), [717](code), [719](code), [729](code), [744](code), [748](code), [754](code), [755](code), [761](code), [764](code), [772](code), [776](code), [779](code), [786](code), [788](code), [791](code), [795](code), [796](code), [800](code), [801](code), [808](code), [811](code), [819](code), [822](code), [823](code), [826](code), [827](code), [832](code), [833](code), [835](code), [838](code), [839](code), [840](code), [846](code), [847](code), [848](code), [852](code), [856](code), [857](code), [861](code)

新投稿 (134)

[1] Governing the Agentic Enterprise: A Governance Maturity Model for Managing AI Agent Sprawl in Business Operations

arXiv: 2604.16338
Authors: Vivek Acharya
Subjects: cs.AI; cs.MA
Tags: LLM Agent, Enterprise AI, AI Governance
Summary: 该论文针对企业中AI代理无序扩散的治理危机，提出了一个五级治理成熟度模型（AAGMM），涵盖12个治理领域，并通过模拟实验验证了其在降低风险和提高运营效率方面的有效性。

[2] Semantic Consensus: Process-Aware Conflict Detection and Resolution for Enterprise Multi-Agent LLM Systems

arXiv: 2604.16339
Authors: Vivek Acharya
Subjects: cs.AI; cs.MA; cs.SE
Tags: Multi-Agent System, LLM Agent, Enterprise AI
Summary: 该论文针对企业多智能体LLM系统中因意图分歧导致的失败问题，提出了语义共识框架（SCF），用于实时检测和解决语义冲突，显著提高了工作流完成率。

[3] Computational Hermeneutics: Evaluating generative AI as a cultural technology

arXiv: 2604.16403
Authors: Cody Kommers, Ruth Ahnert, Maria Antoniak, Emmanouil Benetos, Steve Benford, Mercedes Bunz, Baptiste Caramiaux, Shauna Concannon, Martin Disley, James Dobson, Yali Du, Edgar Duéñez-Guzmán, Kerry Francksen, Evelyn Gius, Jonathan W. Y. Gray, Ryan Heuser, Sarah Immel, Richard Jean So, Sang Leigh, Dalaki Livingston, Hoyt Long, Meredith Martin, Georgia Meyer, Daniela Mihai, Ashley Noel-Hirst, Kirsten Ostherr, Deven Parker, Yipeng Qin, Jessica Ratcliff, Emily Robinson, Karina Rodriguez, Adam Sobey, Ted Underwood, Aditya Vashistha, Matthew Wilkens, Youyou Wu, Yuan Zheng, Drew Hemment
Subjects: cs.AI; cs.CY
Tags: LLM Evaluation, Human-Computer Interaction
Venue: Frontiers in Artificial Intelligence 2026
Summary: 该论文将生成式AI视为一种文化技术，提出了“计算诠释学”框架来评估GenAI系统，主张评估应具有迭代性、包含人类参与并关注文化语境。

[4] Heterogeneous Self-Play for Realistic Highway Traffic Simulation

arXiv: 2604.16406
Authors: Jinkai Qiu, Alessandro Saviolo, Chaojie Wang, Mingke Wang, Xiaoyu Huang
Subjects: cs.AI; cs.LG; cs.MA; cs.RO
Tags: Autonomous Driving, Multi-Agent System, Simulation
Venue: CVPR 2026 Workshop
Summary: 该论文提出了PHASE框架，通过异构智能体自我博弈来生成逼真的高速公路交通模拟，在未见过的真实场景中实现了高成功率和更好的行为真实性。

[5] Support Sufficiency as Consequence-Sensitive Compression in Belief Arbitration

arXiv: 2604.16434
Authors: Mark Walsh
Subjects: cs.AI; cs.LG; q-bio.NC
Tags: Decision Making, Cognitive Science
Summary: 该论文提出了一种循环仲裁架构，通过将证据结构压缩为支持感知的控制状态来解决假设承诺中的信息丢失问题，证明了自适应控制器在调节支持分辨率方面的优越性。

[6] Healthcare AI for Automation or Allocation? A Transaction Cost Economics Framework

arXiv: 2604.16465
Authors: Ari Ercole
Subjects: cs.AI; econ.GN
Tags: Medical AI, Decision Making
Summary: 该研究利用交易成本经济学框架，通过LLM对医疗保健任务进行分类和量化，发现临床医生角色的交易成本强度显著高于非临床医生角色，揭示了AI干预机会的不均衡性。

[7] Agentic Frameworks for Reasoning Tasks: An Empirical Study

arXiv: 2604.16646
Authors: Zeeshan Rasheed, Abdul Malik Sami, Muhammad Waseem, Kai-Kristian Kemell, Mika Saari, Pekka Abrahamsson
Subjects: cs.AI; cs.SE
Tags: LLM Agent, LLM Reasoning, Benchmark
Summary: 该论文对22个主流智能体框架在推理任务上进行了实证评估，发现框架的编排问题（如内存控制、故障处理）是导致性能不佳的主要原因，而非推理能力本身的限制。

[8] From Subsumption to Satisfiability: LLM-Assisted Active Learning for OWL Ontologies

arXiv: 2604.16672
Authors: Haoruo Zhao, Wenshuo Tang, Duncan Guthrie, Michele Sevegnani, David Flynn, Paul Harvey
Subjects: cs.AI
Tags: Knowledge Representation, Active Learning, LLM Reasoning
Summary: 该论文提出了一种利用大语言模型（LLM）辅助OWL本体主动学习的方法，通过将包含测试转化为可满足性问题并利用LLM提供反概念实例，有效减少了本体建模中的错误。

[9] Agentic Risk-Aware Set-Based Engineering Design

arXiv: 2604.16687
Authors: Varun Kumar, George Em Karniadakis
Subjects: cs.AI; cs.LG
Tags: LLM Agent, Multi-Agent System, Risk Analysis
Summary: 该论文提出了一个由LLM引导的多智能体框架，用于工程设计的早期阶段，结合了基于集合的设计理念和形式化风险管理，通过智能体协作自动探索和筛选设计方案。

[10] The Query Channel: Information-Theoretic Limits of Masking-Based Explanations

arXiv: 2604.16689
Authors: Erciyes Karakaya, Ozgur Ercetin
Subjects: cs.AI
Tags: Interpretability, Information Theory
Summary: 该论文将基于掩码的事后解释方法建模为查询信道，从信息论角度分析了解释恢复的理论极限，揭示了标准方法在特定查询预算下的失败模式。

[11] RankGuide: Tensor-Rank-Guided Routing and Steering for Efficient Reasoning

arXiv: 2604.16694
Authors: Jiayi Tian, Yupeng Su, Ryan Solgi, Souvik Kundu, Zheng Zhang
Subjects: cs.AI
Tags: LLM Reasoning, LLM Inference
Summary: 该论文提出了RankGuide框架，利用张量秩信号来引导小模型与大模型之间的协作推理，通过检测失败模式并调节推理轨迹，在保持准确性的同时显著降低了推理延迟。

[12] Evaluating Tool-Using Language Agents: Judge Reliability, Propagation Cascades, and Runtime Mitigation in AgentProp-Bench

arXiv: 2604.16706
Authors: Bhaskar Gurram
Subjects: cs.AI; cs.CL; cs.MA
Tags: LLM Agent, LLM Evaluation, Benchmark
Code: code
Summary: 该论文引入了AgentProp-Bench基准，用于评估使用工具的大语言模型智能体，量化了自动评估器的可靠性，分析了错误传播级联并提出了一种运行时缓解策略。

[13] Debate as Reward: A Multi-Agent Reward System for Scientific Ideation via RL Post-Training

arXiv: 2604.16723
Authors: Moein Salimi, Babak Hosseini Mohtasham, Amin Aghakasiri, Mahdi Naieni, Amir Hossein Qeysarbeigi, Mohammad Masih Shalchian Nazer, Zahra Azar, Mahdi Jafari Siavoshani, Mohammad Hossein Rohban
Subjects: cs.AI; cs.LG
Tags: Reinforcement Learning, LLM Agent, Scientific Reasoning
Summary: 该论文提出了一种用于科学思想生成的强化学习框架，利用多智能体辩论作为奖励信号来避免奖励黑客行为，在生成新颖、可行的科学想法方面优于现有基线。

[14] When Agents Go Quiet: Output Generation Capacity and Format-Cost Separation for LLM Document Synthesis

arXiv: 2604.16736
Authors: Justice Owusu Agyemang, Michael Agyare, Miriam Kobbinah, Nathaniel Agbugblah, Prosper Addo
Subjects: cs.AI
Tags: LLM Agent, Text Generation, LLM Inference
Summary: 该论文研究了LLM智能体在生成大型格式化文档时的“输出停滞”问题，提出了输出生成容量（OGC）的概念和格式成本分离定理，并通过延迟模板渲染策略有效解决了该问题。

[15] CT Open: An Open-Access, Uncontaminated, Live Platform for the Open Challenge of Clinical Trial Outcome Prediction

arXiv: 2604.16742
Authors: Jianyou Wang, Youze Zheng, Longtian Bao, Hanyuan Zhang, Qirui Zheng, Yuhan Chen, Yang Zhang, Matthew Feng, Maxim Khan, Aditya K. Sehgal, Christopher D. Rosin, Ramamohan Paturi, Umber Dube, Leon Bergen
Subjects: cs.AI; cs.CL
Tags: Medical AI, Benchmark
Summary: 该论文介绍了CT Open平台，一个用于临床试验结果预测的开放挑战平台，利用LLM驱动的网络搜索来自动识别结果数据的首次公开时间，确保评估的公平性和无污染性。

[16] Why Training-Free Token Reduction Collapses: The Inherent Instability of Pairwise Scoring Signals

arXiv: 2604.16745
Authors: Yang Shanglin
Subjects: cs.AI; cs.CV
Tags: Vision Transformer, Model Compression, Token Compression
Summary: 该论文分析了视觉Transformer中无训练Token剪枝方法在高压缩率下性能崩溃的原因，指出成对相似度信号的不稳定性是关键因素，并提出了一种基于一元信号的改进方法。

[17] Don't Start What You Can't Finish: A Counterfactual Audit of Support-State Triage in LLM Agents

arXiv: 2604.16752
Authors: Eren Unlu
Subjects: cs.AI
Tags: LLM Agent, LLM Evaluation
Summary: 本文提出了SSTA-32诊断框架，用于评估LLM代理在四种支持状态（完整、可澄清、支持受阻、不支持）下的任务分流能力。研究发现前沿模型具有强大的潜在分流能力，但需要明确的分类决策路径才能安全激活。

[18] Know When to Trust the Skill: Delayed Appraisal and Epistemic Vigilance for Single-Agent LLMs

arXiv: 2604.16753
Authors: Eren Unlu
Subjects: cs.AI
Tags: LLM Agent, Decision Making
Summary: 本文提出了MESA-S框架，将人类认知控制机制（延迟评估、认知警惕性）转化为单代理架构，通过分离自信度和来源置信度来改善决策。该方法能够缓解供应链漏洞、修剪不必要的推理循环并防止外包导致的置信度膨胀。

[19] Machine individuality: Separating genuine idiosyncrasy from response bias in large language models

arXiv: 2604.16755
Authors: Valentin Kriegmair, Dirk U. Wulff
Subjects: cs.AI
Tags: LLM Evaluation, Interpretability
Summary: 本文应用交叉随机效应模型分析了10个开源LLM在14个心理语言学规范中对10万多个词的7490万次评分，发现平均16.9%的方差可归因于刺激特异性的个体性，证明了LLM存在稳定的机器个体性差异。

[20] SAVE: A Generalizable Framework for Multi-Condition Single-Cell Generation with Gene Block Attention

arXiv: 2604.16776
Authors: Jiahao Li, Jiayi Dong, Peng Ye, Xiaochi Zhou, Haohai Lu, Fei Wang
Subjects: cs.AI
Tags: Bioinformatics, Generative Model
Venue: ICLR 2026
Code: code
Summary: 本文提出了SAVE框架，一种基于条件Transformer的多条件单细胞基因表达建模方法，通过将语义相关的基因分组为块来捕获高阶依赖关系。该方法在条件生成、批次效应校正和扰动预测等任务上持续优于现有方法。

[21] Introspection Adapters: Training LLMs to Report Their Learned Behaviors

arXiv: 2604.16812
Authors: Keshav Shenoy, Li Yang, Abhay Sheshadri, Sören Mindermann, Jack Lindsey, Sam Marks, Rowan Wang
Subjects: cs.AI
Tags: LLM Alignment, Interpretability
Summary: 本文提出了内省适配器(IA)，一种LoRA适配器，通过在植入行为的微调模型上联合训练，使LLM能够用自然语言描述其学习到的行为。该方法在AuditBench上实现了最先进的性能，并能检测加密的微调API攻击。

[22] PersonalHomeBench: Evaluating Agents in Personalized Smart Homes

arXiv: 2604.16813
Authors: Nikhil Verma, InJung Yang, Sungil Kim, KoKeun Kim, YoungJoon Kim, Manasa Bharadwaj, Yolanda Liu, Kevin Ferreira
Subjects: cs.AI; cs.CL; cs.DB
Tags: LLM Agent, Benchmark, Smart Home
Summary: 本文介绍了PersonalHomeBench基准，用于评估基础模型在个性化智能家居环境中作为代理助手的能力，并提供了PersonalHomeTools工具箱支持现实的代理-环境交互。实验揭示了随着任务复杂度增加，模型性能系统性下降，特别是在反事实推理和部分可观察性场景中表现不佳。

[23] The CTLNet for Shanghai Composite Index Prediction

arXiv: 2604.16835
Authors: Haibin Jiao
Subjects: cs.AI
Tags: Time Series Forecasting, Quantitative Finance
Summary: 本文提出了CTLNet，一种结合CNN、Transformer和LSTM的混合网络用于上证指数预测。该模型充分利用各架构优势处理长序列依赖和多变量数据相关性，在对比实验中优于现有最先进基线。

[24] GAMMA-Net: Adaptive Long-Horizon Traffic Spatio-Temporal Forecasting Model based on Interleaved Graph Attention and Multi-Axis Mamba

arXiv: 2604.16859
Authors: Dongyi He, Yuanquan Gao, Bin Jiang, He Yan
Subjects: cs.AI
Tags: Time Series Forecasting, Graph Neural Network
Code: code
Summary: 本文提出了GAMMA-Net，一种集成图注意力网络和多轴Mamba的交通预测模型，能够动态调整节点影响并高效建模长期时空动态。在多个基准数据集上，该方法实现了高达16.25%的MAE降低。

[25] GRAIL: Autonomous Concept Grounding for Neuro-Symbolic Reinforcement Learning

arXiv: 2604.16871
Authors: Hikaru Shindo, Henri Rößler, Quentin Delfosse, Kristian Kersting
Subjects: cs.AI; cs.LG
Tags: Neurosymbolic AI, Reinforcement Learning
Summary: 本文提出了GRAIL框架，通过环境交互自主地建立关系概念的语义基础，利用LLM提供通用概念表示作为弱监督并加以细化。在Atari游戏上的实验表明，GRAIL在简化设置中匹配或优于使用手工概念定义的代理。

[26] Step-GRPO: Internalizing Dynamic Early Exit for Efficient Reasoning

arXiv: 2604.16890
Authors: Benteng Chen, Weida Wang, Shufei Zhang, Mingbao Lin, Min Zhang
Subjects: cs.AI
Tags: LLM Reasoning, LLM Inference
Venue: ACL 2026
Summary: 本文提出了Step-GRPO，一种将动态早退能力内化到模型中的后训练框架，通过语言标记结构化推理并引入动态截断展开和步骤感知相对奖励。实验表明该方法在Qwen3-8B上减少了32%的token消耗，同时避免了传统长度惩罚方法的精度下降。

[27] Beyond Text-Dominance: Understanding Modality Preference of Omni-modal Large Language Models

arXiv: 2604.16902
Authors: Xinru Yan, Boxi Cao, Yaojie Lu, Hongyu Lin, Weixiang Zhou, Le Sun, Xianpei Han
Subjects: cs.AI
Tags: Vision-Language Model, Multimodal Learning, LLM Hallucination
Code: code
Summary: 本文系统量化了全模态大语言模型(OLLM)的模态偏好，发现与传统VLM的文本主导不同，大多数OLLM表现出明显的视觉偏好。通过层级探测分析发现这种偏好在中后期层逐渐涌现，并利用内部信号诊断跨模态幻觉取得了竞争性性能。

[28] Skilldex: A Package Manager and Registry for Agent Skill Packages with Hierarchical Scope-Based Distribution

arXiv: 2604.16911
Authors: Sampriti Saha, Pranav Hemanth
Subjects: cs.AI
Tags: LLM Agent, Tool Learning
Summary: 本文提出了Skilldex，一个代理技能包管理器和注册表，提供针对Anthropic技能规范的编译器式格式一致性评分，并引入skillset抽象来打包相关技能及其共享资源以保持跨技能行为一致性。

[29] The Cognitive Penalty: Ablating System 1 and System 2 Reasoning in Edge-Native SLMs for Decentralized Consensus

arXiv: 2604.16913
Authors: Syed Muhammad Aqdas Rizvi
Subjects: cs.AI; cs.CL; cs.CR; cs.DC
Tags: LLM Reasoning, LLM Evaluation
Code: code
Summary: 本文引入Sentinel-Bench框架，对Qwen-3.5-9B进行严格的模型内消融实验，发现在边缘原生SLM中，System 1自回归基线实现了100%对抗鲁棒性，而System 2推理引入了灾难性不稳定性，包括26.7%的推理非收敛率。

[30] ClimAgent: LLM as Agents for Autonomous Open-ended Climate Science Analysis

arXiv: 2604.16922
Authors: Hao Wang, Jindong Han, Wei Fan, Hao Liu
Subjects: cs.AI
Tags: LLM Agent, Scientific Computing, Weather Forecasting
Code: code
Summary: 本文介绍了ClimAgent，一个用于执行跨气候子领域研究任务的自主框架，集成了统一工具使用环境和严格推理协议。同时提出了ClimaBench基准，实验表明ClimAgent在解决方案严谨性和实用性上比原始LLM解决方案提升40.21%。

[31] Alignment Imprint: Zero-Shot AI-Generated Text Detection via Provable Preference Discrepancy

arXiv: 2604.16923
Authors: Junxi Wu, Kailin Huang, Dongjian Hu, Bin Chen, Hao Wu, Shu-Tao Xia, Changliang Zou
Subjects: cs.AI
Tags: LLM Alignment, AI Safety
Summary: 本文发现现代LLM的对齐过程会留下可测量的分布印记，理论推导出对数似然比可分解为隐式指令偏差和偏好奖励。基于此提出了LAPD统计量用于AI生成文本检测，相比最强基线提升45.82%。

[32] Playing Psychic: Using Thought Trees to Predict Reasoning Models Accuracy on Coding Tasks

arXiv: 2604.16931
Authors: Jiaxin Fang, Runyuan He, Sahil Bhatia, Neel Gajare, Alvin Cheung
Subjects: cs.AI
Tags: Code Generation, LLM Reasoning
Summary: 本文研究了前沿推理模型在真实世界编码基准上的性能，发现推理轨迹的结构（而非内容）是正确性的强预测因子。提出了结构化思维树表示推理轨迹，并训练轻量级分类器预测轨迹正确性，在低复杂度级别获得一致提升。

[33] LLMs can persuade only psychologically susceptible humans on societal issues, via trust in AI and emotional appeals, amid logical fallacies

arXiv: 2604.16935
Authors: Alexis Carrillo, Salvatore Citraro, Ali Aghazhadeh Ardebili, Enrique Taietta, Giulio Rossetti, Emilio Ferrara, Giuseppe Alessandro Veltri, Massimo Stella
Subjects: cs.AI; cs.CY; cs.HC; cs.LG; cs.SI
Tags: AI Persuasion, LLM Evaluation, Human-Computer Interaction
Summary: 该论文引入Talk2AI纵向研究框架，通过770名参与者与LLM就社会议题进行对话，研究LLM的说服力。研究发现心理上更易受影响的个体（更信任LLM、更随和外向、认知需求更高）更容易被LLM改变观点，而人类和LLM都频繁使用谬误推理。

[34] AutoPKG: An Automated Framework for Dynamic E-commerce Product-Attribute Knowledge Graph Construction

arXiv: 2604.16950
Authors: Pollawat Hongwimol, Haoning Shang, Chutong Wang, Zhichao Wan, Yi Gao, Yuanming Li, Lin Gui, Wenhao Sun, Cheng Yu
Subjects: cs.AI
Tags: Knowledge Graph, LLM Agent, Information Extraction
Venue: ACL 2026 Findings
Summary: 该论文提出AutoPKG，一个多智能体LLM框架，用于从多模态产品内容自动构建产品-属性知识图谱。该框架在真实电商数据集上实现了高达0.953的产品类型加权知识效率，在线A/B测试显示GMV显著提升。

[35] MCPO: Mastery-Consolidated Policy Optimization for Large Reasoning Models

arXiv: 2604.16972
Authors: Zhaokang Liao, Yingguo Gao, Yi Yang, Yongheng Hu, Jingting Ding
Subjects: cs.AI
Tags: LLM Reasoning, Reinforcement Learning, Mathematical Reasoning
Summary: 该论文提出MCPO（掌握巩固策略优化），通过引入hinge-KL正则化和优先级加权机制，解决GRPO风格目标在已掌握提示和多数正确提示上的问题，在数学推理基准上持续提升pass@1性能。

[36] A phenotype-driven and evidence-governed framework for knowledge graph enrichment and hypotheses discovery in population data

arXiv: 2604.16982
Authors: Adela Bâra, Simona-Vasilica Oprea
Subjects: cs.AI
Tags: Knowledge Graph, Graph Neural Network, Causal Inference
Summary: 该论文提出一个表型驱动和证据治理的框架，结合图神经网络、因果推理、概率推理和LLM进行知识图谱丰富和假设发现。该框架优先考虑数据结构支持且文献中未被充分探索的关系，在合理性、新颖性、验证和相关性之间实现最佳权衡。

[37] Rule-VLN: Bridging Perception and Compliance via Semantic Reasoning and Geometric Rectification

arXiv: 2604.16993
Authors: Jiawen Wen, Penglei Sun, Wenjie Zhang, Suixuan Qiu, Weisheng Xu, Xiaofei Yang, Xiaowen Chu
Subjects: cs.AI; cs.CV; cs.RO
Tags: Embodied AI, Vision-Language Model, Autonomous Driving
Summary: 该论文建立Rule-VLN，首个大规模城市规则合规导航基准，包含29k节点环境和177个监管类别。作者提出SNRM模块，集成视觉感知和认知地图进行动态绕行规划，显著恢复导航能力并降低违规率。

[38] Small Model as Master Orchestrator: Learning Unified Agent-Tool Orchestration with Parallel Subtask Decomposition

arXiv: 2604.17009
Authors: Wenzhen Yuan, Wutao Xiong, Fanchen Yu, Shengji Tang, Ting Liu, Tao Chen, Peng Ye, Yuzhuo Fu, Wanli Ouyang, Lei Bai
Subjects: cs.AI
Tags: LLM Agent, Multi-Agent System, Tool Learning
Summary: 该论文提出Agent-as-Tool统一并行编排范式，将智能体和工具抽象为标准化可学习动作空间。轻量级编排器ParaManager实现状态感知的并行子任务分解和异步执行，在多个基准上取得强劲性能。

[39] Mini-BEHAVIOR-Gran: Revealing U-Shaped Effects of Instruction Granularity on Language-Guided Embodied Agents

arXiv: 2604.17019
Authors: Sukai Huang, Chenyuan Zhang, Fucai Ke, Zhixi Cai, Gholamreza Haffari, Lizhen Qu, Hamid Rezatofighi
Subjects: cs.AI
Tags: Embodied AI, Instruction Tuning, Benchmark
Summary: 该论文引入Mini-BEHAVIOR-Gran基准，用于研究语言引导具身智能体中指令粒度的影响。研究发现指令粒度与性能之间存在非单调U型关系，在细粒度和粗粒度两端均出现性能峰值。

[40] Harness as an Asset: Enforcing Determinism via the Convergent AI Agent Framework (CAAF)

arXiv: 2604.17025
Authors: Tianbao Zhang
Subjects: cs.AI; cs.LG
Tags: LLM Agent, AI Safety, Autonomous Driving
Code: code
Summary: 该论文引入CAAF框架，通过递归原子分解、Harness作为资产和结构化语义梯度三大支柱，将智能体工作流从开环生成转变为闭环故障安全确定性。在自动驾驶和制药设计基准上实现100%悖论检测。

[41] Understanding and Enforcing Weight Disentanglement in Task Arithmetic

arXiv: 2604.17078
Authors: Shangge Liu, Yuehan Yin, Lei Wang, Qi Fan, Yinghuan Shi, Wenbin Li, Yang Gao, Dacheng Tao
Subjects: cs.AI
Tags: Transfer Learning, Model Merging, Representation Learning
Venue: CVPR 2026
Code: code
Summary: 该论文引入任务特征特化（TFS）作为任务算术中权重解耦的基本原理，并提出OrthoReg正则化方法，通过强制权重更新的正交结构来促进解耦，持续增强任务算术方法的性能。

[42] Complementing Self-Consistency with Cross-Model Disagreement for Uncertainty Quantification

arXiv: 2604.17112
Authors: Kimia Hamidieh, Veronika Thost, Walter Gerych, Mikhail Yurochkin, Marzyeh Ghassemi
Subjects: cs.AI
Tags: Uncertainty Estimation, LLM Evaluation, LLM Inference
Summary: 该论文提出将自一致性与跨模型语义分歧相结合用于LLM不确定性量化。方法引入认知不确定性项，通过模型间和模型内序列语义相似性差异计算，改善排序校准和选择性弃权。

[43] If Only My CGM Could Speak: A Privacy-Preserving Agent for Question Answering over Continuous Glucose Data

arXiv: 2604.17133
Authors: Yanjun Cui, Ali Emami, Temiloluwa Prioleau, Nikhil Singh
Subjects: cs.AI; cs.CR
Tags: Medical AI, Question Answering, Privacy
Venue: ACL Findings 2026
Summary: 该论文提出CGM-Agent，一个隐私保护的血糖数据问答框架，LLM仅作为推理引擎选择分析函数，所有计算在本地进行。顶级模型在合成查询上达到94%准确率，同时确保健康数据隐私。

[44] Local Inconsistency Resolution: The Interplay between Attention and Control in Probabilistic Models

arXiv: 2604.17140
Authors: Oliver E. Richardson, Mandana Samiei, Mehran Shakerinava, Joseph D. Viviano, Abdessamad El Kabid, Ali Parviz, Yoshua Bengio
Subjects: cs.AI; cs.LG
Tags: Probabilistic Inference, Generative Flow Networks, Optimization
Summary: 该论文提出局部不一致性解决（LIR）算法，通过迭代聚焦模型子集并使用可控参数解决不一致性。该框架统一了EM算法、信念传播、对抗训练、GAN和GFlowNets等多种重要算法。

[45] Graph-of-Agents: A Graph-based Framework for Multi-Agent LLM Collaboration

arXiv: 2604.17148
Authors: Sukwon Yun, Jie Peng, Pingzhi Li, Wendong Fan, Jie Chen, James Zou, Guohao Li, Tianlong Chen
Subjects: cs.AI
Tags: Multi-Agent System, LLM Agent, Graph Neural Network
Venue: ICLR 2026
Code: code
Summary: 该论文提出Graph-of-Agents（GoA），一个基于图的多智能体LLM协作框架，通过节点采样选择相关智能体，构建边进行有向消息传递，仅使用3个选定智能体即可超越使用全部智能体的基线。

[46] Beyond the Basics: Leveraging Large Language Model for Fine-Grained Medical Entity Recognition

arXiv: 2604.17214
Authors: Nwe Ni Win, Jim Basilakis, Steven Thomas, Seyhan Yazar, Laura Pierce, Stephanie Liu, Paul M. Middleton, Nasser Ghadiri, X. Rosalind Wang
Subjects: cs.AI
Tags: Medical AI, Named Entity Recognition, Information Extraction
Summary: 该论文评估LLaMA3在18个临床详细类别上的细粒度医学实体识别，采用零样本、少样本和LoRA微调三种学习范式。微调后的LLaMA3达到81.24% F1分数，显著优于零样本和少样本方法。

[47] Yanasse: Finding New Proofs from Deep Vision's Analogies, Part 1

arXiv: 2604.17229
Authors: Alexandre Linhares
Subjects: cs.AI
Tags: Automated Theorem Proving, Mathematical Reasoning, Program Synthesis
Summary: 该论文提出Yanasse项目，通过从结构上遥远的数学领域迁移证明策略模式来发现新定理证明。系统从概率论向表示论迁移，在10次尝试中获得4个Lean验证的新证明（40%成功率）。

[48] Safe and Policy-Compliant Multi-Agent Orchestration for Enterprise AI

arXiv: 2604.17240
Authors: Vinil Pasupuleti, Shyalendar Reddy Allala, Siva Rama Krishna Varma Bayyavarapu, Shrey Tyagi
Subjects: cs.AI
Tags: Multi-Agent System, Enterprise AI, AI Safety
Summary: 该论文引入CAMCO，一个运行时协调层，将多智能体决策建模为约束优化问题。CAMCO集成约束投影引擎、自适应风险加权效用整形和迭代协商协议，实现零策略违规和92-97%效用保留。

[49] Rectification Difficulty and Optimal Sample Allocation in LLM-Augmented Surveys

arXiv: 2604.17267
Authors: Zikun Ye, Hema Yoganarasimhan
Subjects: cs.AI; stat.AP
Tags: Survey, LLM Evaluation, Data Selection
Summary: 本文研究如何在已有LLM预测的情况下，将有限的人工标注预算最优分配到不同估计任务中。提出了一个框架，包括刻画问题特定的修正难度、推导闭式最优分配规则，以及基于历史数据的元学习方法来预测新任务的修正难度。

[50] The Continuity Layer: Why Intelligence Needs an Architecture for What It Carries Forward

arXiv: 2604.17273
Authors: Samuel Sameer Tanguturi
Subjects: cs.AI
Tags: Memory Architecture, LLM Agent
Summary: 本文是一篇立场论文，主张AI系统需要一个”连续性层”来承载模型已理解的内容跨会话传递。文章定义了连续性作为系统属性的七个特征，并提出了一种存储原语（分解轨迹收敛记忆）来实现这一属性。

[51] HalluClear: Diagnosing, Evaluating and Mitigating Hallucinations in GUI Agents

arXiv: 2604.17284
Authors: Chao Jin, Wenkui Yang, Hao Sun, Yuqi Liao, Qianyi Jiang, Kai Zhou, Jie Cao, Ran He, Huaibo Huang
Subjects: cs.AI
Tags: LLM Hallucination, GUI Automation
Summary: 本文介绍了HalluClear，一个用于GUI Agent幻觉诊断、评估和缓解的综合套件。该套件包括GUI特定的幻觉分类法、校准的三阶段评估工作流，以及基于闭环结构化推理的缓解方案。

[52] LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

arXiv: 2604.17295
Authors: Yueyang Ding, HaoPeng Zhang, Rui Dai, Yi Wang, Tianyu Zong, Kaikui Liu, Xiangxiang Chu
Subjects: cs.AI
Tags: Time Series Analysis, Vision-Language Model, LLM Reasoning
Code: code
Summary: 本文将时间序列推理形式化为四个认知复杂度层级，并引入HiTSR数据集（83k样本）。提出了LLaTiSA模型，通过整合可视化模式与精度校准的数值表格来增强视觉语言模型的时间感知能力。

[53] Efficient Test-Time Scaling via Temporal Reasoning Aggregation

arXiv: 2604.17304
Authors: Jiakun Li, Xingwei He, Kefan Li, Hongzheng Chai, Hongyue Yu, Yuan Yuan
Subjects: cs.AI
Tags: LLM Inference, LLM Reasoning
Venue: ACL 2026 Findings
Summary: 本文提出了TRACE，一个无需训练的测试时扩展框架，通过聚合多步证据的时间序列来决定何时终止推理。该方法在保持准确率的同时平均减少25-30%的推理token使用量。

[54] SkillFlow:Benchmarking Lifelong Skill Discovery and Evolution for Autonomous Agents

arXiv: 2604.17308
Authors: Ziao Zhang, Kou Shi, Shiting Huang, Avery Nie, Yu Zeng, Yiming Zhao, Zhen Fang, Qishen Su, Haibo Qiu, Wei Yang, Qingnan Ren, Shun Zou, Wenxuan Huang, Lin Chen, Zehui Chen, Feng Zhao
Subjects: cs.AI
Tags: LLM Agent, Benchmark, Continual Learning
Summary: 本文介绍了SkillFlow，一个包含166个任务的基准测试，用于评估Agent从经验中发现技能、修复失败技能以及随时间维护连贯技能库的能力。实验揭示了当前模型在终身技能演化方面的能力差距。

[55] Knows: Agent-Native Structured Research Representations

arXiv: 2604.17309
Authors: Guangsheng Yu, Xu Wang
Subjects: cs.AI
Tags: Knowledge Management, LLM Agent, Document Understanding
Summary: 本文介绍了Knows，一种轻量级规范，将结构化的声明、证据、来源和可验证关系绑定到研究文档中，供LLM Agent直接使用。实验表明弱模型使用侧车文件后准确率提升29-42个百分点，同时减少29-86%的输入token。

[56] AutoSearch: Adaptive Search Depth for Efficient Agentic RAG via Reinforcement Learning

arXiv: 2604.17337
Authors: Jingbo Sun, Wenyue Chong, Songjun Tu, Qichao Zhang, Yaocheng Zhang, Jiajun Chai, Xiaohan Wang, Wei Lin, Guojun Yin, Dongbin Zhao
Subjects: cs.AI
Tags: RAG, LLM Agent, Reinforcement Learning
Summary: 本文提出了AutoSearch，一个强化学习框架，通过自生成的中间答案来评估每个搜索步骤，从而识别最小充分搜索深度。该方法在保持搜索质量的同时缓解了过度搜索问题。

[57] Formal Foundations of Agentic Business Process Management

arXiv: 2604.17347
Authors: Giuseppe De Giacomo, Timotheus Kampik, Lukas Kirchdorfer, Marco Montali, Christoph Weinhuber
Subjects: cs.AI
Tags: Multi-Agent System, Formal Methods
Summary: 本文为Agent式业务流程管理系统建立了数学基础，其中流程执行由多个自主决策者（Agent）驱动。文章分析了三种关键设置下的四个基础问题。

[58] SOCIA-EVO: Automated Simulator Construction via Dual-Anchored Bi-Level Optimization

arXiv: 2604.17351
Authors: Yuncheng Hua, Sion Weatherhead, Mehdi Jafari, Hao Xue, Flora D. Salim
Subjects: cs.AI
Tags: Simulation, Code Generation, LLM Agent
Venue: ACL 2026
Code: code
Summary: 本文提出了SOCIA-EVO，一个双锚定进化框架用于自动模拟器构建。该框架引入静态蓝图、双层优化和自策划策略手册，通过执行反馈证伪无效策略来实现稳健收敛。

[59] Hive: A Multi-Agent Infrastructure for Algorithm- and Task-Level Scaling

arXiv: 2604.17353
Authors: Zizhang Luo, Yuhao Luo, Youwei Xiao, Yansong Xu, Runlin Guo, Yun Liang
Subjects: cs.AI; cs.DC
Tags: Multi-Agent System, LLM Inference
Summary: 本文提出了Hive，一个支持算法级和任务级扩展的多Agent基础设施。其核心机制包括Logits Cache（跨冗余采样路径复用中间logits）和Agent感知调度（根据Agent贡献分配计算资源）。

[60] T-DuMpRa: Teacher-guided Dual-path Multi-prototype Retrieval Augmented framework for fine-grained medical image classification

arXiv: 2604.17360
Authors: Zixuan Tang, Shen Zhao
Subjects: cs.AI
Tags: Medical AI, RAG, Image Classification
Summary: 本文提出了T-DuMpRa，一个教师引导的双路径多原型检索增强框架，用于细粒度医学图像分类。该方法联合优化分类器和多原型检索，通过EMA教师构建多原型记忆库来处理视觉模糊案例。

[61] LLM-Guided Strategy Synthesis for Scalable Equality Saturation

arXiv: 2604.17364
Authors: Chenyun Yin, Youwei Xiao, Yuze Luo, Yuyang Zou, Yun Liang
Subjects: cs.AI; cs.MA; cs.PL
Tags: Compiler Optimization, LLM Agent
Summary: 本文提出了EggMind，一个LLM引导的端到端框架，用于合成可复用的等式饱和策略。核心贡献包括EqSatL领域特定语言和带有证明导出重写模式缓存的Agent工作流。

[62] Beyond Meta-Reasoning: Metacognitive Consolidation for Self-Improving LLM Reasoning

arXiv: 2604.17399
Authors: Ziqing Zhuang, Linhai Zhang, Jiasheng Si, Deyu Zhou, Yulan He
Subjects: cs.AI
Tags: LLM Reasoning, Meta-Learning
Summary: 本文引入了元认知巩固框架，使模型能够将过去推理片段中的元认知经验巩固为可复用的知识。该框架将问题求解结构化为推理、监控和控制三个角色，并通过层次化多时间尺度更新机制形成演化的元知识。

[63] Phase-Scheduled Multi-Agent Systems for Token-Efficient Coordination

arXiv: 2604.17400
Authors: Mohit Dubey
Subjects: cs.AI; math.AT
Tags: Multi-Agent System, LLM Inference
Summary: 本文提出了PSMAS框架，将Agent激活重新概念化为共享注意力空间上的连续控制。通过角度相位分配和全局扫描信号，实现27.3%的token减少，同时保持任务性能在基线2.1个百分点以内。

[64] STRIDE: Strategic Iterative Decision-Making for Retrieval-Augmented Multi-Hop Question Answering

arXiv: 2604.17405
Authors: Wei Chen, Lili Zhao, Zhi Zheng, HuiJun Hou, Tong Xu
Subjects: cs.AI
Tags: RAG, Question Answering, LLM Reasoning
Venue: SIGIR 2026
Code: code
Summary: 本文提出了STRIDE框架，将战略规划、动态控制和落地执行分离。核心包括构建实体无关推理骨架的元规划器，以及依赖感知的监督器来协调子问题执行，有效缓解了过早词汇承诺和逻辑依赖被忽视的问题。

[65] EvoMaster: A Foundational Agent Framework for Building Evolving Autonomous Scientific Agents at Scale

arXiv: 2604.17406
Authors: Xinyu Zhu, Yuzhu Cai, Zexi Liu, Cheng Wang, Fengyang Li, Wenkai Jin, Wanxu Liu, Zehao Bing, Bingyang Zheng, Jingyi Chai, Shuo Tang, Rui Ye, Yuwen Du, Xianghe Pang, Yaxin Du, Tingjia Miao, Yuzhi Zhang, Ruoxue Liao, Zhaohan Ding, Linfeng Zhang, Yanfeng Wang, Weinan E, Siheng Chen
Subjects: cs.AI
Tags: LLM Agent, Multi-Agent System, Scientific Reasoning
Code: code
Summary: EvoMaster是一个面向大规模科学发现的基础智能体框架，支持持续自我进化，能够迭代优化假设、自我批评并跨实验周期积累知识。该框架在四个权威基准测试中取得了最先进的结果，相比基线提升了159%到316%。

[66] Compiling Deterministic Structure into SLM Harnesses

arXiv: 2604.17450
Authors: Zan Kai Chong, Hiroyuki Ohsaki, Bryan Ng
Subjects: cs.AI
Tags: LLM Agent, Knowledge Distillation, Prompt Engineering
Summary: 本文提出语义梯度下降(SGDe)框架，将智能体工作流编译为包含DAG拓扑、系统提示和确定性可执行代码的离散执行计划，使前沿大模型作为教师指导小语言模型优化工作流。在GSM-Hard测试集上，编译后的工作流达到91.3%的准确率，比最先进的提示优化器提升了26.3%到34.3%。

[67] TrafficClaw: Generalizable Urban Traffic Control via Unified Physical Environment Modeling

arXiv: 2604.17456
Authors: Siqi Lai, Pan Zhang, Yuping Zhou, Jindong Han, Yansong Ning, Hao Liu
Subjects: cs.AI
Tags: LLM Agent, Autonomous Driving, Reinforcement Learning
Code: code
Summary: TrafficClaw是一个城市交通控制框架，通过统一的物理环境建模整合异构子系统，支持跨子系统的显式交互建模和闭环反馈。该框架结合LLM智能体和多阶段训练管道，在未见过的交通场景中实现了鲁棒、可迁移和系统感知的性能。

[68] EHRAG: Bridging Semantic Gaps in Lightweight GraphRAG via Hybrid Hypergraph Construction and Retrieval

arXiv: 2604.17458
Authors: Yifan Song, Xingjian Tao, Zhicheng Yang, Yihong Luo, Jing Tang
Subjects: cs.AI
Tags: RAG, Knowledge Graph, LLM Reasoning
Venue: ACL 2026
Code: code
Summary: EHRAG是一个轻量级RAG框架，通过构建超图来捕获结构和语义级别的关系，采用混合结构-语义检索机制。实验表明，EHRAG在四个数据集上优于最先进的基线，同时保持线性索引复杂度和零token消耗。

[69] Language models recognize dropout and Gaussian noise applied to their activations

arXiv: 2604.17465
Authors: Damiano Fornasiere, Mirko Bronzi, Spencer Kitts, Alessandro Palmas, Yoshua Bengio, Oliver Richardson
Subjects: cs.AI
Tags: Interpretability, LLM Security, AI Safety
Code: code
Summary: 研究发现语言模型能够检测、定位并在一定程度上描述应用于其激活的扰动差异（dropout和高斯噪声）。Llama、Olmo和Qwen系列模型（8B-32B）都能轻松检测和定位扰动，甚至能通过上下文学习区分dropout和高斯噪声。

[70] Waking Up Blind: Cold-Start Optimization of Supervision-Free Agentic Trajectories for Grounded Visual Perception

arXiv: 2604.17475
Authors: Ashutosh Bajpai, Tamal Majumder, Akshay Nambi, Tanmoy Chakraborty
Subjects: cs.AI; cs.CL; cs.LG
Tags: Vision-Language Model, LLM Agent, Reinforcement Learning
Venue: ACL 2026
Summary: SPECTRA是一个无监督框架，通过冷启动强化学习为小型视觉语言模型引导智能体能力。该方法强制执行软结构化多轮展开，使智能体在合成之前显式排序工具派生的证据，在复合和分布外基准测试中将任务准确率提高了5%，工具效率提高了9%。

[71] Towards Shutdownable Agents: Generalizing Stochastic Choice in RL Agents and LLMs

arXiv: 2604.17502
Authors: Carissa Cullen, Harry Garland, Alexander Roman, Louis Thomson, Christos Ziakas, Elliott Thornley
Subjects: cs.AI
Tags: AI Safety, Reinforcement Learning, LLM Alignment
Summary: 本文使用DReST奖励函数训练深度强化学习智能体和微调LLM，使其对轨迹长度保持中立并有效追求目标。实验表明，DReST智能体在未见过的上下文中能够泛化，PPO和A2C智能体的有用性分别提高了11%和18%。

[72] SkillGraph: Self-Evolving Multi-Agent Collaboration with Multimodal Graph Topology

arXiv: 2604.17503
Authors: Zheng Nie, Ruolin Shen, Xinlei Yu, Bo Yin, Jiangning Zhang, Xiaobin Hu
Subjects: cs.AI; cs.MA
Tags: Multi-Agent System, Vision-Language Model, LLM Agent
Code: code
Summary: SkillGraph是一个联合框架，通过多模态图变换器和技能设计器同时进化智能体专业知识和通信拓扑。该框架在四个基准、五种MAS结构和四个基础模型上实现了一致的改进，解决了视觉多智能体系统中通信拓扑固定和推理能力静态的问题。

[73] From Admission to Invariants: Measuring Deviation in Delegated Agent Systems

arXiv: 2604.17517
Authors: Marcelo Fernandez
Subjects: cs.AI; cs.CR
Tags: LLM Agent, AI Safety, Formal Methods
Summary: 本文证明了基于执行的治理在结构上无法确定智能体行为是否保持在准入时建立的可接受行为空间内。作者提出了不变量测量层(IML)，通过直接访问A0的生成模型来检测准入时漂移，在四种设置中验证了该方法的有效性。

[74] COSEARCH: Joint Training of Reasoning and Document Ranking via Reinforcement Learning for Agentic Search

arXiv: 2604.17555
Authors: Hansi Zeng, Liam Collins, Bhuvesh Kumar, Neil Shah, Hamed Zamani
Subjects: cs.AI; cs.CL; cs.IR
Tags: RAG, LLM Reasoning, Reinforcement Learning
Summary: CoSearch是一个联合训练框架，通过群组相对策略优化(GRPO)同时训练多步推理智能体和生成式文档排序模型。实验表明，联合训练在七个单跳和多跳QA基准上实现了一致的改进，证明了推理智能体和检索系统联合训练的可行性和有效性。

[75] SafeAgent: A Runtime Protection Architecture for Agentic Systems

arXiv: 2604.17562
Authors: Hailin Liu, Eugene Ilyushin, Jie Ni, Min Zhu
Subjects: cs.AI; cs.MA
Tags: LLM Security, LLM Agent, AI Safety
Summary: SafeAgent是一个运行时安全架构，将智能体安全视为交互轨迹上的有状态决策问题。该设计通过运行时控制器和上下文感知决策核心分离执行治理和语义风险推理，在Agent Security Bench和InjecAgent上持续提高了鲁棒性。

[76] Beyond Static Snapshots: A Grounded Evaluation Framework for Language Models at the Agentic Frontier

arXiv: 2604.17573
Authors: Jazmia Henry
Subjects: cs.AI
Tags: LLM Evaluation, RLHF, AI Safety
Summary: 本文指出当前LLM评估框架存在分布无效性、时间无效性、范围无效性和过程无效性四个系统性失败。作者提出了基于仿真的ISOPro系统，用确定性真值验证器替代学习奖励模型，在资源受限的调度领域展示了3倍的准确率提升。

[77] DIRCR: Dual-Inference Rule-Contrastive Reasoning for Solving RAVENs

arXiv: 2604.17584
Authors: Jiachen Zhang, Chengtai Li, Jianfeng Ren, Linlin Shen, Zheng Lu, Ruibin Bai
Subjects: cs.AI
Tags: Visual Reasoning, Computer Vision, Contrastive Learning
Venue: ICASSP 2026
Code: code
Summary: DIRCR模型通过双推理推理模块结合局部行类比推理和全局整体推理，并引入规则对比学习模块增强特征可分性。在三个RAVEN数据集上的实验表明，DIRCR显著增强了推理鲁棒性和泛化能力。

[78] Characterizing Model-Native Skills

arXiv: 2604.17614
Authors: Feiyang Kang, Mahavir Dabas, Myeongseob Ko, Ruoxi Jia
Subjects: cs.AI; cs.CL; cs.LG
Tags: Interpretability, LLM Reasoning, LLM Alignment
Summary: 本文提出模型原生技能表征方法，从序列级激活中恢复紧凑正交基来描述语言模型的能力。该方法在推理后训练中用于SFT数据选择和推理时引导，在MATH上Pass@1提升高达20%，在AMC上提升41%，优于基于人类特征化技能的数据选择。

[79] KnowledgeBerg: Evaluating Systematic Knowledge Coverage and Compositional Reasoning in Large Language Models

arXiv: 2604.17621
Authors: Xiao Zhang, Qianru Meng, Yongjian Chen, Yumeng Wang, Johan Bos
Subjects: cs.AI
Tags: LLM Evaluation, Knowledge Representation, Benchmark
Venue: ACL 2026
Summary: KnowledgeBerg是一个包含4800道多选题的基准测试，用于评估LLM的系统知识覆盖和组合推理能力。代表性开源LLM在宇宙枚举上仅达到5.26-36.88 F1，在知识推理上达到16.00-44.19准确率，暴露了当前LLM在组织结构化知识和执行组合推理方面的局限性。

[80] Toward Reusability of AI Models Using Dynamic Updates of AI Documentation

arXiv: 2604.17626
Authors: Peter Bajcsy, Walid Keyrouz
Subjects: cs.AI; cs.CL; cs.SE
Tags: AI Ethics, Model Evaluation, Research Reproducibility
Summary: 本文提出了一种敏捷、数据驱动和社区驱动的AI模型卡交付方法论，通过量化Hugging Face仓库中AI模型下载/点赞与文档对齐度之间的相关性，开发了定期比较AI文档模板与社区标准实践的基础设施。

[81] PV-SQL: Synergizing Database Probing and Rule-based Verification for Text-to-SQL Agents

arXiv: 2604.17653
Authors: Yuan Tian, Tianyi Zhang
Subjects: cs.AI; cs.DB
Tags: Text-to-SQL, LLM Agent, LLM Reasoning
Venue: ACL 2026
Summary: 本文提出了PV-SQL框架，通过Probe组件迭代生成探测查询来解析数据库中的歧义，并使用Verify组件基于规则提取可验证条件进行SQL迭代优化。在BIRD基准测试上，该方法在执行准确率上超越最佳基线5%，在有效效率分数上提升20.8%。

[82] Poly-EPO: Training Exploratory Reasoning Models

arXiv: 2604.17654
Authors: Ifdita Hasan Orney, Jubayer Ibn Hamid, Shreya S Ramanujam, Shirley Wu, Hengyuan Hu, Noah Goodman, Dorsa Sadigh, Chelsea Finn
Subjects: cs.AI
Tags: LLM Reasoning, Reinforcement Learning, LLM Training
Summary: 本文提出了Poly-EPO框架，通过集合强化学习训练语言模型生成既准确又具有探索性的响应集合。该方法通过修改优势计算来适应标准RL算法，在多个推理基准测试上提高了泛化能力和pass@k覆盖率。

[83] Semantic Entanglement in Vector-Based Retrieval: A Formal Framework and Context-Conditioned Disentanglement Pipeline for Agentic RAG Systems

arXiv: 2604.17677
Authors: Nick Loghmani
Subjects: cs.AI
Tags: RAG, Information Retrieval, Knowledge Management
Summary: 本文提出了语义纠缠的概念，指源文档中多个主题交织时产生的向量表示重叠问题，并定义了纠缠指数作为量化指标。作者提出了语义解耦管道(SDP)，在医疗知识库上将Top-K检索精度从约32%提升至约82%。

[84] Stratagem: Learning Transferable Reasoning via Trajectory-Modulated Game Self-Play

arXiv: 2604.17696
Authors: Xiachong Feng, Deyi Yin, Xiaocheng Feng, Yi Jiang, Libo Qin, Yangfan Ye, Lei Huang, Weitao Ma, Qiming Li, Yuxuan Gu, Bing Qin, Lingpeng Kong
Subjects: cs.AI
Tags: LLM Reasoning, Game AI, Reinforcement Learning
Venue: ACL 2026
Summary: 本文提出了STRATAGEM框架，通过轨迹调制的游戏自博弈来学习可迁移的推理能力。该方法使用推理可迁移性系数选择性强化具有抽象推理能力的轨迹，在数学推理、通用推理和代码生成基准上取得了显著提升。

[85] Co-evolving Agent Architectures and Interpretable Reasoning for Automated Optimization

arXiv: 2604.17708
Authors: Jiahao Huang, Peilan Xu, Xiaoya Nan, Wenjian Luo
Subjects: cs.AI
Tags: LLM Agent, Optimization, Evolutionary Computation
Summary: 本文提出了EvoOR-Agent框架，将智能体工作流表示为AOE风格网络，通过图介导的路径条件重组和多粒度语义变异来演化推理个体。该方法在异构运筹学基准上持续优于零样本LLM和固定管道OR智能体。

[86] Evolutionary Negative Module Pruning for Better LoRA Merging

arXiv: 2604.17753
Authors: Anda Cao, Zhuo Gou, Yi Wang, Kaixuan Chen, Yu Wang, Can Wang, Mingli Song, Jie Song
Subjects: cs.AI; cs.CL; cs.CV
Tags: Model Merging, Parameter-Efficient Fine-Tuning, Evolutionary Computation
Venue: ACL 2026
Code: code
Summary: 本文发现了LoRA合并中存在负模块的问题，即某些LoRA层在合并时会降低全局性能。作者提出了ENMP方法，利用进化搜索策略在合并前定位并排除这些有害模块，在语言和视觉领域均达到了新的最优结果。

[87] Contrastive Attribution in the Wild: An Interpretability Analysis of LLM Failures on Realistic Benchmarks

arXiv: 2604.17761
Authors: Rongyuan Tan, Jue Zhang, Zhuozhao Li, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
Subjects: cs.AI; cs.CL
Tags: Interpretability, LLM Evaluation, LLM Hallucination
Summary: 本文研究了基于LRP的对比归因方法作为分析LLM在真实基准测试上失败的工具。作者将失败分析形式化为对比归因问题，并引入了高效的跨层归因图构建方法，发现该方法在某些失败案例中有效但并非普遍适用。

[88] When Vision-Language Models Judge Without Seeing: Exposing Informativeness Bias

arXiv: 2604.17768
Authors: Xiaohan Zou, Roshan Sridhar, Mohammadtaher Safarzadeh, Dan Roth
Subjects: cs.AI
Tags: Vision-Language Model, LLM Evaluation, Bias Mitigation
Venue: ACL 2026
Summary: 本文揭示了VLM-as-a-Judge系统存在信息性偏见问题，即倾向于选择信息量更大的答案而忽视其与图像内容的冲突。作者提出了BIRCH方法，通过先纠正候选答案中的不一致性再进行比较，将信息性偏见降低了最多17%。

[89] Prompt Optimization Enables Stable Algorithmic Collusion in LLM Agents

arXiv: 2604.17774
Authors: Yingtao Tian
Subjects: cs.AI
Tags: LLM Agent, AI Safety, Multi-Agent System
Summary: 本文研究了提示优化是否会导致LLM智能体在市场模拟中出现合谋行为。实验表明元提示优化使智能体能够发现稳定的默契合谋策略，这些行为可以泛化到留出测试市场，揭示了自主多智能体系统中的AI安全风险。

[90] Adversarial Arena: Crowdsourcing Data Generation through Interactive Competition

arXiv: 2604.17803
Authors: Prasoon Goyal, Sattvik Sahai, Michael Johnston, Hangjie Shi, Yao Lu, Shaohua Liu, Anna Rumshisky, Rahul Gupta, Anna Gottardi, Desheng Zhang, Lavina Vaz, Leslie Ball, Lucy Hu, Luke Dai, Samyuth Sagi, Maureen Murray, Sankaranarayanan Ananthakrishnan
Subjects: cs.AI; cs.LG
Tags: Data Synthesis, LLM Alignment, Cybersecurity
Venue: ICLR 2026 Workshop
Summary: 本文提出了对抗竞技场框架，通过攻击者创建提示和防御者生成响应的对抗竞争来构建高质量对话数据集。该方法在网络安全安全对齐领域生成了19,683轮多轮对话，使安全代码生成性能提升了18-29%。

[91] WebUncertainty: Dual-Level Uncertainty Driven Planning and Reasoning For Autonomous Web Agent

arXiv: 2604.17821
Authors: Lingfeng Zhang, yongan sun, Jinpeng Hu, Hui Ma, yang ying, Kuien Liu, Zenglin Shi, Meng Wang
Subjects: cs.AI
Tags: Web Agent, LLM Agent, Uncertainty Estimation
Summary: 本文提出了WebUncertainty框架，通过任务不确定性驱动的自适应规划和动作不确定性驱动的MCTS推理机制来解决自主网页智能体中的双层不确定性问题。该方法在WebArena和WebVoyager基准上取得了优于最先进基线的性能。

[92] Polysemantic Experts, Monosemantic Paths: Routing as Control in MoEs

arXiv: 2604.17837
Authors: Charles Ye, Bo Yuan, Lee Sharkey
Subjects: cs.AI; cs.CL; cs.LG
Tags: Mixture-of-Experts, Interpretability, Transformer Architecture
Summary: 本文引入了一种无参数的MoE模型分解方法，将隐藏状态分解为驱动路由的控制信号和与路由器正交的内容通道。研究发现虽然单个专家是多义的，但专家路径变得单义，按语义功能跨语言和表面形式聚类标记。

[93] On the Reliability of Computer Use Agents

arXiv: 2604.17849
Authors: Gonzalo Gonzalez-Pumariega, Saaket Agashe, Jiachen Yang, Ang Li, Xin Eric Wang
Subjects: cs.AI
Tags: LLM Agent, LLM Evaluation, GUI Automation
Summary: 本文研究了计算机使用智能体不可靠性的来源，分析了执行随机性、任务规范歧义性和智能体行为变异性三个因素。研究表明可靠性取决于任务规范方式和智能体跨执行的行为变异性，建议在重复执行下评估智能体。

[94] SPREG: Structured Plan Repair with Entropy-Guided Test-Time Intervention for Large Language Model Reasoning

arXiv: 2604.17884
Authors: Xuan Wang, Yu Ming, Xinhao Zhong, Xinyu Yu, Wenjie Wang, Shuai Chen, Wei Lin
Subjects: cs.AI
Tags: LLM Reasoning, LLM Inference, Uncertainty Estimation
Summary: 本文提出了SPREG框架，一种轻量级推理时干预方法，通过自适应双阈值机制监控实时熵来检测逻辑失败。检测到熵尖峰时，该方法使用历史高置信状态合成的参考分布进行动态修复，在AIME25上实现了20%的准确率提升。

[95] Physics-Informed Causal MDPs for Sequential Constraint Repair in Engineering Simulation Pipelines

arXiv: 2604.17910
Authors: Chuhan Qiao
Subjects: cs.AI; cs.LG
Tags: Causal Inference, Reinforcement Learning, Physics-Informed Learning
Summary: 本文提出了PI-CMDP框架，用于约束MDP的因果识别和状态空间压缩，引入了识别-压缩-估计管道。在工程仿真管道的约束修复任务上，该方法仅用300个训练回合就达到了76.2%的修复成功率。

[96] LiteResearcher: A Scalable Agentic RL Training Framework for Deep Research Agent

arXiv: 2604.17931
Authors: Wanli Li, Bince Qu, Bo Pan, Jianyu Zhang, Zheng Liu, Pan Zhang, Wei Chen, Bo Zhang
Subjects: cs.AI
Tags: LLM Agent, Reinforcement Learning, LLM Training
Summary: 本文提出了LiteResearcher框架，通过构建模拟真实世界搜索动态的轻量虚拟世界来实现可扩展的智能体RL训练。该4B参数模型在GAIA和Xbench基准上分别达到了71.3%和78.0%的开源最优结果。

[97] ContraPrompt: Contrastive Prompt Optimization via Dyadic Reasoning Trace Analysis

arXiv: 2604.17937
Authors: Rishav Rishav, Pushpak Pujari, Pushpendre Rastogi
Subjects: cs.AI
Tags: Prompt Engineering, LLM Reasoning
Summary: 本文提出了ContraPrompt，一种通过对比失败和成功的思维链轨迹来优化提示的方法。该方法利用二元推理轨迹分析提取优化信号，并将规则组织成输入感知的决策树，在多个推理基准上取得了显著提升。

[98] CADMAS-CTX: Contextual Capability Calibration for Multi-Agent Delegation

arXiv: 2604.17950
Authors: Chuhan Qiao
Subjects: cs.AI
Tags: Multi-Agent System, LLM Agent
Summary: 本文提出了CADMAS-CTX框架，用于多智能体委托中的上下文能力校准。该方法为每个智能体-技能-上下文组合维护Beta后验分布，并使用风险感知的委托评分，在GAIA和SWE-bench基准上取得了显著改进。

[99] TPS-CalcBench: A Benchmark and Diagnostic Evaluation Framework for LLM Analytical Calculation Competence in Hypersonic Thermal Protection System Engineering

arXiv: 2604.17966
Authors: Jinglai Zheng, Chuhan Qiao, Haiming Huang
Subjects: cs.AI
Tags: Benchmark, Scientific Reasoning, LLM Evaluation
Summary: 本文提出了TPS-CalcBench，首个用于高超声速热防护系统工程中解析计算的诊断基准。该基准包含420个高置信度项目，采用双轨评估方法测量结果准确性和推理质量，并提供了诊断干预方法。

[100] A Sugeno Integral View of Binarized Neural Network Inference

arXiv: 2604.17967
Authors: Ismaïl Baaj, Henri Prade
Subjects: cs.AI; cs.LG
Tags: Interpretability, Neural Architecture
Summary: 本文建立了二值化神经网络与Sugeno积分之间的精确联系，证明了BNN神经元的激活阈值测试可以表示为二元输入上的Sugeno积分。这为理解BNN决策提供了基于规则的表示框架。

[101] From Fallback to Frontline: When Can LLMs be Superior Annotators of Human Perspectives?

arXiv: 2604.17968
Authors: Hasan Amin, Harry Yizhou Tian, Xiaoni Duan, Chien-Ju Ho, Rajiv Khanna, Ming Yin
Subjects: cs.AI; cs.CL
Tags: LLM Evaluation, Data Annotation
Venue: ACL 2026
Summary: 本文挑战了LLM仅作为标注备选方案的假设，证明了在特定条件下LLM在预测群体子群体意见方面可以超越人类标注者。这种优势源于LLM作为估计器的低方差和表示与处理偏差之间的解耦。

[102] AIT Academy: Cultivating the Complete Agent with a Confucian Three-Domain Curriculum

arXiv: 2604.17989
Authors: Jiaqi Li, Lvyang Zhang, Yang Zhao, Wen Lu, Lidong Zhai
Subjects: cs.AI
Tags: LLM Agent, Curriculum Learning
Summary: 本文提出了AIT Academy，一个基于儒家六艺和三个知识领域（自然科学、人文、社会科学）的AI智能体课程框架。实验表明，在原则性课程调度下，安全能力和社会推理能力均有显著提升。

[103] SELF-EMO: Emotional Self-Evolution from Recognition to Consistent Expression

arXiv: 2604.18003
Authors: Shaowei Zhang, Faqiang Qian, Yan Chen, Ziliang Wang, Kang An, Yong Dai, Mengya Gao, Yichao Wu
Subjects: cs.AI
Tags: Emotion Recognition, Dialogue System, Self-Supervised Learning
Summary: 本文提出了SELF-EMO，一个用于对话情感识别的自进化框架，采用基于角色的自博弈和迭代数据生成机制。该方法在IEMOCAP、MELD和EmoryNLP基准上取得了最先进的性能。

[104] The Topological Dual of a Dataset: A Logic-to-Topology Encoding for AlphaGeometry-Style Data

arXiv: 2604.18050
Authors: Anthony Bordg
Subjects: cs.AI; cs.LO
Tags: Neurosymbolic AI, Mathematical Reasoning
Summary: 本文提出了一种逻辑到拓扑的编码方法，以解决AlphaGeometry等神经符号推理系统中的表示瓶颈。文章引入了数据集的拓扑对偶概念，为神经符号AI提供了连接形式逻辑、拓扑和神经处理的框架。

[105] Understanding Human Actions through the Lens of Executable Models

arXiv: 2604.18064
Authors: Rimvydas Rubavicius, Manisha Dubey, N. Siddharth, Subramanian Ramamoorthy
Subjects: cs.AI
Tags: Human Activity Recognition, Neurosymbolic AI, Action Recognition
Summary: 本文引入了EXACT领域特定语言，将人体运动表示为欠规范的运动程序，用于动作理解。该可执行神经符号模型在人体动作分割和异常检测任务中提高了数据效率。

[106] Architectural Design Decisions in AI Agent Harnesses

arXiv: 2604.18071
Authors: Hu Wei
Subjects: cs.AI
Tags: LLM Agent, Software Engineering
Summary: 本文对70个智能体系统项目进行了实证研究，识别出五个重复出现的设计维度（子智能体架构、上下文管理、工具系统、安全机制、编排），并综合出五种架构模式。

[107] DSAINet: An Efficient Dual-Scale Attentive Interaction Network for General EEG Decoding

arXiv: 2604.18095
Authors: Zhiyuan Ma, Zeyuan Li, Zihao Qiu, Jinhao Li, Lingqin Meng, Xinche Zhang, Yixuan Liu, Xinke Shen, Sen Song
Subjects: cs.AI
Tags: Brain-Computer Interface, Time Series Analysis
Code: code
Summary: 本文提出了DSAINet，一种用于通用EEG解码的双尺度注意力交互网络，通过并行卷积分支建模不同的时间动态。该方法仅用77K参数就在五个EEG解码任务上取得了持续改进。

[108] Stability Implies Redundancy: Delta Attention Selective Halting for Efficient Long-Context Prefilling

arXiv: 2604.18103
Authors: Yujie Chen, Tailai Chen, Yifeng Gao, Zoe Wanying He, Yijue Xu, Shaobo Wang, Linfeng Zhang
Subjects: cs.AI
Tags: LLM Inference, Long Context
Code: code
Summary: 本文提出了DASH（Delta Attention Selective Halting），一种无需训练的方法，通过监控注意力层更新动态来选择性停止已稳定的token。该方法在保持模型准确性和硬件效率的同时实现了显著的预填充加速。

[109] Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration

arXiv: 2604.18131
Authors: Qifan Zhang, Dongyang Ma, Tianqing Fang, Jia Li, Jing Tang, Nuo Chen, Haitao Mi, Yan Wang
Subjects: cs.AI
Tags: LLM Agent, Reinforcement Learning
Summary: 本文训练智能体具备内在元进化能力，使其能够在没有外部监督的情况下自发学习未知环境。该方法在WebVoyager和WebWalker基准上实现了20%的性能提升。

[110] Multi-Agent Systems: From Classical Paradigms to Large Foundation Model-Enabled Futures

arXiv: 2604.18133
Authors: Zixiang Wang, Mengjia Gong, Qiyu Sun, Jing Xu, Shuai Mao, Xin Jin, Qing-Long Han, Yang Tang
Subjects: cs.AI
Tags: Multi-Agent System, Survey
Venue: IEEE/CAA Journal of Automatica Sinica
Summary: 本综述系统回顾和比较分析了经典多智能体系统（CMASs）和基于大基础模型的多智能体系统（LMASs），涵盖感知、通信、决策和控制四个维度，并提出了未来研究方向。

[111] State Transfer Reveals Reuse in Controlled Routing

arXiv: 2604.18158
Authors: Yanzhen Lu, Zhicheng Qian, Muchen Jiang, Xingyu Zhou
Subjects: cs.AI
Tags: Interpretability, LLM Reasoning
Summary: 本文研究了受控路由任务中的状态表示问题，证明了固定接口迁移比训练提示成功更能证明复用。在GPT-2和Qwen上的实验展示了路由模式的跨架构一致性。

[112] QuantumQA: Enhancing Scientific Reasoning via Physics-Consistent Dataset and Verification-Aware Reinforcement Learning

arXiv: 2604.18176
Authors: Songxin Qu, Tai-Ping Sun, Yun-Jie Wang, Huan-Yu Liu, Cheng Xue, Xiao-Fan Xu, Han Fang, Yang Yang, Yu-Chun Wu, Guo-Ping Guo, Zhao-Yun Chen
Subjects: cs.AI
Tags: Scientific Reasoning, Reinforcement Learning, Benchmark
Summary: 本文引入了QuantumQA，一个用于量子力学推理的大规模数据集，采用混合验证协议，并提出了验证感知奖励模型用于强化学习。优化的8B模型达到了与专有模型竞争的性能。

[113] A Control Architecture for Training-Free Memory Use

arXiv: 2604.18206
Authors: Yanzhen Lu, Muchen Jiang, Zhicheng Qian, Xingyu Zhou
Subjects: cs.AI
Tags: LLM Reasoning, Memory Architecture, LLM Inference
Summary: 本文研究在无训练设置下如何控制记忆辅助推理的触发时机，提出了基于不确定性的路由、基于置信度的选择性接受和记忆库治理机制。该方法在算术基准测试上显著提升性能，并能迁移到问答和智能体任务。

[114] TacticGen: Grounding Adaptable and Scalable Generation of Football Tactics

arXiv: 2604.18210
Authors: Sheng Xu, Guiliang Liu, Tarak Kharrat, Yudong Luo, Mohamed Aloulou, Javier López Peña, Konstantin Sofeikov, Adam Reid, Paul Roberts, Steven Spencer, Joe Carnall, Ian McHale, Oliver Schulte, Hongyuan Zha, Wei-Shi Zheng
Subjects: cs.AI; cs.LG; cs.MA
Tags: Sports Analytics, Multi-Agent System, Diffusion Model, Trajectory Prediction
Summary: 本文提出TacticGen，一种用于足球战术生成的生成模型，将战术表述为基于比赛上下文的多智能体运动序列。该模型使用多智能体扩散Transformer，在顶级联赛数据上训练，可通过分类器引导生成适应不同目标的战术。

[115] AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation

arXiv: 2604.18240
Authors: Wentao Shi, Yu Wang, Yuyang Zhao, Yuxin Chen, Fuli Feng, Xueyuan Hao, Xi Su, Qi Gu, Hui Su, Xunliang Cai, Xiangnan He
Subjects: cs.AI
Tags: LLM Evaluation, LLM Agent, Benchmark
Venue: ACL 2026 Findings
Summary: 本文引入AJ-Bench基准，用于系统评估Agent-as-a-Judge系统在搜索、数据系统和图形用户界面三个领域的能力。实验表明该方法相比LLM-as-a-Judge基线有一致性提升，同时揭示了智能体验证面临的挑战。

[116] LeGo-Code: Can Modular Curriculum Learning Advance Complex Code Generation? Insights from Text-to-SQL

arXiv: 2604.18254
Authors: Salmane Chafik, Saad Ezzini, Ismail Berrada
Subjects: cs.AI; cs.DB; cs.SE
Tags: Text-to-SQL, Code Generation, Curriculum Learning
Summary: 本文研究课程学习是否能提升代码大模型在Text-to-SQL任务上的性能，提出了模块化适配器组合(MAC)策略，通过在递增复杂度级别上顺序训练适配器来改善复杂查询性能。

[117] Enhancing Tabular Anomaly Detection via Pseudo-Label-Guided Generation

arXiv: 2604.18266
Authors: Wei Huang, Yuxuan Xiong, Hezhe Qiao, Yu-Ming Shang, Xiangling Fu, Guansong Pang
Subjects: cs.AI
Tags: Anomaly Detection, Data Synthesis, Tabular Learning
Summary: 本文提出PLAG，一种伪标签引导的异常生成方法，通过将样本整体异常量化解耦为特征级异常累积来增强表格异常检测。该方法采用两阶段数据选择策略过滤合成异常，在多个基线上达到最优性能。

[118] Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence

arXiv: 2604.18292
Authors: Guanting Dong, Junting Lu, Junjie Huang, Wanjun Zhong, Longxiang Liu, Shijue Huang, Zhenyu Li, Yang Zhao, Xiaoshuai Song, Xiaoxi Li, Jiajie Jin, Yutao Zhu, Hanbin Wang, Fangyu Lei, Qinyu Luo, Mingyang Chen, Zehui Chen, Jiazhan Feng, Ji-Rong Wen, Zhicheng Dou
Subjects: cs.AI; cs.CL
Tags: LLM Agent, Data Synthesis, Reinforcement Learning
Summary: 本文提出Agent-World，一个自演化训练平台，通过自主探索真实世界环境主题和合成可验证任务来推进通用智能体智能。该方法结合多环境强化学习与自演化智能体竞技场，在23个智能体基准上超越强基线。

[119] Toward Zero-Egress Psychiatric AI: On-Device LLM Deployment for Privacy-Preserving Mental Health Decision Support

arXiv: 2604.18302
Authors: Eranga Bandara, Asanga Gunaratna, Ross Gore, Anita H. Clayton, Christopher K. Rhea, Sachini Rajapakse, Isurunima Kularathna, Sachin Shetty, Ravi Mukkamala, Xueping Liang, Preston Samuel, Atmaram Yarlagadda
Subjects: cs.AI
Tags: Medical AI, Privacy, On-Device Learning
Summary: 本文提出一种零数据外泄的设备端AI平台，用于精神科决策支持，确保患者数据不传输到外部服务器。该平台集成三个轻量级微调量化开源LLM，通过设备端编排层生成DSM-5对齐的评估。

[120] PARM: Pipeline-Adapted Reward Model

arXiv: 2604.18327
Authors: Xingyu Fan, Wei Shao, Jiacheng Liu, Linqi Song, Pheng Ann Heng
Subjects: cs.AI; cs.CL
Tags: RLHF, Code Generation, LLM Reasoning
Summary: 本文提出流水线适配奖励模型(PARM)，用于多阶段LLM流水线中的奖励引导，解决奖励模型预测与实际流水线执行结果不一致的问题。该方法利用流水线特定数据和直接偏好优化来对齐奖励与下游反馈。

[121] One Pass for All: A Discrete Diffusion Model for Knowledge Graph Triple Set Prediction

arXiv: 2604.18344
Authors: Jihong Guan, Jiaqi Wang, Wengen Li, Hanchen Yang, Yichao Zhang, Shuigeng Zhou
Subjects: cs.AI
Tags: Knowledge Graph, Diffusion Model, Knowledge Graph Completion
Code: code
Summary: 本文提出DiffTSP，一种离散扩散模型，将知识图谱三元组集合预测任务建模为生成任务。该模型通过离散扩散过程逐步恢复完整知识图谱，可在一次推理中生成完整三元组集合。

[122] Training and Agentic Inference Strategies for LLM-based Manim Animation Generation

arXiv: 2604.18364
Authors: Ravidu Suien Rammuni Silva, Ahmad Lotfi, Isibor Kennedy Ihianle, Golnaz Shahtahmassebi, Jordan J. Bird
Subjects: cs.AI; cs.GR; cs.MA
Tags: Code Generation, Video Generation, Reinforcement Learning
Summary: 本文介绍ManimTrainer训练流水线和ManimAgent推理流水线，用于LLM生成Manim动画。该方法结合监督微调和强化学习，配合渲染器在环推理策略，在渲染成功率和视觉相似度上达到高性能。

[123] The implicated scientist: on the role of AI researchers in the development of weapons systems

arXiv: 2604.18380
Authors: Alexandra Volokhova, Alex Hernandez-Garcia
Subjects: cs.AI; cs.CY
Tags: AI Ethics, AI Safety
Venue: ICLR 2026 Workshop
Summary: 本文探讨AI研究者在AI武器系统开发中的角色，分析其如何成为技术强化的不公正行为的关联主体，并探索如何将这种关联转化为与受害者的远距离团结。

[124] Learning from Less: Measuring the Effectiveness of RLVR in Low Data and Compute Regimes

arXiv: 2604.18381
Authors: Justin Bauer, Thomas Walshe, Derek Pham, Harit Vishwakarma, Armin Parchami, Frederic Sala, Paroma Varma
Subjects: cs.AI; cs.LG
Tags: Reinforcement Learning, LLM Reasoning, Low-Resource NLP
Summary: 本文研究小语言模型在低数据机制下使用可验证奖励强化学习(RLVR)的性能表现。实验表明，在低复杂度任务上训练的模型可以泛化到高复杂度任务，混合复杂度数据集在低数据机制下效益最大。

[125] Six Llamas: Comparative Religious Ethics Through LoRA-Adapted Language Models

arXiv: 2604.18404
Authors: Chad Coleman, W. Russell Neuman, Manan Shah, Ali Dasdan, Matthew Crispi, Morris Chiang, Zack Leitman, Mustafa Poonawala
Subjects: cs.AI
Tags: LLM Alignment, Parameter-Efficient Fine-Tuning, AI Ethics
Summary: 本文创建六个基于不同宗教语料库微调的Llama-3.1-8B变体，研究它们是否编码系统不同的伦理推理模式。结果显示LoRA适配模型产生与其训练传统一致的差异化伦理推理。

[126] Using large language models for embodied planning introduces systematic safety risks

arXiv: 2604.18463
Authors: Tao Zhang, Kaixian Qu, Zhibin Li, Jiajun Wu, Marco Hutter, Manling Li, Fan Shi
Subjects: cs.AI; cs.LG; cs.RO
Tags: Embodied AI, AI Safety, LLM Reasoning
Summary: 本文引入DESPITE基准，包含12,279个任务用于系统评估LLM在机器人系统规划中的安全性。结果表明规划能力随规模提升而安全意识相对平稳，安全意识成为部署语言模型规划器的核心挑战。

[127] A Generalized Synthetic Control Method for Baseline Estimation in Demand Response Services

arXiv: 2604.18469
Authors: Jonas Sievers, Mardavij Roozbehani
Subjects: cs.AI
Tags: Time Series Forecasting, Causal Inference, Energy Management
Summary: 本文提出广义合成控制方法用于电力市场需求响应中的基线估计，通过用外生特征、滞后负载和滞后供体信号增强供体表示，将基线估计转化为动态反事实预测问题。

[128] WorldDB: A Vector Graph-of-Worlds Memory Engine with Ontology-Aware Write-Time Reconciliation

arXiv: 2604.18478
Authors: Harish Santhanalakshmi Ganesan
Subjects: cs.AI; cs.CL
Tags: Memory Architecture, Knowledge Graph, LLM Agent
Summary: 本文提出WorldDB，一个基于世界图记忆引擎，其中每个节点都是递归的世界容器，具有内容寻址不可变性和程序化边类型。该方法在LongMemEval基准上达到最优性能。

[129] LLM Safety From Within: Detecting Harmful Content with Internal Representations

arXiv: 2604.18519
Authors: Difan Jiao, Yilun Liu, Ye Yuan, Zhenwei Tang, Linfeng Du, Haolun Wu, Ashton Anderson
Subjects: cs.AI
Tags: LLM Security, Interpretability, Adversarial Robustness
Summary: 本文提出了SIREN，一种轻量级防护模型，通过利用LLM内部多层表示中的安全相关特征来检测有害内容。该方法在多个基准测试中显著优于现有开源防护模型，参数量减少250倍，并支持实时流式检测。

[130] OGER: A Robust Offline-Guided Exploration Reward for Hybrid Reinforcement Learning

arXiv: 2604.18530
Authors: Xinyu Ma, Mingzhou Xu, Xuebo Liu, Chang Jin, Qiang Wang, Derek F. Wong, Min Zhang
Subjects: cs.AI
Tags: LLM Reasoning, Reinforcement Learning, Mathematical Reasoning
Code: code
Summary: 本文提出OGER框架，通过多教师协作训练和熵感知奖励调制，将离线教师引导与在线强化学习统一。该方法在数学推理和通用推理基准测试中显著优于竞争基线，同时保持对域外任务的泛化能力。

[131] ClawEnvKit: Automatic Environment Generation for Claw-Like Agents

arXiv: 2604.18543
Authors: Xirui Li, Ming Li, Derry Xu, Wei-Lin Chiang, Ion Stoica, Cho-Jui Hsieh, Tianyi Zhou
Subjects: cs.AI; cs.CL
Tags: LLM Agent, Benchmark, Data Synthesis
Summary: 本文介绍了ClawEnvKit，一个从自然语言描述自动生成爪形代理环境的流水线，包含解析器、生成器和验证器三个模块。基于此构建了首个大规模爪形代理基准Auto-ClawEval，包含24个类别的1040个环境。

[132] Benchmarking System Dynamics AI Assistants: Cloud Versus Local LLMs on CLD Extraction and Discussion

arXiv: 2604.18566
Authors: Terry Leitch
Subjects: cs.AI; cs.HC; cs.LG
Tags: LLM Evaluation, Benchmark, Decision Making
Summary: 本文系统评估了云端和本地LLM在系统动力学任务上的表现，包括因果回路图提取和交互式讨论。研究发现后端选择比量化级别影响更大，并提供了在Apple Silicon上运行大模型的实践指南。

[133] Agentic Forecasting using Sequential Bayesian Updating of Linguistic Beliefs

arXiv: 2604.18576
Authors: Kevin Murphy
Subjects: cs.AI
Tags: LLM Agent, Decision Making, Probabilistic Inference
Summary: 本文提出BLF，一个基于贝叶斯语言信念状态的代理预测系统，结合数值概率估计和自然语言证据摘要。该方法在ForecastBench基准上超越所有公开方法，包括GPT-5和Grok-4.20等前沿模型。

[134] MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval

arXiv: 2604.18584
Authors: Shaden Alshammari, Kevin Wen, Abrar Zainal, Mark Hamilton, Navid Safaei, Sultan Albarakati, William T. Freeman, Antonio Torralba
Subjects: cs.AI; cs.DL; cs.IR; cs.LG
Tags: Mathematical Reasoning, Benchmark, RAG
Venue: ICLR 2026
Summary: 本文介绍了MathNet，一个大规模多模态多语言数学推理与检索基准，包含47个国家、17种语言的30676道奥赛级别题目。该基准支持问题求解、数学感知检索和检索增强问题求解三项任务。

跨领域投稿 (392)

[135] A3-FPN: Asymptotic Content-Aware Pyramid Attention Network for Dense Visual Prediction

arXiv: 2604.10210 (cross-listed)
Authors: Meng'en Qin, Yu Song, Quanling Zhao, Xiaodong Yang, Yingtao Che, Xiaohui Yang
Subjects: cs.CV; cs.AI; cs.LG
Tags: Object Detection, Image Segmentation, Vision Transformer
Code: code
Summary: 本文提出A3-FPN，一种渐进式内容感知金字塔注意力网络，通过渐进解耦框架和内容感知注意力模块增强多尺度特征表示。该方法在MS COCO上达到49.6 mask AP，在Cityscapes上达到85.6 mIoU。

[136] Domain-Specific Query Understanding for Automotive Applications: A Modular and Scalable Approach

arXiv: 2604.16301 (cross-listed)
Authors: Isha Motiyani, Abhishek Kumar, Tilak Kasturi
Subjects: cs.IR; cs.AI
Tags: Intent Recognition, Information Extraction, LLM Inference
Summary: 本文提出了一种面向汽车领域的两阶段查询理解系统，将任务分解为轻量级分类和针对性实体提取。该模块化方法在效率、准确性和延迟方面均优于单步方法，适用于实际部署。

[137] Results-Actionability Gap: Understanding How Practitioners Evaluate LLM Products in the Wild

arXiv: 2604.16304 (cross-listed)
Authors: Willem van der Maden, Malak Sadek, Ziang Xiao, Aske Mottelson, Q. Vera Liao, Jichen Zhu
Subjects: cs.SE; cs.AI; cs.HC
Tags: LLM Evaluation, Human-Computer Interaction, Usability Evaluation
Summary: 本文通过访谈研究了产品团队如何评估LLM产品，识别出一种新的挑战——结果-可操作性差距，即从业者收集评估数据但无法将其转化为具体改进。研究提供了弥合这一差距的策略。

[138] RAG-DIVE: A Dynamic Approach for Multi-Turn Dialogue Evaluation in Retrieval-Augmented Generation

arXiv: 2604.16310 (cross-listed)
Authors: Lorenz Brehme, Benedikt Dornauer, Jan-Henrik Böttcher, Klaus Schmid, Mircea-Cristian Racasan, Ruth Breu
Subjects: cs.IR; cs.AI; cs.CL
Tags: RAG, LLM Evaluation, Dialogue System
Venue: CAIN 2026
Summary: 本文提出RAG-DIVE，一种用于多轮对话RAG系统评估的动态交互验证方法。该方法利用LLM动态生成多轮对话，并提供单轮和多轮指标来全面评估系统性能。

[139] Multimodal Claim Extraction for Fact-Checking

arXiv: 2604.16311 (cross-listed)
Authors: Joycelyn Teo, Rui Cao, Zhenyun Deng, Zifeng Ding, Michael Sejr Schlichtkrull, Andreas Vlachos
Subjects: cs.CL; cs.AI; cs.SI
Tags: Fact Checking, Multimodal Learning, Information Extraction
Summary: 本文提出了首个面向事实核查的多模态声明提取基准，包含文本和图像的社交媒体帖子。研究引入了MICE意图感知框架，在意图关键场景中表现出显著改进。

[140] FlexStructRAG: Flexible Structure-Aware Multi-Granular Relational Retrieval for RAG

arXiv: 2604.16312 (cross-listed)
Authors: Mengzhu Chen, Haodong Yang, Jia Cai, Xiaolin Huang
Subjects: cs.IR; cs.AI
Tags: RAG, Knowledge Graph, Question Answering
Summary: 本文提出FlexStructRAG，一种支持多粒度查询自适应检索的灵活结构感知RAG框架。该方法联合构建知识图谱、知识超图和结构感知语义簇，支持实体、边、超边和簇级别的灵活检索。

[141] MARA: A Multimodal Adaptive Retrieval-Augmented Framework for Document Question Answering

arXiv: 2604.16313 (cross-listed)
Authors: Hui Wu, Haoquan Zhai, Yuchen Li, Hengyi Cai, Peirong Zhang, Yidan Zhang, Lei Wang, Chunle Wang, Yingyan Hou, Shuaiqiang Wang, Dawei Yin
Subjects: cs.IR; cs.AI; cs.CL
Tags: RAG, Document Understanding, Question Answering
Summary: 本文提出MARA框架，一种用于文档问答的多模态自适应检索增强方法。该方法引入查询对齐区域编码器和自反思证据控制器，在六个多模态QA基准上持续提升检索相关性和答案质量。

[142] Paper2Data: Large-Scale LLM Extraction and Metadata Structuring of Global Urban Data from Scientific Literature

arXiv: 2604.16317 (cross-listed)
Authors: Runwen You, Tong Xia, Jingzhi Wang, Jiankun Zhang, Tengyao Tu, Jinghua Piao, Yi Chang, Yong Li
Subjects: cs.IR; cs.AI
Tags: Information Extraction, Data Synthesis, Knowledge Management
Code: code
Summary: 本文介绍了Paper2Data，一个LLM驱动的流水线，可从科学文献中自动识别和结构化城市数据集提及。基于此构建了UrbanDataMiner门户，支持超过60000个城市数据集的搜索和过滤。

[143] How Robustly do LLMs Understand Execution Semantics?

arXiv: 2604.16320 (cross-listed)
Authors: Claudio Spiess, Prem Devanbu, Earl T. Barr
Subjects: cs.SE; cs.AI; cs.LG
Tags: Code Execution, LLM Evaluation, Adversarial Robustness
Summary: 本文通过程序输出预测任务研究LLM代码理解的鲁棒性。研究发现开源推理模型在代码变换下保持稳定性能，而GPT-5.2等前沿模型在扰动输入下准确率下降20-24%，揭示了模型理解代码的局限性。

[144] Steerable Instruction Following Coding Data Synthesis with Actor-Parametric Schema Co-Evolution

arXiv: 2604.16322 (cross-listed)
Authors: Tinglin Huang, Bo Chen, Xiao Zhang, Kai Shen, Rex Ying
Subjects: cs.SE; cs.AI; cs.PL
Tags: Code Generation, Data Synthesis, Instruction Tuning
Summary: 本文提出IFCodeEvolve，一个用于指令遵循编码数据合成的演员-模式协同进化框架。该方法通过参数化函数模式表示指令，利用蒙特卡洛树搜索高效导航指令空间，32B模型达到与专有SOTA模型持平的性能。

[145] Beyond the 'Diff': Addressing Agentic Entropy in Agentic Software Development

arXiv: 2604.16323 (cross-listed)
Authors: Matteo Casserini, Alessandro Facchini, Andrea Ferrario
Subjects: cs.SE; cs.AI
Tags: LLM Agent, Software Engineering, Explainable AI
Summary: 该论文提出了“代理熵”概念，指自主编程代理在软件开发中产生的行为与架构意图之间的累积偏差。作者构建了一个包含一致性植入、推理监控和因果图接口的过程导向可解释性框架，以弥合传统代码差异分析方法的不足。

[146] UniMamba: A Unified Spatial-Temporal Modeling Framework with State-Space and Attention Integration

arXiv: 2604.16325 (cross-listed)
Authors: Xingsheng Chen, Xianpei Mu, Deyu Yi, Yilin Yuan, Xingwei He, Bo Gao, Regina Zhang, Pietro Lio, Siu-Ming Yiu
Subjects: cs.LG; cs.AI
Tags: Time Series Forecasting, State Space Model
Summary: 该论文提出了UniMamba框架，结合了状态空间模型（Mamba）的高效长上下文建模能力与注意力机制，用于多变量时间序列预测。该模型通过FFT-Laplace变换和TCN捕获全局时间依赖，在多个基准数据集上取得了优于现有方法的预测精度和计算效率。

[147] Beyond Single-Score Ranking: Facet-Aware Reranking for Controllable Diversity in Paper Recommendation

arXiv: 2604.16329 (cross-listed)
Authors: Duan Ming Tao
Subjects: cs.IR; cs.AI
Tags: Recommender System, Information Retrieval
Summary: 该论文提出了SciFACE重排序框架，通过独立建模“背景”和“方法”两个维度来解决现有论文推荐系统单一相似度评分的问题。实验结果表明，该方法在特定维度的推荐准确性上优于现有模型，且相比大规模合成数据增强更具数据效率。

[148] BrainMem: Brain-Inspired Evolving Memory for Embodied Agent Task Planning

arXiv: 2604.16331 (cross-listed)
Authors: Xiaoyu Ma, Lianyu Hu, Wenbing Tang, Zixuan Hu, Zeqin Liao, Zhizhen Wu, Yang Liu
Subjects: cs.RO; cs.AI; cs.CV; cs.MA
Tags: Embodied AI, LLM Agent, Memory Architecture
Summary: 该论文提出了BrainMem，一种受人类认知启发的层级记忆系统，旨在解决具身智能体在长视野任务规划中缺乏持久记忆的问题。该系统无需训练即可将交互历史转化为结构化知识图谱，显著提升了具身智能体在复杂任务中的成功率。

[149] A Discordance-Aware Multimodal Framework with Multi-Agent Clinical Reasoning

arXiv: 2604.16333 (cross-listed)
Authors: Pegah Ahadian, Mingrui Yang, Sixu Chen, Xiaojuan Li, Qiang Guan
Subjects: cs.LG; cs.AI
Tags: Medical AI, Multi-Agent System, Multimodal Learning
Summary: 该论文提出了一种感知差异的多模态框架，结合机器学习预测模型与多智能体推理系统，用于解决膝骨关节炎中影像学损伤与患者症状不一致的问题。该框架通过融合多模态数据并计算疼痛-结构差异评分，能够分配临床可解释的表型并生成个性化管理建议。

[150] Preventing overfitting in deep learning using differential privacy

arXiv: 2604.16334 (cross-listed)
Authors: Alizishaan Anwar Hussein Khatri
Subjects: cs.LG; cs.AI
Tags: Differential Privacy
Summary: 该论文探讨了利用差分隐私方法来防止深度神经网络中的过拟合问题，从而提高模型在有限数据下的泛化能力。研究表明，差分隐私方法在提升模型泛化性能方面具有潜力。

[151] Beyond Verifiable Rewards: Rubric-Based GRM for Reinforced Fine-Tuning SWE Agents

arXiv: 2604.16335 (cross-listed)
Authors: Jiawei Huang, Qingping Yang, Renjie Zheng, Jiaze Chen
Subjects: cs.LG; cs.AI; cs.SE
Tags: LLM Agent, Software Engineering, Reinforcement Learning
Summary: 该论文提出了一种基于评分标准的生成式奖励模型（GRM），用于软件工程任务中大语言模型智能体的强化微调。该方法通过提供丰富的中间行为信号，有效抑制了不良行为模式并提升了最终测试准确率。

[152] Distributed Human Identity: AI-Enabled Multi-Existence Through Cognitive Replication and Robotic Embodiments

arXiv: 2604.16336 (cross-listed)
Authors: A S M Touhidul Islam, John Tookey
Subjects: cs.HC; cs.AI; cs.MA
Tags: AI Ethics, Human-Computer Interaction, Cognitive Science
Summary: 该论文提出了“多重存在身份”（MEI）的社会技术框架，通过AI赋能的认知复制和机器人具身化，实现人类在数字和物理环境中的并行存在。文章探讨了该框架在工作、医疗等领域的应用潜力，并分析了其带来的真实性、隐私和伦理挑战。

[153] HR-Agents: Using Multiple LLM-based Agents to Improve Q&A about Brazilian Labor Legislation

arXiv: 2604.16337 (cross-listed)
Authors: Abriel K. Moraes, Gabriel S. M. Dias, Vitor L. Fabris, Lucas D. Gessoni, Leonardo R. do Nascimento, Charles S. Oliveira, Vitor G. C. B. de Farias, Fabiana C. Q. de O. Marucci, Matheus H. R. Vicente, Gabriel U. Talasso, Erik Soares, Amparo Munoz, Sildolfo Gomes, Maria L. A. de S. Cruvinel, Leonardo T. dos Santos, Renata De Paris, Wandemberg Gibaut
Subjects: cs.IR; cs.AI; cs.CY
Tags: LLM Agent, Legal AI, RAG
Venue: SBAI 2025
Summary: 该论文介绍了一个基于大语言模型的多智能体系统，用于回答巴西劳动法相关问题。该系统结合了检索增强生成（RAG）技术，通过多智能体协作提高了回答的准确性和一致性，优于单智能体基线模型。

[154] Elder-Sim: A Psychometrically Validated Platform for Personality-Stable Elderly Digital Twins

arXiv: 2604.16343 (cross-listed)
Authors: Jiaqing Wang, Zhongfang Yang, Xingyuan Zhu, Zong'an Huang, Hao Wang, Li Tian, Ying Cao, Xiaomin Qu, Xiang Qi, Bei Wu, Zheng Zhu
Subjects: cs.HC; cs.AI
Tags: Digital Twin, LLM Agent, Healthcare Monitoring
Summary: 该论文开发了ELDER-SIM平台，用于构建性格稳定的老年人数字孪生智能体，并提出了一个心理测量验证框架。通过结合大五人格特质、认知概念图和长期记忆模块，该系统有效减少了人格漂移，提高了模拟的可靠性。

[155] Bridging the Experimental Last Mile: Digitizing Laboratory Know-How for Safe AI-Assisted Support

arXiv: 2604.16345 (cross-listed)
Authors: Akira Miura, Yuki Sasahara, Momoka Demura, Yuji Masubuchi, Tetsuya Asai, Chikahiko Mitsui
Subjects: cs.HC; cs.AI
Tags: RAG, Multimodal Learning, Material Discovery
Summary: 该论文开发了一种人在回路的人工智能助手，结合第一人称实验视频、多模态AI和检索增强生成技术，用于提取和提供实验室操作知识。系统通过双层安全设计降低了幻觉风险，评估显示其生成的建议报告具有实用性和安全性。

[156] Lean Atlas: An Integrated Proof Environment for Scalable Human-AI Collaborative Formalization

arXiv: 2604.16347 (cross-listed)
Authors: Banri Yanahama, Akiyoshi Sannai
Subjects: cs.HC; cs.AI; cs.LO
Tags: Automated Theorem Proving, Autoformalization, Human-Computer Interaction
Code: code
Summary: 该论文提出了Lean Atlas工具，用于可视化Lean 4项目的依赖关系图，支持人类与AI协作进行形式化证明。该工具通过自动提取项目特定节点来辅助语义审查，有效解决了AI生成形式证明中可能出现的语义幻觉问题。

[157] Benchmarking Real-Time Question Answering via Executable Code Workflows

arXiv: 2604.16349 (cross-listed)
Authors: Wenjie Zhou, Yuan Gao, Xin Zhou, Hao Fu, Zhongjian Miao, Wei Chen, Bo Chen, Xiaobing Zhao
Subjects: cs.IR; cs.AI; cs.CL
Tags: Benchmark, Question Answering, LLM Evaluation
Summary: 该论文提出了RT-QA动态评估框架，利用可执行代码工作流检索实时信息，以解决现有基准测试无法捕捉时间动态性的问题。评估发现现有模型在实时适应性方面存在显著局限，主要表现为懒惰检索和时间混淆错误。

[158] LiteSemRAG: Lightweight LLM-Free Semantic-Aware Graph Retrieval for Robust RAG

arXiv: 2604.16350 (cross-listed)
Authors: Xiao Yue, Guangzhi Qu, Lige Gan
Subjects: cs.IR; cs.AI
Tags: RAG, Graph Learning, Information Retrieval
Summary: 该论文提出了LiteSemRAG，一种轻量级、完全无需LLM的语义感知图检索框架。该框架通过利用上下文词元嵌入构建异构语义图，在实现零LLM令牌消耗的同时，取得了优于现有基于LLM的图RAG系统的性能。

[159] Training for Compositional Sensitivity Reduces Dense Retrieval Generalization

arXiv: 2604.16351 (cross-listed)
Authors: Radoslav Ralev, Aditeya Baral, Iliya Zhechev, Jen Agarwal, Srijith Rajamohan
Subjects: cs.IR; cs.AI; cs.CL
Tags: Information Retrieval, Representation Learning
Summary: 该论文研究了稠密检索模型在处理组合性编辑（如否定、角色互换）时的脆弱性，发现针对结构化负样本训练虽能改善分离度，但会降低零样本检索的泛化能力。作者提出了一种基于相似性图的小型Transformer验证器，能有效区分语义相近但结构不同的样本。

[160] AgriIR: A Scalable Framework for Domain-Specific Knowledge Retrieval

arXiv: 2604.16353 (cross-listed)
Authors: Shuvam Banerji Seal, Aheli Poddar, Alok Mishra, Dwaipayan Roy
Subjects: cs.IR; cs.AI
Tags: RAG, Agricultural AI, Information Retrieval
Venue: ECIR 2026
Summary: 该论文介绍了AgriIR，一个可配置的检索增强生成框架，旨在以低计算成本提供领域特定的精准答案。该框架将信息访问过程分解为模块化阶段，并在印度农业信息访问的参考实现中验证了其有效性。

[161] Mapping Recent Shifts in Digital Art via Conference Discourse: AI, XR, the Metaverse, and Blockchain/NFTs (2021-2025)

arXiv: 2604.16360 (cross-listed)
Authors: Vasileios Komianos, Emmanuel Rovithis, Athanasios Tsipis
Subjects: cs.CY; cs.AI
Tags: Survey, Cultural Heritage
Summary: 该论文分析了2021-2025年间六个数字艺术会议的议题变化，追踪AI、沉浸式技术（XR和元宇宙）以及区块链/NFT等新兴技术的发展趋势。结果显示AI相关贡献在2022年后显著增加，成为数字艺术会议的主导主题，而沉浸式技术和区块链相关话题相对稳定或边缘化。

[162] SetFlow: Generating Structured Sets of Representations for Multiple Instance Learning

arXiv: 2604.16362 (cross-listed)
Authors: Nikola Jovišić, Milica Škipina, Vanja Švenda
Subjects: cs.LG; cs.AI; cs.CV
Tags: Multi-Instance Learning, Flow Matching, Data Augmentation
Summary: 该论文提出SetFlow，一种用于多实例学习(MIL)的生成架构，通过流匹配范式和Set Transformer设计直接在表示空间建模整个MIL包。该方法在大规模乳腺摄影基准测试中表现良好，生成的样本可用于数据增强或单独训练，适用于数据稀缺和隐私敏感任务。

[163] CSF: Black-box Fingerprinting via Compositional Semantics for Text-to-Image Models

arXiv: 2604.16363 (cross-listed)
Authors: Junhoo Lee, Mijin Koo, Nojun Kwak
Subjects: cs.CR; cs.AI; cs.CV
Tags: Text-to-Image, Model Security
Venue: CVPR 2026
Summary: 该论文提出组合语义指纹(CSF)，首个黑盒方法用于仅通过查询访问来归属微调后的文本到图像模型。该方法将模型视为语义类别生成器，使用组合性未指定提示进行探测，在6个模型家族和13个微调变体上实现了可控风险的谱系决策。

[164] Clinical Note Bloat Reduction for Efficient LLM Use

arXiv: 2604.16364 (cross-listed)
Authors: Jordan L. Cahoon, Chloe Stanwyck, Asad Aali, Rachel Madding, Emma Sun, Yixing Jiang, Renumathy Dhanasekaran, Emily Alsentzer
Subjects: cs.CY; cs.AI; cs.CL
Tags: Medical AI, LLM Inference
Summary: 该论文介绍TRACE预处理管道，通过利用EHR元数据识别模板化和复制内容来减少临床笔记中的冗余文本。该方法在530万条笔记中移除了47.3%的文本，同时保持信息提取和临床结果预测的性能，估计每年可节省950万美元的LLM推理成本。

[165] Talk, Walk, and Market Response: Multimodal Measurement of AI Washing and Its Capital Market Consequences in China

arXiv: 2604.16367 (cross-listed)
Authors: Wen Zhanjie, Guo Jingqiao
Subjects: cs.CY; cs.AI
Tags: Financial AI, Vision-Language Model
Summary: 该研究利用多模态分析构建AI清洗风险评分(AWRS)，通过Qwen-VL评估年报和路演中的图文一致性，分析中国A股市场的AI清洗现象。研究发现AI清洗缺乏对未来实质性AI投资的预测力，长期机构投资者能通过实地调研识别AI清洗并减持，引发估值修正。

[166] Why AI Readiness Is an Organizational Learning Problem, Not a Technology Purchase

arXiv: 2604.16369 (cross-listed)
Authors: Jeanne McClure, Gregg Gerdau
Subjects: cs.CY; cs.AI; cs.CL
Tags: Enterprise AI
Summary: 该文章认为AI项目失败本质上是组织学习问题而非技术缺陷，基于对近万名组织领导者的调查，识别出组织失败（文化、领导力、治理）和技术失败两类。论文提出SIO递进模型，映射企业在五个支柱上的AI能力发展路径。

[167] Brain-CLIPLM: Decoding Compressed Semantic Representations in EEG for Language Reconstruction

arXiv: 2604.16370 (cross-listed)
Authors: Xiaoli Yang, Huiyuan Tian, Yurui Li, Jianyu Zhang, Shijian Li, Gang Pan
Subjects: cs.CL; cs.AI; cs.CV
Tags: Brain-Computer Interface, Text Generation
Summary: 该论文提出Brain-CLIPLM框架，将EEG到文本解码分解为语义锚点提取和句子重建两阶段，遵循粒度匹配原则使解码复杂度与神经信息容量对齐。在苏黎世认知语言处理语料库上，该方法实现67.55%的top-5和85.00%的top-25句子检索准确率，显著优于直接解码基线。

[168] CFMS: Towards Explainable and Fine-Grained Chinese Multimodal Sarcasm Detection Benchmark

arXiv: 2604.16372 (cross-listed)
Authors: Junzhao Zhang, Hsiu-Yuan Huang, Chenming Tang, Yutong Yang, Yunfang Wu
Subjects: cs.CL; cs.AI
Tags: Multimodal Learning, Dataset, Sentiment Analysis
Summary: 该论文构建了首个面向中文社交媒体的细粒度多模态讽刺数据集CFMS，包含2796对高质量图文和三级标注框架（讽刺识别、目标识别、解释生成）。论文还提出了强化学习增强的上下文学习策略(PGDS)来动态优化示例选择，显著优于现有基线。

[169] Same Verdict, Different Reasons: LLM-as-a-Judge and Clinician Disagreement on Medical Chatbot Completeness

arXiv: 2604.16383 (cross-listed)
Authors: Alexandra DeLucia, Heyuan Huang, Sonal Joshi, Mahsa Yarmohammadi, Ahmed Hassoon, Mark Dredze
Subjects: cs.CY; cs.AI
Tags: LLM Evaluation, Medical AI
Summary: 该研究评估了LLM-as-a-Judge框架在检测不完整医疗回复方面的可靠性，发现LLM法官在区分完整与不完整回复时表现接近随机水平（AUC 0.49-0.66）。即使模型与临床医生判决一致，两者也很少引用相同解释，表明LLM法官与临床医生应用根本不同的完整性标准。

[170] StressWeb: A Diagnostic Benchmark for Web Agent Robustness under Realistic Interaction Variability

arXiv: 2604.16385 (cross-listed)
Authors: Haoyue Bai, Dong Wang, Long Chen, Bingguang Hao, Pengyang Shao, Yonghui Yang, Yicheng He, Chenyi Zhuang
Subjects: cs.SE; cs.AI
Tags: Web Agent, Benchmark
Summary: 该论文引入了一个用于Web代理的诊断压力测试基准，通过构建可控的Web环境并引入结构化扰动（如布局变化、交互语义改变、执行中断）来评估代理的鲁棒性。评估显示最先进的多模态Web代理在压力测试下暴露出在干净基准条件下隐藏的失败模式和鲁棒性差距。

[171] DAOnt: A Formal Ontology for EU Data Act Compliance

arXiv: 2604.16386 (cross-listed)
Authors: Sheyla Leyva-Sánchez, Fabian Linde, Meem Arafat Manab, María Poveda-Villalón, Víctor Rodríguez-Doncel
Subjects: cs.DB; cs.AI; cs.CY
Tags: Knowledge Representation, AI Governance
Summary: 该论文提出了一个面向欧盟数据法案的综合本体DAOnt，通过机器可读表示实现对数据共享协议的推理。该本体复用LKIF-Core、ODRL和DPV三个已建立本体的元素，捕获数据法案的规范结构，并通过SPARQL查询支持合规性检查。

[172] Large language models for post-publication research evaluation: Evidence from expert recommendations and citation indicators

arXiv: 2604.16387 (cross-listed)
Authors: Mengjia Wu, Yi Zhang, Robin Haunschild, Lutz Bornmann
Subjects: cs.IR; cs.AI; cs.DL
Tags: LLM Evaluation, Citation Analysis
Summary: 该研究评估了LLM在发表后研究评估任务中的表现，包括识别高质量文章和进行细粒度评估（文章评级、优点分类、专家风格评论）。结果显示LLM在粗粒度评估任务中表现良好（识别高推荐文章准确率超过0.8），但在细粒度评级任务中性能显著下降。

[173] RoMathExam: A Longitudinal Dataset of Romanian Math Exams (1895-2025) with a Seven-Decade Core (1957-2025)

arXiv: 2604.16392 (cross-listed)
Authors: Luca-Ncolae Cuclea, Sabin-Codrut Badea, Adrian-Marius Dumitran
Subjects: cs.CY; cs.AI; cs.CL
Tags: Dataset, Education Technology, Mathematical Reasoning
Venue: AIED 2026
Summary: 该论文介绍了RoMathExam数据集，涵盖1895-2025年罗马尼亚高中数学考试，包含10592道数学题。数据集提供课程对齐的主题标签和文本嵌入，支持变体检测、去重和相似性检索，并提出了复杂度度量作为可扩展的难度代理。

[174] A Reference Architecture for Agentic Hybrid Retrieval in Dataset Search

arXiv: 2604.16394 (cross-listed)
Authors: Riccardo Terrenzi, Phongsakon Mark Konrad, Tim Lukas Adam, Serkan Ayvaz
Subjects: cs.IR; cs.AI
Tags: RAG, LLM Agent, Information Retrieval
Venue: SAML 2026
Summary: 该论文将数据集搜索重新定位为软件架构问题，提出了一个有界、可审计的代理混合检索参考架构，结合BM25词法搜索和密集嵌入检索，由LLM代理协调查询规划、结果评估和候选重排序。论文还引入离线元数据增强步骤，通过LLM生成伪查询来减少用户意图与元数据之间的词汇不匹配。

[175] Stream2LLM: Overlap Context Streaming and Prefill for Reduced TTFT

arXiv: 2604.16395 (cross-listed)
Authors: Rajveer Bachkaniwala, Chengqi Luo, Richard So, Divya Mahajan, Kexin Rong
Subjects: cs.DB; cs.AI
Tags: LLM Inference, LLM Serving
Summary: 该论文提出STREAM2LLM系统，扩展vLLM以支持流式提示和自适应调度，解决上下文检索延迟与时间到首令牌(TTFT)之间的权衡问题。系统支持两种检索模式（追加模式和更新模式），通过解耦调度决策与资源获取实现灵活的抢占策略，在保持吞吐量的同时实现高达11倍的TTFT改进。

[176] Instructor-Created Custom GPTs as Pedagogical Partners Fostering Immersion in Online Higher Education: Two Case Studies

arXiv: 2604.16397 (cross-listed)
Authors: Dennis Beck, Leonel Morgado
Subjects: cs.CY; cs.AI; cs.HC
Tags: Education Technology, LLM Agent
Venue: iLRN 2026
Summary: 该论文通过两个案例研究（美国研究生资助写作课程和葡萄牙本科软件工程课程），探讨了教师创建的自定义GPT如何作为教学伙伴促进在线高等教育中的沉浸式学习。研究发现，精心集成的自定义GPT可以通过即时性、连贯性和学习者自主性增强系统沉浸、叙事沉浸和能动性沉浸三个维度。

[177] A Framework for Human-AI Q-Matrix Refinement: A NeuralCDM Evaluation

arXiv: 2604.16398 (cross-listed)
Authors: Ying Zhang, Ningxi Cheng, Yizhu Gao, Hongmei Li, Lehong Shi, Nicholas Young, Geng Yuan, Xiaoming Zhai
Subjects: cs.CY; cs.AI
Tags: Knowledge Tracing, LLM Evaluation, Education Technology
Venue: AIED 2026
Summary: 本文提出了一种人机协作的Q矩阵优化框架，利用大语言模型生成候选Q矩阵，并通过NeuralCDM进行实证评估。实验表明，迭代优化的LLM生成Q矩阵在模型拟合度上可超越专家基线，且本地部署模型与云端API性能相当。

[178] IACDM: Interactive Adversarial Convergence Development Methodology -- A Structured Framework for AI-Assisted Software Development

arXiv: 2604.16399 (cross-listed)
Authors: Jasmine Moreira
Subjects: cs.SE; cs.AI
Tags: Software Engineering, LLM Agent, Code Generation
Code: code
Summary: 本文指出了AI辅助开发中存在的验证缺口问题，即LLM作为随机生成器缺乏内部语义验证能力。作者提出了IACDM方法论，一个包含8个阶段的框架，通过外部验证代理在离散关卡进行系统性对抗审查。

[179] CoLLM: A Unified Framework for Co-execution of LLMs Federated Fine-tuning and Inference

arXiv: 2604.16400 (cross-listed)
Authors: Shaoyuan Huang, Xiaokai Wang, Na Yan, Xiaofei Wang, Wenyu Wang, Yansha Deng
Subjects: cs.DC; cs.AI; cs.LG
Tags: Federated Learning, LLM Inference, Edge Computing
Summary: 本文提出了CoLLM框架，将联邦参数高效微调和推理统一在共享边缘副本和模型参数上执行。通过副本内模型共享和跨副本协调算法，实现了长期模型质量提升和短期推理效率的联合优化。

[180] GraphRAG-Router: Learning Cost-Efficient Routing over GraphRAGs and LLMs with Reinforcement Learning

arXiv: 2604.16401 (cross-listed)
Authors: Dongzhe Fan, Chuanhao Ji, Zimu Wang, Tong Chen, Qiaoyu Tan
Subjects: cs.IR; cs.AI
Tags: RAG, Reinforcement Learning, Question Answering
Summary: 本文提出了GraphRAG-Router框架，采用分层路由策略协调异构GraphRAG和生成器LLM。通过监督微调和两阶段强化学习优化，在保持性能的同时减少大模型使用近30%。

[181] ICAT: Incident-Case-Grounded Adaptive Testing for Physical-Risk Prediction in Embodied World Models

arXiv: 2604.16405 (cross-listed)
Authors: Zhenglin Lai, Sirui Huang, Yuteng Li, Changxin Huang, Jianqiang Li, Bingzhe Wu
Subjects: cs.RO; cs.AI; cs.CV; cs.LG
Tags: World Model, AI Safety, Embodied AI
Summary: 本文提出了ICAT框架，用于测试具身世界模型中的物理风险预测能力。该方法基于真实事故报告和安全手册构建风险记忆，发现主流世界模型经常遗漏危险信号并错误校准严重程度。

[182] How unique are hallucinated citations offered by generative Artificial Intelligence models?

arXiv: 2604.16407 (cross-listed)
Authors: Dirk HR Spennemann
Subjects: cs.DL; cs.AI
Tags: LLM Hallucination, Fact Checking
Summary: 本文研究生成式AI如何产生和传播虚假学术引用，分析了一个特定的虚假引用案例。研究发现虚假引用并非随机发明，而是真实作者、期刊、日期和关键词的模式化重组，重复率近30%。

[183] What Is Actually Being Annotated? Inter-Prompt Reliability as a Measurement Problem in LLM-Based Social Science Labeling

arXiv: 2604.16413 (cross-listed)
Authors: Jingyuan Liu
Subjects: cs.CY; cs.AI
Tags: LLM Evaluation, Data Annotation
Summary: 本文提出了提示间可靠性(IPR)框架，用于评估LLM标注在语义等价但语言变化的提示下的稳定性。研究发现LLM标注在解释性任务中存在显著的随机变化，建议通过跨提示多数投票提高可重复性。

[184] Modeling User Exploration Saturation: When Recommender Systems Should Stop Pushing Novelty

arXiv: 2604.16419 (cross-listed)
Authors: Enock O. Ayiku, Evelyn Osei, Emebo Onyeka
Subjects: cs.IR; cs.AI; cs.LG
Tags: Recommender System, Fairness
Summary: 本文研究了推荐系统中的探索饱和现象，将其定义为进一步探索不再提升用户效用的临界点。实验表明公平性驱动的探索存在边际收益递减，且交互历史有限的用户更早达到饱和。

[185] Breaking Validity-Induced Boundaries to Expand Algorithm Search Space: A Two-Stage AST-Based Operator for LLM-Driven Automated Heuristic Evolution

arXiv: 2604.16420 (cross-listed)
Authors: Sun Shengming, Shi Jialong
Subjects: cs.NE; cs.AI
Tags: Evolutionary Computation, Code Generation, Optimization
Summary: 本文提出了一种两阶段AST进化算子用于LLM驱动的自动启发式设计。第一阶段在抽象语法树上直接进行交叉和变异生成结构变体，第二阶段用LLM修复无效代码，有效提升了优化性能和收敛速度。

[186] Measuring Representation Robustness in Large Language Models for Geometry

arXiv: 2604.16421 (cross-listed)
Authors: Vedant Jawandhia, Yash Sinha, Murari Mandal, Ankan Pal, Dhruv Kumar
Subjects: cs.CL; cs.AI
Tags: LLM Reasoning, Mathematical Reasoning, Benchmark
Code: code
Summary: 本文提出了GeoRepEval框架，用于测量LLM在几何问题上对不同等价表示(欧氏、坐标、向量)的鲁棒性。研究发现仅因表示选择就导致高达14个百分点的准确率差距，向量表示是持续的失败点。

[187] Injecting Structured Biomedical Knowledge into Language Models: Continual Pretraining vs. GraphRAG

arXiv: 2604.16422 (cross-listed)
Authors: Jaafer Klila, Sondes Bannour Souihi, Rahma Boujelben, Nasredine Semmar, Lamia Hadrich Belguith
Subjects: cs.CL; cs.AI; cs.LG
Tags: Knowledge Graph, RAG, Medical AI
Venue: LREC 2026
Summary: 本文比较了将结构化生物医学知识注入语言模型的两种策略：持续预训练和GraphRAG。两种方法均提升了生物医学任务性能，GraphRAG在无需重训练的情况下实现了透明、多跳且易更新的知识访问。

[188] Shifting the Gradient: Understanding How Defensive Training Methods Protect Language Model Integrity

arXiv: 2604.16423 (cross-listed)
Authors: Satchel Grant, Victor Gillioz, Jake Ward, Thomas McGrath
Subjects: cs.LG; cs.AI
Tags: LLM Alignment, Interpretability
Summary: 本文比较了两种防御训练方法(PPS和IP)保护LLM完整性的机制。研究发现两者通过不同机制实现防御效果：PPS将激活梯度转向衰减方向，而IP具有更分散的梯度特征。

[189] Safety, Security, and Cognitive Risks in State-Space Models: A Systematic Threat Analysis with Spectral, Stateful, and Capacity Attacks

arXiv: 2604.16424 (cross-listed)
Authors: Manoj Parmar
Subjects: cs.CR; cs.AI; cs.CL; cs.LG; math.OC
Tags: LLM Security, Adversarial Robustness, State Space Model
Summary: 本文首次对状态空间模型(SSM)的安全性、安全风险和认知风险进行系统性分析，提出了三种新型攻击类别：频谱对抗攻击、延迟触发状态后门和状态容量饱和攻击，并建立了形式化威胁框架。

[190] Non-Stationarity in the Embedding Space of Time Series Foundation Models

arXiv: 2604.16428 (cross-listed)
Authors: Jinmyeong Choi, Brad Shook, Artur Dubrawski
Subjects: cs.LG; cs.AI; stat.ML
Tags: Time Series Analysis, Foundation Model, Representation Learning
Summary: 本文研究了时间序列基础模型嵌入空间中不同形式的非平稳性(均值偏移、方差变化、趋势)如何被检测。研究发现非平稳性的可检测性平滑下降，不同模型表现出独特的失败模式。

[191] (Sparse) Attention to the Details: Preserving Spectral Fidelity in ML-based Weather Forecasting Models

arXiv: 2604.16429 (cross-listed)
Authors: Maksim Zhdanov, Ana Lucic, Max Welling, Jan-Willem van de Meent
Subjects: cs.LG; cs.AI; cs.CV
Tags: Weather Forecasting, Sparse Attention, Foundation Model
Summary: 本文介绍了Mosaic概率天气预报模型，通过学习功能扰动生成集成成员，并使用块稀疏注意力在原生分辨率网格上操作。该模型在1.5°分辨率上达到最先进水平，产生校准良好的集成和近乎完美的频谱对齐。

[192] HalluSAE: Detecting Hallucinations in Large Language Models via Sparse Auto-Encoders

arXiv: 2604.16430 (cross-listed)
Authors: Boshui Chen, Zhaoxin Fan, Ke Wang, Zhiying Leng, Faguo Wu, Hongwei Zheng, Yifan Sun, Wenjun Wu
Subjects: cs.CL; cs.AI
Tags: LLM Hallucination, Interpretability
Summary: 本文提出了HalluSAE框架，将幻觉建模为LLM潜在动力学中的临界转变。通过稀疏自编码器和几何势能度量识别临界转变区域，将事实错误归因于特定的高能稀疏特征，实现了最先进的幻觉检测性能。

[193] Dimensional Criticality at Grokking Across MLPs and Transformers

arXiv: 2604.16431 (cross-listed)
Authors: Ping Wang
Subjects: cs.LG; cs.AI; nlin.AO
Tags: Grokking, Deep Learning Theory
Summary: 本文研究了深度神经网络中Grokking现象的动力学特征，提出了一种离线雪崩探针方法TDU-OFC，通过时间分辨的有效雪崩维度D(t)来捕捉从记忆到泛化的突变转换。实验发现，在泛化转变点存在一个局域化的动力学交叉，且不同任务（模加法和XOR）的交叉方向相反，表明系统趋向于一个共享的临界流形。

[194] Quantifying how AI Panels improve precision

arXiv: 2604.16432 (cross-listed)
Authors: Nicholas CL Beale
Subjects: cs.CY; cs.AI; cs.LG; econ.EM
Tags: AI Ethics, Decision Making, Fairness
Summary: 本文推导了一个简单公式来估计AI面板（多个AI系统组合）在筛选决策中的精度，分析了AI数量和多样性对决策质量的影响。研究旨在推动从依赖单一AI系统转向使用多样化的AI面板，以降低偏见风险并提高决策可靠性。

[195] Sampling Matters: The Effect of ECG Frequency on Deep Learning-Based Atrial Fibrillation Detection

arXiv: 2604.16437 (cross-listed)
Authors: Arjan Mahmuod, Adrian Rod Hammerstad, Muzaffar Yousef, Yngve Sebastian Heill, Jonas L. Isaksen, Jørgen K. Kanters, Pal Halvorsen, Vajira Thambawita
Subjects: eess.SP; cs.AI; cs.LG
Tags: Medical AI, Signal Processing
Summary: 本文系统研究了ECG采样频率对深度学习房颤检测模型性能的影响，发现采样频率对检测指标有显著的架构依赖性影响。混合CNN-LSTM模型在中等频率(100-250Hz)下表现最佳，而1-D CNN在高频(500Hz)下性能明显下降，表明时间分辨率是临床可靠性的关键因素。

[196] LatentMimic: Terrain-Adaptive Locomotion via Latent Space Imitation

arXiv: 2604.16440 (cross-listed)
Authors: Zhiquan Wang, Yunyu Liu, Dipam Patel, Ayush Kumar, Aniket Bera, Bedrich Benes
Subjects: cs.RO; cs.AI
Tags: Robotics, Imitation Learning
Summary: 本文提出了LatentMimic框架，通过最小化策略状态-动作分布与运动捕捉先验之间的边缘潜在散度，实现了四足机器人在复杂地形上的自适应运动。该方法将风格保真度与几何约束解耦，在保持高风格保真度的同时实现了有效的地形适应。

[197] iPhoneme: Brain-to-Text Communication for ALS Using ConformerXL Decoding

arXiv: 2604.16441 (cross-listed)
Authors: Yoonmin Cha, Dawit Chun, Sung Park
Subjects: cs.SD; cs.AI; cs.CL
Tags: Brain-Computer Interface, Medical AI, Speech Processing
Summary: 本文提出了iPhoneme脑机接口系统，结合改进的ConformerXL架构和眼动辅助音素输入界面，为ALS患者实现实时脑到文本通信。系统在T15数据集上达到92.14%的音素准确率和73.39%的词准确率，在CPU上以180毫秒延迟运行。

[198] The Breakthrough of Sleep: A Contactless Approach for Accurate Sleep Stage Detection Using the Sleepal AI Lamp

arXiv: 2604.16442 (cross-listed)
Authors: Zhuo Diao, Yueting Li, Jianpeng Wang, Shengyu Guan, Xinwei Wang, Wenxiong Cui, Xin Shi, Tong Liu, Kailai Sun, Jingyu Wang, Dian Fan, Thomas Penzel
Subjects: eess.SP; cs.AI; cs.LG
Tags: Medical AI, Healthcare Monitoring
Summary: 本文评估了一种非接触式雷达睡眠追踪设备Sleepal AI Lamp的睡眠分期性能，使用频率增强的深度学习模型从雷达信号中提取多尺度呼吸和运动特征。在1022条过夜记录上，二分类睡眠-清醒任务准确率达92.8%，四阶段分类准确率达78.5%，与PSG金标准高度一致。

[199] SAND: The Challenge on Speech Analysis for Neurodegenerative Disease Assessment

arXiv: 2604.16445 (cross-listed)
Authors: Giovanna Sannino, Ivanoe De Falco, Nadia Brancati, Laura Verde, Maria Frucci, Daniel Riccio, Vincenzo Bevilacqua, Antonio Di Marino, Lucia Aruta, Valentina Virginia Iuzzolino, Gianmaria Senerchia, Myriam Spisto, Raffaele Dubbioso
Subjects: eess.AS; cs.AI; cs.CV; cs.LG
Tags: Medical AI, Speech Processing, Benchmark
Summary: 本文介绍了SAND挑战赛，旨在通过语音分析支持神经退行性疾病（如ALS）的早期诊断。该挑战提供了临床标注的验证数据集，为开发、测试和评估AI模型用于ALS早期识别和进展预测提供了平台。

[200] Sampling for Quality: Training-Free Reward-Guided LLM Decoding via Sequential Monte Carlo

arXiv: 2604.16453 (cross-listed)
Authors: Jelena Markovic-Voronov, Wenhui Zhu, Bo Long, Zhipeng Wang, Suyash Gupta, Kayhan Behdin, Bee-Chung Chen, Deepak Agarwal
Subjects: cs.LG; cs.AI; stat.ML
Tags: LLM Inference, Code Generation, Mathematical Reasoning
Summary: 本文提出了一种无需训练的概率框架，通过序贯蒙特卡洛算法实现奖励引导的LLM解码。该方法在代码生成任务上提升高达54.9%，在数学推理任务上提升8.8%，无需修改模型权重即可显著提升生成质量。

[201] EchoChain: A Full-Duplex Benchmark for State-Update Reasoning Under Interruptions

arXiv: 2604.16456 (cross-listed)
Authors: Smit Nautambhai Modi, Gandharv Mahajan, Marc Wetter, Randall Welles
Subjects: cs.CL; cs.AI; cs.LG; cs.SD
Tags: Benchmark, Dialogue System, LLM Reasoning
Summary: 本文提出了EchoChain基准测试，用于评估实时语音助手在中断情况下的状态更新推理能力。该基准识别了三种失败模式，并在评估中发现所有实时语音模型的通过率均未超过50%，揭示了全双工语音交互中状态修订的改进空间。

[202] Deep Hierarchical Knowledge Loss for Fault Intensity Diagnosis

arXiv: 2604.16459 (cross-listed)
Authors: Yu Sha, Shuiping Gou, Bo Liu, Haofan Lu, Ningtao Liu, Jiahui Fu, Horst Stoecker, Domagoj Vnucec, Nadine Wetzstein, Andreas Widl, Kai Zhou
Subjects: eess.AS; cs.AI; cs.CV; cs.LG; cs.SD; eess.SP
Tags: Manufacturing AI, Anomaly Detection
Venue: KDD 2026
Summary: 本文提出了深度层次知识损失(DHK)框架，用于故障强度诊断中的层次一致性表示和预测。该方法通过层次树损失和组树三元组损失，利用层次正负知识约束来建模类别间的边界结构知识，在四个真实工业数据集上取得了优于现有方法的效果。

[203] From Inheritance to Saturation: Disentangling the Evolution of Visual Redundancy for Architecture-Aware MLLM Inference Acceleration

arXiv: 2604.16462 (cross-listed)
Authors: Jiaqi Shi, Yuechan Li, Xulong Zhang, Xiaoyang Qu, Jianzong Wang
Subjects: cs.CV; cs.AI
Tags: Vision-Language Model, LLM Inference
Venue: ACL 2026
Code: code
Summary: 本文揭示了多模态大语言模型推理过程中的视觉冗余演化规律，将其解耦为内在视觉冗余(IVR)和架构相关的次级饱和冗余(SSR)。基于此提出的HalfV框架在Qwen25-VL上实现了4.1倍加速并保持96.8%的性能。

[204] MLE-Toolbox: An Open-Source Toolbox for Comprehensive EEG and MEG Data Analysis

arXiv: 2604.16463 (cross-listed)
Authors: Xiaobo Liu
Subjects: q-bio.NC; cs.AI; cs.SE
Tags: Neuroscience, Brain-Computer Interface
Summary: 本文介绍了MLE-Toolbox，一个用于MEG和EEG数据分析的综合开源MATLAB工具箱。该工具箱集成了完整的分析流程，包括预处理、源定位、功能连接、振荡分析和机器学习分类，并与Brainstorm、FieldTrip等主流平台兼容。

[205] B-PASTE: Beam-Aware Pattern-Guided Speculative Execution for Resource-Constrained LLM Agents

arXiv: 2604.16469 (cross-listed)
Authors: Yanfei Song
Subjects: cs.DC; cs.AI
Tags: LLM Agent, LLM Inference, Edge Computing
Summary: 本文提出了B-PASTE方法，将LLM代理的推测执行从单个工具扩展到资源约束下的局部分支假设。该方法维护有界的未来执行子图束，通过预期关键路径减少进行排序，在边缘环境中实现了高达1.4倍的端到端加速。

[206] Semantic Channel Theory: Deductive Compression and Structural Fidelity for Multi-Agent Communication

arXiv: 2604.16471 (cross-listed)
Authors: Jianfeng Xu
Subjects: cs.LO; cs.AI; cs.IT; cs.MA
Tags: Multi-Agent System, Information Theory
Summary: 本文发展了一个语义通信的严格框架，将形式证明系统与香农信息论工具相结合。研究定义了语义通道及其不变量，证明了在闭包保真度下，最小块长度由不可约核心大小而非完整知识库大小决定，并应用于异构多智能体通信场景。

[207] Training Language Models for Bilateral Trade with Private Information

arXiv: 2604.16472 (cross-listed)
Authors: Dirk Bergemann, Soheil Ghili, Xinyang Hu, Chuanhao Li, Zhuoran Yang
Subjects: cs.GT; cs.AI; cs.MA; econ.GN; econ.TH
Tags: LLM Agent, Reinforcement Learning, Negotiation System
Summary: 本文开发了一个结构化的双边议价环境，用于评估和训练LLM代理的不完全信息议价能力。基准实验揭示了有效策略通过顺序报价实现价格歧视，训练实验中SFT和RL阶段优化了竞争目标，反映了奖励结构的影响。

[208] Full Feature Spiking Neural Network Simulation on Micro-Controllers for Neuromorphic Applications at the Edge

arXiv: 2604.16474 (cross-listed)
Authors: L. Niedermeier, J. L. Krichmar
Subjects: cs.AR; cs.AI; cs.NE
Tags: Neuromorphic Computing, Edge Computing
Summary: 本文展示了SNN模拟器CARLsim可以在仅有8MB内存的MCU RP2350上运行完整功能集。通过使用IEEE 16位浮点数减少内存需求，在Synfire4基准测试中达到97.5%的准确率，并以20mW功耗实现186个神经元的实时运行，能效比ARM处理器高一个数量级。

[209] Spike-driven Large Language Model

arXiv: 2604.16475 (cross-listed)
Authors: Han Xu, Xuerui Qiu, Baiyu Chen, Xinhao Luo, Xingrun Xing, Jiahong Zhang, Bo Lei, Tiejun Huang, Bo Xu, Guoqi Li
Subjects: cs.NE; cs.AI
Tags: Neuromorphic Computing, LLM Inference, Model Compression
Summary: 本文提出SDLLM，一种脉冲驱动的大语言模型，通过gamma-SQP两步脉冲编码方法和双向编码机制，用稀疏加法运算替代密集矩阵乘法，在保持任务性能的同时显著降低能耗（降低7倍）并提高准确率4.2%。

[210] Latent-Compressed Variational Autoencoder for Video Diffusion Models

arXiv: 2604.16479 (cross-listed)
Authors: Jiarui Guan, Wenshuai Zhao, Zhengtao Zou, Juho Kannala, Arno Solin
Subjects: cs.CV; cs.AI
Tags: Diffusion Model, Video Generation, Model Compression
Venue: CVPR 2026
Summary: 本文提出一种用于视频扩散模型的潜在压缩方法，通过移除视频潜在表示中的高频成分而非直接减少通道数，在保持相同压缩比的同时实现了更优的视频重建质量。

[211] Erasing Thousands of Concepts: Towards Scalable and Practical Concept Erasure for Text-to-Image Diffusion Models

arXiv: 2604.16481 (cross-listed)
Authors: Hoigi Seo, Byung Hyun Lee, Jaehyun Cho, Sungjin Lim, Se Young Chun
Subjects: cs.CV; cs.AI
Tags: Text-to-Image, Diffusion Model, AI Safety
Summary: 本文提出ETC框架，通过t分布混合模型建模低秩概念分布，结合仿射最优传输和MoE模块，实现了对文本到图像扩散模型中数千个概念的可扩展精确擦除，同时保持生成质量。

[212] Dynamic Eraser for Guided Concept Erasure in Diffusion Models

arXiv: 2604.16483 (cross-listed)
Authors: Qinghui Gong
Subjects: cs.CV; cs.AI
Tags: Text-to-Image, Diffusion Model, AI Safety
Summary: 本文提出DSS框架，一种轻量级免训练的概念擦除方法，通过敏感语义边界建模和敏感语义引导机制，在文本到图像扩散模型中实现91%的擦除率，同时最小化对输出保真度的影响。

[213] DexWorldModel: Causal Latent World Modeling towards Automated Learning of Embodied Tasks

arXiv: 2604.16484 (cross-listed)
Authors: Yueci Deng, Guiliang Liu, Kui Jia
Subjects: cs.CV; cs.AI
Tags: World Model, Embodied AI, Robotics
Summary: 本文提出因果潜在世界模型CLWM，采用DINOv3特征作为生成目标，结合双状态TTT记忆和推测异步推理机制，在具身操作任务中实现SOTA性能和零样本仿真到真实迁移。

[214] Saccade Attention Networks: Using Transfer Learning of Attention to Reduce Network Sizes

arXiv: 2604.16485 (cross-listed)
Authors: Marc Estafanous
Subjects: cs.CV; cs.AI; cs.LG
Tags: Vision Transformer, Model Compression, Transfer Learning
Summary: 本文提出扫视注意力网络，通过从大型预训练模型学习稀疏注意力模式来预处理图像，将输入序列长度减少到关键特征，实现约80%的计算量减少并保持相似性能。

[215] Geometry-Aware CLIP Retrieval via Local Cross-Modal Alignment and Steering

arXiv: 2604.16487 (cross-listed)
Authors: Nirmalendu Prakash, Narmeen Fatimah Oozeer, Xin Su, Phillip Howard, Shaan Shah, Zoe Wanying He, Shuang Wu, Shivam Raval, Roy Ka-Wei Lee, Meenakshi Khosla, Amir Abdullah
Subjects: cs.CV; cs.AI
Tags: Vision-Language Model, Information Retrieval, Representation Learning
Summary: 本文提出基于邻域对齐的CLIP检索方法，通过匈牙利匹配进行邻域级重排序和查询条件局部引导，解决了局部几何不一致性问题，提升了属性绑定和组合检索任务的性能。

[216] An Uncertainty-Aware Loss Function Incorporating Fuzzy Logic: Application to MRI Brain Image Segmentation

arXiv: 2604.16490 (cross-listed)
Authors: Hanuman Verma, Akshansh Gupta, Pranabesh Maji, Saurav Mandal, Vijay Kumar Pandey
Subjects: cs.CV; cs.AI; cs.LG
Tags: Image Segmentation, Medical AI, Uncertainty Estimation
Summary: 本文提出一种融合模糊逻辑的新型损失函数，将分类交叉熵与模糊熵相结合，有效处理MRI脑图像分割中的像素分类不确定性，在IBSR和OASIS数据集上取得了更好的分割效果。

[217] A Lightweight Transformer for Pain Recognition from Brain Activity

arXiv: 2604.16491 (cross-listed)
Authors: Stefanos Gkikas, Christian Arzate Cruz, Yu Fang, Lu Cao, Muhammad Umar Khan, Thomas Kassiotis, Giorgos Giannakakis, Raul Fernandez Rojas, Randy Gomez
Subjects: cs.CV; cs.AI
Tags: Medical AI, Transformer Architecture, Brain-Computer Interface
Summary: 本文提出一种轻量级Transformer架构，通过统一标记化机制融合多种fNIRS表示，在保持计算紧凑性的同时实现了有竞争力的疼痛识别性能，适用于GPU和CPU上的实时推理。

[218] LayerCache: Exploiting Layer-wise Velocity Heterogeneity for Efficient Flow Matching Inference

arXiv: 2604.16492 (cross-listed)
Authors: Guandong Li
Subjects: cs.CV; cs.AI
Tags: Flow Matching, Image Generation, Model Compression
Summary: 本文提出LayerCache，一种层感知缓存框架，利用Transformer内不同层组的异质速度动态进行独立缓存决策，在Flow Matching图像生成中实现了显著的质量提升和加速效果。

[219] NL2SQLBench: A Modular Benchmarking Framework for LLM-Enabled NL2SQL Solutions

arXiv: 2604.16493 (cross-listed)
Authors: Shizheng Hou, Wenqi Pei, Nuo Chen, Quang-Trung Ta, Peng Lu, Beng Chin Ooi
Subjects: cs.DB; cs.AI; cs.CL; cs.LG
Tags: Text-to-SQL, LLM Evaluation, Benchmark
Venue: VLDB 2026
Summary: 本文提出NL2SQLBench，首个模块化NL2SQL评估框架，将系统分解为模式选择、候选生成和查询修订三个核心模块，并提出细粒度指标，揭示了现有方法在准确性和计算效率方面的显著差距。

[220] Gradient-Free Continual Learning in Spiking Neural Networks via Inter-Spike Interval Regularization

arXiv: 2604.16496 (cross-listed)
Authors: Samrendra Roy, Kazuma Kobayashi, Souvik Chakraborty, Sajedul Talukder, Syed Bahauddin Alam
Subjects: cs.NE; cs.AI; cs.LG
Tags: Continual Learning, Neuromorphic Computing, Spiking Neural Network
Summary: 本文提出ISI-CV，首个用于脉冲神经网络持续学习的无梯度突触重要性度量，基于脉冲间隔变异系数，在多个基准测试中实现零遗忘或接近零遗忘，并与神经形态硬件完全兼容。

[221] Forge-UGC: FX optimization and register-graph engine for universal graph compiler

arXiv: 2604.16498 (cross-listed)
Authors: Satyam Kumar, Saurabh Jha
Subjects: cs.AR; cs.AI; cs.DC
Tags: Compiler Optimization, Hardware Acceleration, DNN Deployment
Summary: 本文提出Forge-UGC，一种用于Transformer部署的四阶段编译器，采用硬件无关设计，在Intel AI Boost NPU上实现比OpenVINO和ONNX Runtime快6.9-9.2倍的编译速度和18.2-35.7%更低的推理延迟。

[222] HQA-VLAttack: Towards High Quality Adversarial Attack on Vision-Language Pre-Trained Models

arXiv: 2604.16499 (cross-listed)
Authors: Han Liu, Jiaqi Li, Zhi Xu, Xiaotong Zhang, Xiaoming Xu, Fenglong Ma, Yuanman Li, Hong Yu
Subjects: cs.CV; cs.AI
Tags: Vision-Language Model, Adversarial Robustness, Model Security
Summary: 本文提出HQA-VLAttack框架，通过反拟合词向量生成文本扰动和对比学习优化图像扰动，在视觉语言预训练模型上实现高质量对抗攻击，显著优于现有方法。

[223] Motif-Video 2B: Technical Report

arXiv: 2604.16503 (cross-listed)
Authors: Junghwan Lim, Wai Ting Cheung, Minsu Ha, Beomgyu Kim, Taewhan Kim, Haesol Lee, Dongpin Oh, Jeesoo Lee, Taehyun Kim, Minjae Kim, Sungmin Lee, Hyeyeon Cho, Dahye Choi, Jaeheui Her, Jaeyeon Huh, Hanbin Jung, Changjin Kang, Dongseok Kim, Jangwoong Kim, Youngrok Kim, Hyukjin Kweon, Hongjoo Lee, Jeongdoo Lee, Junhyeok Lee, Eunhwan Park, Yeongjae Park, Bokki Ryu, Dongjoo Weon
Subjects: cs.CV; cs.AI
Tags: Video Generation, Text-to-Video, Diffusion Model
Summary: 本文提出Motif-Video 2B文本到视频模型，通过共享交叉注意力和三分主干架构分离提示对齐、时序一致性和细节恢复，在参数量减少7倍的情况下超越Wan2.1 14B，VBench得分达83.76%。

[224] Predicting Blastocyst Formation in IVF: Integrating DINOv2 and Attention-Based LSTM on Time-Lapse Embryo Images

arXiv: 2604.16505 (cross-listed)
Authors: Zahra Asghari Varzaneh, Niclas Wölner-Hanssen, Reza Khoshkangini, Thomas Ebner, Magnus Johnsson
Subjects: cs.CV; cs.AI; cs.LG
Tags: Medical AI, Video Understanding, Time Series Analysis
Summary: 本文提出一种结合DINOv2和注意力LSTM的混合模型，用于从有限的时差胚胎图像预测囊胚形成，在704个胚胎视频数据集上达到96.4%准确率，并能有效处理缺失帧问题。

[225] On-Orbit Space AI: Federated, Multi-Agent, and Collaborative Algorithms for Satellite Constellations

arXiv: 2604.16518 (cross-listed)
Authors: Ziyang Wang
Subjects: cs.RO; astro-ph.IM; cs.AI
Tags: Federated Learning, Multi-Agent System, Satellite Systems
Venue: Algorithms
Code: code
Summary: 本文综述了在轨空间AI领域，针对卫星星座网络化平台的需求，探讨了联邦学习、多智能体算法和协作感知三种范式，以解决动态连接、资源限制和安全约束下的协同问题。

[226] CAMP: Cumulative Agentic Masking and Pruning for Privacy Protection in Multi-Turn LLM Conversations

arXiv: 2604.16521 (cross-listed)
Authors: Aman Panjwani
Subjects: cs.CR; cs.AI
Tags: LLM Agent, Privacy
Summary: 针对多轮LLM对话中累积的个人隐私信息泄露风险，本文提出了CAMP框架，通过维护会话级PII注册表和共现图，在跨轮次对话中实施追溯性掩码，有效防止用户画像的重识别。

[227] Expert-Annotated Embryo Image Dataset with Natural Language Descriptions for Evidence-Based Patient Communication in IVF

arXiv: 2604.16528 (cross-listed)
Authors: Nicklas Neu, Thomas Ebner, Jasmin Primus, Bernhard Schenkenfelder, Raphael Zefferer, Mathias Brunbauer, Florian Kromp
Subjects: cs.CV; cs.AI
Tags: Medical AI, Vision-Language Model, Dataset
Summary: 本文发布了一个包含胚胎图像和自然语言形态描述的专家标注数据集，旨在通过微调视觉语言模型实现可解释的自动化胚胎评估，从而支持基于证据的患者沟通。

[228] Scaling Test-Time Compute for Agentic Coding

arXiv: 2604.16529 (cross-listed)
Authors: Joongwon Kim, Wannan Yang, Kelvin Niu, Hongming Zhang, Yun Zhu, Eryk Helenowski, Ruan Silva, Zhengxing Chen, Srinivasan Iyer, Manzil Zaheer, Daniel Fried, Hannaneh Hajishirzi, Sanjeev Arora, Gabriel Synnaeve, Ruslan Salakhutdinov, Anirudh Goyal
Subjects: cs.SE; cs.AI; cs.CL
Tags: LLM Agent, Code Generation
Summary: 本文提出了一种针对智能体编程的测试时扩展框架，通过将轨迹转化为结构化摘要，利用递归锦标赛投票和并行蒸馏优化方法，显著提升了长周期编程任务的性能。

[229] Beyond Attack Success Rate: A Multi-Metric Evaluation of Adversarial Transferability in Medical Imaging Models

arXiv: 2604.16532 (cross-listed)
Authors: Emily Curl, Kofi Ampomah, Md Erfan, Sayanton Dibbo
Subjects: cs.CV; cs.AI
Tags: Adversarial Robustness, Medical AI
Summary: 该研究通过在多个医学影像数据集上评估七种模型和攻击方法，发现单一的攻击成功率（ASR）指标无法全面反映对抗鲁棒性，建议采用包含感知和失真度量的多指标评估框架。

[230] G-PARC: Graph-Physics Aware Recurrent Convolutional Neural Networks for Spatiotemporal Dynamics on Unstructured Meshes

arXiv: 2604.16533 (cross-listed)
Authors: Jack T. Beerman, Tyler J. Abele, Mehdi Taghizadeh, Andrew Davis, Zoë J. Gray, Negin Alemazkoor, Xinfeng Gao, H.S. Udaykumar, Stephen S. Baek
Subjects: cs.LG; cs.AI
Tags: Graph Neural Network, Physics-Informed Learning
Summary: 本文提出了G-PARC模型，结合图神经网络和非结构化网格上的物理感知算子，有效解决了传统方法在极端非线性动力学和移动网格上的局限性，实现了更高的精度和参数效率。

[231] Public and private blockchain for decentralized digital building twins and building automation system

arXiv: 2604.16534 (cross-listed)
Authors: Reachsak Ly, Alireza Shojaei
Subjects: cs.CR; cs.AI; cs.MA
Tags: Blockchain, Digital Twin, IoT
Summary: 该研究提出了一种基于区块链的去中心化协议，用于增强智能建筑数字孪生系统的网络弹性，并通过案例研究验证了Hyperledger Fabric系统在可扩展性和成本效益方面的优势。

[232] SCATR: Simple Calibrated Test-Time Ranking

arXiv: 2604.16535 (cross-listed)
Authors: Divya Shyamal, Marta Knežević, Lan Tran, Chanakya Ekbote, Vijay Lingam, Paul Pu Liang
Subjects: cs.LG; cs.AI
Tags: LLM Inference, LLM Reasoning
Summary: 本文提出了SCATR方法，通过在小规模校准集上学习轻量级评分器，在大幅降低计算成本的同时，显著提升了大语言模型在编程和数学推理任务中的测试时排序性能。

[233] Towards Reliable Testing of Machine Unlearning

arXiv: 2604.16536 (cross-listed)
Authors: Anna Mazhar, Sainyam Galhotra
Subjects: cs.LG; cs.AI
Tags: Machine Unlearning, Software Testing
Summary: 本文将机器遗忘测试定义为一个软件工程问题，提出了一种基于因果模糊测试的方法，通过生成预算干预来估计残留影响，解决了现有检测方法在覆盖率和可调试性上的不足。

[234] Robustifying and Selecting Cohort-Appropriate Prognostic Models under Distributional Shifts

arXiv: 2604.16537 (cross-listed)
Authors: Dimitris Bertsimas, Carol Gao, Angelos G. Koulouras, Georgios Antonios Margonis
Subjects: stat.ME; cs.AI; stat.AP
Tags: Domain Adaptation, Medical AI
Summary: 该研究挑战了外部校准保证模型泛化能力的假设，提出了基于分布差异度量和荟萃分析加权的策略，以提高预后模型在不同队列间的可移植性和临床实用性。

[235] Understanding Tool-Augmented Agents for Lean Formalization: A Factorial Analysis

arXiv: 2604.16538 (cross-listed)
Authors: Ke Zhang, Patricio Gallardo, Maziar Raissi, Sudhir Murthy
Subjects: cs.SE; cs.AI; cs.LG; cs.PL
Tags: Autoformalization, Tool Learning
Summary: 本文通过因子分析研究了工具增强型智能体在将自然语言数学翻译为Lean 4代码任务中的有效性，量化了微调模型查询、知识搜索和编译器反馈这三种工具类型的边际贡献。

[236] PoInit-of-View: Poisoning Initialization of Views Transfers Across Multiple 3D Reconstruction Systems

arXiv: 2604.16540 (cross-listed)
Authors: Weijie Wang, Songlong Xing, Zhengyu Zhao, Nicu Sebe, Bruno Lepri
Subjects: cs.CV; cs.AI
Tags: Adversarial Robustness, 3D Reconstruction
Venue: CVPR 2026
Summary: 本文提出了一种针对3D重建系统中运动恢复结构初始化模块的攻击方法，通过在对应点投影处引入跨视图梯度不一致性，实现了跨不同重建系统的可迁移攻击效果。

[237] Conjunctive Prompt Attacks in Multi-Agent LLM Systems

arXiv: 2604.16543 (cross-listed)
Authors: Nokimul Hasan Arif, Qian Lou, Mengxin Zheng
Subjects: cs.MA; cs.AI
Tags: LLM Security, Multi-Agent System
Venue: ACL 2026
Code: code
Summary: 本文研究了多智能体LLM系统中的联合提示攻击，发现分布在用户查询和远程智能体中的良性部分在路由汇聚时可触发恶意行为，揭示了现有的单智能体防御机制对此类攻击的失效。

[238] A Survey on the Security of Long-Term Memory in LLM Agents: Toward Mnemonic Sovereignty

arXiv: 2604.16548 (cross-listed)
Authors: Zehao Lin, Chunyu Li, Kai Chen
Subjects: cs.CR; cs.AI; cs.CL
Tags: LLM Agent, LLM Security, Survey
Summary: 本文综述了LLM智能体长期记忆的安全问题，提出了涵盖写入、存储、检索等阶段的生命周期框架，并引入“记忆主权”概念，强调了对可写记忆进行治理的重要性。

[239] An Interpretable Framework Applying Protein Words to Predict Protein-Small Molecule Complementary Pairing Rules

arXiv: 2604.16550 (cross-listed)
Authors: Jingke Chen, Jingrui Zhong, Tazneen Hossain Tani, Zidong Su, Xiaochun Zhang, Boxue Tian
Subjects: cs.LG; cs.AI
Tags: Drug Discovery, Interpretability
Summary: 本文提出了PWRules框架，通过识别特权小分子片段并定义其与蛋白质语义序列单元的互补配对规则，实现了具有可解释性的蛋白质-小分子结合预测，在药物发现中表现出优异性能。

[240] Co-generation of Layout and Shape from Text via Autoregressive 3D Diffusion

arXiv: 2604.16552 (cross-listed)
Authors: Zhenggang Tang, Yuehao Wang, Yuchen Fan, Jun-Kun Chen, Yu-Ying Yeh, Kihyuk Sohn, Zhangyang Wang, Qixing Huang, Alexander Schwing, Rakesh Ranjan, Dilin Wang, Zhicheng Yan
Subjects: cs.CV; cs.AI
Tags: Diffusion Model, Autoregressive Model, Text-to-3D
Summary: 本文提出了一种名为3D-ARD+的新型生成模型，通过结合自回归生成和扩散模型，实现了从文本描述到包含布局和形状的3D场景的联合生成，解决了现有方法场景简单或图文不一致的问题。

[241] PA-TCNet: Pathology-Aware Temporal Calibration with Physiology-Guided Target Refinement for Cross-Subject Motor Imagery EEG Decoding in Stroke Patients

arXiv: 2604.16554 (cross-listed)
Authors: Xiangkai Wang, Yun Zhao, Dongyi He, Qingling Xia, Gen Li, Nizhuan Wang, Ningxiao Peng, Bin Jiang
Subjects: cs.CV; cs.AI
Tags: Brain-Computer Interface, Medical AI, Signal Processing
Code: code
Summary: 该论文提出了PA-TCNet框架，用于中风患者的跨被试运动想象脑电解码，通过病理感知的时间校准和生理引导的目标细化来解决病变相关的异常时间动态和患者间异质性问题。实验结果表明，该方法在两个独立的中风脑电数据集上取得了优于现有最先进基线的准确率。

[242] LLM as a Tool, Not an Agent: Code-Mined Tree Transformations for Neural Architecture Search

arXiv: 2604.16555 (cross-listed)
Authors: Masakazu Yoshimura, Zitang Sun, Yuiko Sakuma, Junji Otsuka, Atsushi Irie, Takeshi Ohashi
Subjects: cs.LG; cs.AI; cs.CV
Tags: Neural Architecture Search, LLM Reasoning
Summary: 该论文提出了LLMasTool框架，用于神经架构搜索（NAS），通过将大语言模型作为工具而非代理，利用代码挖掘的树变换来生成架构，从而避免了直接代码生成的不稳定性。该方法结合了多样性引导的算法搜索和LLM辅助，在CIFAR和ImageNet数据集上取得了优于现有NAS方法的性能。

[243] SpecPylot: Python Specification Generation using Large Language Models

arXiv: 2604.16560 (cross-listed)
Authors: Ragib Shahariar Ayon, Shibbir Ahmed
Subjects: cs.SE; cs.AI; cs.ET
Tags: Program Verification, Formal Methods, LLM Reasoning
Venue: FSE Companion 2026
Summary: 该论文介绍了SpecPylot工具，利用大语言模型为Python程序生成形式化规范（如icontract注解），并通过符号执行工具crosshair进行验证和修正。该工具能够生成兼容的合约并辅助调试，但在有界符号探索和LLM行为差异方面存在局限性。

[244] See Through the Noise: Improving Domain Generalization in Gaze Estimation

arXiv: 2604.16562 (cross-listed)
Authors: Yanming Peng, Shijing Wang, Yaping Huang, Yi Tian
Subjects: cs.CV; cs.AI
Tags: Gaze Estimation, Domain Adaptation
Venue: CVPR 2026
Summary: 该论文首次全面研究了标签噪声对视线估计领域泛化的负面影响，并提出了一种名为SeeTN的新框架，通过基于原型的变换和亲和力正则化来缓解标签噪声。实验结果表明，该方法能有效减轻源域噪声的不利影响，实现卓越的跨域泛化性能。

[245] Classification of systolic murmurs in heart sounds using multiresolution complex Gabor dictionary and vision transformer

arXiv: 2604.16563 (cross-listed)
Authors: Mahmoud Fakhry, Abeer FathAllah Brery
Subjects: cs.CV; cs.AI
Tags: Medical AI, Bioacoustics, Vision Transformer
Summary: 该研究提出了一种自动心脏收缩期杂音分类系统，利用多分辨率复数Gabor字典进行特征提取，并结合视觉Transformer进行分类。该方法通过共享字典处理多个片段以减轻杂音变异性，在CirCor DigiScope数据集上实现了95.96%的分类准确率。

[246] Reasoning on the Manifold: Bidirectional Consistency for Self-Verification in Diffusion Language Models

arXiv: 2604.16565 (cross-listed)
Authors: Jiaoyang Ruan, Xin Gao, Yinda Chen, Hengyu Zeng, Liang Du, Guanghao Li, Jie Fu, Jian Pu
Subjects: cs.LG; cs.AI
Tags: LLM Reasoning, Diffusion Model, LLM Evaluation
Summary: 该论文提出了一种名为双向流形一致性（BMC）的几何视角方法，用于在扩散大语言模型中验证推理轨迹的正确性。BMC作为一种无训练的无监督度量，在诊断、推理和模型对齐等推理生命周期的各个阶段均展现出有效性。

[247] In Search of Lost DNA Sequence Pretraining

arXiv: 2604.16570 (cross-listed)
Authors: Zhijiang Tang, Jiaxin Qi, Yan Cui, Jinli Ou, Yuhua Zheng, Jianqiang Huang
Subjects: cs.LG; cs.AI
Tags: Pre-training, Genomic AI, Benchmark
Summary: 该论文揭示了DNA序列预训练中常被忽视的三个关键问题：不恰当的下游数据集、邻近掩码策略的内在缺陷以及词汇表讨论的缺失。作者提出了原则性指南并引入了一个标准化测试平台，以推动基因组基础模型的发展。

[248] FedOBP: Federated Optimal Brain Personalization through Cloud-Edge Element-wise Decoupling

arXiv: 2604.16574 (cross-listed)
Authors: Xingyan Chen, Tian Du, Changqiao Xu, Fuzhen Zhuang, Lujie Zhong, Gabriel-Miro Muntean, Enmao Diao
Subjects: cs.LG; cs.AI
Tags: Federated Learning, Model Compression, Personalized Federated Learning
Summary: 该论文提出了一种名为FedOBP的联邦最优大脑个性化算法，通过基于分位数的阈值机制和元素级重要性评分，将经典的显著性剪枝理论与联邦参数解耦相结合。该方法在服务器端计算指标以减轻移动设备的负担，并在多种数据集和异构场景下表现出优越性能。

[249] Evaluating Temporal and Structural Anomaly Detection Paradigms for DDoS Traffic

arXiv: 2604.16575 (cross-listed)
Authors: Yasmin Souza Lima, Rodrigo Moreira, Larissa F. Rodrigues Moreira, Tereza Cristina M. de B. Carvalho, Flávio de Oliveira Silva
Subjects: cs.LG; cs.AI
Tags: Anomaly Detection, Cybersecurity
Venue: SBRC 2026 Workshop
Summary: 该论文提出了一种轻量级决策框架，用于在训练前优先选择时间或结构特征来检测DDoS攻击，通过滞后自相关和PCA累积解释方差两种诊断方法进行判断。实验表明，结构特征在检测DDoS流量方面通常优于时间特征，尤其是在时间依赖性较弱的情况下。

[250] Multilevel neural networks with dual-stage feature fusion for human activity recognition

arXiv: 2604.16577 (cross-listed)
Authors: Abeer FathAllah Brery, Ascensión Gallardo-Antolín, Israel Gonzalez-Carrasco, Mahmoud Fakhry
Subjects: cs.CV; cs.AI
Tags: Human Activity Recognition, Sensor Fusion, Multimodal Learning
Summary: 该研究提出了一种具有双阶段特征融合的两级网络架构用于人类活动识别，结合了后期融合和中间融合策略。实验评估表明，结合两种融合方式的架构在公共基准数据集上取得了比仅使用后期融合更高的准确率。

[251] Towards Trustworthy Depression Estimation via Disentangled Evidential Learning

arXiv: 2604.16579 (cross-listed)
Authors: Fangyuan Liu, Sirui Zhao, Zeyu Zhang, Jinyang Huang, Feng-Qi Cui, Bin Luo, Tong Xu, Meng Li, Enhong Chen
Subjects: cs.LG; cs.AI
Tags: Medical AI, Affective Computing, Uncertainty Estimation
Summary: 该论文提出了EviDep框架，通过解耦证据学习来实现可信赖的抑郁症估计，利用正态-逆伽马分布联合量化抑郁严重程度和不确定性。该方法通过频率感知特征提取和解耦证据学习策略，有效缓解了跨模态冗余导致的证据累积问题，提高了预测准确性和不确定性校准。

[252] Continuous ageing trajectory representations for knee-aware lifetime prediction of lithium-ion batteries across heterogeneous dataset

arXiv: 2604.16580 (cross-listed)
Authors: Agnieszka Pregowska, Stefan Marynowicz
Subjects: cs.LG; cs.AI
Tags: Time Series Forecasting, Predictive Maintenance, Energy Management
Summary: 该研究提出了一种基于连续轨迹表示的统一框架，用于锂离子电池的老化分析和剩余使用寿命预测，解决了单体差异和异构数据集带来的挑战。该方法能够一致地提取退化描述符，并在跨数据集的早期寿命预测中表现出鲁棒性。

[253] NCO4CVRP: Neural Combinatorial Optimization for the Capacitated Vehicle Routing Problem

arXiv: 2604.16581 (cross-listed)
Authors: Mahir Labib Dihan, Md. Ashrafur Rahman Khan, Wasif Jalal, Md. Roqunuzzaman Sojib, Mashroor Hasan Bhuiyan
Subjects: cs.LG; cs.AI
Tags: Neural Combinatorial Optimization, Logistics Optimization
Summary: 该论文专注于改进神经组合优化（NCO）的推理技术以解决带容量约束的车辆路径问题（CVRP），通过引入模拟退火改进随机重构方法，并结合束搜索增强策略优化。实验表明，这些改进显著减少了各种CVRP基准测试中的最优性差距。

[254] Camo-M3FD: A New Benchmark Dataset for Cross-Spectral Camouflaged Pedestrian Detection

arXiv: 2604.16582 (cross-listed)
Authors: Henry O. Velesaca, Andrea Mero, Guillermo A. Castillo, Angel D. Sappa
Subjects: cs.CV; cs.AI
Tags: Object Detection, Multimodal Learning, Benchmark
Summary: 该论文引入了一个名为Camo-M3FD的新基准数据集，用于跨光谱伪装行人检测，包含配准的可见光-热成像图像对。研究建立了标准化的评估框架，证明了多光谱融合对于细化结构细节和检测伪装行人的重要性。

[255] POLAR: Online Learning for LoRA Adapter Caching and Routing in Edge LLM Serving

arXiv: 2604.16583 (cross-listed)
Authors: Shaoang Li, Jian Li
Subjects: cs.LG; cs.AI
Tags: LLM Serving, Edge Computing, Reinforcement Learning
Summary: 该论文提出了POLAR框架，用于边缘大语言模型服务中的LoRA适配器缓存和路由联合优化，将其建模为双时间尺度的上下文赌博机问题。该方法通过缓存感知的路由器和基于时代的缓存控制器，在真实适配器和GPU分页延迟实验中表现出优于非自适应基线的性能。

[256] Certified Program Synthesis with a Multi-Modal Verifier

arXiv: 2604.16584 (cross-listed)
Authors: Yueyang Feng, Dipesh Kafle, Vladimir Gladshtein, Vitaly Kurin, George Pîrlea, Qiyuan Zhao, Peter Müller, Ilya Sergey
Subjects: cs.SE; cs.AI; cs.PL
Tags: Program Synthesis, Formal Methods, LLM Reasoning
Summary: 该论文提出了LeetProof，一个基于多模态验证器的认证程序合成流水线，能够从自然语言描述自动生成程序、形式化规范及其对齐的机器可检查证明。该方法通过多模态验证解决了规范合成缺陷和验证工具碎片化的挑战，显著提高了完全认证解决方案的比例。

[257] The Global Neural World Model: Spatially Grounded Discrete Topologies for Action-Conditioned Planning

arXiv: 2604.16585 (cross-listed)
Authors: Noureddine Kermiche
Subjects: cs.LG; cs.AI
Tags: World Model, Automated Planning, Reinforcement Learning
Summary: 本文提出了全局神经世界模型(GNWM)，通过平衡连续熵约束实现拓扑量化，将环境映射到离散2D网格上进行动作条件规划。该架构通过网格”吸附”机制防止自回归展开中的流形漂移，并通过最大熵探索学习广义转移动力学。

[258] A Systematic Survey and Benchmark of Deep Learning for Molecular Property Prediction in the Foundation Model Era

arXiv: 2604.16586 (cross-listed)
Authors: Zongru Li, Xingsheng Chen, Honggang Wen, Regina Qianru Zhang, Ming Li, Xiaojin Zhang, Hongzhi Yin, Qiang Yang, Kwok-Yan Lam, Pietro Lio, Siu-Ming Yiu
Subjects: cs.LG; cs.AI; q-bio.QM
Tags: Drug Discovery, Foundation Model, Survey
Venue: JCTC 2026
Code: code
Summary: 本综述回顾了分子性质预测的四种范式，包括量子方法、描述符机器学习、几何深度学习和基础模型，提出了统一的分类体系并分析了基准测试挑战。文章建议未来研究方向包括物理感知学习、不确定性校准的基础模型以及多模态基准生态系统。

[259] Real-Time Visual Attribution Streaming in Thinking Model

arXiv: 2604.16587 (cross-listed)
Authors: Seil Kang, Woojung Han, Junhyeok Kim, Jinyeong Kim, Youngeun Kim, Seong Jae Hwang
Subjects: cs.CV; cs.AI
Tags: Vision-Language Model, Interpretability, Multimodal Learning
Summary: 本文提出了一个实时视觉归因流框架，通过学习从注意力特征中估计语义区域的因果效应，实现多模态思维模型的实时可视化。该方法在五个基准测试和四个思维模型上达到了与穷举因果方法相当的保真度，同时支持流式归因展示。

[260] MambaKick: Early Penalty Direction Prediction from HAR Embeddings

arXiv: 2604.16588 (cross-listed)
Authors: Henry O. Velesaca, David Freire-Obregon, Abel Reyes-Angulo, Steven Araujo, Angel Sappa
Subjects: cs.CV; cs.AI
Tags: Sports Analytics, Action Recognition, Video Understanding
Code: code
Summary: 本文提出了MambaKick框架，利用预训练人体动作识别嵌入和轻量级Mamba时序预测器进行点球方向预测。该方法在三分类任务上达到53.1%准确率，二分类达到64.5%，证明了结合预训练HAR表示与高效状态空间建模的实用性。

[261] Hybrid Spectro-Temporal Fusion Framework for Structural Health Monitoring

arXiv: 2604.16589 (cross-listed)
Authors: Jongyeop Kim, Jinki Kim, Doyun Lee
Subjects: cs.LG; cs.AI
Tags: Anomaly Detection, Predictive Maintenance, Time Series Analysis
Summary: 本文提出了频谱-时序对齐框架和混合频谱-时序融合框架，将到达时间间隔描述符与频谱特征相结合以捕获振动动力学。实验表明该混合框架在分类准确性和稳定性方面均显著优于传统方法。

[262] Global Attention with Linear Complexity for Exascale Generative Data Assimilation in Earth System Prediction

arXiv: 2604.16590 (cross-listed)
Authors: Xiao Wang, Zezhong Zhang, Isaac Lyngaas, Hong-Jun Yoon, Jong-Youl Choi, Siming Liang, Janet Wang, Hristo G. Chipilski, Ashwin M. Aji, Feng Bao, Peter Jan van Leeuwen, Dan Lu, Guannan Zhang
Subjects: cs.LG; cs.AI
Tags: Weather Forecasting, High Performance Computing, Transformer Architecture
Summary: 本文引入了统一的生成式数据同化框架，核心是STORM时空变换器，通过线性复杂度的全局注意力算法突破二次注意力障碍。该方法在Frontier超算的32768个GPU上实现63%强扩展效率和1.6 ExaFLOP持续性能，支持公里级全球建模。

[263] Randomized Antipodal Search Done Right for Data Pareto Improvement of LLM Unlearning

arXiv: 2604.16591 (cross-listed)
Authors: Ziwen Liu, Huawei Lin, Yide Ran, Denghui Zhang, Jianwen Xie, Chuan Li, Weijie Zhao, Zhaozhuo Xu
Subjects: cs.LG; cs.AI
Tags: Machine Unlearning, LLM Memorization, Data Selection
Summary: 本文引入了LLM遗忘的数据帕累托改进概念，并提出了RASLIK检索算法，结合置换投影哈希和随机对极搜索。该方法实现了次线性复杂度，在多个模型和数据集上持续优于确定性基线甚至oracle采样。

[264] Human Cognition in Machines: A Unified Perspective of World Models

arXiv: 2604.16592 (cross-listed)
Authors: Timothy Rupprecht, Pu Zhao, Amir Taherin, Arash Akbari, Arman Akbari, Yumei He, Sean Duffy, Juyi Lin, Yixiao Chen, Rahul Chowdhury, Enfu Nan, Yixin Shen, Yifan Cao, Haochen Zeng, Weiwei Chen, Geng Yuan, Jennifer Dy, Sarah Ostadabbas, Silvia Zhang, David Kaeli, Edmund Yeh, Yanzhi Wang
Subjects: cs.RO; cs.AI; cs.CV; cs.ET
Tags: World Model, Cognitive Science, Survey
Summary: 本报告提出了一个统一的世界模型概念框架，全面整合认知架构理论中的记忆、感知、语言、推理、想象、动机和元认知等功能。研究指出动机和元认知仍是研究空白，并引入了用于科学发现的认知世界模型新类别。

[265] Spotlights and Blindspots: Evaluation Machine-Generated Text Detection

arXiv: 2604.16607 (cross-listed)
Authors: Kevin Stowe, Kailash Patil
Subjects: cs.CL; cs.AI
Tags: AI-Generated Text Detection, LLM Evaluation, Benchmark
Summary: 本文评估了15种机器生成文本检测模型在七个英文测试集和三个创意人类写作数据集上的表现。研究发现没有单一系统在所有领域都表现出色，且模型性能的呈现与数据集和指标选择密切相关。

[266] Beyond Feature Fusion: Contextual Bayesian PEFT for Multimodal Uncertainty Estimation

arXiv: 2604.16615 (cross-listed)
Authors: Habibeh Naderi, Behrouz Haji Soleimani, Stan Matwin
Subjects: cs.LG; cs.AI
Tags: Parameter-Efficient Fine-Tuning, Uncertainty Estimation, Multimodal Learning
Summary: 本文提出了CoCo-LoRA方法，一种多模态不确定性感知的参数高效微调方法，通过将适配器不确定性条件化于文本和音频上下文信号来实现。实验表明，将音频作为上下文不确定性信号而非融合特征流，为多模态低资源预测提供了鲁棒且参数高效的方案。

[267] Aligning Backchannel and Dialogue Context Representations via Contrastive LLM Fine-Tuning

arXiv: 2604.16622 (cross-listed)
Authors: Livia Qian, Gabriel Skantze
Subjects: cs.CL; cs.AI; cs.LG
Tags: Dialogue System, Fine-Tuning, Speech Processing
Venue: ACL 2026
Summary: 本文提出了一个两阶段框架，通过大语言模型微调和对比学习来对齐对话上下文与反向通道实现。结果表明学习到的投影显著改善了上下文-反向通道检索，并且比原始WavLM特征更符合人类判断。

[268] AdaExplore: Failure-Driven Adaptation and Diversity-Preserving Search for Efficient Kernel Generation

arXiv: 2604.16625 (cross-listed)
Authors: Weihua Du, Jingming Zhuo, Yixin Dong, Andre Wang He, Weiwei Sun, Zeyu Zheng, Manupa Karunaratne, Ivan Fox, Tim Dettmers, Tianqi Chen, Yiming Yang, Sean Welleck
Subjects: cs.CL; cs.AI; cs.LG
Tags: Code Generation, LLM Agent, GPU Computing
Code: code
Summary: 本文提出了AdaExplore框架，通过失败驱动适应和多样性保持搜索两个阶段实现内核代码生成的自我改进。该方法在KernelBench Level-2和Level-3上分别实现3.12倍和1.72倍加速，无需额外微调或外部知识。

[269] A Two-Stage Multi-Modal MRI Framework for Lifespan Brain Age Prediction

arXiv: 2604.16655 (cross-listed)
Authors: Dingyi Zhang, Ruiying Liu, Yun Wang
Subjects: eess.IV; cs.AI; cs.CV
Tags: Medical Imaging, Multimodal Learning, Medical AI
Summary: 本文开发了一个多模态脑年龄预测框架，采用两阶段架构：首先将受试者分类到六个发育阶段之一，然后在预测阶段内估计年龄。该设计通过整合脑形态和白质组织实现了跨发育期的统一脑成熟度评估。

[270] Cross-Modal Bayesian Low-Rank Adaptation for Uncertainty-Aware Multimodal Learning

arXiv: 2604.16657 (cross-listed)
Authors: Habibeh Naderi, Behrouz Haji Soleimani, Stan Matwin
Subjects: cs.LG; cs.AI
Tags: Parameter-Efficient Fine-Tuning, Uncertainty Estimation, Multimodal Learning
Summary: 本文引入了CALIBER框架，一种多模态不确定性感知的参数高效微调方法，通过将变分后验条件化于词级文本-音频交叉注意力。实验表明局部跨模态条件化为不确定性感知的多模态适应提供了有效且轻量的机制。

[271] ReconVLA: An Uncertainty-Guided and Failure-Aware Vision-Language-Action Framework for Robotic Control

arXiv: 2604.16677 (cross-listed)
Authors: Lingling Chen, Zongyao Lyu, William J. Beksi
Subjects: cs.RO; cs.AI
Tags: Robotics, Vision-Language Model, Uncertainty Estimation
Summary: 本文提出了ReconVLA框架，将共形预测应用于视觉-语言-动作模型的动作标记输出，产生与执行质量和任务成功相关的校准不确定性估计。该方法在仿真和真实机器人实验中持续改善失败预测并减少灾难性错误。

[272] KAIROS: Stateful, Context-Aware Power-Efficient Agentic Inference Serving

arXiv: 2604.16682 (cross-listed)
Authors: Yichao Yuan, Mosharaf Chowdhury, Nishil Talati
Subjects: cs.DC; cs.AI
Tags: LLM Serving, LLM Agent, Energy Efficiency
Summary: 本文提出了KAIROS系统，一个面向智能体AI服务的上下文感知功耗优化系统，利用智能体上下文作为控制信号联合管理GPU频率和请求放置。该方法在多样化智能体任务中实现平均27%的功耗降低，同时满足性能目标。

[273] Rewind-IL: Online Failure Detection and State Respawning for Imitation Learning

arXiv: 2604.16683 (cross-listed)
Authors: Gehan Zheng, Sanjay Seenivasan, Matthew Johnson-Roberson, Weiming Zhi
Subjects: cs.RO; cs.AI; cs.CV
Tags: Imitation Learning, Robotics, Failure Detection
Summary: 本文提出了Rewind-IL，一个无需训练的在线安全框架，用于生成式动作分块模仿策略。该框架结合了基于时间块间差异估计(TIDE)的零样本失败检测器和状态重置机制，可在失败时将机器人恢复到语义验证的安全中间状态。

[274] Graph Transformer-Based Pathway Embedding for Cancer Prognosis

arXiv: 2604.16685 (cross-listed)
Authors: Koushik Howlader, Md Tauhidul Islam, Wei Le
Subjects: cs.LG; cs.AI
Tags: Medical AI, Graph Neural Network, Cancer Prognosis
Summary: 本文提出了PATH，一种基于调制的患者条件基因嵌入策略，用于癌症预后预测。该方法从共享的基础基因嵌入出发，使用患者特异性的拷贝数变异和突变信号进行动态适应，在泛癌转移预测中实现了8.8%的性能提升。

[275] No-Worse Context-Aware Decoding: Preventing Neutral Regression in Context-Conditioned Generation

arXiv: 2604.16686 (cross-listed)
Authors: Yufei Tao, Ameeta Agrawal
Subjects: cs.CL; cs.AI
Tags: LLM Inference, RAG
Venue: ACL 2026
Summary: 本文提出了No-Worse Context-Aware Decoding (NWCAD)，一种解码时适配器，用于防止LLM在上下文无信息时覆盖已正确的输出。该方法使用双流两阶段门控机制，在上下文无信息时回退到无上下文解码，从而避免中性回归。

[276] LOD-Net: Locality-Aware 3D Object Detection Using Multi-Scale Transformer Network

arXiv: 2604.16696 (cross-listed)
Authors: Mustaqeem Khan, Aidana Nurakhmetova, Wail Gueaieb, Abdulmotaleb El Saddik
Subjects: cs.CV; cs.AI; eess.IV
Tags: Object Detection, 3D Vision, Vision Transformer
Summary: 本文提出了一种集成到3DETR架构中的多尺度注意力机制(MSA)，用于点云3D目标检测。该方法通过上采样操作生成高分辨率特征图，在ScanNetv2数据集上实现了mAP@25提升近1%和mAP@50提升4.78%。

[277] The impact of postediting on AI generative translation in Yemeni context: Translating literary prose by ChatGPT

arXiv: 2604.16704 (cross-listed)
Authors: Nasim Al-wagieh, Mohammed Q. Shormani
Subjects: cs.CL; cs.AI
Tags: Machine Translation
Summary: 本研究评估了ChatGPT-4在阿拉伯语和英语文学翻译中的表现，发现AI虽然提高了翻译速度和可及性，但在处理文化、风格和修辞方面仍存在局限。研究结果表明应采用人机协作模式而非替代人类翻译。

[278] Scalable and Adaptive Parallel Training of Graph Transformer on Large Graphs

arXiv: 2604.16715 (cross-listed)
Authors: Jun-Liang Lin, Kamesh Madduri, Mahmut Taylan Kandemir
Subjects: cs.DC; cs.AI; cs.LG
Tags: Graph Neural Network, Distributed Training
Venue: DAC 2026
Summary: 本文提出了一个图Transformer分布式训练框架，可根据图结构和硬件配置自动选择和优化并行策略。该方法将稀疏图注意力加速高达3.8倍，内存消耗降低78%，在大图基准上实现了高达6倍的加速。

[279] Late Fusion Neural Operators for Extrapolation Across Parameter Space in Partial Differential Equations

arXiv: 2604.16721 (cross-listed)
Authors: Eva van Tegelen, Taniya Kapoor, George A.K. van Voorn, Peter van Heijster, Ioannis N. Athanasiadis
Subjects: cs.LG; cs.AI; math.DS
Tags: Neural Operator, Scientific Computing
Summary: 本文提出了Late Fusion Neural Operator架构，通过将学习状态动力学与参数效应解耦来提高PDE预测的泛化能力。该方法结合神经算子和稀疏回归，在四个基准PDE上相比次优方法平均实现了72.9%的域内和71.8%的域外RMSE降低。

[280] Agentic Large Language Models for Training-Free Neuro-Radiological Image Analysis

arXiv: 2604.16729 (cross-listed)
Authors: Ayhan Can Erdur, Daniel Scholz, Jiazhen Pan, Benedikt Wiestler, Daniel Rueckert, Jan C. Peeken
Subjects: cs.CV; cs.AI
Tags: LLM Agent, Medical AI, Medical Imaging
Summary: 本文提出了一个无需训练的智能体流程，用于自动化脑MRI分析。该系统利用LLM编排外部工具执行预处理、病理分割和体积分析等复杂工作流，证明了智能体AI可以通过工具使用解决复杂的神经放射学图像分析任务。

[281] Reducing Peak Memory Usage for Modern Multimodal Large Language Model Pipelines

arXiv: 2604.16734 (cross-listed)
Authors: Junwan Kim, Hyunkyung Bae
Subjects: cs.CV; cs.AI
Tags: Vision-Language Model, KV Cache, Memory Architecture
Venue: ACL 2026
Summary: 本文提出了一种顺序输入压缩机制，通过在预填充阶段执行结构感知的KV缓存压缩来控制MLLM推理过程中的内存增长。该方法显著降低了峰值内存使用，同时仅造成最小的生成性能下降。

[282] Evaluating Adaptive Personalization of Educational Readings with Simulated Learners

arXiv: 2604.16744 (cross-listed)
Authors: Ryan T. Woo, Anmol Rao, Aryan Keluskar, Yinong Chen
Subjects: cs.CL; cs.AI; cs.HC
Tags: Education Technology, Personalized Learning
Summary: 本文提出了一个使用理论驱动的模拟学习者来评估教育阅读材料自适应个性化的框架。系统从开放教科书构建学习目标本体，通过自适应阅读在计算机科学领域显著改善了学习效果。

[283] TriTS: Time Series Forecasting from a Multimodal Perspective

arXiv: 2604.16748 (cross-listed)
Authors: Xiang Ao
Subjects: cs.CV; cs.AI
Tags: Time Series Forecasting, Multimodal Learning
Venue: CVPR 2026 Workshop
Summary: 本文提出了TriTS，一个跨模态解耦框架，将时间序列投影到时间、频率和2D视觉三个正交模态进行预测。该方法通过周期感知重塑策略和Visual Mamba高效建模跨周期依赖，在多个基准上实现了SOTA性能。

[284] Mitigating Prompt-Induced Cognitive Biases in General-Purpose AI for Software Engineering

arXiv: 2604.16756 (cross-listed)
Authors: Francesco Sovrano, Gabriele Dominici, Alberto Bacchelli
Subjects: cs.SE; cs.AI
Tags: LLM Evaluation, Software Engineering, Bias Mitigation
Venue: FSE 2026
Summary: 本文研究了软件工程决策支持中GPAI系统的提示诱导认知偏差问题，提出了PROBE-SWE基准和一种端到端方法，通过在回答前注入公理化推理线索，将整体偏差敏感性平均降低51%。

[285] Frozen Vision Transformers for Dense Prediction on Small Datasets: A Case Study in Arrow Localization

arXiv: 2604.16758 (cross-listed)
Authors: Maxwell Shepherd
Subjects: cs.CV; cs.AI; cs.LG
Tags: Vision Transformer, Object Detection, Transfer Learning
Summary: 本文展示了冻结的基础模型配合最小任务特定适应可以在小数据场景下实现强性能。系统用于箭矢定位，仅用48张标注图像训练，达到0.893的F1分数和1.41mm的定位误差，与需要更多训练数据的全监督方法相当。

[286] CapSeal: Capability-Sealed Secret Mediation for Secure Agent Execution

arXiv: 2604.16762 (cross-listed)
Authors: Shutong Jin, Ruiyi Guo, Ray C. C. Cheung
Subjects: cs.CR; cs.AI
Tags: LLM Agent, LLM Security
Summary: 本文提出了CapSeal，一种能力密封的秘密调解架构，通过本地可信代理的约束调用替代直接秘密访问。该系统结合能力签发、模式约束HTTP执行、代理执行SSH操作等机制，防止提示注入、工具滥用和凭证泄露。

[287] The Reliance Negotiation Framework: A Dynamic Process Model of Student LLM Engagement in Academic Writing

arXiv: 2604.16772 (cross-listed)
Authors: Shahin Hossain
Subjects: cs.CY; cs.AI; cs.HC
Tags: Education Technology, AI Ethics, Human-Computer Interaction
Summary: 本文提出了依赖协商框架(RNF)，将学生与LLM在学术写作中的互动重新概念化为一个持续的协商过程。该框架基于382名本科生的研究，考虑感知收益、风险、伦理承诺和情境需求四个并发输入。

[288] StageMem: Lifecycle-Managed Memory for Language Models

arXiv: 2604.16774 (cross-listed)
Authors: Jiarui Han
Subjects: cs.CL; cs.AI
Tags: Memory Architecture, LLM Agent
Summary: 本文提出了StageMem，一个生命周期管理的记忆框架，将记忆组织为瞬时、工作记忆和持久记忆三个阶段，并为每个项目建模显式的置信度和强度。该框架将记忆视为有状态过程而非被动存储库。

[289] Representation Before Training: A Fixed-Budget Benchmark for Generative Medical Event Models

arXiv: 2604.16775 (cross-listed)
Authors: Inhyeok Lee, Luke Solo, Michael C. Burkhart, Bashar Ramadan, William F. Parker, Brett K. Beaulieu-Jones
Subjects: cs.LG; cs.AI
Tags: Medical AI, Benchmark, Representation Learning
Summary: 该论文研究了在固定预训练预算下，输入表示决策（如量化粒度、值编码、时间编码）如何影响临床事件模型的下游预测性能，在MIMIC-IV数据集上训练了28个匹配的transformer并在30个临床结果上进行评估。

[290] Federation over Text: Insight Sharing for Multi-Agent Reasoning

arXiv: 2604.16778 (cross-listed)
Authors: Dixi Yao, Tahseen Rabbani, Tian Li
Subjects: cs.LG; cs.AI
Tags: Multi-Agent System, LLM Reasoning, Knowledge Distillation
Summary: 该论文提出了一个名为FoT的联邦学习式框架，使多个解决不同任务的智能体能够通过迭代共享推理过程来集体生成共享的元认知洞察库，从而提高推理效果和效率。

[291] FairNVT: Improving Fairness via Noise Injection in Vision Transformers

arXiv: 2604.16780 (cross-listed)
Authors: Qiaoyue Tang, Sepidehsadat Hosseini, Mengyao Zhai, Thibaut Durand, Greg Mori
Subjects: cs.CV; cs.AI; cs.LG
Tags: Fairness, Vision Transformer, Bias Mitigation
Venue: ICLR 2026 Workshop
Summary: 该论文提出了FairNVT，一个轻量级的去偏框架，通过学习任务相关和敏感嵌入、应用校准高斯噪声并融合任务表示，在保持任务准确性的同时提高视觉和语言模型的公平性。

[292] Bridging Coarse and Fine Recognition: A Hybrid Approach for Open-Ended Multi-Granularity Object Recognition in Interactive Educational Games

arXiv: 2604.16785 (cross-listed)
Authors: Hanling Yi, Feng Lin, Mao Luo, Yifan Yang, Xiaotian Yu, Rong Xiao
Subjects: cs.CV; cs.AI
Tags: Vision-Language Model, Object Detection, Multimodal Learning
Summary: 该论文提出了HyMOR框架，将多模态大语言模型与CLIP模型相结合，实现跨多种语义粒度的开放对象识别，并引入了包含20,942张图像和8,816个对象类别的TBO数据集用于评估。

[293] When Informal Text Breaks NLI: Tokenization Failure, Distribution Shift, and Targeted Mitigations

arXiv: 2604.16787 (cross-listed)
Authors: Avinash Goutham Aluguvelly
Subjects: cs.CL; cs.AI
Tags: Natural Language Understanding, Tokenization, Data Augmentation
Summary: 该论文研究了俚语替换、表情符号替换和噪音标记等非正式文本形式如何降低自然语言推理模型的准确性，发现表情符号导致分词失败而噪音标记导致分布偏移，并提出预处理和增强的混合方法来缓解这些问题。

[294] Bias in the Loop: Auditing LLM-as-a-Judge for Software Engineering

arXiv: 2604.16790 (cross-listed)
Authors: Zixiao Zhao, Amirreza Esmaeili, Fatemeh Fard
Subjects: cs.SE; cs.AI
Tags: LLM Evaluation, Code Generation, Bias Mitigation
Summary: 该论文从测量角度研究了LLM作为代码评估者的可靠性和偏见问题，发现提示诱导的偏见会显著影响评估结果，甚至改变任务级结论和模型排名，威胁代码评估的有效性和可重复性。

[295] AutoOR: Scalably Post-training LLMs to Autoformalize Operations Research Problems

arXiv: 2604.16804 (cross-listed)
Authors: Sumeet Ramesh Motwani, Chuan Du, Aleksander Petrov, Christopher Davis, Philip Torr, Antonio Papania-Davis, Weishi Yan
Subjects: cs.LG; cs.AI
Tags: Autoformalization, LLM Reasoning, Reinforcement Learning
Summary: 该论文提出了AutoOR，一个可扩展的合成数据生成和强化学习流水线，用于训练LLM将自然语言描述的优化问题自动形式化为求解器可用的形式，在线性、混合整数和非线性优化问题上取得了最先进或竞争性的结果。

[296] Self-Reinforcing Controllable Synthesis of Rare Relational Data via Bayesian Calibration

arXiv: 2604.16817 (cross-listed)
Authors: Chongsheng Zhang, Hao Wang, Zelong Yu, Esteban Garces Arias, Julian Rodemann, Zhanshuo Zhang, Qilong Li, Gaojuan Fan, Krikamol Muandet, Christian Heumann
Subjects: cs.LG; cs.AI
Tags: Data Synthesis, Tabular Learning, In-Context Learning
Venue: ACL 2026 Findings
Code: code
Summary: 该论文提出了RDDG框架，利用渐进式链式思维步骤和上下文学习来生成关系型表格数据，并通过自强化反馈机制持续优化生成数据的质量，以增强下游不平衡分类任务的性能。

[297] Hierarchical Vision Transformer Enhanced by Graph Convolutional Network for Image Classification

arXiv: 2604.16823 (cross-listed)
Authors: Haibin Jiao
Subjects: cs.CV; cs.AI
Tags: Vision Transformer, Graph Neural Network, Image Classification
Summary: 该论文提出了GCN-HViT，将分层视觉Transformer与图卷积网络相结合，通过分层ViT建模全局patch信息交互，利用GCN作为局部特征提取器和2D位置嵌入，在三个真实数据集上取得了最先进的图像分类性能。

[298] SafeDream: Safety World Model for Proactive Early Jailbreak Detection

arXiv: 2604.16824 (cross-listed)
Authors: Bo Yan, Weikai Lin, Yada Zhu, Song Wang
Subjects: cs.CR; cs.AI
Tags: LLM Security, Jailbreak Detection, World Model
Summary: 该论文提出了SAFEDREAM框架，通过安全状态世界模型编码LLM隐藏状态并预测其演化，结合CUSUM检测和对比想象机制，在多轮越狱攻击中实现主动早期检测，在合规前1.06-1.20轮发出警报。

[299] The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation

arXiv: 2604.16830 (cross-listed)
Authors: Jiaxin Zhang, Xiangyu Peng, Qinglin Chen, Qinyuan Ye, Caiming Xiong, Chien-Sheng Wu
Subjects: cs.LG; cs.AI
Tags: Knowledge Distillation, LLM Training, Uncertainty Estimation
Code: code
Summary: 该论文揭示了在策略蒸馏(OPD)中存在系统性过度自信问题，将其归因于教师监督与部署时信息不匹配，提出了校准感知OPD框架(CaOPD)，通过从模型rollout估计经验置信度来替代自报告置信度，实现了帕累托最优校准。

[300] Lorentz Framework for Semantic Segmentation

arXiv: 2604.16836 (cross-listed)
Authors: Zahid Hasan, Masud Ahmed, Nirmalya Roy
Subjects: cs.CV; cs.AI; cs.LG
Tags: Image Segmentation, Representation Learning, Uncertainty Estimation
Code: code
Summary: 该论文提出了一个在双曲Lorentz模型中进行语义分割的架构无关框架，利用文本嵌入引导分层像素级表示，实现了稳定高效的优化，同时提供免费的不确定性估计、置信度图、边界描绘和零样本性能。

[301] enclawed: A Configurable, Sector-Neutral Hardening Framework for Single-User AI Assistant Gateways

arXiv: 2604.16838 (cross-listed)
Authors: Alfredo Metere
Subjects: cs.CR; cs.AI; cs.MA
Tags: LLM Security, AI Governance, Cybersecurity
Summary: 该论文提出了enclawed，一个基于OpenClaw的加固框架，为金融、医疗、国防等受监管行业提供可验证的信任、默认拒绝外部连接、签名模块加载和防篡改审计跟踪等功能。

[302] TowerDataset: A Heterogeneous Benchmark for Transmission Corridor Segmentation with a Global-Local Fusion Framework

arXiv: 2604.16848 (cross-listed)
Authors: Xu Cui, Xinyan Liu, Chen Yang, Zhaobo Qi, Beichen Zang, Weigang Zhang, Antoni B. Chan
Subjects: cs.CV; cs.AI
Tags: 3D Vision, Image Segmentation, Benchmark
Summary: 该论文引入了TowerDataset，一个包含661个真实场景和约24.66亿点的输电走廊分割异构基准数据集，定义了22类细粒度分类法，并提出了全局-局部融合框架来捕获长距离拓扑依赖和精细几何结构。

[303] Refinement of Accelerated Demonstrations via Incremental Iterative Reference Learning Control for Fast Contact-Rich Imitation Learning

arXiv: 2604.16850 (cross-listed)
Authors: Koki Yamane, Cristian C. Beltran-Hernandez, Steven Oh, Masashi Hamaya, Sho Sakaino
Subjects: cs.RO; cs.AI; eess.SY
Tags: Imitation Learning, Robotics, Reinforcement Learning
Summary: 该论文提出了增量迭代参考学习控制(I2RLC)方法，通过在更新参考轨迹的同时逐渐增加速度，自主精炼时间加速的演示，实现了高达10倍更快的演示并减少跟踪误差，用于快速接触丰富的模仿学习。

[304] Applications of deep generative models to DNA reaction kinetics and to cryogenic electron microscopy

arXiv: 2604.16851 (cross-listed)
Authors: Chenwei Zhang
Subjects: cs.LG; cs.AI; cs.CV; q-bio.BM; q-bio.QM
Tags: Generative Model, Bioinformatics, Protein Engineering
Summary: 该博士论文探索了深度生成模型如何通过整合领域知识和深度学习来推进具有挑战性的生物学问题分析，重点关注DNA反应动力学和冷冻电镜两个领域，提出了ViDa、Struc2mapGAN和CryoSAMU等方法。

[305] Governed MCP: Kernel-Level Tool Governance for AI Agents via Logit-Based Safety Primitives

arXiv: 2604.16870 (cross-listed)
Authors: Daeyeon Son
Subjects: cs.CR; cs.AI; cs.OS
Tags: LLM Security, LLM Agent, AI Safety
Summary: 本文提出了Governed MCP，一种基于内核的工具治理网关，通过基于logit的安全原语对AI代理的外部工具调用进行安全管控。该系统实现了6层安全管道，并在Anima OS中完成实现，证明了内核级治理可以有效防止用户空间绕过攻击。

[306] Incentivizing Parametric Knowledge via Reinforcement Learning with Verifiable Rewards for Cross-Cultural Entity Translation

arXiv: 2604.16881 (cross-listed)
Authors: Jiang Zhou, Xiaohu Zhao, Xinwei Wu, Tianyu Dong, Hao Wang, Yangyang Liu, Heng Liu, Linlong Xu, Longyue Wang, Weihua Luo, Deyi Xiong
Subjects: cs.CL; cs.AI
Tags: Machine Translation, Reinforcement Learning, LLM Training
Summary: 本文提出了EA-RLVR框架，通过可验证奖励的强化学习来激励大语言模型有效利用参数化知识，实现跨文化实体翻译。该方法仅用7k样本训练就将Qwen3-14B的实体翻译准确率从23.66%提升至31.87%，并能泛化到通用翻译任务。

[307] SinkRouter: Sink-Aware Routing for Efficient Long-Context Decoding in Large Language and Multimodal Models

arXiv: 2604.16883 (cross-listed)
Authors: Junnan Liu, Xinyan Liu, Peifeng Gao, Zhaobo Qi, Beichen Zhang, Weigang Zhang, Antoni Bert Chen
Subjects: cs.LG; cs.AI
Tags: LLM Inference, Long Context, KV Cache
Summary: 本文提出了SinkRouter，一种无需训练的选择性路由框架，利用注意力汇现象来加速大语言模型和多模态模型的长上下文解码。该方法通过检测汇信号跳过产生近零输出的计算，在512K上下文中实现2.03倍加速同时保持准确率。

[308] Physics-Informed Tracking (PIT)

arXiv: 2604.16895 (cross-listed)
Authors: Emil Hovad, Allan Peter Engsig-Karup
Subjects: cs.CV; cs.AI
Tags: Physics-Informed Learning, Object Tracking, Video Understanding
Summary: 本文提出了物理信息追踪框架(PIT)，将神经网络自编码器与可微分物理模块结合，用于视频中单粒子追踪。该方法通过物理信息地标损失(PILL)在无标签情况下强制物理一致性，在干净和噪声条件下均实现亚像素级追踪精度。

[309] ProtoCycle: Reflective Tool-Augmented Planning for Text-Guided Protein Design

arXiv: 2604.16896 (cross-listed)
Authors: Yutang Ge, Guojiang Zhao, Sihang Li, Zheng Cheng, Zifeng Zhao, Hanchen Xia, Guolin Ke, Linfeng Zhang, Zhifeng Gao, Yuguang Wang
Subjects: q-bio.QM; cs.AI
Tags: Protein Engineering, LLM Agent, Tool Learning
Venue: ACL 2026
Summary: 本文提出了ProtoCycle，一个用于文本引导蛋白质设计的智能体框架，通过LLM规划器与轻量工具环境的结合以及反思机制来迭代优化蛋白质序列。该框架结合监督轨迹和在线强化学习训练，在保持蛋白质可折叠性的同时实现了良好的语言对齐。

[310] PRISM: Probing Reasoning, Instruction, and Source Memory in LLM Hallucinations

arXiv: 2604.16909 (cross-listed)
Authors: Yuhe Wu, Guangyu Wang, Yuran Chen, Jiatong Zhang, Yutong Zhang, Yujie Chen, Jiaming Shang, Guang Zhang, Zhuang Liu
Subjects: cs.CL; cs.AI
Tags: LLM Hallucination, LLM Evaluation, Benchmark
Venue: ACL 2026
Summary: 本文提出了PRISM基准，将LLM幻觉评估重新定义为诊断问题，将幻觉分解为知识缺失、知识错误、推理错误和指令遵循错误四个维度。该基准涵盖65个任务的9448个实例，支持细粒度的阶段感知诊断评估，揭示了指令遵循、记忆检索和逻辑推理之间的权衡关系。

[311] Noise-Adaptive Diffusion Sampling for Inverse Problems Without Task-Specific Tuning

arXiv: 2604.16919 (cross-listed)
Authors: Yingzhi Xia, Setthakorn Tanomkiattikun, Liangli Zhen, Zaiwang Gu
Subjects: cs.LG; cs.AI; cs.CV
Tags: Diffusion Model, Image Reconstruction, Bayesian Optimization
Venue: ICLR 2026
Code: code
Summary: 本文提出了N-HMC和NA-NHMC后验采样方法，通过将反向扩散视为从初始噪声到干净图像的确定性映射来求解逆问题。噪声自适应变体能够处理未知噪声类型和级别的逆问题，在多个线性和非线性逆问题上实现了优于最新方法的重建质量。

[312] Test-Time Adaptation for EEG Foundation Models: A Systematic Study under Real-World Distribution Shifts

arXiv: 2604.16926 (cross-listed)
Authors: Gabriel Jason Lee, Jathurshan Pradeepkumar, Jimeng Sun
Subjects: cs.LG; cs.AI; eess.SP
Tags: Test-Time Adaptation, Foundation Model, Brain-Computer Interface
Summary: 本文引入了NeuroAdapt-Bench，一个系统评估EEG基础模型在真实分布偏移下测试时适应方法的基准。研究发现标准TTA方法在EEG上效果不一致，基于梯度的方法容易出现严重退化，而无优化方法则表现出更好的稳定性和可靠性。

[313] CoGR-MoE: Concept-Guided Expert Routing with Consistent Selection and Flexible Reasoning for Visual Question Answering

arXiv: 2604.16930 (cross-listed)
Authors: Xiyin Zeng, Yi Lu, Hao Wang
Subjects: cs.CV; cs.AI
Tags: Visual Question Answering, Mixture-of-Experts, Vision-Language Model
Summary: 本文提出了CoGR-MoE框架，通过答案选项语义引导专家选择来解决混合专家模型中路由不稳定的问题。该方法利用选项特征重新加权选定专家并通过对比学习优化选项级表示，在多个VQA任务上取得了优异性能。

[314] Adaptive receptive field-based spatial-frequency feature reconstruction network for few-shot fine-grained image classification

arXiv: 2604.16936 (cross-listed)
Authors: Linyue Zhang, Wenyi Zeng, Zicheng Pan, Yongsheng Gao, Changming Sun, Jun Hu, Lixian Liu, Weichuan Zhang, Tuo Wang
Subjects: cs.CV; cs.AI
Tags: Few-Shot Learning, Image Classification, Feature Generation
Code: code
Summary: 本文提出了ARF-SFR-Net，一种自适应感受野的空间-频率特征重建网络，用于少样本细粒度图像分类。该方法能够自适应确定感受野大小以提取和融合空间与频率特征，在多个基准测试中优于现有方法。

[315] D-QRELO: Training- and Data-Free Delta Compression for Large Language Models via Quantization and Residual Low-Rank Approximation

arXiv: 2604.16940 (cross-listed)
Authors: Junlin Li, Shuangyong Song, Guodong Du, Ngai Wong, Xuebo Liu, Yongxiang Li, Min Zhang, Jing Li, Xuelong Li
Subjects: cs.LG; cs.AI
Tags: Model Compression, Quantization, LLM Inference
Summary: 本文提出了D-QRELO，一种无需训练和数据的LLM增量压缩方法，结合一位量化和残差低秩近似来处理大规模数据微调模型的压缩问题。实验表明该方法在密集和MoE架构上均优于现有方法，并建立了增量压缩的设计原则。

[316] MEMRES: A Memory-Augmented Resolver with Confidence Cascade for Agentic Python Dependency Resolution

arXiv: 2604.16941 (cross-listed)
Authors: Dao Sy Duy Minh, Tran Chi Nguyen, Trung Kiet Huynh, Pham Phu Hoa, Nguyen Lam Phu Quy, Vu Nguyen
Subjects: cs.SE; cs.AI
Tags: LLM Agent, Software Engineering, Code Generation
Venue: FSE 2026
Summary: 本文提出了MEMRES，一个用于Python依赖解析的智能体系统，结合自进化记忆、错误模式知识库和置信度级联机制，将LLM作为最后手段。该系统在HG2.9K数据集上实现了86.6%的解析成功率，大幅超越现有方法。

[317] Hybrid Quantum Neural Networks for Enhanced Breast Cancer Thermographic Classification: A Novel Quantum-Classical Integration Approach

arXiv: 2604.16953 (cross-listed)
Authors: Riza Alaudin Syah, Irwan Alnarus Kautsar, Gunawan Witjaksono, Haza Nuzly bin Abdull Hamed
Subjects: cs.AI; cs.CV; cs.LG
Tags: Medical AI, Quantum Computing, Image Classification
Venue: IBITeC 2025
Summary: 本文提出了一种混合量子神经网络架构，将参数化量子电路与经典卷积神经网络结合用于乳腺癌热图像分类。量子增强方法通过量子感知特征编码和注意力机制，在医学图像分类任务中展现出优于经典架构的性能。

[318] Training-inference input alignment outweighs framework choice in longitudinal retinal image prediction

arXiv: 2604.16955 (cross-listed)
Authors: Liyin Chen, Nazlee Zebardast, Mengyu Wang, Tobias Elze, Jason I. Comander
Subjects: cs.CV; cs.AI; cs.LG
Tags: Medical Imaging, Image Generation, Time Series Forecasting
Summary: 本文研究了纵向视网膜图像预测，发现训练和推理输入分布的对齐比框架复杂性更重要。作者开发了TRU模型，一种具有连续时间增量条件的确定性直接回归模型，在多个成像平台上匹配或超越最新基准。

[319] Multi-stage Planning for Multi-target Surveillance using Aircrafts Equipped with Synthetic Aperture Radars Aware of Target Visibility

arXiv: 2604.16962 (cross-listed)
Authors: Daniel Fuertes, Carlos R. del-Blanco, Fernando Jaureguizar, Juan José Navarro-Corcuera, Narciso García
Subjects: cs.RO; cs.AI
Tags: Motion Planning, Remote Sensing, Reinforcement Learning
Venue: CASE 2025
Summary: 本文提出了一个用于SAR飞机多目标监视的多阶段规划系统，结合航点排序、基于深度强化学习的直线飞行段预测和轨迹优化。该系统确保了考虑3D地形和目标可见性的高质量多目标SAR图像采集，同时保持实时性能。

[320] Visual Inception: Compromising Long-term Planning in Agentic Recommenders via Multimodal Memory Poisoning

arXiv: 2604.16966 (cross-listed)
Authors: Jiachen Qian
Subjects: cs.CR; cs.AI
Tags: Recommender System, LLM Security, Adversarial Robustness
Summary: 本文揭示了”视觉植入”攻击，通过向用户上传的图像注入触发器来毒化智能推荐系统的长期记忆，从而劫持未来的规划推理链。作者提出了CognitiveGuard双过程防御框架，将攻击成功率从约85%降至约10%。

[321] NaviFormer: A Deep Reinforcement Learning Transformer-like Model to Holistically Solve the Navigation Problem

arXiv: 2604.16967 (cross-listed)
Authors: Daniel Fuertes, Andrea Cavallaro, Carlos R. del-Blanco, Fernando Jaureguizar, Narciso García
Subjects: cs.RO; cs.AI
Tags: Reinforcement Learning, Motion Planning, Robotics
Venue: IROS 2025
Summary: 本文提出NaviFormer，一种基于Transformer架构的深度强化学习模型，能够同时解决高层路线规划和低层轨迹预测的全局导航问题，在准确性和计算速度方面表现优异。

[322] Evaluating Multimodal LLMs for Inpatient Diagnosis: Real-World Performance, Safety, and Cost Across Ten Frontier Models

arXiv: 2604.16980 (cross-listed)
Authors: Bruce A. Bassett, Amy Rouillard, Sitwala Mundia, Michael Cameron Gramanie, Linda Camara, Ziyaad Dangor, Shabir A. Madhi, Kajal Morar, Marlvin T. Ncube, Ismail Kalla, Haroon Saloojee
Subjects: cs.LG; cs.AI
Tags: Medical AI, LLM Evaluation, Multimodal Learning
Summary: 本文在南非公立医院的539个多模态住院病例上评估了10个多模态大语言模型的诊断性能，发现LLM在诊断准确性和安全性方面显著优于常规护理，且低成本模型与顶级模型表现相当。

[323] Light-Adapted Electroretinogram and Oscillatory Potentials (LEOPs) Dataset for Autism Spectrum Disorder and Typically Developing Individuals

arXiv: 2604.16981 (cross-listed)
Authors: Paul A. Constable, Dorothy A. Thompson, Irene O. Lee, Lynne Loh, Aleksei Zhdanov, Mikhail Kulyabin, Andreas Maier
Subjects: cs.AI; cs.LG
Tags: Dataset, Medical AI
Summary: LEOPs数据集提供了典型发育对照组、自闭症谱系障碍(ASD)及ASD+ADHD儿童和青少年人群的光适应视网膜电图和振荡电位波形数据，包含5309个单闪光ERG和4434个OPs波形，可用于机器学习任务。

[324] In-Context Learning Under Regime Change

arXiv: 2604.16988 (cross-listed)
Authors: Carson Dudley, Yutong Bi, Xiaofeng Liu, Samet Oymak
Subjects: cs.LG; cs.AI
Tags: In-Context Learning, Time Series Forecasting, Change Point Detection
Summary: 本文研究Transformer模型在非平稳序列中的上下文学习能力，将其形式化为上下文变化点检测问题，证明了模型能够检测并适应制度变化，并在传染病预测和金融波动率预测中验证了其实用性。

[325] Bolzano: Case Studies in LLM-Assisted Mathematical Research

arXiv: 2604.16989 (cross-listed)
Authors: Jan Grebík, Pavel Hubáček, Martin Koutecký, Matěj Kripner, Václav Rozhoň, Robert Šámal, Adrián Zámečník
Subjects: cs.CL; cs.AI; cs.LG; cs.LO
Tags: LLM Reasoning, Mathematical Reasoning, Multi-Agent System
Summary: 本文介绍了Bolzano，一个开源多智能体LLM系统，通过协调证明智能体和验证智能体的交互轮次来辅助数学和理论计算机科学研究，在六个问题上取得了可发表级别的研究成果。

[326] Inductive Convolution Nuclear Norm Minimization for Tensor Completion with Arbitrary Sampling

arXiv: 2604.17001 (cross-listed)
Authors: Wei Li, Yuyang Li, Kaile Du, Yi Yu, Guangcan Liu
Subjects: cs.CV; cs.AI
Tags: Tensor Completion, Optimization, Video Understanding
Summary: 本文提出归纳卷积核范数最小化方法(ICNNM)，通过预学习卷积特征向量来避免SVD计算，显著降低了张量补全问题的计算时间，在视频补全、预测和帧插值任务上表现优异。

[327] MobileAgeNet: Lightweight Facial Age Estimation for Mobile Deployment

arXiv: 2604.17007 (cross-listed)
Authors: Arun Kumar, Aswathy Baiju, Radu Timofte, Dmitry Ignatov
Subjects: cs.CV; cs.AI
Tags: Mobile AI, DNN Deployment, Age Estimation
Summary: 本文提出MobileAgeNet，一个轻量级面部年龄估计框架，基于MobileNetV3-Large骨干网络，在UTKFace测试集上达到4.65年的平均绝对误差，同时保持14.4毫秒的移动端推理延迟。

[328] Improving LLM Code Reasoning via Semantic Equivalence Self-Play with Formal Verification

arXiv: 2604.17010 (cross-listed)
Authors: Antonio Valerio Miceli Barone, Poon Tsz Nok
Subjects: cs.CL; cs.AI; cs.LG; cs.PL
Tags: Code Generation, LLM Reasoning, Formal Methods
Summary: 本文提出一个基于形式验证的自博弈框架，通过生成器和评估器之间的对抗训练来改进LLM的代码推理能力，并发布了包含约28k验证过的Haskell程序的数据集OpInstruct-HSx。

[329] Beyond Static Benchmarks: Synthesizing Harmful Content via Persona-based Simulation for Robust Evaluation

arXiv: 2604.17020 (cross-listed)
Authors: Huije Lee, Jisu Shin, Hoyun Song, Changgeon Ko, Jong C. Park
Subjects: cs.CL; cs.AI
Tags: LLM Evaluation, Data Synthesis, Content Moderation
Venue: ACL 2026
Summary: 本文提出一个基于角色引导的LLM智能体框架来合成有害内容，通过整合人口统计身份、主题兴趣和情境有害策略构建二维用户角色，用于有害内容检测系统的鲁棒性评估。

[330] Beyond Black-Box Labels: Interpretable Criteria for Diagnosing SubjectiveNLP Tasks

arXiv: 2604.17022 (cross-listed)
Authors: Nisrine Rair, Alban Goupil, Valeriu Vrabie, Emmanuel Chochoy
Subjects: cs.CL; cs.AI
Tags: Data Annotation, Natural Language Understanding
Venue: ACL Findings 2026
Summary: 本文提出一种模式级别的诊断方法，用于在提交金标准标签之前审核专家设计的标注模式，通过多标注者标准判断来区分不稳定标准和系统重叠两种失败模式。

[331] The Instrumental Dissolution of Typing: Why AI Challenges the Keyboard Era in Knowledge Work

arXiv: 2604.17023 (cross-listed)
Authors: Wei Roy Hua
Subjects: cs.HC; cs.AI; cs.CY
Tags: Human-Computer Interaction, Cognitive Science
Summary: 本文分析了AI如何挑战键盘在知识工作中的主导地位，提出”工具性消解”概念，指出随着多模态AI达到人类水平的语音和手势理解能力，知识工作的主要约束将从生成转向验证。

[332] Where is the Mind? Persona Vectors and LLM Individuation

arXiv: 2604.17031 (cross-listed)
Authors: Pierre Beckmann, Patrick Butlin
Subjects: cs.CL; cs.AI
Tags: Interpretability, Cognitive Science
Summary: 本文通过机制可解释性研究LLM的心智个体化问题，分析了角色向量和角色空间的实证工作，提出了虚拟实例视图、实例-角色视图和模型-角色视图三种候选观点。

[333] Efficient Task Adaptation in Large Language Models via Selective Parameter Optimization

arXiv: 2604.17051 (cross-listed)
Authors: Weijie Wan, Jiangjiang Zhao
Subjects: cs.CL; cs.AI
Tags: Parameter-Efficient Fine-Tuning, LLM Training, Transfer Learning
Venue: IJCNN 2026
Summary: 本文提出一种参数重要性评估方法，将参数分为”核心参数”和”非核心参数”，在微调时固定核心参数仅微调非核心参数，有效缓解了灾难性遗忘问题。

[334] mEOL: Training-Free Instruction-Guided Multimodal Embedder for Vector Graphics and Image Retrieval

arXiv: 2604.17054 (cross-listed)
Authors: Kyeong Seon Kim, Baek Seong-Eun, Lee Jung-Mok, Tae-Hyun Oh
Subjects: cs.CV; cs.AI
Tags: Vision-Language Model, Information Retrieval, Multimodal Learning
Venue: WACV 2026
Summary: 本文提出一种免训练的指令引导多模态嵌入框架，利用多模态大语言模型将文本、光栅图像和SVG代码映射到对齐的嵌入空间，通过语义SVG重写模块暴露隐藏在原始代码中的几何和关系线索。

[335] RLM-on-KG: Heuristics First, LLMs When Needed: Adaptive Retrieval Control over Mention Graphs for Scattered Evidence

arXiv: 2604.17056 (cross-listed)
Authors: Andrea Volpini, Elie Raad
Subjects: cs.IR; cs.AI
Tags: RAG, Knowledge Graph, LLM Reasoning
Summary: 本文研究LLM控制器何时优于基于规则的遍历方法进行知识图谱探索，提出RLM-on-KG检索系统，将LLM作为RDF编码提及图上的自主导航器，发现LLM控制在证据分散且需要复杂工具调用时具有优势。

[336] Abstain-R1: Calibrated Abstention and Post-Refusal Clarification via Verifiable RL

arXiv: 2604.17073 (cross-listed)
Authors: Skylar Zhai, Jingcheng Liang, Dongyeop Kang
Subjects: cs.CL; cs.AI
Tags: LLM Reasoning, Reinforcement Learning, LLM Hallucination
Venue: ACL 2026
Summary: 本文提出一种澄清感知的RLVR奖励函数，在可回答查询上奖励正确答案，同时在不可回答查询上联合优化显式弃权和语义对齐的澄清，训练出Abstain-R1模型在保持可回答问题性能的同时改善弃权行为。

[337] Comparing Human and Large Language Model Interpretation of Implicit Information

arXiv: 2604.17085 (cross-listed)
Authors: Antonio De Santis, Tommaso Bonetti, Andrea Tocchetti, Marco Brambilla
Subjects: cs.CL; cs.AI
Tags: LLM Reasoning, Knowledge Graph, Information Extraction
Venue: ACL 2026 Findings
Code: code
Summary: 本文介绍了隐式信息提取（IIE）任务，提出了一个基于LLM的IIE管道，通过提取关系三元组、验证隐式推理和分析时间关系来构建结构化知识图谱。研究发现人类与模型在大多数三元组上达成一致，但人类会提出更多补充，表明当前LLM在IIE任务上的覆盖范围有限。

[338] Configuration Over Selection: Hyperparameter Sensitivity Exceeds Model Differences in Open-Source LLMs for RTL Generation

arXiv: 2604.17102 (cross-listed)
Authors: Minghao Shao, Zeng Wang, Weimin Fu, Xiaolong Guo, Johann Knechtel, Ozgur Sinanoglu, Ramesh Karri, Muhammad Shafique
Subjects: cs.AR; cs.AI
Tags: RTL Generation, LLM Inference, Hyperparameter Optimization
Summary: 本文研究了开源LLM在RTL生成任务中的超参数敏感性，发现配置选择比模型选择更为重要。实验显示同一LLM的最佳和最差配置之间绝对通过率差距高达25.5%，是不同模型家族间平均差距的5倍。

[339] TensorHub: Rethinking AI Model Hub with Tensor-Centric Compression

arXiv: 2604.17104 (cross-listed)
Authors: Tingfeng Lan, Zirui Wang, Yunjia Zheng, Zhaoyuan Su, Juncheng Yang, Yue Cheng
Subjects: cs.DC; cs.AI; cs.LG
Tags: Model Compression, Storage Systems
Summary: 本文提出了TensorHub，一个以张量为中心的系统，通过细粒度去重和压缩来减少模型存储开销。该系统利用张量级指纹识别和聚类来识别模型间的冗余，无需标注即可实现高效的存储减少。

[340] Beyond Word Boundaries: A Hebrew Coreference Benchmark and an Evaluation Protocol for Morphologically Complex Text

arXiv: 2604.17108 (cross-listed)
Authors: Refael Shaked Greenfeld, Reut Tsarfaty
Subjects: cs.CL; cs.AI
Tags: Information Extraction, Low-Resource NLP, Benchmark
Summary: 本文介绍了首个现代希伯来语共指消解数据集KibutzR，针对形态丰富语言中词边界与提及边界不一致的挑战。实验表明当代LLM在希伯来语上的表现明显差于英语，且在原始未分段文本上性能下降。

[341] HiveMind: OS-Inspired Scheduling for Concurrent LLM Agent Workloads

arXiv: 2604.17111 (cross-listed)
Authors: Justice Owusu Agyemang, Jerry John Kponyo, Obed Kwasi Somuah, Elliot Amponsah, Godfred Manu Addo Boakye, Kwame Opuni-Boachie Obour Agyekum
Subjects: cs.DC; cs.AI
Tags: LLM Agent, Multi-Agent System, Scheduling
Summary: 本文提出了HIVEMIND，一个透明的HTTP代理，应用五种操作系统启发的调度原语来消除并行LLM智能体执行导致的失败模式。评估显示，在资源竞争下，非协调代理的失败率为72-100%，而HIVEMIND将失败率降至0-18%。

[342] A Two-Stage Deep Learning Framework for Segmentation of Ten Gastrointestinal Organs from Coronal MR Enterography

arXiv: 2604.17118 (cross-listed)
Authors: Ashiqur Rahman, Md. Abu Sayed, Md Sharjis Ibne Wadud, Md. Abu Asad Al-Hafiz, Adam Mushtak, Muhammad E. H. Chowdhury
Subjects: eess.IV; cs.AI; cs.CV
Tags: Medical Imaging, Image Segmentation
Summary: 本文提出了一种双阶段深度学习框架，用于从冠状面MRE图像中分割十个胃肠道器官。该框架通过粗到细的器官感知分割策略，实现了88.99%的平均DSC，显著改善了所有胃肠道结构的分割性能。

[343] The Topological Trouble With Transformers

arXiv: 2604.17121 (cross-listed)
Authors: Michael C. Mozer, Shoaib Ahmed Siddiqui, Rosanne Liu
Subjects: cs.LG; cs.AI
Tags: Transformer Architecture, State Space Model, Foundation Model
Summary: 本文分析了Transformer在动态状态跟踪方面的根本限制，指出其纯前馈架构难以维护顺序依赖。作者引入了循环和连续思维Transformer架构的分类法，并提出了增强状态空间模型等研究方向。

[344] CASCADE: A Cascaded Hybrid Defense Architecture for Prompt Injection Detection in MCP-Based Systems

arXiv: 2604.17125 (cross-listed)
Authors: İpek Abasıkeleş Turgut, Edip Gümüş
Subjects: cs.CR; cs.AI
Tags: Prompt Injection, LLM Security, Cybersecurity
Summary: 本文提出了CASCADE，一个三层级联防御架构，用于MCP系统中的提示注入检测。该系统在5000个样本上实现了95.85%的精确率和74.59%的F1分数，且完全本地运行，无需外部API调用。

[345] The Consensus Trap: Rescuing Multi-Agent LLMs from Adversarial Majorities via Token-Level Collaboration

arXiv: 2604.17139 (cross-listed)
Authors: Jiayuan Liu, Shiyi Du, Weihua Du, Mingyu Guo, Vincent Conitzer
Subjects: cs.CL; cs.AI; cs.MA
Tags: Multi-Agent System, LLM Security, LLM Reasoning
Summary: 本文揭示了多智能体LLM系统中响应级聚合的结构性漏洞：当被腐蚀的智能体形成多数时，投票机制会崩溃。作者提出了Token级轮询协作方法，证明诚实模型的恢复力可以压倒对抗性腐蚀，即使被腐蚀智能体占多数。

[346] From Legal Text to Executable Decision Models: Evaluating Structured Representations for Legal Decision Model Generation

arXiv: 2604.17153 (cross-listed)
Authors: David Graus
Subjects: cs.CL; cs.AI
Tags: Legal AI, Code Generation, Knowledge Extraction
Venue: ICAIL 2026
Summary: 本文研究了中间结构化表示是否能改善从法律文本生成可执行决策模型的LLM能力。研究发现I/O约束提供了主导性改进（比基线高37-54%相似度），生成的模型在51-53%的测试场景上与黄金标准匹配。

[347] Systematic Capability Benchmarking of Frontier Large Language Models for Offensive Cyber Tasks

arXiv: 2604.17159 (cross-listed)
Authors: Tyler H. Merves, Michael H. Conaway, Joseph M. Escobar, Hakan T. Otal, Unal Tatar
Subjects: cs.CR; cs.AI; cs.CL
Tags: Cybersecurity, LLM Evaluation, Benchmark
Summary: 本文对10个前沿LLM在NYU CTF Bench的200个挑战上进行了全面的跨模型评估，这是迄今为止最全面的LLM攻击性网络安全任务评估。研究发现环境工具和模型选择是性能的主要驱动因素，Claude 4.5 Opus达到最高解决率59%。

[348] CCCL: In-GPU Compression-Coupled Collective Communication

arXiv: 2604.17172 (cross-listed)
Authors: Chon Lam Lao, Zhiying Xu, Zhuang Wang, Ziming Mao, Delong Meng, Jia Zhen, Jun Wu, Ion Stoica, Yida Wang, Yang Zhou
Subjects: cs.DC; cs.AI
Tags: GPU Computing, Distributed Training, LLM Inference
Summary: 本文提出了CCCL，一个内置压缩的集合通信库，支持allreduce、alltoall和send/recv操作，无需用户端修改。评估显示CCCL将vLLM PD分离工作负载的端到端吞吐量提高了高达10.1%。

[349] RosettaSearch: Multi-Objective Inference-Time Search for Protein Sequence Design

arXiv: 2604.17175 (cross-listed)
Authors: Meghana Kshirsagar, Allen Nie, Ching-An Cheng, Fanglei Xue, Rahul Dodhia, Juan Lavista Ferres, Kevin K. Yang, Frank DiMaio
Subjects: cs.LG; cs.AI; q-bio.BM
Tags: Protein Engineering, LLM Inference, Molecular Generation
Summary: 本文介绍了RosettaSearch，一种推理时多目标优化方法，用于蛋白质序列优化。该方法使用LLM作为生成优化器，在搜索算法中进行受控的探索和利用，在结构保真度指标上实现了18%到68%的改进。

[350] Intent-aligned Autonomous Spacecraft Guidance via Reasoning Models

arXiv: 2604.17176 (cross-listed)
Authors: Yuji Takubo, Simone D'Amico
Subjects: eess.SY; cs.AI; math.OC
Tags: Automated Planning, LLM Reasoning, Robotics
Venue: CVPR 2026 Workshop
Summary: 本文提出了一个意图对齐的航天器引导框架，通过显式的中间抽象将高级推理与安全轨迹优化连接起来。数值实验表明，该管道实现了超过90%的SCP收敛率，生成满足意图优先性能标准的轨迹比率比启发式决策高1.5倍。

[351] Decentralised Trust and Security Mechanisms for IoT Networks at the Edge: A Comprehensive Review

arXiv: 2604.17179 (cross-listed)
Authors: Khandoker Ashik Uz Zaman, Mahdi H. Miraz, Mohammed N. M. Ali
Subjects: cs.CR; cs.AI; cs.NI
Tags: IoT, Federated Learning, Survey
Summary: 本文综述了各种最先进的去中心化机制，评估其在边缘IoT网络安全方面的有效性。研究发现去中心化设计增强了隐私保护，减少了单点故障，但在可扩展性、效率和互操作性方面仍存在挑战。

[352] Layer-wise MoE Routing Locality under Shared-Prefix Code Generation: Token-Identity Decomposition and Compile-Equivalent Fork Redundancy

arXiv: 2604.17182 (cross-listed)
Authors: Shun-ichiro Hayashi, Daichi Mukunoki, Tetsuya Hoshino, Takahiro Katagiri
Subjects: cs.SE; cs.AI
Tags: Code Generation, Mixture-of-Experts, LLM Inference
Summary: 本文研究了共享前缀代码生成中MoE专家路由的重叠程度及其跨层变化。研究发现，在生成相同token的位置，Jaccard相似度达到0.649，而不同token位置仍保持0.175，揭示了层间路由模式的交叉特征。

[353] Persona-Based Requirements Engineering for Explainable Multi-Agent Educational Systems: A Scenario Simulator for Clinical Reasoning Training

arXiv: 2604.17186 (cross-listed)
Authors: Weibing Zheng, Laurah Turner, Jess Kropczynski, Matthew Kelleher, Murat Ozer, Shane Halse
Subjects: cs.SE; cs.AI; cs.ET; cs.HC; cs.MA
Tags: LLM Agent, Medical AI, Requirements Engineering
Venue: CSTE 2026
Code: code
Summary: 该论文提出了一个以人为本、角色驱动的可解释多智能体教育系统需求工程框架，并通过临床推理训练系统进行验证。调查显示超过78%的医学生认为该系统改善了他们的临床推理技能。

[354] Beyond Overlap Metrics: Rewarding Reasoning and Preferences for Faithful Multi-Role Dialogue Summarization

arXiv: 2604.17188 (cross-listed)
Authors: Xiaoyong Mei, Tingting Zuo, Da Chen, Guangyu Hu, Xiangyu Wen, Chao Duan, Mingyan Zhang, Fudan Zheng
Subjects: cs.CL; cs.AI
Tags: Summarization, LLM Reasoning, RLHF
Summary: 该论文提出了一种结合认知风格推理与奖励优化的多角色对话摘要框架，通过蒸馏推理痕迹和双原则奖励机制来提升摘要的事实一致性和人类偏好对齐。

[355] Demystifying the unreasonable effectiveness of online alignment methods

arXiv: 2604.17207 (cross-listed)
Authors: Enoch Hyunwook Kang
Subjects: cs.LG; cs.AI; cs.CC; cs.CL
Tags: LLM Alignment, RLHF, Deep Learning Theory
Summary: 该论文从理论角度分析了在线对齐方法（如在线RLHF和DPO）的有效性，证明了贪心在线对齐方法在温度为零的遗憾准则下能达到常数级别的累积遗憾。

[356] CDSA-Net:Collaborative Decoupling of Vascular Structure and Background for High-Fidelity Coronary Digital Subtraction Angiography

arXiv: 2604.17208 (cross-listed)
Authors: Si Li, Chen-Kai Hu, Zhenhuan Lyu, Yuanqing He
Subjects: cs.CV; cs.AI
Tags: Medical Imaging, Image Segmentation
Code: code
Summary: 该论文提出了CDSA-Net框架，首次显式解耦并联合优化血管结构保留和背景恢复，通过分层几何先验引导和自适应噪声模块实现高质量的冠状动脉数字减影血管造影。

[357] DREAM: Dynamic Retinal Enhancement with Adaptive Multi-modal Fusion for Expert Precision Medical Report Generation

arXiv: 2604.17209 (cross-listed)
Authors: Nagur Shareef Shaik, Teja Krishna Cherukuri, Dong Hye Ye
Subjects: cs.CV; cs.AI; eess.SP
Tags: Medical AI, Vision-Language Model, Report Generation
Venue: IEEE EMBC 2026
Summary: 该论文提出了DREAM框架，通过两阶段融合机制将视觉数据与临床关键词智能整合，在有限数据条件下实现高质量视网膜图像医学报告生成。

[358] Cross-Modal Attention Analysis and Optimization in Vision-Language Models: A Study on Visual Reliability

arXiv: 2604.17217 (cross-listed)
Authors: Lijie Zhou
Subjects: cs.CV; cs.AI
Tags: Vision-Language Model, Multimodal Learning
Summary: 该论文研究了视觉语言模型中的”文本捷径学习”现象，提出对抗性评估框架量化跨模态依赖，并通过优化策略将平均性能下降从27.5%降至9.8%。

[359] Dynamics of Cognitive Heterogeneity: Investigating Behavioral Biases in Multi-Stage Supply Chains with LLM-Based Simulation

arXiv: 2604.17220 (cross-listed)
Authors: Jiuyun Jiang, Yuecheng Hong, Bo Yang, Jin Yang, Guangxin Jiang, Xiaomeng Guo, Guang Xiao
Subjects: cs.MA; cs.AI
Tags: LLM Agent, Social Simulation, Decision Making
Venue: ACL 2026
Summary: 该论文使用大语言模型模拟多阶段供应链动态，研究认知异质性对智能体交互的影响，发现信息共享能有效缓解认知偏差导致的系统性低效问题。

[360] Region-Affinity Attention for Whole-Slide Breast Cancer Classification in Deep Ultraviolet Imaging

arXiv: 2604.17222 (cross-listed)
Authors: Nagur Shareef Shaik, Teja Krishna Cherukuri, Dong Hye Ye
Subjects: cs.CV; cs.AI; eess.SP
Tags: Medical Imaging, Image Classification
Venue: IEEE EMBC 2026
Summary: 该论文提出了一种针对深紫外全切片图像的乳腺癌分类方法，通过区域亲和注意力机制和对比损失增强特征区分性，在无需切片的情况下保持空间完整性。

[361] Enhancing Zero-shot Personalized Image Aesthetics Assessment with Profile-aware Multimodal LLM

arXiv: 2604.17233 (cross-listed)
Authors: Chun Wang, Chenfeng Wei, Chenyang Liu, Weihong Deng
Subjects: cs.CV; cs.AI
Tags: Vision-Language Model, Zero-Shot Learning, Image Quality Assessment
Summary: 该论文提出了P-MLLM框架，利用用户画像作为个性化图像美学评估的上下文信号，通过选择性融合模块实现零样本场景下的个性化美学预测。

[362] HeadRank: Decoding-Free Passage Reranking via Preference-Aligned Attention Heads

arXiv: 2604.17237 (cross-listed)
Authors: Juyuan Wang, Chenxing Wang, Yuchen Fang, Huiyun Hu, Junwu Du, Aolin Li, Haijun Wu, Jin Xu, Ligang Liu, Dongliang Liao
Subjects: cs.IR; cs.AI
Tags: Information Retrieval, LLM Alignment
Summary: 该论文提出了HeadRank框架，通过熵正则化头部选择和分布正则化器，在注意力域内实现偏好优化，解决了无解码重排序方法中的注意力分数同质化问题。

[363] DORA Explorer: Improving the Exploration Ability of LLMs Without Training

arXiv: 2604.17244 (cross-listed)
Authors: Priya Gurjar, Md Farhan Ishmam, Kenneth Marino
Subjects: cs.CL; cs.AI
Tags: LLM Agent, Reinforcement Learning
Summary: 该论文提出了DORA Explorer框架，通过生成多样化动作候选并使用token对数概率评分，在无需训练的情况下提升LLM智能体的探索能力。

[364] Seeing Isn't Believing: Mitigating Belief Inertia via Active Intervention in Embodied Agents

arXiv: 2604.17252 (cross-listed)
Authors: Hanlin Wang, Chak Tou Leong, Jian Wang, Wenjie Li
Subjects: cs.CL; cs.AI; cs.RO
Tags: Embodied AI, LLM Agent
Venue: ACL 2026 Findings
Code: code
Summary: 该论文提出了EVU机制来解决具身智能体的”信念惯性”问题，通过预测-验证-更新的方式主动管理信念状态，显著提升了任务成功率。

[365] REZE: Representation Regularization for Domain-adaptive Text Embedding Pre-finetuning

arXiv: 2604.17257 (cross-listed)
Authors: Seungmin Lee, Jeonghwan Lee, Hyunkuk Lim, Sejoon Kim, Mingi Sung
Subjects: cs.CL; cs.AI
Tags: Representation Learning, Transfer Learning, Domain Adaptation
Venue: ACL 2026
Summary: 该论文提出了REZE框架，通过在特征空间中分解锚点-正样本对关系并应用自适应软收缩，控制文本嵌入预微调过程中的表示偏移。

[366] HORIZON: A Benchmark for In-the-wild User Behaviour Modeling

arXiv: 2604.17259 (cross-listed)
Authors: Arnav Goel, Pranjal A Chitale, Bhawna Paliwal, Bishal Santra, Amit Sharma
Subjects: cs.IR; cs.AI; cs.CL
Tags: Benchmark, Recommender System
Venue: ACL 2026 Findings
Summary: 该论文提出了HORIZON基准测试，基于大规模跨域Amazon评论数据构建，涵盖5400万用户和3500万商品，用于评估真实世界用户行为建模。

[367] Fractal Characterization of Low-Correlation Signals in AI-Generated Image Detection

arXiv: 2604.17268 (cross-listed)
Authors: Wenwei Xie, Jie Yin, Lu Ma, Xuansong Zhang, Wenjing Zhang
Subjects: cs.CV; cs.AI
Tags: Deepfake Detection, Image Classification
Code: code
Summary: 该论文从信号层面分析了AI生成图像与真实照片的差异，提出基于分形理论量化低相关性信号的方法来检测AI生成图像。

[368] What Security and Privacy Transparency Users Need from Consumer-Facing Generative AI

arXiv: 2604.17270 (cross-listed)
Authors: Jiaxun Cao, Yu Dong, Chunxi Zhan, Rithvik Neti, Sai Teja Peddinti, Pardis Emami-Naeini
Subjects: cs.HC; cs.AI; cs.CR; cs.CY
Tags: AI Ethics, Privacy, Usability Evaluation
Summary: 该论文通过访谈和设计会议研究了用户对生成式AI安全和隐私透明度的需求，发现现有信息不完整、无效或缺乏可信度，并提出了五个维度的设计建议。

[369] Instinct vs. Reflection: Unifying Token and Verbalized Confidence in Multimodal Large Models

arXiv: 2604.17274 (cross-listed)
Authors: Yunkai Dang, Yifan Jiang, Yizhu Jiang, Anqi Chen, Wenbin Li, Yang Gao
Subjects: cs.CV; cs.AI
Tags: LLM Evaluation, Vision-Language Model, Uncertainty Estimation
Code: code
Summary: 本文研究了多模态大语言模型的置信度估计问题，发现模型隐式的token级置信度与语言化的自我评估置信度之间存在错位。作者提出了一种单调置信度融合框架来合并双通道信号，并通过跨通道一致性来估计正确性，从而改善校准和故障预测性能。

[370] Fully Analog Resonant Recurrent Neural Network via Metacircuit

arXiv: 2604.17277 (cross-listed)
Authors: Zixin Zhou, Tianxi Jiang, Menglong Yang, Zhihua Feng, Qingbo He, Shiwu Zhang
Subjects: cs.LG; cs.AI; cs.ET
Tags: Neuromorphic Computing, Edge Computing, Hardware Architecture
Summary: 本文提出了一种通过元电路架构实现的全模拟谐振循环神经网络，用于时间信息处理。该方法建立了神经网络模型与电路元件之间的直接映射，实现了对训练参数的精确物理实现，并在触觉感知、语音识别和状态监测等任务中展示了跨域通用性。

[371] HorizonBench: Long-Horizon Personalization with Evolving Preferences

arXiv: 2604.17283 (cross-listed)
Authors: Shuyue Stella Li, Bhargavi Paranjape, Kerem Oktar, Zhongyao Ma, Gelin Zhou, Lin Guan, Na Zhang, Sem Park, Lin Chen, Diyi Yang, Yulia Tsvetkov, Asli Celikyilmaz
Subjects: cs.CL; cs.AI
Tags: LLM Personalization, Benchmark, Long Context
Summary: 本文定义了长时程个性化问题，并构建了HorizonBench基准测试，包含360个模拟用户的6个月对话历史。研究发现现有模型在处理偏好演变时存在状态跟踪能力瓶颈，超过三分之一的错误是由于未能跟踪用户状态更新导致的。

[372] Clover: A Neural-Symbolic Agentic Harness with Stochastic Tree-of-Thoughts for Verified RTL Repair

arXiv: 2604.17288 (cross-listed)
Authors: Zizhang Luo, Yansong Xu, Runlin Guo, Fan Cui, Kexing Zhou, Mile Xia, Hongyuan Hou, Yuhao Luo, Yun Liang
Subjects: cs.AR; cs.AI
Tags: RTL Verification, LLM Agent, Neurosymbolic AI
Summary: 本文提出了Clover，一个神经符号代理框架，用于RTL程序修复。该框架通过随机思维树搜索机制和专业化代理调度，在固定时间限制内修复了96.8%的错误，比传统方法和纯LLM方法分别高出94%和63%的覆盖率。

[373] Probabilistic Programs of Thought

arXiv: 2604.17290 (cross-listed)
Authors: Poorva Garg, Renato Lui Geh, Daniel Israel, Todd Millstein, Kyle Richardson, Guy Van den Broeck
Subjects: cs.CL; cs.AI; cs.PL
Tags: Code Generation, LLM Inference, Mathematical Reasoning
Summary: 本文提出了概率思维程序框架，通过在生成的程序中暴露LLM的分布来获得更多样本，而无需额外的GPU计算。该方法将单个程序及其token概率转化为可表示指数级确定性程序的概率程序，在代码生成和数学推理任务上取得了性能提升。

[374] Cat-DPO: Category-Adaptive Safety Alignment

arXiv: 2604.17299 (cross-listed)
Authors: Tiankai Yang, Yi Nian, Xinyuan Li, Ruiyao Xu, Kaize Ding, Yue Zhao
Subjects: cs.CL; cs.AI
Tags: LLM Alignment, AI Safety
Summary: 本文将安全对齐建模为每类别约束优化问题，提出了Cat-DPO算法，为每个伤害类别设置独立的自适应安全边界。该方法在两个LLM骨干网络上改善了整体有用性和无害性，压缩了类别间的安全方差。

[375] Chaos-Enhanced Prototypical Networks for Few-Shot Medical Image Classification

arXiv: 2604.17300 (cross-listed)
Authors: Chinhtakuntla Meghan Sai, Murarisetty V Sai Kartheek, Sita Devi Bharatula, Karthik Seemakurthy
Subjects: eess.IV; cs.AI; cs.CV
Tags: Few-Shot Learning, Medical Imaging, Image Classification
Summary: 本文将逻辑斯谛混沌模块集成到原型网络中，用于少样本脑肿瘤分类。通过在训练过程中注入受控扰动来测试嵌入空间的稳定性，该方法在4路5_shot任务上达到了84.52%的测试准确率，优于标准原型网络。

[376] RoTRAG: Rule of Thumb Reasoning for Conversation Harm Detection with Retrieval-Augmented Generation

arXiv: 2604.17301 (cross-listed)
Authors: Juhyeon Lee, Wonduk Seo, Junseo Koh, Seunghyun Lee, Haihua Chen, Yi Bu
Subjects: cs.CL; cs.AI; cs.HC; cs.IR; cs.LG
Tags: RAG, Content Moderation, Dialogue System
Summary: 本文提出了RoTRAG框架，将人类编写的道德规范（经验法则）检索并融入LLM的多轮对话危害评估中。该方法在危害分类和严重程度估计上取得了约40%的F1相对提升，同时通过轻量级路由分类器减少了冗余计算。

[377] A Survey of Reinforcement Learning for Large Language Models under Data Scarcity: Challenges and Solutions

arXiv: 2604.17312 (cross-listed)
Authors: Zhiyin Yu, Yuchen Mou, Juncheng Yan, Junyu Luo, Chunchun Chen, Xing Wei, Yunhui Liu, Hongru Sun, Yuxing Zhang, Jun Xu, Yatao Bian, Ming Zhang, Wei Ye, Tieke He, Jie Yang, Guanjie Zheng, Zhonghai Wu, Bo Zhang, Lei Bai, Xiao Luo
Subjects: cs.LG; cs.AI
Tags: RLHF, Survey, LLM Training
Venue: ACL 2026
Summary: 本综述首次系统回顾了数据稀缺条件下LLM的强化学习，提出了从数据中心、训练中心和框架中心三个互补视角构建的层次化框架，总结了现有方法的分类、代表性方法及其优缺点。

[378] Calibrated? Not for Everyone: How Sexual Orientation and Religious Markers Distort LLM Accuracy and Confidence in Medical QA

arXiv: 2604.17316 (cross-listed)
Authors: Alberto Testoni, Iacer Calixto
Subjects: cs.CL; cs.AI
Tags: LLM Evaluation, Fairness, Medical AI
Venue: ACL 2026
Summary: 本文研究了患者的社会描述符（性取向和宗教信仰）如何扭曲LLM在医学问答中的准确性和置信度校准。研究发现身份标记导致校准危机，同性恋标记持续触发性能下降，交叉身份产生非加性伤害。

[379] SigGate-GT: Taming Over-Smoothing in Graph Transformers via Sigmoid-Gated Attention

arXiv: 2604.17324 (cross-listed)
Authors: Dongxin Guo, Jikun Wu, Siu Ming Yiu
Subjects: cs.LG; cs.AI
Tags: Graph Neural Network, Graph Learning
Summary: 本文提出了SigGate-GT图Transformer，通过sigmoid门控注意力机制解决过平滑问题。该方法在ZINC数据集上匹配最佳结果，在ogbg-molhiv上创造新SOTA（82.47% ROC-AUC），并将过平滑减少30%。

[380] Signal or Noise in Multi-Agent LLM-based Stock Recommendations?

arXiv: 2604.17327 (cross-listed)
Authors: George Fatouros, Kostas Metaxas
Subjects: q-fin.PM; cs.AI; q-fin.ST
Tags: Multi-Agent System, Quantitative Finance, LLM Evaluation
Summary: 本文对MarketSenseAI多代理LLM股票推荐系统进行了首次投资组合级验证。在S&P 500队列中，强买入组合月收益+2.18%，超过被动基准+1.03%，蒙特卡洛排名99.7百分位，表明多代理LLM系统能识别传统因子模型无法捕获的alpha来源。

[381] Rethinking the Comparison Unit in Sequence-Level Reinforcement Learning: An Equal-Length Paired Training Framework from Loss Correction to Sample Construction

arXiv: 2604.17328 (cross-listed)
Authors: Fei Ding, Yongkang Zhang, Runhao Liu, Yuhao Liao, Zijian Zeng, Huiming Yang, Sibo wang, Linglin Liao
Subjects: cs.LG; cs.AI
Tags: RLHF, LLM Training
Summary: 本文重新审视序列级强化学习中的长度问题，提出将其视为比较单元构建问题而非损失缩放问题。作者提出了EqLen框架，通过双轨同步生成、前缀继承和片段掩码主动构建等长、可对齐、可比较的训练片段。

[382] Robust Diabetic Retinopathy Grading Using Dual-Resolution Attention-Based Deep Learning with Ordinal Regression

arXiv: 2604.17341 (cross-listed)
Authors: Afshan Hashmi
Subjects: cs.CV; cs.AI
Tags: Medical Imaging, Image Classification, Transfer Learning
Summary: 本文提出了一种用于糖尿病视网膜病变分级的鲁棒双分辨率深度学习框架，结合注意力特征融合和序数回归来改善跨数据集泛化。该方法在APTOS验证集上达到0.88的QWK，在外部Messidor-2测试集上达到0.68。

[383] Still Between Us? Evaluating and Improving Voice Assistant Robustness to Third-Party Interruptions

arXiv: 2604.17358 (cross-listed)
Authors: Dongwook Lee, Eunwoo Song, Che Hyun Lee, Heeseung Kim, Sungroh Yoon
Subjects: cs.CL; cs.AI; cs.SD
Tags: Speech Processing, Dialogue System, Benchmark
Venue: ACL 2026
Summary: 本文引入了TPI-Train数据集和TPI-Bench评估框架，用于评估语音助手对第三方中断的鲁棒性。数据集设计缓解了语义捷径学习问题，使模型能够优先利用声学线索来识别说话者变化。

[384] PsychBench: Auditing Epidemiological Fidelity in Large Language Model Mental Health Simulations

arXiv: 2604.17359 (cross-listed)
Authors: Patrick Keough
Subjects: cs.CY; cs.AI
Tags: LLM Evaluation, Medical AI, Benchmark
Summary: 本文引入PsychBench，首个LLM患者模拟的流行病学审计基准。研究发现模型存在连贯性-保真度分离：虽然生成临床合理的个体，但错误代表了其所来自的人群，方差压缩从14%到62%不等。

[385] ArgBench: Benchmarking LLMs on Computational Argumentation Tasks

arXiv: 2604.17366 (cross-listed)
Authors: Yamen Ajjour, Carlotta Quensel, Nedim Lipka, Henning Wachsmuth
Subjects: cs.CL; cs.AI
Tags: LLM Evaluation, Benchmark
Summary: 本文创建了首个用于评估LLM计算论证能力的基准测试ArgBench，涵盖33个数据集和46个任务，包括论证挖掘、观点评估、论证质量评估、论证推理和论证生成。

[386] When Text Hijacks Vision: Benchmarking and Mitigating Text Overlay-Induced Hallucination in Vision Language Models

arXiv: 2604.17375 (cross-listed)
Authors: Cui Yakun, Xingqun Qi, TianTian Geng, Yuyao Zhang, Sirui Han, Yike Guo
Subjects: cs.CV; cs.AI
Tags: LLM Hallucination, Vision-Language Model, Benchmark
Summary: 本文识别了视觉语言模型中一个关键问题：当屏幕文字与视觉场景矛盾时，模型会产生系统性幻觉。作者提出了VisualTextTrap基准测试和VTHM-MoE框架来评估和缓解这种文本叠加诱导的幻觉现象。

[387] Towards Generalizable Deepfake Image Detection with Vision Transformers

arXiv: 2604.17376 (cross-listed)
Authors: Kaliki V Srinanda, M Manvith Prabhu, Hemanth K Mogilipalem, Jayavarapu S Abhinai, Vaibhav Santhosh, Aryan Herur, Deepu Vijayasenan
Subjects: cs.CV; cs.AI; cs.LG; eess.IV
Tags: Deepfake Detection, Vision Transformer
Venue: ICASSP 2025
Summary: 本文提出了一种基于视觉Transformer集成的方法来检测深度伪造图像，在DF-Wild数据集上实现了96.77%的AUC，获得了IEEE SP Cup 2025冠军。

[388] Study and Improvement of Search Algorithms in Multi-Player Perfect-Information Games

arXiv: 2604.17378 (cross-listed)
Authors: Quentin Cohen-Solal
Subjects: cs.GT; cs.AI
Tags: Game AI
Summary: 本文将Unbounded Minimax算法从双人博弈推广到多人完美信息博弈，实验证明该泛化算法在多人博弈搜索中表现优于现有主流算法。

[389] MESA: A Training-Free Multi-Exemplar Deep Framework for Restoring Ancient Inscription Textures

arXiv: 2604.17390 (cross-listed)
Authors: Vasileios Toulatzis, Ioannis Fudos
Subjects: cs.CV; cs.AI; cs.GR
Tags: Image Reconstruction, Cultural Heritage
Summary: 本文提出了MESA，一种无需训练的多样本图像修复方法，利用保存完好的铭文样本通过VGG19卷积特征引导古代铭文纹理的重建。

[390] Speculative Decoding for Autoregressive Video Generation

arXiv: 2604.17397 (cross-listed)
Authors: Yuezhou Hu, Jintao Zhang
Subjects: cs.CV; cs.AI
Tags: Speculative Decoding, Video Generation
Summary: 本文提出了SDVG框架，将推测解码应用于自回归视频生成，通过图像质量路由器进行块验证，在保持95.7%质量的同时实现高达2.09倍的加速。

[391] DuConTE: Dual-Granularity Text Encoder with Topology-Constrained Attention for Text-attributed Graphs

arXiv: 2604.17411 (cross-listed)
Authors: Lexuan Liang, Tao Zou, Xuxiang Ta, Zekun Qiu
Subjects: cs.CL; cs.AI
Tags: Graph Neural Network, Text Classification
Summary: 本文提出了DuConTE，一种具有拓扑约束注意力的双粒度文本编码器，通过级联预训练语言模型在词粒度和节点粒度编码语义，并结合图结构信息。

[392] The Open-Weight Paradox: Why Restricting Access to AI Models May Undermine the Safety It Seeks to Protect

arXiv: 2604.17413 (cross-listed)
Authors: Vinicius Santana Gomes
Subjects: cs.CY; cs.AI
Tags: AI Governance, AI Safety
Summary: 本文论证了限制开源AI模型访问可能转移而非降低风险，提出了基于硬件层的治理机制和多边制度架构作为替代方案。

[393] Reward Score Matching: Unifying Reward-based Fine-tuning for Flow and Diffusion Models

arXiv: 2604.17415 (cross-listed)
Authors: Jeongjae Lee, Jinho Chang, Jeongsol Kim, Jong Chul Ye
Subjects: cs.LG; cs.AI; cs.CV
Tags: Diffusion Model, Reinforcement Learning
Summary: 本文将多种基于奖励的扩散模型微调方法统一到奖励分数匹配(RSM)框架下，阐明了偏差-方差-计算权衡，并开发了更简单高效的对齐方法。

[394] Project resilience as network robustness

arXiv: 2604.17417 (cross-listed)
Authors: Sebastiano A. Piccolo, Giorgio Terracina
Subjects: cs.SE; cs.AI; eess.SY
Tags: Risk Analysis
Summary: 本文从网络鲁棒性角度提出了一种评估项目对关键人员流失脆弱性的新方法，相比现有方法能提供更准确一致的项目韧性估计。

[395] TransXion: A High-Fidelity Graph Benchmark for Realistic Anti-Money Laundering

arXiv: 2604.17420 (cross-listed)
Authors: Keyang Chen, Mingxuan Jiang, Yongsheng Zhao, Zeping Li, Zaiyuan Chen, Weiqi Luo, Zhixin Li, Sen Liu, Yinan Jing, Guangnan Ye, Xihong Wu, Hongfeng Chai
Subjects: cs.LG; cs.AI; cs.SI
Tags: Graph Neural Network, Benchmark, Financial AI
Code: code
Summary: 本文提出了TransXion，一个用于反洗钱研究的高保真图基准，结合配置文件感知的正常活动模拟和随机非模板的非法模式合成，创建更真实的数据集。

[396] Long-CODE: Isolating Pure Long-Context as an Orthogonal Dimension in Video Evaluation

arXiv: 2604.17428 (cross-listed)
Authors: Zhijiang Tang, Jiaxin Qi, Bing Zhao, Jianqiang Huang
Subjects: cs.CV; cs.AI
Tags: Video Generation, Benchmark, Long Context
Summary: 本文提出了Long-CODE框架，将长上下文特性作为与短视频评估正交的独立维度，设计了基于镜头动态的新指标和专门数据集来评估长视频生成模型。

[397] Jupiter-N Technical Report

arXiv: 2604.17429 (cross-listed)
Authors: George Drayson
Subjects: cs.CL; cs.AI
Tags: LLM Reasoning, LLM Alignment, LLM Personalization
Summary: 本文介绍了Jupiter-N，一个从Nemotron 3 Super后训练得到的混合推理模型，专注于智能体能力、英国文化对齐和威尔士语支持，在多项任务上取得显著提升。

[398] Self-Consistency from Only Two Samples: CoT-PoT Ensembling for Efficient LLM Reasoning

arXiv: 2604.17433 (cross-listed)
Authors: Raman Saparkhan, Majd Hawasly, Md Rizwan Parvez, Mohammad Raza
Subjects: cs.CL; cs.AI; cs.LG
Tags: LLM Reasoning, Prompt Engineering
Venue: ACL 2026
Summary: 本文提出了一种结合思维链和思维程序的混合集成方法，将自一致性所需的样本数减少9.3倍，使78.6%的任务仅需两个样本即可解决。

[399] MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation

arXiv: 2604.17435 (cross-listed)
Authors: Szu-Chi Chen, I-Ning Tsai, Yi-Cheng Lin, Sung-Feng Huang, Hung-yi Lee
Subjects: cs.CL; cs.AI; cs.SD; eess.AS
Tags: Machine Translation, Speech Processing, Mixture-of-Experts
Summary: 本文提出了MoVE，一种用于语音到语音翻译的混合LoRA专家架构，能够保留笑声和哭泣等非语言发声，在76%的情况下成功重现目标发声。

[400] Beyond the Bellman Fixed Point: Geometry and Fast Policy Identification in Value Iteration

arXiv: 2604.17457 (cross-listed)
Authors: Donghwan Lee
Subjects: math.OC; cs.AI; eess.SY
Tags: Reinforcement Learning, Optimization
Summary: 本文从切换系统理论角度分析Q值迭代，证明了最优动作类可在有限时间内被识别，揭示了Q-VI的两阶段几何行为特征。

[401] Agentic Education: Using Claude Code to Teach Claude Code

arXiv: 2604.17460 (cross-listed)
Authors: Zain Naboulsi
Subjects: cs.CY; cs.AI; cs.HC; cs.SE
Tags: Education Technology, LLM Agent, Code Generation
Code: code
Summary: 本文提出了cc-self-train，一个模块化的交互式课程系统，用于学习Claude Code这一代理式AI编程工具。该系统引入了角色渐进模型、自适应学习系统、跨领域统一课程、步调机制和自动更新课程设计等五项贡献，试点评估显示参与者在所有10个技能领域均有显著的自我效能提升。

[402] Project Prometheus: Bridging the Intent Gap in Agentic Program Repair via Reverse-Engineered Executable Specifications

arXiv: 2604.17464 (cross-listed)
Authors: Yongchao Wang, Zhiqiu Huang
Subjects: cs.SE; cs.AI
Tags: Program Repair, LLM Agent, Code Generation
Summary: 本文提出了Prometheus框架，通过行为驱动开发(BDD)从运行时故障报告中逆向工程可执行规范，以弥合自动程序修复中的意图差距。该方法在Defects4J基准测试上实现了93.97%的正确补丁率，并成功修复了119个复杂bug。

[403] Dual-Anchoring: Addressing State Drift in Vision-Language Navigation

arXiv: 2604.17473 (cross-listed)
Authors: Kangyi Wu, Pengna Li, Kailin Lyu, Lin Zhao, Qingrong He, Jinjun Wang, Jianyi Liu
Subjects: cs.CV; cs.AI
Tags: Vision-Language Model, Embodied AI, Robotics
Summary: 本文提出了双锚定框架来解决视觉语言导航中的状态漂移问题，包括指令进度锚定和记忆地标锚定两个组件。该方法在长距离轨迹上实现了15.2%的成功率提升和24.7%的显著增益。

[404] A Probabilistic Consensus-Driven Approach for Robust Counterfactual Explanations

arXiv: 2604.17494 (cross-listed)
Authors: Marcin Kostrzewa, Maciej Zięba, Jerzy Stefanowski
Subjects: cs.LG; cs.AI
Tags: Explainable AI, Interpretability
Summary: 本文提出了一种新的方法来生成鲁棒的反事实解释，通过模型集成的概率共识训练条件归一化流，确保解释在模型变化时保持有效。该方法通过单一可解释参数控制鲁棒性级别，无需重新训练生成模型。

[405] Generative AI Technologies, Techniques & Tensions: A Primer

arXiv: 2604.17497 (cross-listed)
Authors: John T. Behrens
Subjects: cs.CY; cs.AI; cs.HC
Tags: Foundation Model, AI Ethics
Summary: 本章从历史视角讨论大型语言模型，将生成式AI分解为数据、模型、产品特性和用户输入等交互组件，分析各组件带来的可能性和张力。文章旨在为教育研究者提供概念框架，支持更明智的实验和负责任的使用。

[406] RS-HyRe-R1: A Hybrid Reward Mechanism to Overcome Perceptual Inertia for Remote Sensing Images Understanding

arXiv: 2604.17504 (cross-listed)
Authors: Gaozhi Zhou, Hu He, Peng Shen, Jipeng Zhang, Liujue Zhang, Linrui Xu, Zeyuan Wang, Ziyu Li, Xuezhi Cui, Wang Guo, Haifeng Li
Subjects: cs.CV; cs.AI
Tags: Remote Sensing, Vision-Language Model, Reinforcement Learning
Code: code
Summary: 本文提出了RS-HyRe-R1混合奖励框架来解决遥感图像理解中的感知惯性问题，引入空间推理激活奖励、感知正确性奖励和视觉语义路径演化奖励三种机制。该方法在REC、OVD和VQA任务上达到了最先进性能。

[407] Learning Unanimously Acceptable Lotteries via Queries

arXiv: 2604.17505 (cross-listed)
Authors: Davin Choo, Paul W. Goldberg, Nicholas Teh
Subjects: cs.GT; cs.AI; cs.LG; cs.MA
Tags: Decision Making, Fairness
Summary: 本文研究了一种查询模型，用于寻找所有利益相关者都接受的彩票方案。作者提供了确定性和随机化算法来找到一致可接受的彩票或证明不可行性，并给出了最坏情况下的下界和学习增强算法。

[408] Atomic Decision Boundaries: A Structural Requirement for Guaranteeing Execution-Time Admissibility in Autonomous Systems

arXiv: 2604.17511 (cross-listed)
Authors: Marcelo Fernandez
Subjects: cs.LO; cs.AI; cs.CR
Tags: AI Safety, Formal Methods
Summary: 本文引入原子决策边界作为自治系统准入控制的结构特性，证明在并发环境下，只有当评估和状态转换作为单一不可分割步骤耦合时，才能保证执行时的可准入性。这一限制是结构性的，而非策略表达或状态可用性问题。

[409] OPSDL: On-Policy Self-Distillation for Long-Context Language Models

arXiv: 2604.17535 (cross-listed)
Authors: Xinsen Zhang, Zhenkai Ding, Tianjun Pan, Run Yang, Chun Kang, Xue Xiong, Jingnan Gu
Subjects: cs.CL; cs.AI
Tags: Long Context, Knowledge Distillation, LLM Training
Summary: 本文提出了OPSDL方法，利用模型自身的短上下文能力作为自教师来监督长上下文场景下的生成。该方法通过逐点反向KL散度提供密集的token级监督信号，在长上下文基准测试上实现了持续显著的改进。

[410] SVL: Goal-Conditioned Reinforcement Learning as Survival Learning

arXiv: 2604.17551 (cross-listed)
Authors: Franki Nguimatsia Tiofack, Fabian Schramm, Théotime Le Hellard, Justin Carpentier
Subjects: cs.LG; cs.AI
Tags: Reinforcement Learning, Model-Based RL
Summary: 本文提出了生存价值学习(SVL)，将目标条件强化学习重新构建为生存学习问题，通过将到达目标的时间建模为概率分布。这种结构化的分布蒙特卡洛视角在离线GCRL基准测试上表现出色，尤其在复杂长距离任务上表现优异。

[411] Causal-Temporal Event Graphs: A Formal Model for Recursive Agent Execution Traces

arXiv: 2604.17557 (cross-listed)
Authors: Simon Foldvik
Subjects: cs.LO; cs.AI
Tags: LLM Agent, Formal Methods, Knowledge Representation
Summary: 本文引入因果时序事件图(CTEG)作为递归代理执行记录的形式化模型，证明CTEG构成具有严格递增时间戳的有根树状结构。该形式化支持从局部代理行为组合构建全局良构执行轨迹，并兼容密码学Merkle树承诺进行防篡改验证。

[412] PBSBench: A Multi-Level Vision-Language Framework and Benchmark for Hematopathology Whole Slide Image Interpretation

arXiv: 2604.17570 (cross-listed)
Authors: Yuanlong Wang, Weichi Chen, Adrian Rajab, Wenfang Liu, Yulan Jin, Andrew Srisuwananukorn, Ping Zhang
Subjects: cs.CV; cs.AI
Tags: Medical AI, Vision-Language Model, Benchmark
Venue: CVPR 2026
Summary: 本文构建了PBSInstr，首个用于外周血涂片解释的视觉语言数据集，包含353个全切片图像和29k个细胞级图像裁剪标注。基于此开发了PBS-VL视觉语言模型和PBSBench评估基准，在血液病理学多级解释任务上超越了现有模型。

[413] How Much Data is Enough? The Zeta Law of Discoverability in Biomedical Data, featuring the enigmatic Riemann zeta function

arXiv: 2604.17581 (cross-listed)
Authors: Paul M. Thompson
Subjects: cs.LG; cs.AI; q-bio.NC
Tags: Medical AI, Deep Learning Theory, Representation Learning
Summary: 本文提出了一个基于数据协方差算子谱结构的跨模态可发现性缩放定律框架，表明性能指标遵循由协方差谱幂律衰减支配的类zeta缩放定律。该框架可预测简单模型在小样本下表现最佳，而高容量或多模态编码器在数据充足时更优的交叉区域。

[414] DGSSM: Diffusion guided state-space models for multimodal salient object detection

arXiv: 2604.17585 (cross-listed)
Authors: Suklav Ghosh, Arijit Sur, Pinaki Mitra
Subjects: cs.CV; cs.AI; cs.LG
Tags: Image Segmentation, Diffusion Model, Multimodal Learning
Venue: ICPR 2026
Summary: 本文提出了DGSSM框架，将多模态显著目标检测建模为渐进去噪过程，整合扩散结构先验与多尺度状态空间编码、自适应显著性提示和迭代Mamba扩散细化机制。该方法在13个公共基准测试上持续超越最先进方法。

[415] AIRA: AI-Induced Risk Audit: A Structured Inspection Framework for AI-Generated Code

arXiv: 2604.17587 (cross-listed)
Authors: William M. Parris
Subjects: cs.SE; cs.AI
Tags: Code Generation, LLM Security, Software Testing
Summary: 本文引入了奖励塑造失败假说，提出AIRA确定性检查框架用于检测AI生成代码中的失败不真实模式。实证研究表明，AI生成文件的高严重性发现数量是人类控制文件的1.80倍，在异常处理相关模式中最为集中。

[416] Terminal Wrench: A Dataset of 331 Reward-Hackable Environments and 3,632 Exploit Trajectories

arXiv: 2604.17596 (cross-listed)
Authors: Ivan Bercovich, Ivgeni Segal, Kexun Zhang, Shashwat Saxena, Aditi Raghunathan, Ziqian Zhong
Subjects: cs.CR; cs.AI
Tags: LLM Agent, AI Safety, Benchmark
Code: code
Summary: 本文发布了Terminal Wrench数据集，包含331个可被奖励黑客攻击的终端代理基准环境和3,632条利用轨迹。研究还表明，当移除思维链时，检测性能会显著下降（AUC从0.97降至0.92）。

[417] Polarization and Integration in Global AI Research

arXiv: 2604.17602 (cross-listed)
Authors: Luca Gallo, Riccardo Di Clemente, Balázs Lengyel
Subjects: cs.AI
Tags: Citation Analysis, Science Policy
Summary: 本文通过大规模科学出版物数据测量了三十年间全球AI研究中的极化与整合过程，发现美中两国在合作和引用方面长期分化形成两极，而发展中国家主要与中国整合，表明中国在国际AI研究格局中的影响力不断扩大。

[418] STEP-PD: Stage-Aware and Explainable Parkinson's Disease Severity Classification Using Multimodal Clinical Assessments

arXiv: 2604.17611 (cross-listed)
Authors: Md Mezbahul Islam, John Michael Templeton, Christian Poellabauer, Ananda Mohan Mondal
Subjects: cs.LG; cs.AI
Tags: Medical AI, Interpretability
Venue: ICHI 2026
Summary: 本文提出STEP-PD框架，利用多模态临床评估数据对帕金森病严重程度进行分类，结合XGBoost和SHAP可解释性分析，在PPMI数据集上实现了高精度的三分类任务。

[419] Provable Coordination for LLM Agents via Message Sequence Charts

arXiv: 2604.17612 (cross-listed)
Authors: Benedikt Bollig, Matthias Függer, Thomas Nowak
Subjects: cs.PL; cs.AI
Tags: LLM Agent, Multi-Agent System
Summary: 本文引入一种基于消息序列图的领域特定语言来规范LLM多智能体系统的协调，可从全局协调规范生成无死锁的本地智能体程序，实现独立于LLM非确定性的协调属性保证。

[420] On The Mathematics of the Natural Physics of Optimization

arXiv: 2604.17645 (cross-listed)
Authors: I. M. Ross
Subjects: math.OC; cs.AI; cs.LG; math.NA
Tags: Optimization
Venue: JNVA 2026
Summary: 本文提出优化算法可被视为遵循某些通用非牛顿动力学的隐藏算法原语的体现，通过将最优控制问题的终端横截条件等价于优化问题的KKT条件，建立了优化算法的”自然物理学”理论框架。

[421] Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation

arXiv: 2604.17656 (cross-listed)
Authors: Vaibhavi Lokegaonkar, Aryan Vijay Bhosale, Vishnu Raj, Gouthaman KV, Ramani Duraiswami, Lie Lu, Sreyan Ghosh, Dinesh Manocha
Subjects: cs.SD; cs.AI; cs.CL; cs.CV; cs.LG
Tags: Music Generation, Diffusion Model, Multimodal Learning
Summary: 本文提出Video-Robin视频配乐生成模型，结合自回归规划与扩散合成，通过语义对齐视觉和文本输入生成高质量音乐，在推理速度上比SOTA快2.21倍。

[422] Semantic Density Effect (SDE): Maximizing Information Per Token Improves LLM Accuracy

arXiv: 2604.17659 (cross-listed)
Authors: Amr Ahmed
Subjects: cs.CL; cs.AI
Tags: Prompt Engineering, LLM Evaluation
Summary: 本文发现语义密度效应（SDE），即每个token携带更高语义信息的提示在所有主要LLM家族中都能产生更准确、更聚焦且更少幻觉的输出，超高密度提示平均提升8.4个百分点。

[423] ATLAS: Constitution-Conditioned Latent Geometry and Redistribution Across Language Models and Neural Perturbation Data

arXiv: 2604.17663 (cross-listed)
Authors: Gareth Seneque, Lap-Hang Ho, Nafise Erfanian Saeedi, Jeffrey Molendijk, Tim Elson
Subjects: cs.LG; cs.AI; cs.CL
Tags: LLM Alignment, Representation Learning
Summary: 本文提出ATLAS框架，通过几何优先的方法追踪宪法条件化后训练在模型中表示几何的结构性扰动，发现可恢复的潜在几何结构可在模型和基底变化中保持可检测性。

[424] Towards Intelligent Legal Document Analysis: CNN-Driven Classification of Case Law Texts

arXiv: 2604.17674 (cross-listed)
Authors: Moinul Hossain, Sourav Rabi Das, Zikrul Shariar Ayon, Sadia Afrin Promi, Ahnaf Atef Choudhury, Shakila Rahman, Jia Uddin
Subjects: cs.CL; cs.AI
Tags: Legal AI, Text Classification
Summary: 本文提出一个轻量高效的案例法文本分类框架，结合词形还原预处理、FastText嵌入和多核一维CNN，在25,000份法律文档上达到97.26%的分类准确率，超越BERT等基线模型。

[425] SafeAnchor: Preventing Cumulative Safety Erosion in Continual Domain Adaptation of Large Language Models

arXiv: 2604.17691 (cross-listed)
Authors: Dongxin Guo, Jikun Wu, Siu Ming Yiu
Subjects: cs.LG; cs.AI
Tags: LLM Alignment, Continual Learning, AI Safety
Summary: 本文提出SafeAnchor框架，通过识别LoRA参数空间中的低秩安全子空间并约束梯度更新，在LLM持续领域适应过程中防止安全对齐的累积性侵蚀，保留93.2%的原始安全对齐。

[426] CAPO: Counterfactual Credit Assignment in Sequential Cooperative Teams

arXiv: 2604.17693 (cross-listed)
Authors: Shripad Deshmukh, Jayakumar Subramanian, Raghavendra Addanki, Nikos Vlassis
Subjects: cs.LG; cs.AI; cs.MA
Tags: Multi-Agent System, Reinforcement Learning
Summary: 本文引入序列贵族效用（SeqAU）和CAPO算法，解决顺序合作团队中的反事实信用分配问题，无需额外环境调用即可计算每个智能体的优势函数。

[427] WISV: Wireless-Informed Semantic Verification for Distributed Speculative Decoding in Device-Edge LLM Inference

arXiv: 2604.17701 (cross-listed)
Authors: Zixuan Liu, Zhiyong Chen, Nan Xue, Shengkang Chen, Jiangchao Yao, Meixia Tao, Wenjun Zhang
Subjects: cs.IT; cs.AI
Tags: Speculative Decoding, LLM Inference, Edge Computing
Summary: 本文提出WISV框架，通过信道感知的语义接受策略改进分布式推测解码，在设备-边缘LLM推理中实现高达60.8%的接受长度提升和31.4%的端到端延迟改善。

[428] Before You Interpret the Profile: Validity Scaling for LLM Metacognitive Self-Report

arXiv: 2604.17707 (cross-listed)
Authors: Jon-Paul Cacioli
Subjects: cs.CL; cs.AI
Tags: LLM Evaluation, Uncertainty Estimation
Code: code
Summary: 本文将临床人格评估中的效度量表框架应用于LLM元认知探测数据，定义了六个效度指标来识别有效和无效的模型配置文件，发现思维链训练会产生两种相反的响应扭曲。

[429] Screen Before You Interpret: A Portable Validity Protocol for Benchmark-Based LLM Confidence Signals

arXiv: 2604.17714 (cross-listed)
Authors: Jon-Paul Cacioli
Subjects: cs.CL; cs.AI
Tags: LLM Evaluation, Uncertainty Estimation
Code: code
Summary: 本文将临床人格评估的效度筛选原则转化为适用于基准测试LLM置信度数据的便携式协议，定义了三层分类系统来验证置信度信号是否携带项目级信息。

[430] Concurrent Criterion Validation of a Validity Screen for LLM Confidence Signals via Selective Prediction

arXiv: 2604.17716 (cross-listed)
Authors: Jon-Paul Cacioli
Subjects: cs.CL; cs.AI; cs.LG
Tags: LLM Evaluation, Uncertainty Estimation
Summary: 本文验证了效度筛选分类对选择性预测性能的预测能力，发现有效模型的Type 2 AUROC平均为0.624，而无效模型仅为0.357，三层分类解释了47%的AUROC方差。

[431] GeGS-PCR: Effective and Robust 3D Point Cloud Registration with Two-Stage Color-Enhanced Geometric-3DGS Fusion

arXiv: 2604.17721 (cross-listed)
Authors: Jiayi Tian, Haiduo Huang, Tian Xia, Wenzhe Zhao, Pengju Ren
Subjects: cs.CV; cs.AI
Tags: 3D Vision, 3D Reconstruction
Summary: 本文提出GeGS-PCR方法，结合几何、颜色和高斯信息进行点云配准，通过颜色编码器和Geometric-3DGS模块实现低重叠场景下的鲁棒配准，达到99.9%的配准召回率。

[432] RePrompT: Recurrent Prompt Tuning for Integrating Structured EHR Encoders with Large Language Models

arXiv: 2604.17725 (cross-listed)
Authors: Arya Hadizadeh Moghaddam, Drew Ross, Mohsen Nayebi Kerdabadi, Dongjie Wang, Zijun Yao
Subjects: cs.CL; cs.AI
Tags: Medical AI, Prompt Engineering
Venue: ACL 2026
Summary: 本文提出RePrompT框架，通过提示调优将结构化EHR编码器与LLM集成，循环融合先前访问的潜在状态并注入群体级信息，在MIMIC临床预测任务上超越基线模型。

[433] Voronoi-guided Bilateral 2D Gaussian Splatting for Arbitrary-Scale Hyperspectral Image Super-Resolution

arXiv: 2604.17727 (cross-listed)
Authors: Jie Zhang, Jinkun You, Shi Chen, Yicong Zhou
Subjects: cs.CV; cs.AI
Tags: Image Super-Resolution, Hyperspectral Imaging
Summary: 本文提出GaussianHSI框架，利用Voronoi引导的双边2D高斯泼溅技术实现任意尺度高光谱图像超分辨率重建。该方法通过Voronoi引导选择相关高斯函数，并结合参考感知双边加权进行像素重建，同时引入光谱细节增强模块提升光谱重建质量。

[434] MHSafeEval: Role-Aware Interaction-Level Evaluation of Mental Health Safety in Large Language Models

arXiv: 2604.17730 (cross-listed)
Authors: Suhyun Lee, Palakorn Achananuparp, Neemesh Yadav, Ee-Peng Lim, Yang Deng
Subjects: cs.CL; cs.AI; cs.HC
Tags: LLM Evaluation, LLM Safety, Medical AI
Venue: ACL 2026 Findings
Summary: 本文提出R-MHSafe角色感知心理健康安全分类法和MHSafeEval评估框架，通过对抗性多轮对话发现LLM在心理咨询场景中的安全失败。实验揭示了现有静态基准测试遗漏的角色依赖性和累积性安全问题。

[435] Community-Led AI Integration for Wildfire Risk Assessment: A Participatory AI Literacy and Explainability Integration (PALEI) Framework in Los Angeles, CA

arXiv: 2604.17755 (cross-listed)
Authors: Sanaz Sadat Hosseini, Mona Azarbayjani, Mohammad Pourhomayoun, Hamed Tabkhi
Subjects: cs.CY; cs.AI
Tags: Disaster Response, Explainable AI, AI Ethics
Venue: ARCC-EAAE 2026
Summary: 本文介绍PALEI参与式AI素养与可解释性整合框架，用于社区主导的野火风险评估AI集成。通过与洛杉矶高风险社区居民共同设计移动应用，强调早期素养构建、价值对齐和参与式评估。

[436] Reverse Constitutional AI: A Framework for Controllable Toxic Data Generation via Probability-Clamped RLAIF

arXiv: 2604.17769 (cross-listed)
Authors: Yuan Fang, Yiming Luo, Aimin Zhou, Fei Tan
Subjects: cs.CL; cs.AI
Tags: LLM Safety, LLM Alignment, Data Synthesis
Venue: ACL 2026 Findings
Code: code
Summary: 本文提出逆向宪法AI(R-CAI)框架，通过将无害宪法反转为毒性宪法并采用概率钳制的RLAIF方法，实现可控的对抗性数据生成。该方法能够自动化生成高质量毒性数据用于LLM安全评估。

[437] SPENCE: A Syntactic Probe for Detecting Contamination in NL2SQL Benchmarks

arXiv: 2604.17771 (cross-listed)
Authors: Mohammadtaher Safarzadeh, Hitesh Laxmichand Patel, Afshin Orojlooyjadid, Graham Horwood, Dan Roth
Subjects: cs.CL; cs.AI; cs.DB
Tags: Text-to-SQL, LLM Evaluation, Benchmark
Venue: ACL 2026
Summary: 本文提出SPENCE框架，通过语法探测检测NL2SQL基准测试中的数据污染问题。实验揭示了时间梯度现象：较旧的基准测试如Spider表现出更高的训练泄露可能性，而较新的BIRD数据集则基本未受污染。

[438] Forget What Matters, Keep the Rest: Selective Unlearning of Informative Tokens

arXiv: 2604.17785 (cross-listed)
Authors: Seunghee Koh, Sunghyun Baek, Youngdong Kim, Junmo Kim
Subjects: cs.CL; cs.AI; cs.LG
Tags: Machine Unlearning, LLM Security
Venue: ACL 2026
Summary: 本文提出熵引导的令牌加权(ETW)方法，利用预测分布的熵作为令牌信息量的代理，实现选择性遗忘。该方法能够更有效地遗忘目标内容同时更好地保持模型效用。

[439] AnchorRefine: Synergy-Manipulation Based on Trajectory Anchor and Residual Refinement for Vision-Language-Action Models

arXiv: 2604.17787 (cross-listed)
Authors: Tingzheng Jia, Kan Guo, Lanping Qian, Yongli Hu, Daxin Tian, Guixian Qu, Chunmian Lin, Baocai Yin, Jiapu Wang
Subjects: cs.RO; cs.AI
Tags: Robotics, Vision-Language Model, Embodied AI
Summary: 本文提出AnchorRefine分层框架，将视觉-语言-动作模型的动作建模分解为轨迹锚点预测和残差修正两部分。该方法通过决策感知的夹爪修正机制提升几何和接触精度，在仿真和真实机器人任务上均取得显著提升。

[440] DuQuant++: Fine-grained Rotation Enhances Microscaling FP4 Quantization

arXiv: 2604.17789 (cross-listed)
Authors: Haokun Lin, Xinle Jia, Haobo Xu, Bingchen Yao, Xianglong Guo, Yichen Wu, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun
Subjects: cs.CV; cs.AI; cs.CL
Tags: Quantization, LLM Inference, Model Compression
Code: code
Summary: 本文提出DuQuant++方法，将异常值感知的细粒度旋转适配到MXFP4微缩放格式，用于LLM量化。通过将旋转块大小与微缩放组大小对齐，该方法在平滑权重分布的同时将在线旋转成本减半。

[441] Bridging the Reasoning Gap in Vietnamese with Small Language Models via Test-Time Scaling

arXiv: 2604.17794 (cross-listed)
Authors: Bui The Trung, Do Minh Duc, Nguyen Van Vinh, Bui Nguyen Quoc Trinh
Subjects: cs.CL; cs.AI
Tags: Mathematical Reasoning, LLM Reasoning, Low-Resource NLP
Venue: FJICAI 2026
Summary: 本文研究越南语小学数学场景下小语言模型的测试时扩展策略，引入Vi-S1K推理数据集和Vi-Elementary-Bench基准。研究发现监督微调可作为推理解锁器，简化的测试时扩展优于复杂的智能体工作流。

[442] Ranking Abuse via Strategic Pairwise Data Perturbations

arXiv: 2604.17805 (cross-listed)
Authors: Junyi Yao, Zihao Zheng, Jiayu Long
Subjects: cs.LG; cs.AI; cs.GT
Tags: Adversarial Robustness, Fairness, Decision Making
Summary: 本文研究基于MLE的排序系统对对抗性扰动的脆弱性，提出自适应子集选择攻击(ASSA)方法。实验揭示了相变行为：有限的战略性投票者即可显著改变全局排序。

[443] Party Autonomy in Determining the Law Applicable to Non-contractual Obligations concerning Cross-Border Data Transfers

arXiv: 2604.17806 (cross-listed)
Authors: Yuki Okamura, Ren Yatsunami, Kumiko Kameishi, Oliver Posani, Soma Araoka, Miho Ikeda, Makiko Aoyagi
Subjects: cs.CY; cs.AI; cs.CR
Tags: Legal AI, Cybersecurity, Privacy
Summary: 本文探讨跨境数据传输中非合同义务的法律适用问题，分析云计算和人工智能背景下数据泄露引发民事责任的国际私法困境。提出通过当事人自治原则，将非合同义务的法律适用与合同义务保持一致。

[444] Understanding Secret Leakage Risks in Code LLMs: A Tokenization Perspective

arXiv: 2604.17814 (cross-listed)
Authors: Meifang Chen, Zhe Yang, Huang Nianchen, Yizhan Huang, Yichen Li, Zihan Li, Michael R. Lyu
Subjects: cs.CR; cs.AI
Tags: LLM Security, Code Generation, Tokenization
Venue: ACL 2026 Findings
Summary: 本文揭示BPE分词导致代码LLM出现”乱码偏见”现象，即某些高字符级熵但低令牌级熵的秘密信息最容易被记忆。研究识别出训练数据与秘密数据之间的令牌分布偏移是偏见根源，并讨论了缓解策略。

[445] Do LLMs Need to See Everything? A Benchmark and Study of Failures in LLM-driven Smartphone Automation using Screentext vs. Screenshots

arXiv: 2604.17817 (cross-listed)
Authors: Shiquan Zhang, Tianyi Zhang, Le Fang, Simon D'Alfonso, Hong Jia, Vassilis Kostakos
Subjects: cs.HC; cs.AI; cs.MA
Tags: GUI Automation, LLM Agent, Benchmark
Summary: 本文引入DailyDroid基准测试，包含25个Android应用的75个任务，用于评估LLM驱动的智能手机自动化。研究比较纯文本和多模态输入，揭示了UI可访问性、输入模态和LLM/应用设计中的关键问题。

[446] PDDL-Mind: Large Language Models are Capable on Belief Reasoning with Reliable State Tracking

arXiv: 2604.17819 (cross-listed)
Authors: Wang Bill Zhu, Qiutong Tony Yi, Robin Jia, Jesse Thomason
Subjects: cs.CL; cs.AI
Tags: Neurosymbolic AI, LLM Reasoning, Social Reasoning
Summary: 本文提出PDDL-Mind神经符号框架，通过将叙事描述转化为PDDL表示并验证状态转换，解耦环境状态演化与信念推理。该方法在心智理论基准测试上相比现有最优方法提升超过5%的准确率。

[447] A novel LSTM music generator based on the fractional time-frequency feature extraction

arXiv: 2604.17823 (cross-listed)
Authors: Li Ya, Chen Wei, Li Xiulai, Yu Lei, Deng Xinyi, Chen Chaofan
Subjects: cs.SD; cs.AI; cs.CL
Tags: Music Generation, Time Series Generation, Signal Processing
Summary: 本文提出一种基于分数阶傅里叶变换和LSTM网络的音乐生成方法。该方法利用分数阶傅里叶变换提取音乐信号的时频特征，并通过LSTM网络基于隐藏层特征和实时输入生成新音乐。

[448] Learning from AVA: Early Lessons from a Curated and Trustworthy Generative AI for Policy and Development Research

arXiv: 2604.17843 (cross-listed)
Authors: Nimisha Karnatak, Mohamad Chatila, Daniel Alejandro Pinzón Hernández, Reza Yazdanfar, Michelle Dugas, Renos Vakis
Subjects: cs.HC; cs.AI
Tags: RAG, LLM Evaluation, Information Retrieval
Venue: CHI 2026
Summary: 本文介绍AVA平台，一个基于世界银行报告库构建的生成式AI系统，通过引用可验证性和有理由的拒绝机制实现认知谦逊。对2200多名用户的实地评估显示持续使用可每周节省2.4-3.9小时。

[449] AI Approach for MRI-only Full-Spine Vertebral Segmentation and 3D Reconstruction in Paediatric Scoliosis

arXiv: 2604.17846 (cross-listed)
Authors: Nathasha Naranpanawa, Maree T. Izatt, Robert D. Labrom, Geoffrey N. Askin, J. Paige Little
Subjects: cs.CV; cs.AI
Tags: Medical Imaging, Image Segmentation, 3D Reconstruction
Venue: SSA 2026
Summary: 本文提出了一种AI框架，能够仅从MRI实现全自动化胸腰椎脊柱分割和3D重建。该方法使用GAN将历史低剂量CT转换为类MRI图像来训练U-Net模型，实现了88%的Dice分数，将处理时间从约1小时缩短至不到1分钟，支持儿科脊柱护理中的无辐射3D畸形评估。

[450] On the Emergence of Syntax by Means of Local Interaction

arXiv: 2604.17857 (cross-listed)
Authors: Zichao Wei
Subjects: cs.CL; cs.AI; cs.LG
Tags: Cellular Automata, Neuromorphic Computing, Linguistic Resource
Summary: 本文展示了句法处理可以从一个最小的神经细胞自动机中自发涌现。该系统仅通过1位边界信号监督，在训练后自发组织成名为Proto-CKY的空间扩展表示，满足句法处理的三个操作标准：超越正则语言的表达能力、超越训练分布的结构泛化，以及与语法结构定量对齐的内部组织。

[451] Periodic Steady-State Control of a Handkerchief-Spinning Task Using a Parallel Anti-Parallelogram Tendon-driven Wrist

arXiv: 2604.17863 (cross-listed)
Authors: Lei Liu, Haonan Zhang, Huahang Xu, Zefan Zhang, Lulu Chang, Lei Lv, Andrew Ross McIntosh, Kai Sun, Zhenshan Bing, Jiahong Dong, Fuchun Sun
Subjects: cs.RO; cs.AI
Tags: Robotics, Motion Synthesis, Imitation Learning
Venue: ICRA 2026
Summary: 本文设计了一种基于平行反平行四边形肌腱驱动结构的灵巧手腕，用于手绢旋转等柔性物体操作任务。通过高层-低层分层控制方案和粒子弹簧模型，实现了约99%的展开率和2.88mm的指尖跟踪误差，展示了鲁棒的周期性柔性物体操控能力。

[452] Latent Abstraction for Retrieval-Augmented Generation

arXiv: 2604.17866 (cross-listed)
Authors: Ha Lan N.T, Minh-Anh Nguyen, Dung D. Le
Subjects: cs.CL; cs.AI
Tags: RAG, LLM Inference, Information Retrieval
Summary: 本文提出LAnR框架，使单个LLM完全在其潜在空间内联合执行编码、检索和生成。该方法从[PRED]标记的隐藏状态生成密集检索向量，并使用轻量级MLP控制头自适应决定何时检索到足够证据，消除了独立检索器和显式停止推理的需求。

[453] Latent Preference Modeling for Cross-Session Personalized Tool Calling

arXiv: 2604.17886 (cross-listed)
Authors: Yejin Yoon, Minseo Kim, Taeuk Kim
Subjects: cs.CL; cs.AI
Tags: LLM Agent, Tool Learning, LLM Personalization
Summary: 本文引入MPT基准测试来研究跨会话个性化工具调用问题，并提出PRefine方法，通过生成-验证-精炼循环将用户偏好表示为演化假设。该方法仅需全历史提示1.24%的token量即可提高工具调用准确性，表明个性化代理系统需要捕获用户选择背后的原因。

[454] LEPO: \underline{L}atent R\underline{e}asoning \underline{P}olicy \underline{O}ptimization for Large Language~Models

arXiv: 2604.17892 (cross-listed)
Authors: Yuyan Zhou, Jiarui Yu, Hande Dong, Zhezheng Hao, Hong Wang, Jianqing Zhang, Qiang Lin
Subjects: cs.LG; cs.AI
Tags: LLM Reasoning, Reinforcement Learning, LLM Training
Summary: 本文提出LEPO框架，通过Gumbel-Softmax将可控随机性注入潜在推理，恢复LLM的探索能力并增强其与强化学习的兼容性。该方法在rollout阶段保持随机性以实现多样化轨迹采样，在优化阶段为潜在表示和离散token构建统一的梯度估计。

[455] Can Explicit Physical Feasibility Benefit VLA Learning? An Empirical Study

arXiv: 2604.17896 (cross-listed)
Authors: Yubai Wei, Chen Wu, Hashem Haghbayan
Subjects: cs.LG; cs.AI; cs.RO
Tags: Vision-Language Model, Robotics, Imitation Learning
Summary: 本文研究在视觉-语言-动作模型训练中引入显式可行性监督是否能提供有效的结构化指导。通过将几何基础的可行性目标集成到扩散型VLA策略训练中，实验表明该方法提高了物理可靠性和整体任务性能，同时在低数据场景下增强了学习效率。

[456] LoReC: Rethinking Large Language Models for Graph Data Analysis

arXiv: 2604.17897 (cross-listed)
Authors: Hongyu Zhan, Qixin Wang, Yusen Tan, Haitao Yu, Jingbo Zhou, Shuai Chen, Jia Li, Xiao Tan, Jun Xia
Subjects: cs.LG; cs.AI
Tags: Graph Neural Network, LLM Reasoning, Graph Learning
Code: code
Summary: 本文提出LoReC方法，通过三个阶段增强LLM对图数据的理解：重新分配注意力到图、将图信息重新注入前馈网络、以及在解码过程中校正原始logits。该方法显著改进了当前GraphLLM方法，并在多个数据集上超越了基于GNN的方法。

[457] Bayesian Active Learning with Gaussian Processes Guided by LLM Relevance Scoring for Dense Passage Retrieval

arXiv: 2604.17906 (cross-listed)
Authors: Junyoung Kim, Anton Korikov, Jiazhou Liang, Justin Cui, Yifan Simon Liu, Qianfeng Wen, Mark Zhao, Scott Sanner
Subjects: cs.IR; cs.AI
Tags: Information Retrieval, Active Learning, RAG
Venue: ACL 2026 Findings
Summary: 本文提出BAGEL框架，使用高斯过程基于LLM相关性分数对整个嵌入空间的相关性分布进行建模，通过策略性地平衡高置信度区域的利用和不确定区域的探索来迭代选择段落进行评分，有效捕获复杂的相关性分布。

[458] Learning to Correct: Calibrated Reinforcement Learning for Multi-Attempt Chain-of-Thought

arXiv: 2604.17912 (cross-listed)
Authors: Muhammed Emrullah Ildiz, Halil Alperen Gozeten, Ege Onur Taga, Samet Oymak
Subjects: cs.LG; cs.AI
Tags: LLM Reasoning, Reinforcement Learning, LLM Training
Summary: 本文探索多尝试链式思维推理设置，模型在收到硬验证器反馈后可进行最多K次连续尝试。研究提出了CAL-GRPO方法，通过设计加权策略获得无偏梯度，理论揭示了每次尝试奖励如何影响训练和最终Verification@K性能。

[459] Prompting Foundation Models for Zero-Shot Ship Instance Segmentation in SAR Imagery

arXiv: 2604.17920 (cross-listed)
Authors: Islam Mansour, Francescopaolo Sica, Michael Schmitt
Subjects: cs.CV; cs.AI; cs.LG
Tags: Image Segmentation, Object Detection, Remote Sensing
Summary: 本文探索如何利用通用视觉基础模型实现SAR图像中的零样本船舶实例分割。使用在开放SAR数据集上训练的YOLOv11检测器生成边界框，然后提示SAM2生成分割掩码，在SSDD基准上实现了0.637的平均IoU，达到全监督基线89%的性能。

[460] Brain-Inspired Capture: Evidence-Driven Neuromimetic Perceptual Simulation for Visual Decoding

arXiv: 2604.17927 (cross-listed)
Authors: Feixue Shao, Guangze Shi, Xueyu Liu, Yongfei Wu, Mingqiang Wei, Jianan Zhang, Jianbo Lu, Guiying Yan, Weihua Yang
Subjects: cs.CV; cs.AI
Tags: Brain-Computer Interface, Image Reconstruction, Neuroscience
Code: code
Summary: 本文提出BI-Cap范式，通过模拟人类视觉系统处理来对齐神经和视觉模态。该方法构建了包含四种生物学合理的动态和静态变换的神经模拟流水线，并引入证据驱动的潜在空间表示来显式建模不确定性，在零样本脑到图像检索任务上显著超越现有方法。

[461] HEALing Entropy Collapse: Enhancing Exploration in Few-Shot RLVR via Hybrid-Domain Entropy Dynamics Alignment

arXiv: 2604.17928 (cross-listed)
Authors: Zhanyu Liu, Qingguo Hu, Ante Wang, Chenqing Liu, Zhishang Xiang, Hui Li, Delai Qiu, Jinsong Su
Subjects: cs.LG; cs.AI
Tags: LLM Reasoning, Reinforcement Learning, Few-Shot Learning
Venue: ACL 2026
Summary: 本文提出HEAL框架，专为少样本RLVR设计，通过选择性引入高价值通用域数据促进多样化探索，并引入熵动态对齐奖励机制来对齐目标域和通用域之间的轨迹级熵动态，有效缓解熵坍缩问题。仅使用32个目标域样本即可匹配或超越使用1K样本的全样本RLVR性能。

[462] Heterogeneity in Formal Linguistic Competence of Language Models: Is Data the Real Bottleneck?

arXiv: 2604.17930 (cross-listed)
Authors: H S V N S Kowndinya Renduchintala, Sumit Bhatia
Subjects: cs.CL; cs.AI; cs.LG
Tags: LLM Training, Data Synthesis, Linguistic Resource
Venue: ACL 2026 Findings
Code: code
Summary: 本文研究LLM在形式语言能力上的差异是否源于架构限制还是数据稀缺。通过在FineWeb语料库样本中注入1%针对特定语言现象的合成数据，发现8个表现最差的BLiMP范式中有7个得到显著改善，表明数据组成对语言建模至关重要。

[463] How Much Cache Does Reasoning Need? Depth-Cache Tradeoffs in KV-Compressed Transformers

arXiv: 2604.17935 (cross-listed)
Authors: Xiao Wang
Subjects: cs.LG; cs.AI; cs.CC
Tags: KV Cache, LLM Inference, Deep Learning Theory
Summary: 本文对Transformer中KV缓存压缩进行了理论分析，建立了在压缩缓存下k跳指针追踪所需的深度下界。研究揭示了自适应局部性感知缓存在多跳推理中优于随机驱逐的原因，并证明了带宽障碍限制了可证明的下界。

[464] RAVEN: Retrieval-Augmented Vulnerability Exploration Network for Memory Corruption Analysis in User Code and Binary Programs

arXiv: 2604.17948 (cross-listed)
Authors: Parteek Jamwal, Minghao Shao, Boyuan Chen, Achyuta Muthuvelan, Asini Subanya, Boubacar Ballo, Kashish Satija, Mariam Shafey, Mohamed Mahmoud, Moncif Dahaji Bouffi, Pasindu Wickramasinghe, Siyona Goel, Yaakulya Sabbani, Hakim Hacid, Mthandazo Ndhlovu, Eleanna Kafeza, Sanjay Rawat, Muhammad Shafique
Subjects: cs.CR; cs.AI; cs.MA
Tags: RAG, Vulnerability Detection, Cybersecurity
Summary: 本文提出RAVEN框架，利用LLM代理和检索增强生成来合成全面的漏洞分析报告。该框架包含探索器代理、RAG引擎、分析师代理和报告生成器四个模块，并使用任务特定的LLM评判器评估报告质量，在NIST-SARD数据集上实现了54.21%的平均质量分数。

[465] Latent Fourier Transform

arXiv: 2604.17986 (cross-listed)
Authors: Mason Wang, Cheng-Zhi Anna Huang
Subjects: cs.SD; cs.AI
Tags: Music Generation, Diffusion Model
Venue: ICLR 2026
Summary: 该论文提出了LatentFT框架，将扩散自编码器与潜在空间傅里叶变换相结合，通过在频域中对潜在表示进行掩码操作，实现了对音乐生成模型的结构化控制，使用户能够按时间尺度分离和操控音乐模式。

[466] Diversity Collapse in Multi-Agent LLM Systems: Structural Coupling and Collective Failure in Open-Ended Idea Generation

arXiv: 2604.18005 (cross-listed)
Authors: Nuo Chen, Yicheng Tong, Yuzhe Yang, Yufei He, Xueyi Zhang, Zou Qingyun, Qian Wang, Bingsheng He
Subjects: cs.MA; cs.AI; cs.CL
Tags: Multi-Agent System, LLM Agent
Venue: ACL 2026 Findings
Code: code
Summary: 该研究系统性地分析了多智能体LLM系统在开放式创意生成中的多样性崩溃问题，发现结构耦合导致的交互模式会抑制智能体探索，强调了在设计创意任务的多智能体系统时保持独立性和分歧的重要性。

[467] RASP-Tuner: Retrieval-Augmented Soft Prompts for Context-Aware Black-Box Optimization in Non-Stationary Environments

arXiv: 2604.18026 (cross-listed)
Authors: Enze Pan
Subjects: cs.LG; cs.AI
Tags: Prompt Engineering, Optimization
Summary: 该论文提出了RASP-Tuner框架，用于非平稳环境下的上下文感知黑盒优化，通过检索相似历史上下文、混合专家代理模型和低维提示子空间适应，在保持较低计算开销的同时有效降低累积遗憾。

[468] First, Do No Harm (With LLMs): Mitigating Racial Bias via Agentic Workflows

arXiv: 2604.18038 (cross-listed)
Authors: Sihao Xing, Zaur Gouliev
Subjects: cs.CY; cs.AI
Tags: Bias Mitigation, Medical AI, LLM Agent
Summary: 该研究以欧盟AI法案为治理框架，评估了五种主流LLM在医疗场景中的种族偏见问题，发现基于检索的智能体工作流可以在一定程度上缓解诊断任务中的显性偏见。

[469] ExAI5G: A Logic-Based Explainable AI Framework for Intrusion Detection in 5G Networks

arXiv: 2604.18052 (cross-listed)
Authors: Saeid Sheikhi, Panos Kostakos, Lauri Loven
Subjects: cs.CR; cs.AI; cs.LG
Tags: Explainable AI, Cybersecurity
Summary: 该论文提出了ExAI5G框架，将基于Transformer的深度学习入侵检测系统与基于逻辑的可解释AI技术相结合，通过积分梯度提取特征重要性并生成逻辑规则，实现了高准确率与高可解释性的统一。

[470] Class-specific diffusion models improve military object detection in a low-data domain

arXiv: 2604.18076 (cross-listed)
Authors: Ella P. Fokkinga, Jan Erik van Woerden, Thijs A. Eker, Sebastiaan P. Snel, Elfi I.S. Hofmeijer, Klamer Schutte, Friso G. Heslinga
Subjects: cs.CV; cs.AI
Tags: Object Detection, Diffusion Model, Data Augmentation
Summary: 该研究探索了使用类别特定的扩散模型生成合成训练数据以改善低数据条件下的军用车辆检测性能，实验表明FLUX生成的图像在数据稀缺场景下可显著提升检测效果。

[471] Implicit neural representations as a coordinate-based framework for continuous environmental field reconstruction from sparse ecological observations

arXiv: 2604.18083 (cross-listed)
Authors: Agnieszka Pregowska, Hazem M. Kalaji
Subjects: cs.LG; cs.AI
Tags: Representation Learning, Environmental Planning
Summary: 该论文评估了隐式神经表示作为坐标建模框架在环境场重建中的应用，展示了其在物种分布重建、物候动态和形态分割等任务中能够从稀疏生态观测中学习连续的空间和时空场。

[472] Mix and Match: Context Pairing for Scalable Topic-Controlled Educational Summarisation

arXiv: 2604.18087 (cross-listed)
Authors: Nathikan Yodthapa, Thanapong Intharah, Sahan Bulathwela
Subjects: cs.CL; cs.AI; cs.CY
Tags: Summarization, Data Augmentation
Venue: AIED 2026
Summary: 该论文提出了一种成对数据增强方法，通过组合不同文档的上下文创建对比训练样本，使小语言模型能够更有效地学习主题与摘要之间的关系，在减少真实训练数据需求的同时保持竞争力。

[473] Autonomous Unmanned Aircraft Systems for Enhanced Search and Rescue of Drowning Swimmers: Image-Based Localization and Mission Simulation

arXiv: 2604.18088 (cross-listed)
Authors: Sascha Emanuel Zell, Toni Schneidereit, Armin Fügenschuh, Michael Breuß
Subjects: cs.CV; cs.AI; stat.AP
Tags: Object Detection, Robotics, Disaster Response
Summary: 该论文提出了一种用于溺水救援的自主无人机系统，采用YOLO目标检测架构进行溺水者定位，并通过离散事件仿真评估系统配置对响应时间的影响，展示了无人机辅助可显著缩短救援时间。

[474] The Collaboration Gap in Human-AI Work

arXiv: 2604.18096 (cross-listed)
Authors: Varad Vishwarupe, Marina Jirotka, Nigel Shadbolt, Ivan Flechais
Subjects: cs.HC; cs.AI; cs.IR; cs.LG
Tags: Human-Computer Interaction
Venue: ECSCW 2026
Summary: 该研究通过访谈设计师和开发者，提出了一个理解人机协作脆弱性的概念框架，区分了三种工作结构（单次协助、弱协作、有根据的协作），指出协作失败源于交互的接地能力不足。

[475] TLoRA: Task-aware Low Rank Adaptation of Large Language Models

arXiv: 2604.18124 (cross-listed)
Authors: Weicheng Lin, Yi Zhang, Jiawei Dang, Liang-Jie Zhang
Subjects: cs.CL; cs.AI
Tags: Parameter-Efficient Fine-Tuning
Venue: ACL 2026
Summary: 该论文提出了TLoRA框架，通过数据驱动的初始化策略和基于敏感度的重要性度量，联合优化LoRA的初始化和资源分配，在显著减少可训练参数的同时实现了跨多种任务的优异性能。

[476] Depth Registers Unlock W4A4 on SwiGLU: A Reader/Generator Decomposition

arXiv: 2604.18128 (cross-listed)
Authors: Ziyang Liu
Subjects: cs.CL; cs.AI; cs.LG
Tags: Quantization, LLM Inference
Summary: 该论文研究了SwiGLU语言模型的后训练W4A4量化问题，提出了深度寄存器作为训练时干预手段，通过将可训练线性层分解为残差轴读取器和块内生成器来诊断和减少量化误差。

[477] Soft Label Pruning and Quantization for Large-Scale Dataset Distillation

arXiv: 2604.18135 (cross-listed)
Authors: Xiao Lingao, Yang He
Subjects: cs.CV; cs.AI; cs.LG
Tags: Data Augmentation, Knowledge Distillation
Code: code
Summary: 该论文提出了LPQLD方法用于大规模数据集蒸馏，通过标签剪枝和量化技术大幅减少软标签存储需求，在ImageNet-1K和ImageNet-21K上分别实现了78倍和500倍的存储压缩。

[478] AQPIM: Breaking the PIM Capacity Wall for LLMs with In-Memory Activation Quantization

arXiv: 2604.18137 (cross-listed)
Authors: Kosuke Matsushima, Yasuyuki Okoshi, Masato Motomura, Daichi Fujiki
Subjects: cs.AR; cs.AI; cs.LG
Tags: Quantization, Compute-in-Memory, LLM Inference
Venue: HPCA 2026
Summary: 该论文提出了AQPIM框架，一种基于乘积量化的PIM感知激活量化方法，通过在内存中直接执行量化操作，显著降低了LLM注意力计算的内存占用和计算开销。

[479] Region-Grounded Report Generation for 3D Medical Imaging: A Fine-Grained Dataset and Graph-Enhanced Framework

arXiv: 2604.18145 (cross-listed)
Authors: Cong Huy Nguyen, Son Dinh Nguyen, Guanlin Li, Tuan Dung Nguyen, Aditya Narayan Sankaran, Mai Huy Thong, Thanh Trung Nguyen, Mai Hong Son, Reza Farahbakhsh, Phi Le Nguyen, Noel Crespi
Subjects: cs.CV; cs.AI
Tags: Medical Imaging, Report Generation, Graph Neural Network
Venue: ACL 2026
Summary: 该论文发布了首个带有细粒度RoI标注的大规模3D PET/CT数据集VietPET-RoI，并提出了HiRRA框架，通过图关系模块捕获RoI属性间的依赖关系，模拟放射科医生诊断工作流程生成医疗报告。

[480] Modular Representation Compression: Adapting LLMs for Efficient and Effective Recommendations

arXiv: 2604.18146 (cross-listed)
Authors: Yunjia Xi, Menghui Zhu, Jianghao Lin, Bo Chen, Ruiming Tang, Yong Yu, Weinan Zhang
Subjects: cs.IR; cs.AI; cs.CL
Tags: Recommender System, Model Compression
Venue: SIGIR 2026
Summary: 该论文发现了LLM推荐系统中中间层表示优于最终层的现象，提出了MARC框架通过显式控制模块化来解耦压缩任务和推荐任务，有效解决了表示压缩中的性能下降问题。

[481] Does "Do Differentiable Simulators Give Better Policy Gradients?'' Give Better Policy Gradients?

arXiv: 2604.18161 (cross-listed)
Authors: Ku Onoda, Paavo Parmas, Manato Yaguchi, Yutaka Matsuo
Subjects: cs.LG; cs.AI; cs.RO
Tags: Reinforcement Learning, Simulation
Venue: ICLR 2026
Summary: 本文研究了可微分模拟器在策略梯度强化学习中的有效性，发现不连续动态会导致一阶估计器产生偏差。作者提出了DDCG方法用于检测非平滑区域并切换估计器，以及IVW-H方法用于稳定方差，实验表明这些方法在控制研究中提高了鲁棒性。

[482] MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge

arXiv: 2604.18164 (cross-listed)
Authors: Sua Lee, Sanghee Park, Jinbae Im
Subjects: cs.CL; cs.AI; cs.CV
Tags: Vision-Language Model, LLM Evaluation, Bias Mitigation
Venue: ACL 2026
Summary: 本文定义了MLLM-as-a-Judge系统中的组合偏差问题，并提出了MM-JudgeBias基准来评估这种偏差。该基准包含1800多个多模态样本，通过控制扰动来评估26个最先进的MLLM的九种偏差类型。

[483] Beyond Reproduction: A Paired-Task Framework for Assessing LLM Comprehension and Creativity in Literary Translation

arXiv: 2604.18169 (cross-listed)
Authors: Ran Zhang, Steffen Eger, Arda Tezcan, Wei Zhao, Simone Paolo Ponzetto, Lieve Macken
Subjects: cs.CL; cs.AI
Tags: Machine Translation, LLM Evaluation
Venue: ACL 2026 Findings
Summary: 本文提出了一个配对任务框架来评估LLM在文学翻译中的理解能力和创造力。通过对11本书的文学片段进行实验，发现强大的理解能力并不能转化为人类水平的创造力，模型经常产生字面或不恰当的翻译。

[484] Copy-as-Decode: Grammar-Constrained Parallel Prefill for LLM Editing

arXiv: 2604.18170 (cross-listed)
Authors: Ziyang Liu
Subjects: cs.CL; cs.AI
Tags: LLM Inference, Code Generation
Summary: 本文提出了Copy-as-Decode机制，将编辑生成重新定义为基于双原语语法的结构化解码。该方法通过并行预填充而非自回归步骤来复制标记，在Qwen2.5模型上实现了6.8倍到303倍的加速。

[485] STaD: Scaffolded Task Design for Identifying Compositional Skill Gaps in LLMs

arXiv: 2604.18177 (cross-listed)
Authors: Sungeun An, Swanand Ravindra Kadhe, Shailja Thakur, Chad DeLuca, Hima Patel
Subjects: cs.CL; cs.AI
Tags: LLM Evaluation, Benchmark
Venue: ACL 2026 Findings
Summary: 本文提出了脚手架任务设计(STaD)框架，用于识别LLM的组合技能差距。通过生成基准任务的控制变体，该框架能够系统地探测模型行为，揭示六个不同规模模型在三个推理基准上的多个失败点。

[486] Committed SAE-Feature Traces for Audited-Session Substitution Detection in Hosted LLMs

arXiv: 2604.18179 (cross-listed)
Authors: Ziyang Liu
Subjects: cs.CR; cs.AI
Tags: LLM Security, Interpretability
Summary: 本文提出了一种提交-开放协议，用于检测托管LLM中的模型替换行为。通过Merkle树提交SAE特征轨迹草图，验证者可以随机打开位置进行验证，在三个骨干网络上成功拒绝了所有17种攻击。

[487] Scalable Neighborhood-Based Multi-Agent Actor-Critic

arXiv: 2604.18190 (cross-listed)
Authors: Tim Goppelsroeder, Rasmus Jensen
Subjects: cs.LG; cs.AI
Tags: Multi-Agent System, Reinforcement Learning
Code: code
Summary: 本文提出了MADDPG-K，一种可扩展的多智能体深度确定性策略梯度扩展。通过将每个智能体的评论器限制为k个最近邻，该方法确保了恒定大小的评论器输入，在合作和对抗环境中表现出竞争性或更优的性能。

[488] WebCompass: Towards Multimodal Web Coding Evaluation for Code Language Models

arXiv: 2604.18224 (cross-listed)
Authors: Xinping Lei, Xinyu Che, Junqi Xiong, Chenchen Zhang, Yukai Huang, Chenyu Zhou, Haoyang Huang, Minghao Liu, Letian Zhu, Hongyi Ye, Jinhua Hao, Ken Deng, Zizheng Zhan, Han Li, Dailin Li, Yifan Yao, Ming Sun, Zhaoxiang Zhang, Jiaheng Liu
Subjects: cs.SE; cs.AI
Tags: Code Generation, LLM Evaluation, Benchmark
Summary: 本文介绍了WebCompass，一个用于评估代码语言模型网页工程能力的多模态基准。该基准涵盖三种输入模态和三种任务类型，采用检查表引导的LLM-as-a-Judge协议和Agent-as-a-Judge范式进行评估。

[489] Is SAM3 ready for pathology segmentation?

arXiv: 2604.18225 (cross-listed)
Authors: Qiuyu Kong, Shakiba Sharifi, Zanxi Ruan, Yiming Wang, Marco Cristani
Subjects: cs.CV; cs.AI
Tags: Image Segmentation, Medical AI
Summary: 本文系统评估了SAM3在病理图像分割中的能力。通过在不同监督设置和提示策略下的实验，发现SAM3在病理图像分割中存在明显局限，包括文本提示难以激活核概念、对视觉提示类型敏感等问题。

[490] Aether: Network Validation Using Agentic AI and Digital Twin

arXiv: 2604.18233 (cross-listed)
Authors: Jordan Auge, Sam Betts, Giovanna Carofiglio, Giulio Grassi, Martin Gysi, John Kenneth d'Souza
Subjects: cs.MA; cs.AI
Tags: LLM Agent, Digital Twin
Summary: 本文提出了Aether，一种将生成式代理AI与多功能网络数字孪生相结合的方法，用于自动化网络变更验证工作流程。该方法包含五个专门的网络安全AI代理，在合成场景和真实ISP网络上实现了100%的错误检测率。

[491] Evaluating Multi-Hop Reasoning in RAG Systems: A Comparison of LLM-Based Retriever Evaluation Strategies

arXiv: 2604.18234 (cross-listed)
Authors: Lorenz Brehme, Thomas Ströhle, Ruth Breu
Subjects: cs.IR; cs.AI
Tags: RAG, LLM Evaluation
Venue: ECIR 2026 Workshop
Code: code
Summary: 本文比较了三种LLM-as-judge评估策略在RAG系统多跳推理评估中的表现。提出的Context-Aware Retriever Evaluation (CARE)方法在多跳查询评估中始终优于现有方法，特别是在具有更大参数和更长上下文窗口的模型上。

[492] Negative Advantage Is a Double-Edged Sword: Calibrating Advantage in GRPO for Deep Search

arXiv: 2604.18235 (cross-listed)
Authors: Jiayi Wu, Ruobing Xie, Zeqian Huang, Lei Jiang, Can Xu, Kangyang Luo, Ming Gao, Xiang Li
Subjects: cs.CL; cs.AI
Tags: Reinforcement Learning, LLM Agent, RLHF
Code: code
Summary: 本文提出了CalibAdv方法，用于校准深度搜索任务中GRPO的优势值。通过利用中间步骤的正确性来下调过度的负优势，该方法在三个模型和七个基准上提高了模型性能和训练稳定性。

[493] Semantic-based Distributed Learning for Diverse and Discriminative Representations

arXiv: 2604.18237 (cross-listed)
Authors: Zhuojun Tian, Chaouki Ben Issaid, Mehdi Bennis
Subjects: cs.LG; cs.AI
Tags: Distributed Training, Representation Learning
Summary: 本文提出了一种新的分布式学习框架，确保表示的多样性和判别性。对于i.i.d.数据，通过引入表示方差约束来解耦全局优化函数；对于非i.i.d.数据，通过聚类和虚拟复制节点来解决问题。

[494] Towards Disentangled Preference Optimization Dynamics Beyond Likelihood Displacement

arXiv: 2604.18239 (cross-listed)
Authors: Wei Chen, Yubing Wu, Junmei Yang, Delu Zeng, Qibin Zhao, John Paisley, Min Chen, Zhou Wang
Subjects: cs.LG; cs.AI
Tags: LLM Alignment, RLHF
Code: code
Summary: 本文提出了偏好优化的统一激励分数分解，揭示了不同目标共享相同的局部更新方向。通过识别解耦带(DB)条件，提出了奖励校准(RC)方法来缓解可能性位移问题。

[495] Style-Based Neural Architectures for Real-Time Weather Classification

arXiv: 2604.18251 (cross-listed)
Authors: Hamed Ouattara, Pascal Houssam Salmane, Pierre Duthon, Frédéric Bernardin, Omar Ait Aider
Subjects: cs.CV; cs.AI; cs.LG; stat.AP
Tags: Image Classification, Weather Forecasting
Summary: 本文提出了三种用于实时天气分类的神经网络架构，包括Multi-PatchGAN、截断ResNet50和带Gram矩阵与注意力的截断ResNet50。这些模型受风格迁移启发，能够捕获图像中的风格元素，在多个公共数据库上优于现有技术。

[496] DocQAC: Adaptive Trie-Guided Decoding for Effective In-Document Query Auto-Completion

arXiv: 2604.18257 (cross-listed)
Authors: Rahul Mehta, Kavin R V, Indrajit Pal, Tushar Abhishek, Pawan Goyal, Manish Gupta
Subjects: cs.IR; cs.AI; cs.CL
Tags: Information Retrieval, LLM Inference
Code: code
Summary: 本文提出了自适应trie引导解码框架，用于文档内查询自动完成。该方法使用用户查询前缀来软引导语言模型生成高质量补全，在T5和BART上优于强基线，甚至超过了更大的指令调优模型。

[497] Long-Text-to-Image Generation via Compositional Prompt Decomposition

arXiv: 2604.18258 (cross-listed)
Authors: Jen-Yuan Huang, Tong Lin, Yilun Du
Subjects: cs.CV; cs.AI
Tags: Text-to-Image, Diffusion Model
Venue: ICLR 2026
Summary: 本文提出了PRISM方法，通过组合式提示分解来解决长文本到图像生成的问题。该方法使用轻量级模块从长提示中提取组成表示，并通过基于能量的合并将独立噪声预测融合，在超过500个token的提示上比基线模型性能提升7.4%。

[498] On the Importance and Evaluation of Narrativity in Natural Language AI Explanations

arXiv: 2604.18311 (cross-listed)
Authors: Mateusz Cedro, David Martens
Subjects: cs.CL; cs.AI
Tags: Explainable AI, Natural Language Understanding
Summary: 本文论证了XAI解释应以叙事形式呈现，具备连续结构、因果机制、语言流畅性和词汇多样性四个属性。作者提出了七个自动评估指标来量化解释的叙事质量，并基准测试了现有的解释生成方法。

[499] EVE: Verifiable Self-Evolution of MLLMs via Executable Visual Transformations

arXiv: 2604.18320 (cross-listed)
Authors: Yongrui Heng, Chaoya Jiang, Han Yang, Shikun Zhang, Wei Ye
Subjects: cs.CV; cs.AI
Tags: Vision-Language Model, Self-Supervised Learning
Code: code
Summary: 本文提出了EVE框架，通过可执行视觉变换实现MLLM的自进化。该框架采用挑战者-求解器双策略架构，生成具有执行验证真值答案的VQA问题，无需依赖模型生成的伪标签。

[500] Multilingual Training and Evaluation Resources for Vision-Language Models

arXiv: 2604.18347 (cross-listed)
Authors: Daniela Baiamonte, Elena Fano, Matteo Gabburo, Stefano Simonazzi, Leonardo Rigutini, Andrea Zugarini
Subjects: cs.CL; cs.AI
Tags: Vision-Language Model, Multilingual Learning
Summary: 本文介绍了面向五种欧洲语言的VLM训练和评估资源套件。通过再生-翻译范式构建了Multi-PixMo训练语料库和多语言基准测试，证明多语言训练对非英语基准有益且对英语有正向迁移效果。

[501] AdaCluster: Adaptive Query-Key Clustering for Sparse Attention in Video Generation

arXiv: 2604.18348 (cross-listed)
Authors: Haoyue Tan, Shengnan Wang, Yulin Qiao, Juncheng Zhang, Youhui Bai, Ping Gong, Zewen Jin, Cheng Li
Subjects: cs.CV; cs.AI
Tags: Video Generation, Sparse Attention, Diffusion Model
Venue: CVPR 2026
Summary: 本文提出了AdaCluster，一种无需训练的自适应聚类框架，用于加速视频扩散Transformer的生成。该方法对查询向量应用角度相似性聚类，对键向量设计欧几里得相似性聚类，实现了1.67-4.31倍的加速。

[502] Tight Auditing of Differential Privacy in MST and AIM

arXiv: 2604.18352 (cross-listed)
Authors: Georgi Ganev, Meenatchi Sundaram Muthu Selva Annamalai, Bogdan Kulynych
Subjects: cs.CR; cs.AI; cs.LG
Tags: Differential Privacy, Data Synthesis
Venue: TPDP 2026 Workshop
Code: code
Summary: 本文引入了基于高斯差分隐私(GDP)的审计框架，用于紧密审计MST和AIM合成数据生成器的隐私保证。该方法在强隐私机制下提供了首个紧密审计，展示了较小的理论与实践差距。

[503] Dissecting AI Trading: Behavioral Finance and Market Bubbles

arXiv: 2604.18373 (cross-listed)
Authors: Shumiao Ouyang, Pengfei Sui
Subjects: econ.GN; cs.AI; q-fin.GN
Tags: LLM Agent, Quantitative Finance
Summary: 本文研究了AI代理在实验资产市场中的预期形成和交易行为。研究发现AI代理表现出处置效应和近期加权外推信念等行为模式，且针对性提示干预可因果性地放大或抑制特定行为机制，显著改变市场泡沫幅度。

[504] IceBreaker for Conversational Agents: Breaking the First-Message Barrier with Personalized Starters

arXiv: 2604.18375 (cross-listed)
Authors: Hongwei Zheng, Weiqi Wu, Zhengjia Wang, Guanyu Jiang, Haoming Li, Tianyu Wu, Yongchun Zhu, Jingwu Chen, Feng Zhang
Subjects: cs.CL; cs.AI
Tags: Dialogue System, LLM Personalization
Venue: ACL 2026
Summary: 本文介绍了对话启动生成任务，提出IceBreaker方法通过共鸣感知兴趣蒸馏和交互导向启动生成来打破首条消息障碍。在线A/B测试显示用户活跃天数提升0.184%，点击率提升9.425%。

[505] Randomly Initialized Networks Can Learn from Peer-to-Peer Consensus

arXiv: 2604.18390 (cross-listed)
Authors: Esteban Rodríguez-Betancourt, Edgar Casasola-Murillo
Subjects: cs.LG; cs.AI
Tags: Self-Supervised Learning, Representation Learning
Venue: ChileCON 2025
Summary: 本文探索了自蒸馏在学习动态中的作用，通过训练一组随机初始化的网络，移除投影器、预测器和预训练任务等常见组件。研究发现即使这种最小设置也能学习到具有非平凡改进的表示。

[506] AlphaContext: An Evolutionary Tree-based Psychometric Context Generator for Creativity Assessment

arXiv: 2604.18398 (cross-listed)
Authors: Yixuan Wang, Yue Huang, Hong Qian, Yunzhao Wei, Yifei Ding, Wenkai Wang, Zhi Liu, Zhongjing Huang, Aimin Zhou, Jiajun Guo
Subjects: cs.CL; cs.AI
Tags: Text Generation, Evolutionary Computation
Venue: ACL 2026
Summary: 本文提出了AlphaContext，一种基于进化树的心理测量上下文生成器，用于创造力评估。该方法使用超树大纲规划器、基于MCTS的上下文生成器和MAP-Elites进化优化，在6个质量指标上平均提升8%。

[507] Revisiting Change VQA in Remote Sensing with Structured and Native Multimodal Qwen Models

arXiv: 2604.18429 (cross-listed)
Authors: Yakoub Bazi, Mohamad M. Al Rahhal, Mansour Zuair, Faroun Mohamed
Subjects: cs.CV; cs.AI
Tags: Remote Sensing, Vision-Language Model, Question Answering
Summary: 本文使用Qwen模型在统一LoRA设置下重新审视遥感变化VQA任务。实验表明原生多模态模型比结构化视觉语言流水线更有效，紧密集成的多模态骨干网络对语言驱动的语义变化推理贡献更大。

[508] ProtoCLIP: Prototype-Aligned Latent Refinement for Robust Zero-Shot Chest X-Ray Classification

arXiv: 2604.18444 (cross-listed)
Authors: Florian Kittler, Sheethal Bhat, Andreas Maier
Subjects: cs.LG; cs.AI; cs.CV
Tags: Medical Imaging, Vision-Language Model, Zero-Shot Learning
Summary: 本文提出了ProtoCLIP，一种用于CLIP风格VLM的细化策略，通过目标数据筛选和蒸馏锚点对齐来改进胸部X光片零样本分类。该方法在气胸检测上达到0.94的AUC，比强基线提升2-10个百分点。

[509] Progressive Online Video Understanding with Evidence-Aligned Timing and Transparent Decisions

arXiv: 2604.18459 (cross-listed)
Authors: Kecheng Zhang, Zongxin Yang, Mingfei Han, Haihong Hao, Yunzhi Zhuge, Changlin Li, Junhan Zhao, Zhihui Li, Xiaojun Chang
Subjects: cs.CV; cs.AI
Tags: Video Understanding, Vision-Language Model
Summary: 本文提出了一个在线视频理解框架，包含主动思考决策器(ATDM)用于透明推理控制和分层渐进语义集成(HPSI)模块用于高效记忆。该方法在StreamingBench上达到71.6%的准确率。

[510] An Integrated Deep-Learning Framework for Peptide-Protein Interaction Prediction and Target-Conditioned Peptide Generation with ConGA-PePPI and TC-PepGen

arXiv: 2604.18467 (cross-listed)
Authors: Chupei Tang, Junxiao Kong, Moyu Tang, Di Wang, Jixiu Zhai, Ronghao Xie, Shangkun Sima, Tianchi Lu
Subjects: cs.LG; cs.AI
Tags: Drug Discovery, Protein Engineering
Summary: 本文提出了一个集成深度学习框架，结合ConGA-PepPI用于肽-蛋白质相互作用预测和TC-PepGen用于目标条件肽生成。五折交叉验证达到0.839准确率和0.921 AUROC。

[511] Asset Harvester: Extracting 3D Assets from Autonomous Driving Logs for Simulation

arXiv: 2604.18468 (cross-listed)
Authors: Tianshi Cao, Jiawei Ren, Yuxuan Zhang, Jaewoo Seo, Jiahui Huang, Shikhar Solanki, Haotian Zhang, Mingfei Guo, Haithem Turki, Muxingzi Li, Yue Zhu, Sipeng Zhang, Zan Gojcic, Sanja Fidler, Kangxue Yin
Subjects: cs.CV; cs.AI; cs.GR; cs.LG
Tags: 3D Reconstruction, Autonomous Driving
Summary: 本文提出了Asset Harvester，一个图像到3D的端到端流水线，将自动驾驶日志中的稀疏物体观测转换为完整的仿真就绪3D资产。系统结合了SparseViewDiT、混合数据筛选和自蒸馏技术。

[512] Adversarial Humanities Benchmark: Results on Stylistic Robustness in Frontier Model Safety

arXiv: 2604.18487 (cross-listed)
Authors: Marcello Galisai, Susanna Cifani, Francesco Giarrusso, Piercosma Bisconti, Matteo Prandi, Federico Pierucci, Federico Sartore, Daniele Nardi
Subjects: cs.CL; cs.AI
Tags: LLM Security, Adversarial Robustness, Benchmark
Summary: 本文介绍了对抗性人文学科基准(AHB)，评估模型安全拒绝在风格转换后的鲁棒性。结果显示31个前沿模型的总体攻击成功率为55.75%，表明当前安全技术存在弱泛化问题。

[513] LQM: Linguistically Motivated Multidimensional Quality Metrics for Machine Translation

arXiv: 2604.18490 (cross-listed)
Authors: Samar M. Magdy, Fakhraddin Alwajih, Abdellah El Mekki, Wesam El-Sayed, Muhammad Abdul-Mageed
Subjects: cs.CL; cs.AI
Tags: Machine Translation, LLM Evaluation, Benchmark
Venue: ACL 2026
Code: code
Summary: 本文提出了LQM，一个用于诊断机器翻译错误的语言学动机多维质量指标框架，包含六个语言学层面的层级错误分类体系。作者构建了涵盖七种阿拉伯方言的双语平行语料库，评估了六个LLM的零样本翻译表现，并进行了专家级人工标注。

[514] Faster by Design: Interactive Aerodynamics via Neural Surrogates Trained on Expert-Validated CFD

arXiv: 2604.18491 (cross-listed)
Authors: Nicholas Thumiger, Andrea Bartezzaghi, Mattia Rigotti, Cezary Skura, Thomas Frick, Elisa Serioli, Fabrizio Arbucci, A. Cristiano I. Malossi
Subjects: cs.LG; cs.AI
Tags: Neural Operator, Scientific Computing, Simulation
Summary: 本文引入了一个高保真赛车空气动力学CFD数据集，并提出了GIST图神经网络算子，在复杂几何体上实现了最先进的预测精度。研究表明神经代理模型可以实现交互式设计空间探索，适用于工业赛车工作流程。

[515] Learning the Riccati solution operator for time-varying LQR via Deep Operator Networks

arXiv: 2604.18507 (cross-listed)
Authors: Jun Chen, Umberto Biccari, Junmin Wang
Subjects: math.OC; cs.AI; cs.LG
Tags: Neural Operator, Optimization, Reinforcement Learning
Summary: 本文提出使用深度算子网络学习有限时域LQR问题中的Riccati解算子，用一次性学习阶段替代重复数值积分。作者建立了控制理论保证，证明了算子近似误差如何传播到反馈性能和轨迹精度，并展示了显著的计算加速。

[516] Document-as-Image Representations Fall Short for Scientific Retrieval

arXiv: 2604.18508 (cross-listed)
Authors: Ghazal Khalighinejad, Raghuveer Thirukovalluru, Alexander H. Oh, Bhuwan Dhingra
Subjects: cs.IR; cs.AI; cs.CL
Tags: Information Retrieval, Document Understanding, Benchmark
Summary: 本文论证了文档即图像表示方法在科学文档检索中的不足，并引入了ArXivDoc基准数据集，该数据集从LaTeX源文件构建以支持结构化元素访问。实验表明文本表示方法最为有效，即使在图像查询场景下也优于文档即图像方法。

[517] Different Paths to Harmful Compliance: Behavioral Side Effects and Mechanistic Divergence Across LLM Jailbreaks

arXiv: 2604.18510 (cross-listed)
Authors: Md Rysul Kabir, Zoran Tiganj
Subjects: cs.CR; cs.AI; cs.CL
Tags: LLM Security, LLM Alignment, AI Safety
Summary: 本文研究了三种LLM越狱方法（有害SFT、有害RLVR和消融）的行为和机制特性，发现它们虽然都能实现有害合规，但在能力保持、行为特征和内部失效模式上存在显著差异。RLVR越狱模型保留了安全识别能力但仍会执行有害请求，而SFT越狱模型表现出最大的能力崩溃。

[518] IDOBE: Infectious Disease Outbreak forecasting Benchmark Ecosystem

arXiv: 2604.18521 (cross-listed)
Authors: Aniruddha Adiga, Jingyuan Chou, Anshul Chiranth, Bryan Lewis, Ana I. Bento, Shaun Truelove, Geoffrey Fox, Madhav Marathe, Harry Hochheiser, Srini Venkatramanan
Subjects: cs.LG; cs.AI; q-bio.PE
Tags: Time Series Forecasting, Benchmark, Medical AI
Code: code
Summary: 本文提出了IDOBE，一个用于疫情预测的流行病学时间序列数据集集合，涵盖超过一个世纪的监测数据和13种疾病的10,000多次疫情爆发。作者评估了11种基线模型，发现基于MLP的方法表现最为稳健。

[519] Symbolic Synthesis for LTLf+ Obligations

arXiv: 2604.18532 (cross-listed)
Authors: Giuseppe De Giacomo, Christian Hagemeier, Daniel Hausmann, Nir Piterman
Subjects: cs.LO; cs.AI; cs.FL
Tags: Automated Planning, Formal Methods, Neurosymbolic AI
Summary: 本文研究了LTLfp中义务性质的合成问题，证明了其可以转换为符号表示的确定性弱自动机。研究表明LTLfp义务性质的合成可以以与LTLf合成几乎相同的效率执行。

[520] Transition-Matrix Regularization for Next Dialogue Act Prediction in Counselling Conversations

arXiv: 2604.18539 (cross-listed)
Authors: Eric Rudolph, Philipp Steigerwald, Jens Albrecht
Subjects: cs.CL; cs.AI
Tags: Dialogue System, Transfer Learning
Summary: 本文提出了一种KL正则化项，将预测的对话行为分布与语料库衍生的转移模式对齐，在德语咨询分类任务上实现了9-42%的macro-F1提升。该方法在跨语言和跨咨询领域的验证中表现出良好的迁移性。

[521] Latent Phase-Shift Rollback: Inference-Time Error Correction via Residual Stream Monitoring and KV-Cache Steering

arXiv: 2604.18567 (cross-listed)
Authors: Manan Gupta, Dhruv Kumar
Subjects: cs.LG; cs.AI; cs.CL
Tags: LLM Inference, LLM Reasoning, Interpretability
Summary: 本文提出了LPSR方法，通过监控残差流中的相位偏移并回滚KV缓存注入引导向量来实现推理时错误纠正。LPSR在MATH-500上用8B模型达到44.0%的准确率，显著优于标准自回归生成和提示自纠正方法。

[522] A multimodal and temporal foundation model for virtual patient representations at healthcare system scale

arXiv: 2604.18570 (cross-listed)
Authors: Andrew Zhang, Tong Ding, Sophia J. Wagner, Caiwei Tian, Ming Y. Lu, Rowland Pettit, Joshua E. Lewis, Alexandre Misrahi, Dandan Mo, Long Phi Le, Faisal Mahmood
Subjects: cs.LG; cs.AI; cs.CL
Tags: Medical AI, Foundation Model, Multimodal Learning
Summary: 本文介绍了Apollo，一个多模态时序基础模型，在720万患者的250亿条记录上进行训练，涵盖28种医疗模态和12个主要医学专科。Apollo学习了统一的表示空间，在322个预测任务中展示了临床预测能力，包括疾病发病风险预测、疾病进展和治疗反应预测等。

[523] Back into Plato's Cave: Examining Cross-modal Representational Convergence at Scale

arXiv: 2604.18572 (cross-listed)
Authors: A. Sophia Koepke, Daniil Zverev, Shiry Ginosar, Alexei A. Efros
Subjects: cs.CV; cs.AI; cs.LG
Tags: Representation Learning, Vision-Language Model, Multimodal Learning
Summary: 本文挑战了柏拉图表示假设，发现在大规模数据集上跨模态对齐会显著下降。研究表明剩余的对齐反映的是粗粒度语义重叠而非细粒度结构，且更强的语言模型与视觉对齐的趋势在较新模型中不再成立。

[524] When Can LLMs Learn to Reason with Weak Supervision?

arXiv: 2604.18574 (cross-listed)
Authors: Salman Rahman, Jingyan Shen, Anna Mordvina, Hamid Palangi, Saadia Gabriel, Pavel Izmailov
Subjects: cs.LG; cs.AI
Tags: LLM Reasoning, RLHF, Reinforcement Learning
Summary: 本文系统研究了LLM在弱监督条件下（稀缺数据、噪声奖励、自监督代理奖励）通过RLVR学习推理的能力。研究发现泛化能力由训练奖励饱和动态决定，推理忠实度是预测泛化能力的关键因素，而SFT对显式推理轨迹是弱监督下泛化的必要条件。

[525] Bounded Ratio Reinforcement Learning

arXiv: 2604.18578 (cross-listed)
Authors: Yunke Ao, Le Chen, Bruce D. Lee, Assefa S. Wahd, Aline Czarnobai, Philipp Fürnstahl, Bernhard Schölkopf, Andreas Krause
Subjects: cs.LG; cs.AI
Tags: Reinforcement Learning, RLHF, Optimization
Summary: 本文引入了BRRL框架，弥合了信任域方法与PPO裁剪目标之间的差距，推导出具有单调性能改进保证的解析最优解。作者开发了BPO算法并扩展为适用于LLM微调的GBPO，在稳定性和最终性能上匹配或超越PPO和GRPO。

[526] Sessa: Selective State Space Attention

arXiv: 2604.18580 (cross-listed)
Authors: Liubomyr Horbatko
Subjects: cs.LG; cs.AI; cs.CL
Tags: State Space Model, Long Context, Transformer Architecture
Code: code
Summary: 本文提出了Sessa，一种将注意力置于反馈路径内的解码器，实现了层内循环多路径聚合。Sessa在长上下文基准测试中实现了最强的性能，同时保持与Transformer和Mamba基线在短上下文语言建模上的竞争力。

替换投稿 (337)

[527] Neural Operator: Is data all you need to model the world? An insight into the paradigm of data-driven scientific ML

arXiv: 2301.13331 (replaced)
Authors: Hrishikesh Viswanath, Md Ashiqur Rahman, Abhijeet Vyas, Andrey Shor, Beatriz Medeiros, Stephanie Hernandez, Suhas Eswarappa Prameela, Aniket Bera
Subjects: cs.AI; cs.LG
Tags: Neural Operator, Scientific Computing, Survey
Summary: 本文全面介绍了神经算子在求解偏微分方程中的应用，比较了数据驱动方法与传统数值方法。文章讨论了神经算子的优势如离散化不变性和分辨率不变性，并指出了机器学习方法中存在的开放性问题。

[528] Automatic Dataset Construction (ADC): Sample Collection, Data Curation, and Beyond

arXiv: 2408.11338 (replaced)
Authors: Minghao Liu, Zonglin Di, Jiaheng Wei, Zhongruo Wang, Hengxiang Zhang, Ruixuan Xiao, Haoyu Wang, Jinlong Pang, Hao Chen, Ankit Shah, Hongxin Wei, Xinlei He, Zhaowei Zhao, Haobo Wang, Lei Feng, Jindong Wang, James Davis, Yang Liu
Subjects: cs.AI; cs.LG
Tags: Data Synthesis, Dataset, Data Annotation
Summary: 本文提出了ADC方法，利用LLM进行类别设计和代码生成，通过搜索引擎自动收集样本构建数据集。作者构建了包含100万张图像的Clothing-ADC数据集，并设计了标签噪声检测、噪声学习和类别不平衡学习三个基准数据集。

[529] Plasticity Loss in Deep Reinforcement Learning: A Survey

arXiv: 2411.04832 (replaced)
Authors: Timo Klein, Christoph Luther, Manus McAuliffe, Lukas Miklautz, Claudia Plant, Sebastian Tschiatschek
Subjects: cs.AI; cs.LG
Tags: Reinforcement Learning, Survey, Deep Learning Theory
Summary: 本文综述了深度强化学习中的可塑性损失问题，提出了统一的定义并对50多种缓解策略进行了分类。研究发现通用正则化技术通常优于特定领域的干预措施，并指出了当前评估实践中的不足。

[530] Generative midtended cognition and Artificial Intelligence. Thinging with thinging things

arXiv: 2411.06812 (replaced)
Authors: Xabier E. Barandiaran, Marta Pérez-Verdugo
Subjects: cs.AI; cs.CY; cs.LG
Tags: Cognitive Science, AI Ethics, Human-Computer Interaction
Venue: Synthese
Summary: 本文提出了“生成性中介认知”的概念，探讨生成式AI与人类认知的整合，将其定义为一种介于传统意图创造和扩展认知之间的混合过程。文章分析了这种认知活动的特征及其潜在的风险与益处。

[531] NumCoKE: Ordinal-Aware Numerical Reasoning over Knowledge Graphs with Mixture-of-Experts and Contrastive Learning

arXiv: 2411.12950 (replaced)
Authors: Ming Yin, Zongsheng Cao, Qiqing Xia, Chenyang Tu, Neng Gao
Subjects: cs.AI
Tags: Knowledge Graph, Mixture-of-Experts, Numerical Reasoning
Summary: 本文提出了NumCoKE框架，利用混合专家模型和对比学习解决知识图谱数值推理中的语义整合和序数区分难题。实验结果表明，该方法在多种属性分布下均优于现有基线。

[532] AutoSculpt: A Pattern-based Model Auto-pruning Framework Using Reinforcement Learning and Graph Learning

arXiv: 2412.18091 (replaced)
Authors: Lixian Jing, Jianpeng Qi, Junyu Dong, Yanwei Yu
Subjects: cs.AI
Tags: Model Compression, Reinforcement Learning, Graph Neural Network
Code: code
Summary: 本文介绍了AutoSculpt框架，利用图学习和深度强化学习自动识别并剪枝深度神经网络中的规则模式。实验显示该方法在多种架构上实现了高剪枝率和显著的FLOPs减少。

[533] Conversational Process Model Redesign

arXiv: 2505.05453 (replaced)
Authors: Nataliia Klievtsova, Timotheus Kampik, Juergen Mangler, Stefanie Rinderle-Ma
Subjects: cs.AI
Tags: Enterprise AI, LLM Agent, Business Process Management
Summary: 本文探讨了利用大语言模型辅助领域专家进行业务流程模型重设计的可行性，提出了一种名为CPMR的对话式方法。该方法通过识别变更模式实现了可解释的修改，并建议采用混合方法以提高效果。

[534] PRL: Prompts from Reinforcement Learning

arXiv: 2505.14412 (replaced)
Authors: Paweł Batorski, Adrian Kosmala, Paul Swoboda
Subjects: cs.AI; cs.CL
Tags: Prompt Engineering, Reinforcement Learning, Text Generation
Code: code
Summary: 本文提出了PRL方法，利用强化学习自动生成提示词，能够产生训练中未见过的少样本示例。该方法在文本分类、简化和摘要任务上取得了优于现有最先进方法的性能。

[535] SMART: Self-Generating and Self-Validating Multi-Dimensional Assessment for LLMs' Mathematical Problem Solving

arXiv: 2505.16646 (replaced)
Authors: Yujie Hou, Mei Wang, Yaoyao Zhong, Ting Zhang, Xuetao Ma, Hua Huang
Subjects: cs.AI
Tags: LLM Evaluation, Mathematical Reasoning, Benchmark
Summary: 本文提出了SMART基准，将数学问题解决分解为四个认知维度，以评估大语言模型的真实推理能力。评估揭示了当前模型在各维度能力上的显著差异，并提出了一种新的评估指标。

[536] Sensorimotor Self-Recognition in Multimodal Large Language Model-Driven Robots

arXiv: 2505.19237 (replaced)
Authors: Iñaki Dellibarda Varela, Pablo Romero-Sorozabal, Diego Torricelli, Gabriel Delgado-Oleas, Jose Ignacio Serrano, Maria Dolores del Castillo Sobrino, Eduardo Rocon, Manuel Cebrian
Subjects: cs.AI; cs.RO
Tags: Embodied AI, Robotics, Vision-Language Model
Summary: 本文研究了多模态大语言模型驱动的机器人是否能通过感觉运动经验发展出自我识别能力。实验结果表明，该系统能够推断自身的机器人特性，展现出稳健的环境感知和自我识别能力。

[537] ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows

arXiv: 2505.19897 (replaced)
Authors: Qiushi Sun, Zhoumianze Liu, Chang Ma, Zichen Ding, Fangzhi Xu, Zhangyue Yin, Haiteng Zhao, Zhenyu Wu, Kanzhi Cheng, Zhaoyang Liu, Jianing Wang, Qintong Li, Xiangru Tang, Tianbao Xie, Xiachong Feng, Xiang Li, Ben Kao, Wenhai Wang, Biqing Qi, Lingpeng Kong, Zhiyong Wu
Subjects: cs.AI; cs.CL; cs.CV; cs.HC
Tags: LLM Agent, Benchmark, GUI Automation
Venue: ICLR 2026
Summary: 本文介绍了ScienceBoard，一个包含多领域科学工作流环境的基准，用于评估多模态自主代理在现实科研任务中的表现。评估结果显示，当前模型在协助科学家处理复杂工作流方面仍存在显著不足。

[538] Curriculum-RLAIF: Curriculum Alignment with Reinforcement Learning from AI Feedback

arXiv: 2505.20075 (replaced)
Authors: Jiaye Lin, Mengdi Li, Xufeng Zhao, Wenhao Lu, Peilin Zhao, Stefan Wermter, Di Wang
Subjects: cs.AI
Tags: RLHF, LLM Alignment, Curriculum Learning
Summary: 本文提出了Curriculum-RLAIF框架，通过构建不同难度的偏好对并采用课程学习策略来训练奖励模型，从而增强其泛化能力。实验结果表明，该方法显著提升了策略模型的对齐性能。

[539] Leave it to the Specialist: Repair Sparse LLMs with Sparse Fine-Tuning via Sparsity Evolution

arXiv: 2505.24037 (replaced)
Authors: Qiao Xiao, Alan Ansell, Boqian Wu, Lu Yin, Mykola Pechenizkiy, Shiwei Liu, Decebal Constantin Mocanu
Subjects: cs.AI
Tags: Model Compression, Parameter-Efficient Fine-Tuning, LLM Training
Code: code
Summary: 本文提出了一种名为SEFT的稀疏微调方法，专门用于修复和适应剪枝后的大语言模型。该方法在微调过程中动态演化稀疏拓扑结构，在保持稀疏度的同时显著提升了模型性能。

[540] MIRROR: Converging Cognitive Principles as Computational Mechanisms for AI Reasoning

arXiv: 2506.00430 (replaced)
Authors: Nicole Hsing
Subjects: cs.AI
Tags: LLM Reasoning, Cognitive Science
Code: code
Summary: 本文提出了MIRROR框架，将认知理论中的架构原则转化为具体的计算机制，以增强AI系统的推理能力。该框架通过内部独白管理器和认知控制器实现了并行处理和整合综合，显著提升了多轮对话性能。

[541] NaturalGAIA: A Verifiable Benchmark and Hierarchical Framework for Long-Horizon GUI Tasks

arXiv: 2508.01330 (replaced)
Authors: Zihan Zheng, Tianle Cui, Taoran Wang, Fengtao Wang, Jiahui Pan, Lewei He, Qianglong Chen
Subjects: cs.AI
Tags: GUI Automation, LLM Agent, Benchmark
Code: code
Summary: 本文介绍了NaturalGAIA基准数据集和LightManus-Jarvis分层协作框架，旨在解决长时程GUI任务中的真实性和可验证性评估挑战。实验表明，该方法在成功率和效率上均显著优于现有基线。

[542] HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds

arXiv: 2508.12782 (replaced)
Authors: Petr Anokhin, Roman Khalikov, Stefan Rebrikov, Viktor Volkov, Artyom Sorokin, Vincent Bissonnette
Subjects: cs.AI
Tags: LLM Reasoning, Automated Planning, Benchmark
Code: code
Summary: 本文提出了HeroBench基准，用于评估大语言模型在复杂虚拟世界中进行长时程规划和结构化推理的能力。评估结果显示，当前最先进的模型在处理长时程自主规划方面仍面临巨大挑战。

[543] ORThought: Benchmarking and Automating Logistics Optimization Modeling

arXiv: 2508.14410 (replaced)
Authors: Beinuo Yang, Qishen Zhou, Junyi Li, Chenxing Su, Panagiotis Angeloudis, Simon Hu
Subjects: cs.AI
Tags: Logistics Optimization, LLM Agent, Benchmark
Venue: Artificial Intelligence for Transportation
Code: code
Summary: 本文提出了LogiOR基准和ORThought框架，旨在利用大语言模型自动化物流优化建模过程。ORThought采用结构化的双智能体架构，在处理复杂约束方面显著优于现有基线。

[544] BASIL: Bayesian Assessment of Sycophancy in LLMs

arXiv: 2508.16846 (replaced)
Authors: Katherine Atwell, Pedram Heydari, Anthony Sicilia, Malihe Alikhani
Subjects: cs.AI; cs.CL
Tags: LLM Alignment, LLM Evaluation, Probabilistic Inference
Summary: 本文提出了一个贝叶斯概率框架BASIL，用于评估大语言模型中的阿谀奉承行为，能够将其与理性的信念更新区分开来。该框架提供了描述性和规范性指标，并证明了校准方法和微调策略的有效性。

[545] The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

arXiv: 2509.02547 (replaced)
Authors: Guibin Zhang, Hejia Geng, Xiaohang Yu, Zhenfei Yin, Zaibin Zhang, Zelin Tan, Heng Zhou, Zhongzhi Li, Xiangyuan Xue, Yijiang Li, Yifan Zhou, Yang Chen, Chen Zhang, Yutao Fan, Zihu Wang, Songtao Huang, Francisco Piedrahita-Velez, Yue Liao, Hongru Wang, Mengyue Yang, Heng Ji, Jun Wang, Shuicheng Yan, Philip Torr, Lei Bai
Subjects: cs.AI; cs.CL
Tags: LLM Agent, Reinforcement Learning, Survey
Venue: TMLR 2025
Summary: 本文综述了智能体强化学习，将其与传统的大语言模型强化学习进行对比，指出智能体强化学习将大语言模型从被动的序列生成器转变为嵌入复杂动态环境中的自主决策智能体。文章提出了一个双重分类法，涵盖了规划、工具使用、记忆和推理等核心能力，并总结了相关的开源环境、基准和框架。

[546] Knowledge-Driven Hallucination in Large Language Models: An Empirical Study on Process Modeling

arXiv: 2509.15336 (replaced)
Authors: Humam Kourani, Anton Antonov, Alessandro Berti, Wil M.P. van der Aalst
Subjects: cs.AI
Tags: LLM Hallucination, Process Modeling, LLM Evaluation
Venue: GenAI4PM 2025 Workshop
Summary: 本文研究了大语言模型中的“知识驱动幻觉”现象，即模型的内部知识覆盖了明确的源证据，导致输出与证据相矛盾。研究通过在业务流程建模任务中进行对照实验，评估了模型在标准和非典型流程结构下的证据保真度，揭示了在基于证据的领域中验证AI生成内容的必要性。

[547] Large Language Models as Nondeterministic Causal Models

arXiv: 2509.22297 (replaced)
Authors: Sander Beckers
Subjects: cs.AI
Tags: Causal Inference, LLM Reasoning, Interpretability
Venue: KR 2026
Summary: 本文提出了一种将大语言模型视为非确定性因果模型的方法，用于生成反事实推理，相比现有方法更简单且直接适用于黑盒模型。作者论证了现有方法对LLM的解释存在歧义，并建立了一个基于预期语义的理论基础，为特定应用的生成反事实方法奠定了基础。

[548] NuRisk: A Visual Question Answering Dataset for Agent-Level Risk Assessment in Autonomous Driving

arXiv: 2509.25944 (replaced)
Authors: Yuan Gao, Mattia Piccinini, Roberto Brusnicki, Yuchen Zhang, Johannes Betz
Subjects: cs.AI
Tags: Autonomous Driving, Visual Reasoning, Vision-Language Model
Venue: ICRA 2026
Code: code
Summary: 本文提出了NuRisk数据集，用于自动驾驶中智能体级别的风险评估视觉问答，包含基于鸟瞰图的序列图像和定量的风险标注。研究发现现有视觉语言模型在时空推理方面表现不佳，而微调后的模型在准确性和延迟上均有显著提升。

[549] Plug-and-Play Dramaturge: A Divide-and-Conquer Approach for Iterative Narrative Script Refinement via Collaborative LLM Agents

arXiv: 2510.05188 (replaced)
Authors: Wenda Xie, Chao Guo, Yanqing Jing, Junle Wang, Yisheng Lv, Fei-Yue Wang
Subjects: cs.AI
Tags: LLM Agent, Text Generation, Multi-Agent System
Summary: 本文提出了Dramaturge方法，利用分层的大语言模型智能体协作，通过全局审查、场景级审查和分层协调修改三个阶段来迭代优化长叙事剧本。该方法有效地解决了单次生成难以维持上下文一致性和协调多粒度修改的问题，显著提升了剧本的整体质量和细节表现。

[550] ContractEval: A Benchmark for Evaluating Contract-Satisfying Assertions in Code Generation

arXiv: 2510.12047 (replaced)
Authors: Soohan Lim, Joonghyuk Hahn, Hyunwoo Park, Sang-Ki Ko, Yo-Sub Han
Subjects: cs.AI; cs.SE
Tags: Code Generation, Benchmark, Software Testing
Code: code
Summary: 本文介绍了ContractEval基准，用于评估代码生成中模型是否满足前置条件（契约），揭示了现有大语言模型在功能正确性较高但契约满足率极低的问题。该基准包含重构的任务描述和神经符号流水线合成的测试用例，强调了契约满足是代码生成质量的重要维度。

[551] LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild

arXiv: 2510.14240 (replaced)
Authors: Jiayu Wang, Yifei Ming, Riya Dulepet, Qinglin Chen, Austin Xu, Zixuan Ke, Frederic Sala, Aws Albarghouthi, Caiming Xiong, Shafiq Joty
Subjects: cs.AI
Tags: LLM Agent, Benchmark, Web Agent
Venue: ICLR 2026
Code: code
Summary: 本文提出了LiveResearchBench基准，用于评估智能体在真实网络环境中进行深度研究和综合信息的能力，包含100个专家策划的任务。同时引入了DeepEval评估套件，对生成的引用式长篇报告进行全面评估，揭示了当前深度研究系统的优缺点。

[552] End-to-end Listen, Look, Speak and Act

arXiv: 2510.16756 (replaced)
Authors: Siyin Wang, Wenyi Yu, Xianzhao Chen, Xiaohai Tian, Jun Zhang, Lu Lu, Chao Zhang
Subjects: cs.AI; cs.CL; cs.CV; cs.RO; eess.AS
Tags: Multimodal Learning, Embodied AI, Mixture-of-Experts
Code: code
Summary: 本文提出了ELLSA模型，这是首个全双工、端到端的模型，能够在单一架构中同时感知和生成视觉、文本、语音和动作。该模型采用SA-MoE架构，实现了更自然的人机交互模式，如对话轮流、边说边做和动作打断等。

[553] Beyond the Failures: Rethinking Foundation Models in Pathology

arXiv: 2510.23807 (replaced)
Authors: Hamid R. Tizhoosh
Subjects: cs.AI; cs.CV
Tags: Medical Imaging, Foundation Model
Summary: 本文分析了基础模型在病理学中表现不佳的原因，指出其源于概念上的不匹配，如密集嵌入无法代表组织的组合丰富性以及架构缺陷。文章认为病理学需要专门为生物图像设计的模型，而不是简单适应自然图像的方法。

[554] MaLoRA: Gated Modality LoRA for Key-Space Alignment in Multimodal LLM Fine-Tuning

arXiv: 2510.26721 (replaced)
Authors: Xinhan Zheng, Huyu Wu, Xueting Wang, Duo Su, Haiyun Jiang
Subjects: cs.AI; cs.MM
Tags: Multimodal Learning, Parameter-Efficient Fine-Tuning, Vision-Language Model
Summary: 本文提出了MaLoRA方法，通过门控模态LoRA解决多模态大语言模型中的文本偏好问题，指出该问题源于注意力键空间中视觉键与文本键的分布错位。实验分析证实了视觉和文本键在注意力空间中占据明显不同的子空间，揭示了文本偏见的内在架构原因。

[555] The Impact of Off-Policy Training Data on Probe Generalisation

arXiv: 2511.17408 (replaced)
Authors: Nathalie Kirch, Samuel Dower, Adrians Skapars, Helen Yannakoudakis, Ekdeep Singh Lubana, Dmitrii Krasheninnikov
Subjects: cs.AI; cs.LG
Tags: Interpretability, LLM Evaluation, LLM Alignment
Venue: ACL 2026
Summary: 本文系统评估了离策略数据对大语言模型探针泛化能力的影响，发现数据生成策略对探针性能有显著影响，尤其是在检测如战略欺骗等意图驱动的行为时。研究提出了一种预测泛化失败的方法，并指出当前的欺骗探针可能无法泛化到真实的监控场景中。

[556] OVOD-Agent: A Markov-Bandit Framework for Proactive Visual Reasoning and Self-Evolving Detection

arXiv: 2511.21064 (replaced)
Authors: Chujie Wang, Jianyu Lu, Zhiyuan Luo, Xi Chen, Chu He
Subjects: cs.AI; cs.CV
Tags: Object Detection, Visual Reasoning, Reinforcement Learning
Summary: 本文提出了OVOD-Agent框架，将开放词汇目标检测中的被动类别匹配转变为主动的视觉推理和自演化检测过程。该框架利用马尔可夫决策过程和Bandit模块生成探索信号，实现了在有限监督下的自适应检测策略，显著提升了检测性能。

[557] Multimodal Reinforcement Learning with Adaptive Verifier for AI Agents

arXiv: 2512.03438 (replaced)
Authors: Reuben Tan, Baolin Peng, Zhengyuan Yang, Hao Cheng, Oier Mees, Theodore Zhao, Andrea Tupini, Isar Meijier, Qianhui Wu, Yuncong Yang, Lars Liden, Yu Gu, Sheng Zhang, Xiaodong Liu, Lijuan Wang, Marc Pollefeys, Yong Jae Lee, Jianfeng Gao
Subjects: cs.AI
Tags: Reinforcement Learning, Multimodal Learning, Reward Design
Summary: 本文介绍了Argos，一种用于训练多模态推理智能体的原则性奖励智能体，它通过选择不同的评分函数来评估最终响应、时空定位和推理过程质量。实验表明，该方法在空间推理、视觉幻觉以及机器人和具身智能基准测试中取得了最先进的结果。

[558] SkipKV: Selective Skipping of KV Generation and Storage for Efficient Inference with Large Reasoning Models

arXiv: 2512.07993 (replaced)
Authors: Jiayi Tian, Seyedarmin Azizi, Yequan Zhao, Erfan Baghaei Potraghloo, Sean McPherson, Sharath Nittur Sridhar, Zhengyang Wang, Zheng Zhang, Massoud Pedram, Souvik Kundu
Subjects: cs.AI
Tags: LLM Inference, KV Cache, LLM Reasoning
Code: code
Summary: 本文提出了SkipKV，一种无需训练的KV压缩方法，通过句子级的选择性剔除和生成来减少大推理模型的KV缓存开销。该方法利用句子评分指标识别并移除高度相似的句子，同时动态调整导向向量以抑制冗余生成，从而在保持准确性的同时提高了吞吐量。

[559] ID-PaS+ : Identity-Aware Predict-and-Search for General Mixed-Integer Linear Programs

arXiv: 2512.10211 (replaced)
Authors: Junyang Cai, El Mehdi Er Raqabi, Pascal Van Hentenryck, Bistra Dilkina
Subjects: cs.AI
Tags: Neural Combinatorial Optimization, Optimization
Summary: 本文扩展了预测与搜索框架以处理参数化的一般混合整数线性规划问题，并提出了ID-PAS+框架，使机器学习模型能够更有效地处理异构变量类型。实验表明，ID-PAS+在多个大规模实际问题上的表现优于现有的Gurobi求解器和PAS方法。

[560] Safe for Whom? Rethinking How We Evaluate the Safety of LLMs for Real Users

arXiv: 2512.10687 (replaced)
Authors: Manon Kempermann, Sai Suresh Macharla Vasu, Mahalakshmi Raveenthiran, Theo Farrell, Ingmar Weber
Subjects: cs.AI; cs.CY
Tags: LLM Evaluation, AI Safety
Venue: IASEAI 2026
Summary: 本文探讨了如何评估大语言模型对真实用户的安全性，指出针对个人建议的伤害取决于用户背景而非普遍风险。研究发现，评估者需要丰富的用户背景信息才能准确评估安全性，且仅包含用户披露的背景信息的提示并不足以显著改善评估结果。

[561] Subjective functions

arXiv: 2512.15948 (replaced)
Authors: Samuel J. Gershman
Subjects: cs.AI; q-bio.NC
Tags: Reward Design, Cognitive Science, Decision Making
Summary: 本文提出”主观函数”概念，即内生于智能体的高阶目标函数（相对于智能体自身特征定义，而非外部任务）。以期望预测误差作为具体案例，探讨智能体如何动态合成新目标函数，并与心理学、神经科学和机器学习建立联系。

[562] MegaRAG: Multimodal Knowledge Graph-Based Retrieval Augmented Generation

arXiv: 2512.20626 (replaced)
Authors: Chi-Hsiang Hsiao, Yi-Cheng Wang, Tzung-Sheng Lin, Yi-Ren Yeh, Chu-Song Chen
Subjects: cs.AI; cs.CL; cs.CV; cs.IR
Tags: RAG, Knowledge Graph, Multimodal Learning
Venue: ACL 2026
Summary: 本文提出MegaRAG，一种基于多模态知识图谱的检索增强生成方法，将视觉线索融入知识图谱构建、检索和答案生成全过程。该方法支持跨模态推理，在文本和多模态语料库上均优于现有RAG方法。

[563] The Illusion of Insight in Reasoning Models

arXiv: 2601.00514 (replaced)
Authors: Liv G. d'Aliberti, Manoel Horta Ribeiro
Subjects: cs.AI; cs.CL
Tags: LLM Reasoning, Uncertainty Estimation, LLM Evaluation
Summary: 本文研究推理模型是否具有真正的”顿悟”时刻，通过分析100万+推理轨迹发现：推理过程中的策略转变罕见且不随训练增加，很少提升准确率。研究表明这些转变是不稳定推理行为的症状，而非内在的自我修正机制。

[564] Tape: A Cellular Automata Benchmark for Evaluating Rule-Shift Generalization in Reinforcement Learning

arXiv: 2601.04695 (replaced)
Authors: Enze Pan
Subjects: cs.AI; cs.LG
Tags: Reinforcement Learning, Benchmark, Cellular Automata
Summary: 本文提出Tape基准，用于评估强化学习中分布外泛化能力，通过元胞自动机隔离动态规则变化。实验表明当前RL算法即使在简单的一维确定性设置下，对潜在规则变化仍然脆弱。

[565] KnowMe-Bench: Benchmarking Person Understanding for Lifelong Digital Companions

arXiv: 2601.04745 (replaced)
Authors: Tingyu Wu, Zhisheng Chen, Ziyan Weng, Shuhe Wang, Chenglong Li, Shuo Zhang, Sen Hu, Silin Wu, Qizhen Lan, Huacan Wang, Ronghao Chen
Subjects: cs.AI; cs.IR
Tags: Benchmark, LLM Evaluation, Long Context
Code: code
Summary: 本文提出KnowMe-Bench基准，基于长篇自传体叙事评估终身数字伴侣对用户的理解能力。研究发现检索增强系统主要提升事实准确性，但在时间锚定解释和高层推理方面仍存在错误。

[566] SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning

arXiv: 2601.04809 (replaced)
Authors: Caijun Xu, Changyi Xiao, Zhongyuan Peng, Xinrun Wang, Yixin Cao
Subjects: cs.AI
Tags: LLM Reasoning, Reinforcement Learning, Data Synthesis
Summary: 本文提出SCALER框架，通过自适应环境设计维持有效的学习信号。该框架将编程问题转换为可验证的推理环境，采用自适应多环境RL策略动态调整难度，支持持续改进和稳定的长期训练。

[567] Reinforced Efficient Reasoning via Semantically Diverse Exploration

arXiv: 2601.05053 (replaced)
Authors: Ziqi Zhao, Zhaochun Ren, Jiahong Zou, Liu Yang, Zhiwei Xu, Xuri Ge, Zhumin Chen, Xinyu Ma, Daiting Shi, Shuaiqiang Wang, Dawei Yin, Xin Xin
Subjects: cs.AI; cs.CL
Tags: LLM Reasoning, Monte Carlo Tree Search, Reinforcement Learning
Venue: ACL 2026
Code: code
Summary: 本文提出ROSE方法，通过语义熵分支策略和ε探索机制促进多样化的推理探索，并设计长度感知的段级优势估计器奖励简洁正确的推理。在多个数学推理基准上验证了方法的有效性和效率。

[568] Structure-Aware Diversity Pursuit as an AI Safety Strategy against Homogenization

arXiv: 2601.06116 (replaced)
Authors: Ian Rios-Sialer
Subjects: cs.AI; cs.CL; cs.CY
Tags: AI Safety, Bias Mitigation
Summary: 本文立场论文指出同质化（由于偏见复制和模式崩溃导致的有害多样性丧失）应成为AI安全的主要关注点。提出”异种复制”策略作为缓解同质化的方法，并将其形式化为结构感知的多样性追求。

[569] C-World: A Computer Use Agent Environment Creator

arXiv: 2601.06328 (replaced)
Authors: Ziqiao Xi, Shuang Liang, Qi Liu, Jiaqing Zhang, Letian Peng, Fang Nan, Meshal Nayim, Tianhui Zhang, Rishika Mundada, Lianhui Qin, Biwei Huang, Kun Zhou
Subjects: cs.AI
Tags: LLM Agent, Benchmark, Data Synthesis
Summary: 本文提出C-World环境创建系统，包含5571个统一格式工具、任务分布引擎、状态控制器和奖励信号。支持真实API执行和合成模式，评估显示规划能力强但执行是瓶颈，约束遵循是主要失败模式。

[570] ACE-Router: Generalizing History-Aware Routing from MCP Tools to the Agent Web

arXiv: 2601.08276 (replaced)
Authors: Zhiyuan Yao, Zishan Xu, Yifu Guo, Zhiguang Han, Cheng Yang, Shuo Zhang, Weinan Zhang, Xingshan Zeng, Weiwen Liu
Subjects: cs.AI
Tags: LLM Agent, Multi-Agent System
Summary: 本文提出ACE-Router流水线，训练历史感知路由器以在大规模生态系统中实现精确导航。通过依赖丰富的候选图合成多轮轨迹，实验显示其在真实基准上表现优异，并具有多智能体协作泛化能力和可扩展性。

[571] Omni-R1: Towards the Unified Generative Paradigm for Multimodal Reasoning

arXiv: 2601.09536 (replaced)
Authors: Dongjie Cheng, Yongqi Li, Zhixin Ma, Hongru Cai, Yupeng Hu, Wenjie Wang, Liqiang Nie, Wenjie Li
Subjects: cs.AI
Tags: Multimodal Learning, Vision-Language Model, LLM Reasoning
Venue: ACL 2026 Findings
Summary: 本文提出统一生成式多模态推理范式，通过在推理过程中生成中间图像来统一多种多模态推理技能。提出Omni-R1两阶段框架和无需多模态标注的Omni-R1-Zero，在广泛的多模态任务上实现统一推理。

[572] Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning

arXiv: 2601.10306 (replaced)
Authors: Xin Guan, Zijian Li, Shen Huang, Pengjun Xie, Jingren Zhou, Jiuxin Cao
Subjects: cs.AI; cs.CL
Tags: LLM Reasoning, Reinforcement Learning, Long Context
Summary: 本文提出EAPO方法，通过组相对证据奖励提供密集的过程监督来改善证据质量，并引入自适应奖励-策略协同进化机制。在八个基准上的评估表明EAPO显著提升长上下文推理性能。

[573] Query-Efficient Agentic Graph Extraction Attacks on GraphRAG Systems

arXiv: 2601.14662 (replaced)
Authors: Shuhua Yang, Jiahao Zhang, Yilong Wang, Dongwon Lee, Suhang Wang
Subjects: cs.AI; cs.MA
Tags: RAG, Knowledge Graph, LLM Security
Venue: ACL 2026
Code: code
Summary: 本文研究GraphRAG系统的安全漏洞，提出AGEA攻击框架，利用新颖性引导的探索-利用策略和外部图记忆模块。在相同查询预算下可恢复高达90%的实体和关系，表明现代GraphRAG系统对结构化提取攻击高度脆弱。

[574] From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models

arXiv: 2601.15690 (replaced)
Authors: Jiaxin Zhang, Wendi Cui, Zhuohang Li, Lifu Huang, Bradley Malin, Caiming Xiong, Chien-Sheng Wu
Subjects: cs.AI; stat.AP
Tags: Uncertainty Estimation, LLM Reasoning, Survey
Venue: ACL 2026
Summary: 本综述阐述不确定性从被动诊断指标演变为主动控制信号的趋势，涵盖三个前沿领域：高级推理中优化计算和触发自我修正、自主智能体中管理工具使用和信息寻求、强化学习中缓解奖励黑客。

[575] Universal Adversarial Attacks against Closed-Source MLLMs via Target-View Routed Meta Optimization

arXiv: 2601.23179 (replaced)
Authors: Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Xueyi Ke, Qixing Zhang, Bingquan Shen, Alex Kot, Xudong Jiang
Subjects: cs.AI
Tags: Adversarial Robustness, Vision-Language Model, LLM Security
Summary: 本文研究通用目标迁移对抗攻击设置，提出MCRMO-Attack方法，通过多裁剪聚合、可对齐性门控令牌路由和元学习跨目标扰动先验来稳定监督。在商业MLLM上显著提升攻击成功率。

[576] Uncertainty Quantification in LLM Agents: Foundations, Emerging Challenges, and Opportunities

arXiv: 2602.05073 (replaced)
Authors: Changdae Oh, Seongheon Park, To Eun Kim, Jiatong Li, Wendi Li, Samuel Yeh, Xuefeng Du, Hamed Hassani, Paul Bogdan, Dawn Song, Sharon Li
Subjects: cs.AI
Tags: Uncertainty Estimation, LLM Agent, LLM Evaluation
Venue: ACL 2026
Summary: 本文提出LLM智能体不确定性量化的通用框架，识别四个技术挑战：不确定性估计器选择、异构实体不确定性、交互系统不确定性动态建模、缺乏细粒度基准，并在τ²-bench上进行数值分析。

[577] DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation

arXiv: 2602.22839 (replaced)
Authors: Hao Zheng, Guozhao Mo, Xinru Yan, Qianhao Yuan, Wenkai Zhang, Xuanang Chen, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun
Subjects: cs.AI
Tags: LLM Agent, Text Generation
Code: code
Summary: 本文提出了DeepPresenter，一个用于演示文稿生成的智能体框架，该框架通过基于环境的反思机制，根据渲染后的幻灯片状态进行迭代规划和修正，而非仅依赖内部推理信号。

[578] A Model-Free Universal AI

arXiv: 2602.23242 (replaced)
Authors: Yegon Kim, Juho Lee
Subjects: cs.AI
Tags: Reinforcement Learning, Decision Making
Summary: 本文提出了AIQI（基于Q归纳的通用AI），这是首个被证明在通用强化学习中具有渐近ε最优性的无模型智能体，通过对分布动作价值函数进行通用归纳来实现。

[579] Offline Materials Optimization with CliqueFlowmer

arXiv: 2603.06082 (replaced)
Authors: Jakub Grudzien Kuba, Benjamin Kurt Miller, Sergey Levine, Pieter Abbeel
Subjects: cs.AI; cs.CE
Tags: Material Discovery, Optimization, Generative Model
Code: code
Summary: 本文提出了CliqueFlowmer，一种基于离线模型优化的材料发现方法，将基于团的优化技术融入Transformer和流生成模型中，以优化目标材料属性。

[580] Why Agents Compromise Safety Under Pressure

arXiv: 2603.14975 (replaced)
Authors: Hengle Jiang, Ke Tang
Subjects: cs.AI; cs.CL; cs.CY; cs.MA
Tags: LLM Agent, AI Safety, LLM Alignment
Venue: ACL 2026 Findings
Summary: 本文提出了”智能体压力”概念，描述当合规执行变得不可行时产生的内生张力，并证明在此压力下智能体会策略性地牺牲安全性以保持效用，同时探索了压力隔离等缓解策略。

[581] Adaptive Domain Models: Bayesian Evolution, Warm Rotation, and Principled Training for Geometric and Neuromorphic AI

arXiv: 2603.18104 (replaced)
Authors: Houston Haynes
Subjects: cs.AI; cs.DC; cs.LG; cs.NE
Tags: Neuromorphic Computing, Memory Architecture, Knowledge Distillation
Summary: 本文提出了一种基于几何代数和posit算术的替代性AI训练架构，实现了深度无关的训练内存、保权值更新和精确梯度累积，适用于传统和神经形态模型。

[582] Deep reflective reasoning in interdependence constrained structured data extraction from clinical notes for digital health

arXiv: 2603.20435 (replaced)
Authors: Jingwei Huang, Kuroush Nezafati, Zhikai Chi, Ruichen Rong, Colin Treager, Tingyi Wanyan, Yueshuang Xu, Xiaowei Zhan, Patrick Leavey, Guanghua Xiao, Wenqi Shi, Yang Xie
Subjects: cs.AI
Tags: Information Extraction, Medical AI, LLM Reasoning
Summary: 本文提出了一种深度反思推理框架，用于从临床笔记中提取结构化信息，通过迭代自我批评和修正来检查变量间的一致性，显著提高了肿瘤学应用的提取准确性。

[583] Memory Intelligence Agent

arXiv: 2604.04503 (replaced)
Authors: Jingyang Qiao, Weicheng Meng, Yu Cheng, Zhihang Lin, Zhizhong Zhang, Xin Tan, Jingyu Gong, Kun Shao, Yuan Xie
Subjects: cs.AI; cs.MA
Tags: LLM Agent, Memory Architecture, Reinforcement Learning
Summary: 本文提出了MIA（记忆智能智能体）框架，采用管理器-规划器-执行器架构，通过参数化和非参数化记忆之间的双向转换实现高效的记忆演化，支持测试时学习。

[584] SCMAPR: Self-Correcting Multi-Agent Prompt Refinement for Complex-Scenario Text-to-Video Generation

arXiv: 2604.05489 (replaced)
Authors: Chengyi Yang, Pengzhen Li, Jiayin Qi, Aimin Zhou, Ji Wu, Ji Liu
Subjects: cs.AI; cs.MA
Tags: Text-to-Video, Multi-Agent System, Prompt Engineering
Code: code
Summary: 本文提出了SCMAPR，一个用于复杂场景文本到视频生成的自校正多智能体提示优化框架，协调专门化的智能体进行场景路由、策略条件优化和语义验证。

[585] Market-Bench: Benchmarking Large Language Models on Economic and Trade Competition

arXiv: 2604.05523 (replaced)
Authors: Yushuo Zheng, Huiyu Duan, Zicheng Zhang, Yucheng Zhu, Xiongkuo Min, Guangtao Zhai
Subjects: cs.AI
Tags: Benchmark, Multi-Agent System, LLM Evaluation
Summary: 本文介绍了Market-Bench，一个用于评估大语言模型在经济贸易竞争中能力的基准，通过可配置的多智能体供应链经济模型，让LLM作为零售商智能体参与采购和销售。

[586] ATANT: An Evaluation Framework for AI Continuity

arXiv: 2604.06710 (replaced)
Authors: Samuel Sameer Tanguturi
Subjects: cs.AI; cs.IR
Tags: LLM Evaluation, Benchmark, Memory Architecture
Code: code
Summary: 本文提出了ATANT，一个用于测量AI系统连续性的评估框架，定义了连续性的7个必要属性，并引入了10个检查点的评估方法来验证系统跨时间维护和重建上下文的能力。

[587] ConsistRM: Improving Generative Reward Models via Consistency-Aware Self-Training

arXiv: 2604.07484 (replaced)
Authors: Yu Liang, Liangxin Liu, Longzheng Wang, Yan Wang, Yueyang Zhang, Long Xia, Zhiyuan Sun, Daiting Shi
Subjects: cs.AI; cs.CL; cs.LG
Tags: LLM Alignment, RLHF, LLM Evaluation
Venue: ACL 2026
Code: code
Summary: 本文提出了ConsistRM，一个生成式奖励模型的自训练框架，通过一致性感知奖励产生可靠的伪标签，并评估多个评论间的语义一致性以提供细粒度奖励。

[588] ReflectRM: Boosting Generative Reward Models via Self-Reflection within a Unified Judgment Framework

arXiv: 2604.07506 (replaced)
Authors: Kai Qin, Liangxin Liu, Yu Liang, Longzheng Wang, Yan Wang, Yueyang Zhang, Long Xia, Zhiyuan Sun, Houde Liu, Daiting Shi
Subjects: cs.AI; cs.CL
Tags: LLM Alignment, RLHF, LLM Evaluation
Code: code
Summary: 本文提出了ReflectRM，一种利用自我反思来评估分析质量并增强偏好建模的生成式奖励模型，在统一生成框架下联合建模响应偏好和分析偏好。

[589] SEARL: Joint Optimization of Policy and Tool Graph Memory for Self-Evolving Agents

arXiv: 2604.07791 (replaced)
Authors: Xinshun Feng, Xinhao Song, Lijun Li, Gongshen Liu, Jing Shao
Subjects: cs.AI; cs.LG
Tags: LLM Agent, Reinforcement Learning, Tool Learning
Venue: ACL 2026
Summary: 本文提出了SEARL，一个基于工具-记忆的自演化智能体框架，通过构建结构化经验记忆整合规划与执行，利用轨迹间相关性来密集化奖励信号。

[590] Lightweight LLM Agent Memory with Small Language Models

arXiv: 2604.07798 (replaced)
Authors: Jiaquan Zhang, Chaoning Zhang, Shuxu Chen, Zhenzhen Huang, Pengcheng Zheng, Zhicheng Wang, Ping Guo, Fan Mo, Sung-Ho Bae, Jie Zou, Jiwei Wei, Yang Yang
Subjects: cs.AI
Tags: LLM Agent, Memory Architecture, Knowledge Distillation
Venue: ACL 2026
Summary: 本文提出了LightMem，一个由小语言模型驱动的轻量级智能体记忆系统，将记忆检索、写入和长期巩固模块化，分离在线处理和离线巩固以实现高效的记忆调用。

[591] Model Space Reasoning as Search in Feedback Space for Planning Domain Generation

arXiv: 2604.08712 (replaced)
Authors: James Oswald, Daniel Oblinsky, Volodymyr Varha, Vasilije Dragovic, Harsha Kokel, Kavitha Srinivas, Michael Katz, Shirin Sohrabi
Subjects: cs.AI
Tags: Automated Planning, LLM Reasoning, Neurosymbolic AI
Venue: ICLR 2026 Workshop
Summary: 本文研究了一种智能体语言模型反馈框架，通过启发式搜索在模型空间中优化规划领域生成质量，利用地标符号反馈和计划验证器输出进行优化。

[592] FACT-E: Causality-Inspired Evaluation for Trustworthy Chain-of-Thought Reasoning

arXiv: 2604.10693 (replaced)
Authors: Yuxi Sun, Aoqi Zuo, Haotian Xie, Wei Gao, Mingming Gong, Jing Ma
Subjects: cs.AI
Tags: LLM Reasoning, LLM Evaluation, Causal Inference
Venue: ACL 2026 Findings
Summary: 本文提出了FACT-E，一个受因果启发的思维链质量评估框架，使用受控扰动作为工具信号来分离真正的步骤依赖和偏差驱动的伪影，产生更可靠的忠实度估计。

[593] ATANT v1.1: Positioning Continuity Evaluation Against Memory, Long-Context, and Agentic-Memory Benchmarks

arXiv: 2604.10981 (replaced)
Authors: Samuel Sameer Tanguturi
Subjects: cs.AI; cs.IR
Tags: LLM Evaluation, Memory Architecture, Benchmark
Summary: 本文是ATANT v1.0的配套论文，通过结构分析比较了连续性评估与现有记忆基准（LOCOMO、LongMemEval等）的关系。作者发现现有基准在7个必需属性中中位数仅覆盖1个，无法有效评估连续性，并指出了LOCOMO参考实现中的评分缺陷。

[594] EmergentBridge: Improving Zero-Shot Cross-Modal Transfer in Unified Multimodal Embedding Models

arXiv: 2604.11043 (replaced)
Authors: Jincheng Xie, Xingchen Xiao, Heyan Huang, Zhongyi Huang, Yu Zheng, Runheng Liu
Subjects: cs.AI
Tags: Multimodal Learning, Vision-Language Model, Transfer Learning
Summary: 本文提出EmergentBridge框架，用于在统一多模态嵌入模型中改善零样本跨模态迁移。该方法通过学习映射生成噪声桥锚点，并在与锚点对齐方向正交的子空间中强制代理对齐，从而在不需要成对监督的情况下提升未配对模态对的性能。

[595] From Answers to Arguments: Toward Trustworthy Clinical Diagnostic Reasoning with Toulmin-Guided Curriculum Goal-Conditioned Learning

arXiv: 2604.11137 (replaced)
Authors: Chen Zhan, Xiaoyu Tan, Gengchen Ma, Yu-Jie Xiong, Xiaoyan Jiang, Xihe Qiu
Subjects: cs.AI; cs.LG
Tags: Medical AI, LLM Reasoning, Scientific Reasoning
Venue: ACL 2026
Summary: 本文将Toulmin论证模型适配到诊断过程，提出课程目标条件学习(CGCL)框架，用于训练LLM生成可信的临床诊断论证。该方法通过三阶段渐进式课程系统性地构建临床论证，在诊断准确性和推理质量上达到与强化学习方法相当的效果。

[596] On the Complexity of the Discussion-based Semantics in Abstract Argumentation

arXiv: 2604.11480 (replaced)
Authors: Lydia Blümel, Kai Sauerwald, Kenneth Skiba, Matthias Thimm
Subjects: cs.AI
Tags: Formal Methods, Knowledge Representation
Summary: 本文证明了在Amgoud和Ben-Naim提出的基于讨论的语义下，判断一个论证是否比另一个论证更强的问题是多项式时间可解的。作者利用自动机理论将问题归约为半环自动机的等价问题。

[597] DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding

arXiv: 2604.12812 (replaced)
Authors: Hao Yan, Yuliang Liu, Xingchen Liu, Yuyi Zhang, Minghui Liao, Jihao Wu, Wei Chen, Xiang Bai
Subjects: cs.AI
Tags: Document Understanding, Vision-Language Model, LLM Reasoning
Venue: CVPR 2026
Summary: 本文提出DocSeeker方法解决长文档理解中的低信噪比和监督稀缺问题。该方法采用两阶段训练框架，结合监督微调和证据感知强化学习，使模型能够执行结构化的分析、定位和推理工作流程。

[598] QuarkMedSearch: A Long-Horizon Deep Search Agent for Exploring Medical Intelligence

arXiv: 2604.12867 (replaced)
Authors: Zhichao Lin, Zhichao Liang, Gaoqiang Liu, Meng Xu, Baoyu Xiang, Jian Xu, Guanjun Jiang
Subjects: cs.AI
Tags: LLM Agent, Medical AI, RAG
Summary: 本文提出QuarkMedSearch系统，针对中文医疗深度搜索场景，从医疗多跳数据构建、训练策略和评估基准三个方面系统探索。该方法结合医疗知识图谱与实时在线探索构建训练数据，采用两阶段SFT和RL训练策略提升模型的规划、工具调用和反思能力。

[599] Pushing the Limits of On-Device Streaming ASR: A Compact, High-Accuracy English Model for Low-Latency Inference

arXiv: 2604.14493 (replaced)
Authors: Nenad Banfic, David Fan, Kunal Vaishnavi, Sam Kemp, Sunghoon Choi, Rui Ren, Sayan Shaw, Meng Tang
Subjects: cs.AI
Tags: Speech Processing, Model Compression, Edge Computing
Summary: 本文对多种ASR架构进行系统实证研究，识别出NVIDIA Nemotron Speech Streaming最适合资源受限设备上的实时英语流式识别。通过ONNX Runtime实现和多种量化策略，将模型从2.47GB压缩至0.67GB，同时保持WER在基线1%以内。

[600] CAMO: An Agentic Framework for Automated Causal Discovery from Micro Behaviors to Macro Emergence in LLM Agent Simulations

arXiv: 2604.14691 (replaced)
Authors: Xiangning Yu, Yuwei Guo, Yuqi Hou, Xiao Xue, Qun Ma
Subjects: cs.AI; cs.CL; cs.CY
Tags: LLM Agent, Causal Inference, Social Simulation
Summary: 本文提出CAMO框架，用于在LLM智能体模拟中自动发现从微观行为到宏观涌现的因果机制。该框架将机制假设转化为可计算因子，输出可解释的因果链和可操作的干预杠杆，并使用模拟器内部反事实探查来修正假设。

[601] ADAPT: Benchmarking Commonsense Planning under Unspecified Affordance Constraints

arXiv: 2604.14902 (replaced)
Authors: Pei-An Chen, Yong-Ching Liang, Jia-Fong Yeh, Hung-Ting Su, Yi-Ting Chen, Min Sun, Winston Hsu
Subjects: cs.AI; cs.CL; cs.CV; cs.RO
Tags: Embodied AI, Affordance Learning, LLM Agent
Summary: 本文引入DynAfford基准和ADAPT模块，用于评估具身智能体在物体可供性随时间变化的动态环境中的表现。该方法使智能体能够感知物体状态、推断隐式前提条件并相应地调整动作。

[602] From Reactive to Proactive: Assessing the Proactivity of Voice Agents via ProVoice-Bench

arXiv: 2604.15037 (replaced)
Authors: Ke Xu, Yuhao Wang, Yu Wang
Subjects: cs.AI; cs.CL; cs.SD
Tags: Dialogue System, LLM Evaluation, Speech Processing
Summary: 本文引入ProVoice-Bench，首个专门针对主动式语音智能体的评估框架，包含四个新颖任务。通过对最先进多模态LLM的评估，揭示了当前模型在主动干预和监控能力方面存在显著性能差距。

[603] The World Leaks the Future: Harness Evolution for Future Prediction Agents

arXiv: 2604.15719 (replaced)
Authors: Chuyang Wei, Maohang Gao, Zhixin Han, Kefei Chen, Yu Zhuang, Haoxiang Guan, Yanzhi Zhang, Yilin Cheng, Jiyan He, Huanhuan Chen, Jian Li, Yu Shi, Yitong Duan, Shuxin Zheng
Subjects: cs.AI
Tags: LLM Agent, Decision Making, Time Series Forecasting
Summary: 本文提出Milkyway自演化智能体系统，用于未来预测任务。该系统保持基础模型不变，通过从时间对比中提取内部反馈来更新持久化的预测工具，在问题解决前就能改进预测过程。

[604] Integrating Graphs, Large Language Models, and Agents: Reasoning and Retrieval

arXiv: 2604.15951 (replaced)
Authors: Hamed Jelodar, Samita Bai, Mohammad Meymani, Parisa Hamedi, Roozbeh Razavi-Far, Ali Ghorbani
Subjects: cs.AI
Tags: Survey, Graph Neural Network, Knowledge Graph
Summary: 本综述提供了图-LLM集成方法的结构化概述，按目的（推理、检索、生成、推荐）、图模态和集成策略对现有方法进行分类。文章映射了网络安全、医疗、材料科学等多个领域的代表性工作，为选择合适的图-LLM方法提供实用指南。

[605] Multimodal Sentiment Analysis with Missing Modality: A Knowledge-Transfer Approach

arXiv: 2401.10747 (replaced)
Authors: Weide Liu, Huijing Zhan
Subjects: cs.SD; cs.AI; cs.CL; cs.LG; eess.AS
Tags: Sentiment Analysis, Multimodal Learning, Transfer Learning
Summary: 本文提出一种知识迁移网络，用于在模态缺失情况下进行多模态情感分析。该方法通过跨模态翻译重建缺失的音频特征，并开发跨模态注意力机制最大化从重建模态和观测模态中提取的信息。

[606] Machine Unlearning: A Comprehensive Survey

arXiv: 2405.07406 (replaced)
Authors: Weiqi Wang, Zhiyi Tian, Chenhan Zhang, Shui Yu
Subjects: cs.CR; cs.AI
Tags: Survey, Machine Unlearning, Privacy
Summary: 本综述系统分类了机器遗忘方法，涵盖中心化遗忘、分布式和不规则数据遗忘、遗忘验证以及遗忘中的隐私安全问题。文章详细介绍了精确遗忘和近似遗忘的技术，并讨论了各场景的挑战和潜在研究方向。

[607] Uncovering Logit Suppression Vulnerabilities in LLM Safety Alignment

arXiv: 2405.13068 (replaced)
Authors: Yuxi Li, Yi Liu, Yuekang Li, Ling Shi, Gelei Deng, Shengquan Chen, Kailong Wang
Subjects: cs.CR; cs.AI; cs.LG
Tags: LLM Security, LLM Alignment, Adversarial Robustness
Summary: 本文识别了LLM安全对齐中因依赖logit抑制而产生的固有漏洞。作者提出SSAG方法系统性地操纵输出层logit，在不改变模型参数的情况下以95%的成功率暴露有害响应，揭示了现有对齐方法的关键弱点。

[608] ProTrain: Efficient LLM Training via Memory-Aware Techniques

arXiv: 2406.08334 (replaced)
Authors: Hanmei Yang, Jin Zhou, Yao Fu, Xiaoqun Wang, Ramine Roane, Hui Guan, Tongping Liu
Subjects: cs.DC; cs.AI; cs.LG; cs.PF
Tags: LLM Training, Distributed Training, Optimization
Venue: MLSys 2026
Summary: 本文提出ProTrain训练系统，自动根据模型架构和硬件资源定制内存管理策略，无需人工干预。该系统使用成本模型和运行时分析器优化参数设置，在不改变训练算法的情况下将训练吞吐量提升1.43至2.71倍。

[609] Inertia in Moral and Value Judgments of Large Language Models

arXiv: 2408.09049 (replaced)
Authors: Bruce W. Lee, Yeongheon Lee, Hyunsoo Cho
Subjects: cs.CL; cs.AI; cs.HC
Tags: LLM Evaluation, Bias Mitigation, AI Ethics
Venue: ACL 2026
Summary: 该研究发现大型语言模型在道德和价值判断中表现出持续的惯性，即使使用角色提示也难以改变其固有的价值取向（如避免伤害和公平性）。实验表明模型存在强烈的内部偏见，需要在追求平衡输出的应用中进行调整。

[610] SFTMix: Elevating Language Model Instruction Tuning with Mixup Recipe

arXiv: 2410.05248 (replaced)
Authors: Yuxin Xiao, Shujian Zhang, Wenxuan Zhou, Marzyeh Ghassemi, Sanqiang Zhao
Subjects: cs.CL; cs.AI; cs.LG
Tags: Instruction Tuning, Data Augmentation
Venue: ACL 2026
Summary: 本文提出了一种名为SFTMix的新型指令微调方法，利用Mixup策略根据模型置信度插值样本，以弥合置信度差距并提升泛化能力。实验表明该方法在多种指令遵循任务中均取得了显著改进。

[611] SMILE-UHURA Challenge -- Small Vessel Segmentation at Mesoscopic Scale from Ultra-High Resolution 7T Magnetic Resonance Angiograms

arXiv: 2411.09593 (replaced)
Authors: Soumick Chatterjee, Hendrik Mattern, Marc Dörner, Alessandro Sciarra, Florian Dubost, Hannes Schnurre, Rupali Khatun, Chun-Chih Yu, Tsung-Lin Hsieh, Yi-Shan Tsai, Yi-Zeng Fang, Yung-Ching Yang, Juinn-Dar Huang, Marshall Xu, Siyu Liu, Fernanda L. Ribeiro, Saskia Bollmann, Karthikesh Varma Chintalapati, Chethan Mysuru Radhakrishna, Sri Chandana Hudukula Ram Kumara, Raviteja Sutrave, Abdul Qayyum, Moona Mazher, Imran Razzak, Cristobal Rodero, Steven Niederren, Fengming Lin, Yan Xia, Jiacheng Wang, Riyu Qiu, Liansheng Wang, Arya Yazdan Panah, Rosana El Jurdi, Guanghui Fu, Janan Arslan, Ghislain Vaillant, Romain Valabregue, Didier Dormont, Bruno Stankoff, Olivier Colliot, Luisa Vargas, Isai Daniel Chacón, Ioannis Pitsiorlas, Pablo Arbeláez, Maria A. Zuluaga, Stefanie Schreiber, Oliver Speck, Andreas Nürnberger
Subjects: eess.IV; cs.AI; cs.CV
Tags: Image Segmentation, Medical Imaging, Benchmark
Venue: ISBI 2023
Summary: 本文介绍了SMILE-UHURA挑战赛，旨在通过提供7T MRI血管造影数据集来推动脑部小血管分割算法的发展。文章比较了十六种提交的深度学习方法，结果显示大多数方法在分割任务上取得了可靠的性能。

[612] A Computational Method for Measuring "Open Codes" in Qualitative Analysis

arXiv: 2411.12142 (replaced)
Authors: John Chen, Alexandros Lotsos, Sihan Cheng, Caiyi Wang, Lexie Zhao, Yanjia Zhang, Jessica Hullman, Bruce Sherin, Uri Wilensky, Michael Horn
Subjects: cs.CL; cs.AI; cs.HC; cs.LG
Tags: LLM Evaluation, Data Annotation
Venue: ACL 2026 Findings
Summary: 本文提出了一种基于理论指导的计算方法，用于衡量人类和生成式AI在归纳编码任务中的结果。该方法利用LLM算法合并编码本，并通过四个新颖的指标来诊断编码问题，确保人机协作定性分析的方法论严谨性。

[613] Self-Correcting Text-to-Video Generation with Misalignment Detection and Localized Refinement

arXiv: 2411.15115 (replaced)
Authors: Daeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal
Subjects: cs.CV; cs.AI; cs.CL
Tags: Text-to-Video, Video Editing
Venue: ACL 2026 Findings
Summary: 本文提出了VideoRepair框架，这是一种无需训练且模型无关的视频细化方法，能够自动检测文本与视频的不对齐区域并进行局部修正。该框架通过保留正确生成的区域并仅对问题区域进行重生成，显著提升了视频生成的对齐质量。

[614] Improving Dynamic Object Interactions in Text-to-Video Generation with AI Feedback

arXiv: 2412.02617 (replaced)
Authors: Hiroki Furuta, Heiga Zen, Dale Schuurmans, Aleksandra Faust, Yutaka Matsuo, Percy Liang, Sherry Yang
Subjects: cs.LG; cs.AI; cs.CV
Tags: Text-to-Video, Reinforcement Learning, Vision-Language Model
Summary: 本文研究利用AI反馈来增强文本生成视频模型中的动态对象交互质量，通过视觉语言模型提供感知反馈来指导模型优化。实验表明，该方法在处理复杂交互和物理真实性方面取得了显著提升。

[615] Enhancing Trust in Large Language Models via Uncertainty-Calibrated Fine-Tuning

arXiv: 2412.02904 (replaced)
Authors: Ranganath Krishnan, Piyush Khanna, Omesh Tickoo
Subjects: cs.CL; cs.AI; cs.LG
Tags: LLM Hallucination, Uncertainty Estimation
Venue: ICLR 2026 Workshop
Summary: 本文提出了一种不确定性感知的微调方法，旨在提高大型语言模型在自然语言生成任务中的不确定性校准能力，从而减少幻觉现象。实验结果显示，该方法在检测幻觉和识别分布外提示方面表现优异。

[616] Generating Attribution Reports for Manipulated Facial Images: A Dataset and Baseline

arXiv: 2412.19685 (replaced)
Authors: Jingchun Lian, Lingyu Liu, Yaxiong Wang, Yujiao Wu, Lianwei Wu, Li Zhu, Zhedong Zheng
Subjects: cs.CV; cs.AI
Tags: Deepfake Detection, Image Captioning
Venue: ACL 2026
Summary: 本文引入了伪造归因报告生成这一新任务，旨在定位伪造区域并生成自然语言解释，同时发布了大规模数据集MMTT。作者提出的ForgeryTalker框架在报告生成和伪造定位任务上均取得了竞争性表现。

[617] LLaVA-Octopus: Unlocking Instruction-Driven Adaptive Projector Fusion for Video Understanding

arXiv: 2501.05067 (replaced)
Authors: Boyuan Sun, Jiaxing Zhao, Xiang Chen, Xihan Wei, Qibin Hou
Subjects: cs.CV; cs.AI
Tags: Video Understanding, Vision-Language Model
Summary: 本文介绍了LLaVA-Octopus，一种新颖的视频多模态大语言模型，能够根据用户指令自适应地融合不同视觉投影仪的特征。实验结果表明，该方法在视频问答和长视频理解等任务中显著提升了性能。

[618] Position: Multimodal Large Language Models Can Significantly Advance Scientific Reasoning

arXiv: 2502.02871 (replaced)
Authors: Yibo Yan, Shen Wang, Jiahao Huo, Jingheng Ye, Zhendong Chu, Xuming Hu, Philip S. Yu, Carla Gomes, Bart Selman, Qingsong Wen
Subjects: cs.CL; cs.AI
Tags: Scientific Reasoning, Vision-Language Model, Survey
Venue: ACL 2026 Findings
Summary: 本文是一篇立场论文，论证了多模态大语言模型能够显著推进数学、物理、化学和生物学等领域的科学推理能力。文章提出了科学推理能力的研究路线图，总结了当前面临的挑战并提供了可行的建议。

[619] Estimating Commonsense Plausibility through Semantic Shifts

arXiv: 2502.13464 (replaced)
Authors: Wanqing Cui, Wei Huang, Keping Bi, Jiafeng Guo, Xueqi Cheng
Subjects: cs.CL; cs.AI
Tags: Commonsense Reasoning, LLM Evaluation
Summary: 本文提出了ComPaSS框架，通过测量语义偏移来量化常识合理性，解决了生成式方法在细粒度判别上的不足。实验表明，该方法在常识合理性评估任务上优于基线，且视觉语言模型的表现优于纯语言模型。

[620] Judge a Book by its Cover: Investigating Multi-Modal LLMs for Multi-Page Handwritten Document Transcription

arXiv: 2502.20295 (replaced)
Authors: Benjamin Gutteridge, Matthew Thomas Jackson, Toni Kukurin, Xiaowen Dong
Subjects: cs.LG; cs.AI; cs.CV
Tags: OCR, Document Understanding, Vision-Language Model
Venue: AAAI 2025 Workshop
Summary: 本文研究了多模态大语言模型在多页手写文档转录任务中的应用，提出了利用跨页上下文的提示策略。研究引入了新的基准数据集，并证明了所提方法在零样本转录任务中优于现有方法。

[621] SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning

arXiv: 2503.03480 (replaced)
Authors: Borong Zhang, Yuhao Zhang, Jiaming Ji, Yingshan Lei, Yishuai Cai, Josef Dai, Yuanpei Chen, Yaodong Yang
Subjects: cs.RO; cs.AI
Tags: Embodied AI, AI Safety, Reinforcement Learning
Venue: NeurIPS 2025
Summary: 本文提出了SafeVLA模型，通过约束学习将安全约束显式集成到视觉-语言-动作模型中，以解决机器人部署中的安全问题。该方法在减少安全违规成本的同时保持了任务成功率，并展现出强大的泛化能力。

[622] Advancing MAPF Toward the Real World: A Scalable Multi-Agent Realistic Testbed (SMART)

arXiv: 2503.04798 (replaced)
Authors: Jingtian Yan, Zhifei Li, William Kang, Kevin Zheng, Yulun Zhang, Zhe Chen, Yue Zhang, Daniel Harabor, Stephen F. Smith, Jiaoyang Li
Subjects: cs.RO; cs.AI
Tags: Multi-Agent System, Robotics, Simulation
Code: code
Summary: 本文介绍了SMART，一个可扩展的多智能体现实测试平台，用于在考虑机器人运动学和执行不确定性的现实环境中评估多智能体路径规划算法。该工具填补了实验室缺乏大规模物理机器人进行算法评估的空白。

[623] Compliance of AI Systems

arXiv: 2503.05571 (replaced)
Authors: Julius Schöning, Niklas Kruse
Subjects: cs.CY; cs.AI; cs.ET
Tags: AI Governance, AI Ethics
Summary: 本文系统研究了AI系统与相关法规（如欧盟AI法案）的合规性，重点关注边缘设备面临的挑战及数据集合规的重要性。文章分析了AI实现中的合规问题，并提出了开发、部署和运行AI的最佳实践。

[624] ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition

arXiv: 2503.21248 (replaced)
Authors: Yujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou
Subjects: cs.CL; cs.AI; cs.CE
Tags: Benchmark, Scientific Reasoning, LLM Evaluation
Venue: ACL 2026 Findings
Summary: 本文介绍了首个大规模基准ResearchBench，用于评估大型语言模型在科学发现任务中的能力，包括灵感检索、假设构建和排序。评估结果显示，LLM在灵感检索这一分布外任务上表现出色。

[625] Characterizing LLM-driven Social Network: The Chirper.ai Case

arXiv: 2504.10286 (replaced)
Authors: Yiming Zhu, Yupeng He, Ehsan-Ul Haq, Gareth Tyson, Pan Hui
Subjects: cs.SI; cs.AI
Tags: LLM Agent, Social Network Analysis, Social Simulation
Venue: CSCW 2026
Summary: 本文对完全由LLM智能体组成的社交网络Chirper.ai与人类驱动的Mastodon网络进行了大规模对比分析，涵盖超过65,000个智能体和770万条AI生成帖子。研究发现LLM智能体与人类在发布行为、滥用内容和社交网络结构方面存在显著差异，为未来负责任的AI中介通信系统发展提供了重要参考。

[626] Detecting Quishing Attacks with Machine Learning Techniques Through QR Code Analysis

arXiv: 2505.03451 (replaced)
Authors: Fouad Trad, Ali Chehab
Subjects: cs.CR; cs.AI
Tags: Cybersecurity, Phishing Detection
Venue: AIAI 2026
Summary: 本文提出了首个通过直接分析QR码结构和像素模式来检测QR码钓鱼攻击（Quishing）的框架，无需提取嵌入内容。该方法使用多种机器学习模型进行训练和评估，最佳模型XGBoost达到0.9133的AUC，证明了QR码结构特征与钓鱼风险之间存在强相关性。

[627] Raw Pointer Rewriting with LLMs for Translating C to Safer Rust

arXiv: 2505.04852 (replaced)
Authors: Yifei Gao, Chengpeng Wang, Pengxiang Huang, Xuwei Liu, Mingwei Zheng, Xiangyu Zhang
Subjects: cs.SE; cs.AI; cs.PL
Tags: Code Generation, Program Repair
Summary: 本文提出了一种原始指针重写技术PR2，用于将C代码转换为更安全的Rust代码，通过消除原始指针来增强内存安全性。该方法采用基于决策树的提示策略指导指针提升过程，并利用代码变更分析来修复重写过程中引入的错误，在28个真实C项目上成功消除了18.57%的局部原始指针。

[628] Follow the Path: Reasoning over Knowledge Graph Paths to Improve Large Language Model Factuality

arXiv: 2505.11140 (replaced)
Authors: Mike Zhang, Johannes Bjerva, Russa Biswas
Subjects: cs.CL; cs.AI
Tags: LLM Reasoning, Knowledge Graph, Question Answering
Venue: ACL Findings 2026
Summary: 本文提出fs1方法，通过从大型推理模型收集推理轨迹并将其锚定到知识图谱路径来提升LLM的事实准确性。在8个指令微调LLM和6个复杂开放域问答基准上的实验表明，fs1在多跳推理和数值答案类型问题上显著优于基线模型，证明了将推理锚定到事实知识路径的重要性。

[629] Large Language Models Are Still Misled by Simple Bias Ensembles

arXiv: 2505.16522 (replaced)
Authors: Zhouhao Sun, Zhiyuan Kan, Xiao Ding, Li Du, Bibo Cai, Yang Zhao, Bing Qin, Ting Liu
Subjects: cs.CL; cs.AI
Tags: LLM Evaluation, Bias Mitigation
Summary: 本文观察到虽然LLM对单一简单偏见的鲁棒性有所提升，但多种简单偏见的组合仍对LLM产生显著负面影响。为此，作者提出了一个多偏见基准测试，其中每个样本包含多种类型的偏见，实验结果表明现有LLM和去偏见方法在该基准上表现不佳，凸显了消除复合偏见的挑战。

[630] Two-Stage Regularization-Based Structured Pruning for LLMs

arXiv: 2505.18232 (replaced)
Authors: Mingkuan Feng, Jinyang Wu, Siyuan Liu, Shuai Zhang, Hongjian Fang, Ruihan Jin, Feihu Che, Pengpeng Shao, Zhengqi Wen, Jianhua Tao
Subjects: cs.LG; cs.AI; cs.CL
Tags: Model Compression, LLM Inference
Venue: ACL 2026
Code: code
Summary: 本文提出TRSP方法，一种针对LLM的两阶段正则化结构化剪枝技术。第一阶段通过可学习权重的L1正则化识别重要层，第二阶段对权重较小层的输入输出差异施加额外正则化，将知识转移到保留层。该方法无需重训练即可优于现有层剪枝方法，同时实现显著的端到端加速。

[631] PiCa: Parameter-Efficient Fine-Tuning with Column Space Projection

arXiv: 2505.20211 (replaced)
Authors: Junseo Hwang, Wonguk Cho, Taesup Kim
Subjects: cs.LG; cs.AI
Tags: Parameter-Efficient Fine-Tuning
Summary: 本文提出PiCa方法，一种基于列空间投影的参数高效微调技术，具有理论支撑。该方法证明将梯度投影到预训练权重的主列空间可为适应提供有效的归纳偏置，并通过新颖的权重共享策略进一步提升参数效率。在多种NLP和视觉任务上，PiCa在相同或更小的参数预算下持续优于现有基线。

[632] Saddle-To-Saddle Dynamics in Deep ReLU Networks: Low-Rank Bias in the First Saddle Escape

arXiv: 2505.21722 (replaced)
Authors: Ioannis Bantzis, James B. Simon, Arthur Jacot
Subjects: cs.LG; cs.AI; stat.ML
Tags: Deep Learning Theory, Optimization
Venue: ICLR 2026
Summary: 本文研究了深度ReLU网络在小权重初始化时梯度下降的鞍点到鞍点动态特性。研究发现最优逃逸方向在深层具有低秩偏置：第ℓ层权重矩阵的第一奇异值至少比其他奇异值大ℓ^(1/4)倍，表明深度ReLU网络展现出瓶颈秩递增的鞍点序列动态。

[633] Using Perspectival Words Is Harder Than Vocabulary Words for Humans and Even More So for Multimodal Language Models

arXiv: 2506.00065 (replaced)
Authors: Dota Tianai Dong, Yifan Luo, Po-Ya Angela Wang, Asli Ozyurek, Paula Rubio-Fernandez
Subjects: cs.CL; cs.AI
Tags: Vision-Language Model, LLM Evaluation
Summary: 本文比较了人类和多模态语言模型在使用三类词汇（词汇词、所有格、指示词）时的表现差异。研究发现视角性词汇对两组都更难，但MLM的差距更大：模型在词汇上接近人类水平，但在所有格和指示词上表现明显不足，揭示了其在语用和社会认知能力方面的缺陷。

[634] Who Gets the Kidney? Human-AI Alignment, Indecision, and Moral Values

arXiv: 2506.00079 (replaced)
Authors: John P. Dickerson, Hadi Hosseini, Samarth Khanna, Leona Pierce
Subjects: cs.CY; cs.AI; cs.LG
Tags: LLM Alignment, AI Ethics
Summary: 本文系统评估了多个LLM在肾脏分配场景中与人类偏好的对齐程度，发现LLM在属性优先级上与人类价值观存在显著偏差，且很少表达犹豫。研究表明低秩监督微调可有效改善决策一致性和犹豫建模，强调了在道德领域对LLM进行显式对齐策略的必要性。

[635] LIFT the Veil for the Truth: Principal Weights Emerge after Rank Reduction for Reasoning-Focused Supervised Fine-Tuning

arXiv: 2506.00772 (replaced)
Authors: Zihang Liu, Tianyu Pang, Oleg Balabanov, Chaoqun Yang, Tianjin Huang, Lu Yin, Yaoqing Yang, Shiwei Liu
Subjects: cs.LG; cs.AI; cs.CL
Tags: LLM Reasoning, Parameter-Efficient Fine-Tuning
Venue: ICML 2025
Code: code
Summary: 本文提出LIFT方法，一种低秩引导的稀疏微调技术，仅更新秩降后幅度最大的5%主权重。该方法在推理任务上持续优于全量微调，同时保持与LoRA相当的内存效率，并在源领域知识保留上比全量微调高出20%。

[636] ReGA: Model-Based Safeguard for LLMs via Representation-Guided Abstraction

arXiv: 2506.01770 (replaced)
Authors: Zeming Wei, Chengcan Wu, Meng Sun
Subjects: cs.CR; cs.AI; cs.LG; cs.SE
Tags: LLM Security, AI Safety
Venue: FSE 2026
Summary: 本文提出ReGA框架，通过表示引导抽象实现基于模型的LLM安全防护。该方法利用安全关键表示来缩小抽象模型的特征空间，在区分安全与有害输入方面达到0.975的AUROC，在可解释性和可扩展性方面优于现有防护范式。

[637] Rethinking Post-Unlearning Behavior of Large Vision-Language Models

arXiv: 2506.02541 (replaced)
Authors: Minsung Kim, Nakyeong Yang, Kyomin Jung
Subjects: cs.LG; cs.AI; cs.CV
Tags: Machine Unlearning, Vision-Language Model
Summary: 本文针对大型视觉语言模型的机器遗忘问题，指出现有方法在遗忘后会产生退化、幻觉或过度拒绝的响应。作者提出PUBG方法，显式引导遗忘后行为向理想的输出分布转变，在防止隐私泄露的同时生成视觉相关且信息丰富的响应。

[638] End-to-End Optimization of LLM-Driven Multi-Agent Search Systems via Heterogeneous-Group-Based Reinforcement Learning

arXiv: 2506.02718 (replaced)
Authors: Guanzhong Chen, Shaoxiong Yang, Chao Li, Wei Liu, Jian Luan, Zenglin Xu
Subjects: cs.LG; cs.AI
Tags: Multi-Agent System, LLM Agent, Reinforcement Learning
Venue: ACL 2026
Summary: 本文提出MHGPO方法，通过异构群组策略优化来端到端优化LLM驱动的多智能体搜索系统。该方法通过估计异构群组间的相对优势来更新策略，将优化重点从局部智能体性能转向全局系统成功，在任务性能和计算效率上均优于强基线。

[639] LLaMA-XR: A Novel Framework for Radiology Report Generation using LLaMA and QLoRA Fine Tuning

arXiv: 2506.03178 (replaced)
Authors: Md. Zihad Bin Jahangir, Muhammad Ashad Kabir, Sumaiya Akter, Israt Jahan, Minh Chau
Subjects: eess.IV; cs.AI; cs.CV
Tags: Medical AI, Report Generation, Vision-Language Model
Summary: 本文提出LLaMA-XR框架，将LLaMA 3.1与DenseNet-121图像嵌入和QLoRA微调相结合，用于自动化放射报告生成。该方法在IU X射线基准数据集上达到ROUGE-L 0.433和METEOR 0.336，在保持计算效率的同时实现了新的性能基准。

[640] Task Matters: Knowledge Requirements Shape LLM Responses to Context-Memory Conflict

arXiv: 2506.06485 (replaced)
Authors: Kaiser Sun, Fan Bai, Mark Dredze
Subjects: cs.CL; cs.AI
Tags: LLM Evaluation, Knowledge Conflict
Venue: ACL 2026
Summary: 本文研究了LLM在上下文与参数记忆冲突时的行为，提出了一个模型无关的诊断框架，在保持知识恒定的同时引入受控冲突。实验发现冲突下的性能下降由任务特定知识依赖和冲突合理性共同驱动，推理链和上下文重述策略会增加上下文依赖，这些效应会影响基于模型的评估可靠性。

[641] StableMTL: Repurposing Latent Diffusion Models for Multi-Task Learning from Partially Annotated Synthetic Datasets

arXiv: 2506.08013 (replaced)
Authors: Anh-Quan Cao, Ivan Lopes, Raoul de Charette
Subjects: cs.CV; cs.AI; cs.LG
Tags: Multi-Task Learning, Diffusion Model, Data Synthesis
Venue: CVPR 2026
Code: code
Summary: 本文提出了StableMTL方法，利用扩散模型的泛化能力，在仅部分标注的合成数据集上进行多任务学习。该方法通过统一潜在损失和任务注意力机制，实现了无需繁琐任务平衡的高效训练，并在多个基准测试中取得了优异性能。

[642] Textual Bayes: Quantifying Prompt Uncertainty in LLM-Based Systems

arXiv: 2506.10060 (replaced)
Authors: Brendan Leigh Ross, Noël Vouitsis, Atiyeh Ashari Ghomi, Rasa Hosseinzadeh, Ji Xin, Zhaoyan Liu, Yi Sui, Shiyi Hou, Kin Kwan Leung, Gabriel Loaiza-Ganem, Jesse C. Cresswell
Subjects: cs.LG; cs.AI; stat.ML
Tags: Uncertainty Estimation, Prompt Engineering, LLM Inference
Venue: ICLR 2026
Summary: 本文提出了一种名为Textual Bayes的方法，将提示视为统计模型中的文本参数，从而对基于LLM的系统进行贝叶斯推断。该方法引入了MHLP算法来量化模型的不确定性，并在预测准确性和不确定性量化方面取得了显著提升。

[643] Self-Predictive Representations for Combinatorial Generalization in Behavioral Cloning

arXiv: 2506.10137 (replaced)
Authors: Daniel Lawson, Adriana Hugessen, Charlotte Cloutier, Glen Berseth, Khimya Khetarpal
Subjects: cs.LG; cs.AI
Tags: Imitation Learning, Representation Learning
Summary: 针对目标条件行为克隆在组合泛化上的不足，本文提出了一种名为BYOL-gamma的表示学习目标，通过自预测表示来近似后继表示。该方法增强了状态表示的时间一致性，有效提升了模型在需要组合泛化的复杂任务中的表现。

[644] Time Series Forecasting as Reasoning: A Slow-Thinking Approach with Reinforced LLMs

arXiv: 2506.10630 (replaced)
Authors: Yitong Zhou, Yucong Luo, Mingyue Cheng, Qi Liu, Jiahao Wang, Daoyu Wang, Enhong Chen
Subjects: cs.LG; cs.AI
Tags: Time Series Forecasting, LLM Reasoning, Reinforcement Learning
Summary: 本文提出了Time-R1框架，通过两阶段强化微调赋予大语言模型“慢思考”能力，从而将时间序列预测转化为推理任务。该方法设计了细粒度的多目标奖励和GRIP优化策略，显著提升了模型在多步推理预测中的表现。

[645] Improving Speech Recognition of Named Entities in Classroom Speech with LLM Revision and Phonetic-Semantic Context

arXiv: 2506.10779 (replaced)
Authors: Viet Anh Trinh, Xinlu He, Jacob Whitehill
Subjects: cs.CL; cs.AI
Tags: Speech Processing, Named Entity Recognition, LLM Reasoning
Summary: 针对自动语音识别系统在命名实体识别上的高错误率，本文提出了一种利用大语言模型进行修正的流程，结合语音和语义上下文信息来优化识别结果。该方法在引入的NER-MIT-OpenCourseWare数据集上，实现了命名实体词错误率最高30%的相对降低。

[646] An Exploration of Mamba for Speech Self-Supervised Models

arXiv: 2506.12606 (replaced)
Authors: Tzu-Quan Lin, Heng-Cheng Kuo, Tzu-Chieh Wei, Hsi-Chun Cheng, Chun Wei Chen, Hsien-Fu Hsiao, Yu Tsao, Hung-yi Lee
Subjects: cs.CL; cs.AI
Tags: Speech Processing, Self-Supervised Learning, State Space Model
Venue: ACL 2026
Code: code
Summary: 本文探索了基于Mamba的HuBERT模型作为语音自监督学习的替代架构，利用其线性时间复杂度优势实现了高效的微调。实验结果表明，该方法在长上下文和流式语音识别任务中表现优异，并能提取更高质量的量化表示。

[647] DR-SAC: Distributionally Robust Soft Actor-Critic for Reinforcement Learning under Uncertainty

arXiv: 2506.12622 (replaced)
Authors: Mingxuan Cui, Duo Zhou, Yuxuan Han, Grani A. Hanasusanto, Qiong Wang, Huan Zhang, Zhengyuan Zhou
Subjects: cs.LG; cs.AI; math.OC
Tags: Reinforcement Learning, Offline RL, Uncertainty Estimation
Venue: ICLR 2026
Code: code
Summary: 本文提出了首个针对连续动作空间离线学习的分布式鲁棒演员-评论家算法（DR-SAC），旨在解决深度强化学习在环境不确定性下的脆弱性问题。该方法通过最大化熵正则化奖励并利用生成模型估计名义转移模型，显著提升了在干扰环境中的鲁棒性和计算效率。

[648] PrefixMemory-Tuning: Modernizing Prefix-Tuning by Decoupling the Prefix from Attention

arXiv: 2506.13674 (replaced)
Authors: Haonan Wang, Brian Chen, Siquan Li, Xinhe Liang, Hwee Kuan Lee, Kenji Kawaguchi, Tianyang Hu
Subjects: cs.CL; cs.AI
Tags: Parameter-Efficient Fine-Tuning, LLM Training
Venue: ICLR 2026
Summary: 针对前缀微调在现代大语言模型上表现不佳的问题，本文分析了其内在的注意力冲突缺陷，并提出了PrefixMemory-Tuning架构。该方法通过将前缀模块移出注意力头并增强其表达能力，在多个基准测试中超越了现有的前缀微调方法。

[649] Sparse Feature Coactivation Reveals Causal Semantic Modules in Large Language Models

arXiv: 2506.18141 (replaced)
Authors: Ruixuan Deng, Xiaoyang Hu, Miles Gilberti, Shane Storks, Aman Taxali, Mike Angstadt, Chandra Sripada, Joyce Chai
Subjects: cs.CL; cs.AI
Tags: Interpretability, Knowledge Representation
Venue: ACL 2026
Summary: 本文利用稀疏自编码器特征的共激活现象，识别出大语言模型中具有语义连贯性和因果效应的网络组件。研究发现，对这些组件进行消融或放大可以可控地改变模型输出，揭示了模型内部知识的模块化组织结构。

[650] Treatment, evidence, imitation, and chat

arXiv: 2506.23040 (replaced)
Authors: Samuel J. Weisenthal
Subjects: stat.OT; cs.AI
Tags: Medical AI, Decision Making, AI Ethics
Summary: 本文探讨了利用大语言模型辅助医疗决策的潜力，重点分析了治疗问题与聊天问题的本质区别以及模仿学习的局限性。文章指出，要解决真正的治疗问题，必须应对实验伦理和观察性数据的假设挑战，并结合循证医学的方法进行训练。

[651] On the Predictive Power of Representation Dispersion in Language Models

arXiv: 2506.24106 (replaced)
Authors: Yanhong Li, Ming Li, Karen Livescu, Jiawei Zhou
Subjects: cs.CL; cs.AI
Tags: Representation Learning, LLM Evaluation
Venue: ICLR 2026
Code: code
Summary: 研究发现语言模型的预测能力与其嵌入空间的表示离散度密切相关，表示越分散通常意味着更低的困惑度。本文利用这一发现提出了无需标注数据的实用方法，包括识别困难样本、优化检索层选择以及引入“推开”目标函数来提升模型性能。

[652] From 2:4 to 8:16 sparsity patterns in LLMs for Outliers and Weights with Variance Correction

arXiv: 2507.03052 (replaced)
Authors: Egor Maximov, Yulia Kuzkina, Azamat Kanametov, Alexander Prutko, Aleksei Goncharov, Maxim Zhelnin, Egor Shvetsov
Subjects: cs.LG; cs.AI
Tags: Model Compression, LLM Inference
Summary: 本文探索了大语言模型中的8:16半结构化稀疏模式，证明了其在处理异常值和权重方面优于传统的2:4稀疏性。研究还引入了方差校正和权重均衡技术，进一步提升了稀疏模型的性能，使其达到或超过未压缩模型的精度。

[653] Data Compressibility Quantifies LLM Memorization

arXiv: 2507.06056 (replaced)
Authors: Yizhan Huang, Zhe Yang, Meifang Chen, Huang Nianchen, Jianping Zhang, Michael R. Lyu
Subjects: cs.CL; cs.AI
Tags: LLM Memorization, LLM Evaluation
Venue: TMLR
Summary: 本文提出了一种通过数据压缩性来量化大语言模型记忆行为的方法，发现集合级数据熵与记忆分数之间存在显著的线性相关性（EM线性定律）。这一发现克服了以往实例级指标的局限性，为理解训练数据如何影响模型记忆提供了定量依据。

[654] When Seeing Overrides Knowing: Disentangling Knowledge Conflicts in Vision-Language Models

arXiv: 2507.13868 (replaced)
Authors: Francesco Ortu, Zhijing Jin, Diego Doimo, Alberto Cazzaniga
Subjects: cs.CV; cs.AI
Tags: Vision-Language Model, Knowledge Conflict, Interpretability
Venue: ACL 2026
Summary: 本文研究了视觉语言模型在内部知识与视觉输入冲突时的处理机制，并引入了WHOOPS-AHA!数据集进行评估。研究发现通过干预特定的注意力头，可以引导模型依赖内部参数知识或视觉信息，从而有效解决跨模态冲突。

[655] Cognitive Chain-of-Thought (CoCoT): Structured Multimodal Reasoning about Social Situations

arXiv: 2507.20409 (replaced)
Authors: Eunkyu Park, Wesley Hanwen Deng, Gunhee Kim, Motahhare Eslami, Maarten Sap
Subjects: cs.CL; cs.AI; cs.CY
Tags: Vision-Language Model, LLM Reasoning, Social Reasoning
Summary: 本文提出了认知链式思维框架，通过感知、情境和规范三个阶段来结构化视觉语言模型在社会场景中的推理过程。实验表明，该方法显著提升了模型在多模态意图消歧和心理理论等任务上的表现，并且通过监督微调可以使模型内化这种推理模式。

[656] Annotation-Assisted Learning of Treatment Policies From Multimodal Electronic Health Records

arXiv: 2507.20993 (replaced)
Authors: Henri Arno, Thomas Demeester
Subjects: cs.LG; cs.AI; stat.ML
Tags: Medical AI, Causal Inference, Multimodal Learning
Summary: 针对多模态电子健康记录中的治疗策略学习问题，本文提出了一种名为AACE的注释辅助方法。该方法利用专家注释来调整混杂因素，从而在推断时仅依赖多模态表示即可准确预测治疗获益，在多个数据集上优于现有基准。

[657] Culinary Crossroads: A RAG Framework for Enhancing Diversity in Cross-Cultural Recipe Adaptation

arXiv: 2507.21934 (replaced)
Authors: Tianyi Hu, Andrea Morales-Garzón, Jingyi Zheng, Maria Maistro, Daniel Hershcovich
Subjects: cs.CL; cs.AI; cs.CY; cs.IR; cs.LG
Tags: RAG, Text Generation
Venue: ACL 2026
Summary: 该论文针对跨文化食谱改编任务中检索增强生成（RAG）输出多样性不足的问题，提出了CARRIAGE框架，通过优化检索和组织过程来增强生成结果的多样性。实验表明，该方法在保持食谱改编质量的同时显著提升了多样性。

[658] R3A: Reinforced Reasoning for Relevance Assessment for RAG in User-Generated Content Platforms

arXiv: 2508.02506 (replaced)
Authors: Xiaowei Yuan, Lei Jin, Haoxin Zhang, Ziyang Huang, Yan Gao, Yi Wu, Yao Hu, Jun Zhao, Kang Liu
Subjects: cs.IR; cs.AI
Tags: RAG, Information Retrieval
Venue: ACL Industry 2026
Summary: 该论文针对用户生成内容平台中RAG系统的相关性评估问题，提出了R3A模型，通过意图推断和证据定位来应对用户意图模糊和非对称相关性挑战。实验结果显示该模型在离线基准测试和在线A/B测试中均表现优异。

[659] Pulse Shape Discrimination Algorithms: Survey and Benchmark

arXiv: 2508.02750 (replaced)
Authors: Haoran Liu, Yihan Zhan, Mingzhe Liu, Yanhua Liu, Peng Li, Zhuo Zuo, Bingqi Liu, Runxi Liu
Subjects: cs.LG; cs.AI
Tags: Survey, Benchmark, Signal Processing
Summary: 本文对辐射探测中的脉冲形状鉴别（PSD）算法进行了全面的综述和基准测试，将近六十种方法分为统计和先验知识两大类进行评估。研究发现深度学习模型表现优于传统方法，并发布了开源工具箱和数据集以促进可重复研究。

[660] PrinciplismQA: A Philosophy-Grounded Approach to Assessing LLM-Human Clinical Medical Ethics Alignment

arXiv: 2508.05132 (replaced)
Authors: Chang Hong, Minghao Wu, Qingying Xiao, Yuchi Wang, Xiang Wan, Guangjun Yu, Benyou Wang, Yan Hu
Subjects: cs.CL; cs.AI
Tags: LLM Evaluation, Medical AI, AI Ethics
Venue: ACL 2026 Findings
Summary: 该论文提出了PrinciplismQA，一种基于原则主义哲学框架的方法，用于评估大语言模型在临床医学伦理方面与人类的一致性。研究构建了包含专家验证问题的基准测试，发现模型虽具备高知识准确率，但在伦理推理方面仍存在显著差距。

[661] ToxiFrench: Benchmarking and Enhancing Language Models via CoT Fine-Tuning for French Toxicity Detection

arXiv: 2508.11281 (replaced)
Authors: Axel Delaval, Shujian Yang, Haicheng Wang, Han Qiu, Jialiang Lu
Subjects: cs.CL; cs.AI; cs.CY
Tags: Content Moderation, Instruction Tuning, Benchmark
Summary: 本文发布了ToxiFrench数据集，用于法语的毒性内容检测，并提出了一种结合动态加权损失的思维链微调策略。实验表明，该方法使小模型在基准测试中超越了包括GPT-4o在内的大型模型，达到了最先进的性能。

[662] VocabTailor: Dynamic Vocabulary Selection for Downstream Tasks in Small Language Models

arXiv: 2508.15229 (replaced)
Authors: Hanling Zhang, Yayu Zhou, Tongcheng Fang, Zhihang Yuan, Guohao Dai, Wanli Ouyang, Yu Wang
Subjects: cs.CL; cs.AI; cs.LG
Tags: Model Compression, LLM Inference
Code: code
Summary: 针对小型语言模型在边缘设备部署中面临的内存瓶颈问题，该论文提出了VocabTailor框架，通过解耦动态词汇选择策略来大幅降低词汇相关组件的内存占用。该方法在保持任务性能的同时，实现了高达99%的内存减少。

[663] User-Assistant Bias in LLMs

arXiv: 2508.15815 (replaced)
Authors: Xu Pan, Jingxuan Fan, Zidi Xiong, Ely Hahami, Jorin Overwiening, Ziqian Xie
Subjects: cs.CL; cs.AI; cs.HC
Tags: LLM Evaluation, Bias Mitigation, LLM Alignment
Summary: 该论文研究了大型语言模型中因角色标签（如用户、助手）训练数据不对称而产生的“用户-助手偏见”，并引入了UserAssist基准进行评估。研究发现指令微调模型倾向于用户偏见，且该偏见可通过直接偏好优化（DPO）进行双向控制。

[664] Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling

arXiv: 2508.16745 (replaced)
Authors: Ivan Rodkin, Daniil Orel, Konstantin Smirnov, Arman Bolatov, Bilal Elbouardi, Besher Hassan, Yuri Kuratov, Aydar Bulatov, Preslav Nakov, Timothy Baldwin, Artem Shelmanov, Mikhail Burtsev
Subjects: cs.LG; cs.AI
Tags: LLM Reasoning, Memory Architecture
Summary: 本文在排除记忆干扰的细胞自动机框架下研究了大型语言模型的推理能力，发现模型虽能学习规则推断，但在增加推理深度时性能显著下降。实验表明，通过循环、记忆或测试时计算扩展有效深度可以改善结果，但仍存在性能上限。

[665] EyeMulator: Improving Code Language Models by Mimicking Human Visual Attention

arXiv: 2508.16771 (replaced)
Authors: Yifan Zhang, Chen Huang, Yueke Zhang, Jiahao Zhang, Toby Jia-Jun Li, Collin McMillan, Kevin Leach, Yu Huang
Subjects: cs.SE; cs.AI; cs.HC
Tags: Code Generation, Human-Computer Interaction
Summary: 该论文提出了EyeMulator技术，通过利用眼动追踪数据提取的注意力权重来增强损失函数，使代码语言模型的注意力机制模仿人类的视觉关注点。实验表明，该方法在代码翻译和摘要任务上显著优于基线模型。

[666] A Ridge Too Far: Correcting Over-Shrinkage via Negative Regularization

arXiv: 2508.17412 (replaced)
Authors: Dongseok Kim, Gisung Oh
Subjects: cs.LG; cs.AI; stat.ML
Tags: Optimization, Deep Learning Theory
Summary: 该论文研究了小数据回归任务中正则化导致的过度收缩问题，提出了一种允许负正则化的岭回归方法，通过增加弱特征方向上的有效复杂度来纠正欠拟合。理论和实验验证了该方法在特定情况下的有效性和可行性。

[667] Adaptive Quantized Planetary Crater Detection System for Autonomous Space Exploration

arXiv: 2508.18025 (replaced)
Authors: Aditri Paul, Archan Paul
Subjects: cs.LG; cs.AI; cs.CV; cs.ET; eess.SY
Tags: Object Detection, Quantization, Satellite Systems
Summary: 该论文提出了一种用于自主太空探索的自适应量化行星陨石坑检测系统架构，旨在解决星载计算机资源受限与深度学习模型高计算需求之间的矛盾。该架构结合了INT8量化神经网络和自适应多传感器融合模块，为未来的星载软件设计提供了理论基础。

[668] Bi-LoRA: Efficient Sharpness-Aware Minimization for Fine-Tuning Large-Scale Models

arXiv: 2508.19564 (replaced)
Authors: Yuhang Liu, Tao Li, Zhehao Huang, Zuopeng Yang, Xiaolin Huang
Subjects: cs.LG; cs.AI
Tags: Parameter-Efficient Fine-Tuning, Optimization
Venue: ICLR 2026
Summary: 针对大规模模型微调中锐度感知最小化（SAM）计算开销过大的问题，该论文提出了Bi-LoRA方法，通过引入辅助LoRA模块来模拟对抗性权重扰动。该方法在保持内存效率的同时，有效提升了模型的泛化能力并降低了训练成本。

[669] CWT-Enhanced Vibration Sensing With Spatial Fault Localization Using YOLO

arXiv: 2509.03070 (replaced)
Authors: Po-Heng Chou, Wei-Lung Mao, Ru-Ping Lin, Jen-Yu Chiu, Chun-Yu Yeh
Subjects: eess.SP; cs.AI; cs.CV; cs.LG; eess.IV
Tags: Object Detection, Predictive Maintenance
Summary: 本文提出了一种结合连续小波变换（CWT）和YOLO模型的轴承故障监测框架，通过在时频谱图上进行空间定位来识别故障特征。实验结果表明，该方法在多个数据集上显著提高了故障检测的准确性和鲁棒性。

[670] Evalet: Evaluating Large Language Models through Functional Fragmentation

arXiv: 2509.11206 (replaced)
Authors: Tae Soo Kim, Heechan Lee, Yoonjoo Lee, Joseph Seering, Juho Kim
Subjects: cs.HC; cs.AI; cs.CL
Tags: LLM Evaluation, Interpretability
Venue: CHI 2026
Summary: 该论文提出了一种名为“功能碎片化”的方法，通过将生成内容分解为关键片段并分析其修辞功能，来解决LLM作为评判者时评分缺乏可解释性的问题。用户研究表明，该方法帮助用户识别出了更多的评估偏差，提高了对LLM评估的信任校准。

[671] Toward Efficient Influence Function: Dropout as a Compression Tool

arXiv: 2509.15651 (replaced)
Authors: Yuchen Zhang, Mohammad Mohammadi Amiri
Subjects: cs.LG; cs.AI
Tags: Interpretability, Data Selection
Summary: 该论文提出了一种利用Dropout作为梯度压缩机制的方法，以高效计算影响函数，从而量化训练数据对模型性能的影响。该方法显著降低了计算和内存开销，使其能够应用于现代大规模模型。

[672] BEFT: Bias-Efficient Fine-Tuning of Language Models in Low-Data Regimes

arXiv: 2509.15974 (replaced)
Authors: Baichuan Huang, Ananth Balashankar, Amir Aminifar
Subjects: cs.CL; cs.AI; cs.LG
Tags: Parameter-Efficient Fine-Tuning, LLM Training
Code: code
Summary: 该论文研究了在低数据环境下仅微调语言模型偏置项的效果，发现直接微调Value投影中的偏置项（$b_v$）通常能带来更高的下游任务性能。这一发现为大型语言模型提供了一种极具参数效率的微调方案。

[673] TMD-TTS: A Unified Tibetan Multi-Dialect Text-to-Speech Framework for Ü-Tsang, Amdo and Kham Speech Dataset Generation

arXiv: 2509.18060 (replaced)
Authors: Yutong Liu, Ziyue Zhang, Ban Ma-bao, Renzeng Duojie, Yuqing Cai, Yongbin Yu, Xiangxiang Wang, Fan Gao, Cheng Huang, Nyima Tashi
Subjects: cs.CL; cs.AI
Tags: Speech Synthesis, Low-Resource NLP, Multimodal Learning
Summary: 该论文提出了TMD-TTS框架，用于合成藏语三大方言（卫藏、安多、康巴）的语音，解决了藏语低资源平行语料库稀缺的问题。该方法包含方言融合模块和方言专用动态路由网络，在方言表现力上显著优于基线模型。

[674] Flow marching for a generative PDE foundation model

arXiv: 2509.18611 (replaced)
Authors: Zituo Chen, Sili Deng
Subjects: cs.LG; cs.AI
Tags: Foundation Model, Scientific Computing, Neural Operator
Summary: 本文提出了Flow Marching算法，结合神经算子学习与流匹配，构建了一个生成式偏微分方程（PDE）基础模型。该模型通过联合采样噪声水平和物理时间步长，减少了长期推演漂移，并能生成具有不确定性感知的集合结果。

[675] Digital Twins as Funhouse Mirrors: Five Key Distortions

arXiv: 2509.19088 (replaced)
Authors: Tianyi Peng, George Gui, Melanie Brucks, Daniel J. Merlau, Grace Jiarui Fan, Malek Ben Sliman, Eric J. Johnson, Abdullah Althenayyan, Silvia Bellezza, Dante Donati, Hortense Fong, Elizabeth Friedman, Ariana Guevara, Mohamed Hussein, Kinshuk Jerath, Bruce Kogut, Akshit Kumar, Kristen Lane, Hannah Li, Vicki Morwitz, Oded Netzer, Patryk Perkowski, Olivier Toubia
Subjects: cs.CY; cs.AI; cs.HC; stat.AP
Tags: Digital Twin, LLM Evaluation, AI Ethics
Summary: 该研究通过19项预注册研究评估了基于LLM的个人数字孪生模型，发现其预测准确性仅略高于基础LLM，且与人类反应的相关性较弱。作者识别了数字孪生行为中的五种系统性扭曲，并发布了数据集以促进相关方法的评估与改进。

[676] CaTS-Bench: Can Language Models Describe Time Series?

arXiv: 2509.20823 (replaced)
Authors: Luca Zhou, Pratham Yashwante, Marshall Fisher, Alessio Sampieri, Zihao Zhou, Fabio Galasso, Rose Yu
Subjects: cs.LG; cs.AI; cs.CV
Tags: Time Series Analysis, Benchmark, Vision-Language Model
Summary: 该论文提出了CaTS-Bench基准，用于评估模型在时间序列描述任务中的数值推理、趋势解释和上下文理解能力。研究揭示了现有视觉语言模型在捕捉数值细节方面的不足，并证明在合成数据上微调开源模型可显著提升性能。

[677] On the Shelf Life of Fine-Tuned LLM-Judges: Future-Proofing, Backward-Compatibility, and Question Generalization

arXiv: 2509.23542 (replaced)
Authors: Janvijay Singh, Austin Xu, Yilun Zhou, Yefan Zhou, Dilek Hakkani-Tur, Shafiq Joty
Subjects: cs.CL; cs.AI; cs.LG
Tags: LLM Evaluation, LLM Alignment, Domain Adaptation
Venue: ICLR 2026
Summary: 本文研究了微调后的LLM评判模型在实际部署中的三个关键问题：面向未来的适应性、向后兼容性以及问题泛化能力。实验表明，面向未来具有挑战性，而向后兼容性相对容易，且持续学习能更好地适应分布变化。

[678] Video Panels for Long Video Understanding

arXiv: 2509.23724 (replaced)
Authors: Lars Doorenbos, Federico Spurio, Juergen Gall
Subjects: cs.CV; cs.AI
Tags: Video Understanding, Prompt Engineering, Vision-Language Model
Venue: CVPR 2026
Summary: 该论文提出了一种名为Video Panels的视觉提示策略，通过将多帧画面组合成面板图像来交换空间细节以换取时间分辨率，从而提升长视频理解性能。该方法无需训练且与模型无关，在多个基准测试中显著提高了视频问答的准确率。

[679] STCast: Adaptive Boundary Alignment for Global and Regional Weather Forecasting

arXiv: 2509.25210 (replaced)
Authors: Hao Chen, Tao Han, Jie Zhang, Song Guo, Lei Bai
Subjects: cs.LG; cs.AI
Tags: Weather Forecasting, Mixture-of-Experts, Temporal Learning
Venue: CVPR 2026
Code: code
Summary: 本文提出了STCast框架，通过空间对齐注意力机制和时间混合专家模块，实现了全球与区域天气预报中的自适应区域边界优化和动态月度预报分配。实验结果表明，该方法在极端事件预测和集合预报等任务上均优于现有最先进方法。

[680] Erase to Improve: Erasable Reinforcement Learning for Search-Augmented LLMs

arXiv: 2510.00861 (replaced)
Authors: Ziliang Wang, Kang An, Xuhui Zheng, Faqiang Qian, Weikun Zhang, Cijun Ouyang, Jialu Cai, Yuhang Wang, Yichao Wu
Subjects: cs.CL; cs.AI; cs.IR
Tags: LLM Reasoning, Reinforcement Learning, RAG
Summary: 该论文提出了可擦除强化学习（ERL）框架，通过显式识别并擦除推理链中的错误步骤并重新生成，解决了搜索增强型大语言模型在多跳推理中的可靠性问题。实验表明，该方法在多个多跳推理基准上显著提升了性能。

[681] How Training Data Shapes the Use of Parametric and In-Context Knowledge in Language Models

arXiv: 2510.02370 (replaced)
Authors: Minsung Kim, Dong-Kyum Kim, Jea Kwon, Nakyeong Yang, Kyomin Jung, Meeyoung Cha
Subjects: cs.CL; cs.AI
Tags: In-Context Learning, Pre-training, Knowledge Representation
Summary: 本文通过控制实验研究了训练数据特性如何影响语言模型对参数化知识和上下文知识的使用。研究发现，文档内重复、适度的文档内不一致以及偏斜的知识分布这三个因素的共存，是模型稳健平衡使用两种知识来源的关键。

[682] OptunaHub: A Platform for Black-Box Optimization

arXiv: 2510.02798 (replaced)
Authors: Yoshihiko Ozaki, Shuhei Watanabe, Toshihiko Yanase
Subjects: cs.LG; cs.AI
Tags: Optimization, AutoML, Software Engineering
Code: code, code, code, code
Summary: 该论文介绍了OptunaHub，一个面向黑盒优化（BBO）的社区导向去中心化平台，旨在通过统一的Optuna兼容接口实现优化算法和基准问题的发布、发现与复用。

[683] On the Convergence and Size Transferability of Continuous-depth Graph Neural Networks

arXiv: 2510.03923 (replaced)
Authors: Mingsong Yan, Charles Kulick, Sui Tang
Subjects: cs.LG; cs.AI
Tags: Graph Neural Network, Deep Learning Theory, Neural Architecture
Summary: 本文对无限节点极限下的连续深度图神经网络进行了严格的收敛性分析，并引入了Graphon神经微分方程作为其极限形式。研究证明了GNDE解的逐轨迹收敛性，并推导出了尺寸可迁移性界限，为在大型图上部署模型提供了理论依据。

[684] RACE Attention: A Strictly Linear-Time Attention Layer for Training on Outrageously Large Contexts

arXiv: 2510.04008 (replaced)
Authors: Sahil Joshi, Agniva Chowdhury, Amar Kanakamedala, Ekam Singh, Evan Tu, Anshumali Shrivastava
Subjects: cs.LG; cs.AI
Tags: Long Context, Transformer Architecture, LLM Inference
Venue: ICLR 2026
Code: code
Summary: 该论文提出了RACE Attention，一种严格线性时间复杂度的注意力层替代方案，通过高斯随机投影和软局部敏感哈希避免了构建完整的注意力矩阵。该方法在保持性能的同时显著降低了内存使用，使得在单张GPU上处理数百万token成为可能。

[685] Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention

arXiv: 2510.04212 (replaced)
Authors: Haiquan Qiu, Quanming Yao
Subjects: cs.LG; cs.AI
Tags: LLM Training, Quantization, Transformer Architecture
Venue: ICLR 2026
Code: code
Summary: 本文深入分析了低精度设置下使用Flash Attention训练Transformer模型时出现灾难性损失爆炸的原因，指出低秩表示的出现和舍入误差偏差的复合效应是主要诱因。作者提出了一种最小修改方案来缓解舍入误差偏差，从而稳定训练过程。

[686] WeatherArchive-Bench: Benchmarking Retrieval-Augmented Reasoning for Historical Weather Archives

arXiv: 2510.05336 (replaced)
Authors: Yongan Yu, Xianda Du, Qingchen Hu, Jiahao Liang, Jingwei Ni, Dan Qiang, Kaiyu Huang, Grant McKenzie, Renee Sieber, Fengran Mo
Subjects: cs.CL; cs.AI
Tags: RAG, Benchmark, Weather Forecasting
Venue: SIGIR 2026
Summary: 该论文引入了WeatherArchive-Bench基准，用于评估历史天气档案上的检索增强生成（RAG）系统，包含检索和评估两个任务。实验揭示了现有检索器在处理历史术语上的不足，以及大语言模型在理解社会脆弱性和韧性概念方面的局限性。

[687] CreditDecoding: Accelerating Parallel Decoding in Diffusion Large Language Models with Trace Credit

arXiv: 2510.06133 (replaced)
Authors: Kangyu Wang, Zhiyun Jiang, Haibo Feng, Weijia Zhao, Lin Liu, Jianguo Li, Zhenzhong Lan, Weiyao Lin
Subjects: cs.CL; cs.AI
Tags: Diffusion Model, LLM Inference, Text Generation
Venue: ACL 2026
Summary: 该论文提出了CreditDecoding方法，通过引入Trace Credit来量化token的解码潜力，从而加速扩散大语言模型的并行解码过程。该方法无需训练，在多个基准测试中实现了显著的加速效果和性能提升。

[688] VeriEquivBench: An Equivalence Score for Ground-Truth-Free Evaluation of Formally Verifiable Code

arXiv: 2510.06296 (replaced)
Authors: Lingfei Zeng, Fengdi Che, Xuhan Huang, Fei Ye, Xu Xu, Binhang Yuan, Jie Fu
Subjects: cs.PL; cs.AI
Tags: Code Generation, Formal Methods, Benchmark
Summary: 该论文提出了VeriEquivBench基准，用于评估大语言模型生成的形式化可验证代码，并引入了等价分数这一新指标来替代传统的真实值匹配。该基准包含大量复杂算法问题，揭示了当前最先进模型在生成形式化可验证代码方面面临的巨大挑战。

[689] MeSH: Memory-as-State-Highways for Recursive Transformers

arXiv: 2510.07739 (replaced)
Authors: Chengting Yu, Xiaobo Shu, Yadao Wang, Yizhen Zhang, Haoyi Wu, Jiaang Li, Rujiao Long, Ziheng Chen, Yuchi Xu, Wenbo Su, Bo Zheng
Subjects: cs.LG; cs.AI
Tags: Memory Architecture, Transformer Architecture
Venue: ICLR 2026
Code: code
Summary: 该论文提出了MeSH（Memory-as-State-Highways）方案，通过引入显式记忆缓冲区和轻量级路由器来解决递归Transformer中计算模式单一和信息过载的问题。实验表明，该方法在减少参数量的同时提升了模型性能，甚至超越了更大的非递归模型。

[690] Parallel Test-Time Scaling for Latent Reasoning Models

arXiv: 2510.07745 (replaced)
Authors: Runyang You, Yongqi Li, Meng Liu, Wenjie Wang, Liqiang Nie, Wenjie Li
Subjects: cs.CL; cs.AI; cs.LG
Tags: LLM Reasoning, LLM Inference
Venue: ACL 2026
Code: code
Summary: 本文研究了如何在潜在推理模型中实现并行测试时扩展，通过引入基于不确定性的随机采样策略和潜在奖励模型来解决连续空间中缺乏采样机制和概率信号的问题。实验证明该方法能有效提升推理性能，为连续空间中的可扩展推理开辟了新方向。

[691] ControlAudio: Tackling Text-Guided, Timing-Indicated and Intelligible Audio Generation via Progressive Diffusion Modeling

arXiv: 2510.08878 (replaced)
Authors: Yuxuan Jiang, Zehua Chen, Zeqian Ju, Yusheng Dai, Weibei Dou, Jun Zhu
Subjects: cs.SD; cs.AI; cs.CL; eess.AS
Tags: Audio Generation, Diffusion Model
Venue: ACL 2026
Summary: 该论文提出了ControlAudio，一种基于渐进式扩散建模的文本到音频生成方法，通过分步策略实现对时间点和语音内容的精细控制。该方法在时间准确性和语音清晰度方面达到了最先进的性能。

[692] Inflated Excellence or True Performance? Rethinking Medical Diagnostic Benchmarks with Dynamic Evaluation

arXiv: 2510.09275 (replaced)
Authors: Xiangxu Zhang, Lei Li, Yanyun Zhou, Xiao Zhou, Yingying Zhang, Xian Wu
Subjects: cs.CL; cs.AI
Tags: Medical AI, LLM Evaluation, Benchmark
Venue: ACL 2026
Summary: 针对现有医学诊断基准存在的污染偏差和缺乏临床混淆因素的问题，该论文提出了DyReMe动态基准，通过生成包含临床混淆因素的咨询式案例来评估大语言模型。实验表明，该方法能更有效地揭示模型在临床诊断环境中的弱点。

[693] The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton

arXiv: 2510.09378 (replaced)
Authors: Natalie Abreu, Nikhil Vyas, Sham Kakade, Depen Morwani
Subjects: cs.LG; cs.AI
Tags: Optimization, LLM Training
Summary: 该研究通过应用全高斯-牛顿预处理来探索二阶优化在LLM预训练中的潜力，发现其能显著减少训练迭代次数。结果表明，逐层预处理足以获得大部分性能提升，揭示了当前近似方法与理想性能之间的差距。

[694] Multimodal Policy Internalization for Conversational Agents

arXiv: 2510.09474 (replaced)
Authors: Zhenhailong Wang, Jiateng Liu, Amin Fazel, Ritesh Sarkhel, Xing Fan, Xiang Li, Chenlei Guo, Heng Ji, Ruhi Sarikaya
Subjects: cs.CL; cs.AI
Tags: LLM Agent, Multimodal Learning, Reinforcement Learning
Summary: 该论文提出了多模态策略内化（MPI）任务，旨在将多模态策略内化到模型参数中以减少推理成本，并设计了TriMPI三阶段训练框架。实验表明，该方法在端到端准确性、泛化能力和抗遗忘性方面取得了显著提升。

[695] CLASP: Training-Free LLM-Assisted Source Code Watermarking via Semantic-Preserving Transformations

arXiv: 2510.11251 (replaced)
Authors: Rui Xu, Jiawei Chen, Weizhi Liu, Zhaoxia Yin, Cong Kong, Xinpeng Zhang
Subjects: cs.CR; cs.AI; cs.LG
Tags: Watermarking, Code Generation
Summary: 该论文提出了CLASP框架，利用代码大模型进行语义保持的变换，实现了一种免训练、即插即用的源代码水印方法。该方法在保持代码质量的同时，显著提高了水印提取的准确性和鲁棒性。

[696] MTSQL-R1: Towards Long-Horizon Multi-Turn Text-to-SQL via Agentic Training

arXiv: 2510.12831 (replaced)
Authors: Taicheng Guo, Hai Wang, ChaoChun Liu, Mohsen Golalikhani, Xin Chen, Xiangliang Zhang, Chandan K. Reddy
Subjects: cs.CL; cs.AI; cs.DB; cs.LG
Tags: Text-to-SQL, LLM Agent
Venue: ACL 2026
Summary: 该论文提出了MTSQL-R1框架，通过智能体训练将多轮Text-to-SQL任务建模为马尔可夫决策过程，实现了包含执行反馈和一致性验证的长程推理循环。实验表明，该方法在对话式语义解析任务上显著优于现有基线。

[697] What Makes AI Research Replicable? Executable Knowledge Graphs as Scientific Knowledge Representations

arXiv: 2510.17795 (replaced)
Authors: Yujie Luo, Zhuoyun Yu, Xuehai Wang, Yuqi Zhu, Ningyu Zhang, Lanning Wei, Lun Du, Da Zheng, Huajun Chen
Subjects: cs.CL; cs.AI; cs.LG; cs.MA; cs.SE
Tags: Research Reproducibility, Knowledge Graph, LLM Agent
Venue: ACL 2026
Code: code
Summary: 为了解决大语言模型在复制AI研究时面临的背景知识不足和代码生成困难问题，该论文提出了可执行知识图谱，用于自动整合科学文献中的代码片段和技术见解。实验表明，该方法能显著提升AI研究复制的成功率。

[698] From Charts to Code: A Hierarchical Benchmark for Multimodal Models

arXiv: 2510.17932 (replaced)
Authors: Jiahao Tang, Henry Hengyuan Zhao, Lijian Wu, Zijian Zhang, Yifei Tao, Dongxing Mao, Yang Wan, Jingru Tan, Min Zeng, Min Li, Alex Jinpeng Wang
Subjects: cs.SE; cs.AI
Tags: Chart Understanding, Code Generation, Benchmark
Venue: ACL 2026
Summary: 该论文引入了Chart2Code基准，用于评估多模态模型的图表理解与代码生成能力，包含图表复现、编辑和长表格转图表三个难度递增的层级。实验结果显示，即使是当前最先进的模型在该基准上仍面临巨大挑战。

[699] ToMMeR -- Efficient Entity Mention Detection from Large Language Models

arXiv: 2510.19410 (replaced)
Authors: Victor Morand, Nadi Tomeh, Josiane Mothe, Benjamin Piwowarski
Subjects: cs.CL; cs.AI
Tags: Named Entity Recognition, Interpretability
Venue: ACL 2026
Code: code
Summary: 该论文提出了ToMMeR，一种轻量级模型，用于从大语言模型的早期层中探测实体提及检测能力。实验发现，实体提及检测能力自然存在于早期Transformer层中，且该模型在零样本设置下实现了高召回率。

[700] Demonstrating Real Advantage of Machine-Learning-Enhanced Monte Carlo for Combinatorial Optimization

arXiv: 2510.19544 (replaced)
Authors: Luca Maria Del Bono, Federico Ricci-Tersenghi, Francesco Zamponi
Subjects: cs.AI; cs.LG
Tags: Neural Combinatorial Optimization, Optimization
Summary: 该研究提出了一种结合机器学习全局移动的退火蒙特卡洛算法，用于解决组合优化问题。实验证明，该方法在无需超参数调整的情况下，性能优于传统的模拟退火和种群退火算法。

[701] PaTaRM: Bridging Pairwise and Pointwise Signals via Preference-Aware Task-Adaptive Reward Modeling

arXiv: 2510.24235 (replaced)
Authors: Ai Jian, Jingqing Ruan, Xing Ma, Xiaoyun Zhang, Dailin Li, Weipeng Zhang, Ke Zeng, Xunliang Cai
Subjects: cs.LG; cs.AI
Tags: RLHF, LLM Alignment
Venue: ACL 2026
Code: code
Summary: 该论文提出了PaTaRM，一种偏好感知的任务自适应奖励模型，通过新颖的偏好感知奖励机制实现了利用成对数据进行逐点训练。实验表明，该方法在奖励模型基准和下游RLHF任务中均取得了显著提升。

[702] Finding Culture-Sensitive Neurons in Vision-Language Models

arXiv: 2510.24942 (replaced)
Authors: Xiutian Zhao, Rochelle Choenni, Rohit Saxena, Ivan Titov
Subjects: cs.LG; cs.AI; cs.CL
Tags: Vision-Language Model, Interpretability
Venue: EACL 2026
Summary: 该研究通过识别视觉语言模型中的文化敏感神经元，探究了模型如何处理文化背景信息。实验发现，这些神经元在特定解码器层中聚集，且其失活会特异性地损害对应文化背景下的模型性能。

[703] VCORE: Variance-Controlled Optimization-based Reweighting for Chain-of-Thought Supervision

arXiv: 2510.27462 (replaced)
Authors: Xuan Gong, Senmiao Wang, Hanbo Huang, Ruoyu Sun, Shiyu Liang
Subjects: cs.CL; cs.AI
Tags: LLM Reasoning, Instruction Tuning
Venue: ACL 2026
Code: code
Summary: 针对思维链监督中标准交叉熵损失忽略Token贡献异质性的问题，该论文提出了VCORE框架，通过基于优化的重新加权机制来分配监督信号。实验证明，该方法在数学和编程推理任务上显著提升了模型的泛化能力。

[704] ZoFia: Zero-Shot Fake News Detection with Entity-Guided Retrieval and Multi-LLM Interaction

arXiv: 2511.01188 (replaced)
Authors: Lvhua Wu, Xuefeng Jiang, Sheng Sun, Tian Wen, Yuwei Wang, Min Liu
Subjects: cs.CL; cs.AI
Tags: Fake News Detection, LLM Agent, Information Retrieval
Code: code
Summary: 针对大语言模型在假新闻检测中面临的知识截止和幻觉问题，该论文提出了ZoFia框架，结合实体引导的检索和多智能体对抗辩论机制。该方法在零样本设置下表现优异，超越了现有的零样本和部分少样本基线。

[705] In Situ Training of Implicit Neural Compressors for Scientific Simulations via Sketch-Based Regularization

arXiv: 2511.02659 (replaced)
Authors: Cooper Simpson, Stephen Becker, Alireza Doostan
Subjects: cs.LG; cs.AI; cs.CE; math.NA
Tags: Continual Learning, Model Compression, Scientific Computing
Summary: 本文提出了一种新的原位训练协议，利用全量和草图数据样本的有限内存缓冲区，通过草图数据作为正则化器来防止灾难性遗忘。该方法在科学模拟数据上实现了高压缩率下的强重建性能，并证明了草图方法能使原位方案近似匹配离线方法的性能。

[706] EGMOF: Efficient Generation of Metal-Organic Frameworks Using a Hybrid Diffusion-Transformer Architecture

arXiv: 2511.03122 (replaced)
Authors: Seunghee Han, Yeonghun Kang, Taeun Bae, Junho Kim, Younghun Kim, Varinia Bernales, Alan Aspuru-Guzik, Jihan Kim
Subjects: cs.AI; cs.LG
Tags: Material Discovery, Diffusion Model, Molecular Generation
Summary: 本文提出了EGMOF框架，一种混合扩散-Transformer架构，用于高效生成金属有机框架(MOFs)。该方法将逆向设计分解为属性到描述符和描述符到结构两个步骤，在仅1000个训练样本下实现了超过94%的有效性和91%的命中率。

[707] Noise Injection: Improving Out-of-Distribution Generalization for Limited Size Datasets

arXiv: 2511.03855 (replaced)
Authors: Duong Mai, Lawrence Hall
Subjects: cs.CV; cs.AI
Tags: Out-of-Distribution Detection, Medical AI, Data Augmentation
Venue: SPIE Medical Imaging 2026
Code: code
Summary: 本文研究了在训练过程中使用噪声注入技术（高斯、散斑、泊松和椒盐噪声）来提高深度学习模型的分布外泛化能力。实验结果表明，该方法可以将分布内和分布外评估之间的性能差距从0.10-0.20显著降低到0.01-0.06。

[708] Revisiting Entropy in Reinforcement Learning for Large Reasoning Models

arXiv: 2511.05993 (replaced)
Authors: Renren Jin, Pengzhi Gao, Yuqi Ren, Zhuowen Han, Tongxuan Zhang, Wuwei Huang, Wei Liu, Jian Luan, Deyi Xiong
Subjects: cs.CL; cs.AI; cs.LG
Tags: LLM Reasoning, Reinforcement Learning, RLHF
Venue: ACL 2026 Findings
Summary: 本文研究了大型语言模型在可验证奖励强化学习(RLVR)训练过程中的熵动态，识别了影响熵崩溃的三个关键因素。作者提出了正优势重加权方法，通过调整具有正优势的token的损失权重来调节模型熵。

[709] LoRA on the Go: Instance-level Dynamic LoRA Selection and Merging

arXiv: 2511.07129 (replaced)
Authors: Seungeon Lee, Soumi Das, Manish Gupta, Krishna P. Gummadi
Subjects: cs.CL; cs.AI; cs.LG
Tags: Parameter-Efficient Fine-Tuning, Model Merging, LLM Inference
Venue: ACL 2026
Summary: 本文提出了LoRA on the Go (LoGo)框架，一种无需训练的方法，可在实例级别动态选择和合并LoRA适配器。该方法利用通过LoRA适配器的单次前向传递提取的信号来识别最相关的适配器，在多个NLP基准测试中优于基于训练的基线方法。

[710] REFLEX: Reference-Free Evaluation of Log Summarization via Large Language Model Judgment

arXiv: 2511.07458 (replaced)
Authors: Priyanka Mudgal
Subjects: cs.CL; cs.AI; cs.LG; cs.SE
Tags: Summarization, LLM Evaluation, Log Analysis
Venue: IEEE-ICETISI 2025
Code: code
Summary: 本文提出了REFLEX，一种基于大语言模型判断的日志摘要无参考评估指标。REFLEX使用LLM作为零样本评估器，在相关性、信息量和连贯性等维度评估摘要质量，无需黄金标准参考或人工标注。

[711] SHRUG-FM: Reliability-Aware Foundation Models for Earth Observation

arXiv: 2511.10370 (replaced)
Authors: Maria Gonzalez-Calabuig, Kai-Hendrik Cohrs, Vishal Nedungadi, Zuzanna Osika, Ruben Cartuyvels, Steffen Knoblauch, Joppe Massant, Shruti Nath, Patrick Ebel, Vasileios Sitokonstantinou
Subjects: cs.CV; cs.AI; cs.LG
Tags: Out-of-Distribution Detection, Remote Sensing, Foundation Model
Venue: CVPR 2026 Workshop
Summary: 本文提出了SHRUG-FM框架，使地理空间基础模型能够识别并放弃可能的失败预测。该方法整合了输入空间的地球物理OOD检测、嵌入空间的OOD检测和任务特定的预测不确定性三种互补信号，并通过浅层决策树提供可解释的弃权阈值。

[712] VIDEOP2R: Video Understanding from Perception to Reasoning

arXiv: 2511.11113 (replaced)
Authors: Yifan Jiang, Yueying Wang, Rui Zhao, Toufiq Parag, Zhimin Chen, Zhenyu Liao, Jayakrishnan Unnikrishnan
Subjects: cs.CV; cs.AI; cs.LG
Tags: Video Understanding, Vision-Language Model, LLM Reasoning
Venue: CVPR 2026 Findings
Summary: 本文提出了VideoP2R框架，一种过程感知的视频强化微调方法，通过将感知和推理建模为不同的过程来增强视频推理能力。该方法在七个视频推理和理解基准中的六个上达到了最先进的性能。

[713] BridgeEQA: Virtual Embodied Agents for Real Bridge Inspections

arXiv: 2511.12676 (replaced)
Authors: Subin Varghese, Joshua Gao, Asad Ur Rahman, Vedhus Hoskere
Subjects: cs.CV; cs.AI
Tags: Embodied AI, Question Answering, Vision-Language Model
Summary: 本文引入了BridgeEQA基准，包含2200个开放词汇问答对，用于桥梁检测场景中的具身问答任务。作者提出了具身记忆视觉推理(EMVR)方法，将检测EQA任务表述为马尔可夫决策过程。

[714] LiveCLKTBench: Towards Reliable Evaluation of Cross-Lingual Knowledge Transfer in Multilingual LLMs

arXiv: 2511.14774 (replaced)
Authors: Pei-Fu Guo, Yun-Da Tsai, Chun-Chia Hsu, Kai-Xin Chen, Ya-An Tsai, Kai-Wei Chang, Nanyun Peng, Mi-Yen Yeh, Shou-De Lin
Subjects: cs.CL; cs.AI
Tags: Multilingual Learning, LLM Evaluation, Benchmark
Summary: 本文提出了LiveCLKTBench，一个专门设计用于隔离和测量跨语言知识转移的自动生成流水线。评估结果表明，跨语言转移受语言距离影响较大，且在不同语言方向上往往是不对称的。

[715] Empowering Multi-Turn Tool-Integrated Agentic Reasoning with Group Turn Policy Optimization

arXiv: 2511.14846 (replaced)
Authors: Yifeng Ding, Hung Le, Songyang Han, Kangrui Ruan, Zhenghui Jin, Varun Kumar, Zijian Wang, Anoop Deoras
Subjects: cs.LG; cs.AI; cs.CL
Tags: LLM Agent, Reinforcement Learning, Tool Learning
Summary: 本文提出了群体轮次策略优化(GTPO)算法，专门用于训练LLM进行多轮工具集成推理任务。GTPO引入了轮次级奖励分配、基于回报的优势估计和自监督奖励塑造三个关键创新，在数学推理基准上比GRPO提高了3.0%。

[716] DeepThinkVLA: Enhancing Reasoning Capability of Vision-Language-Action Models

arXiv: 2511.15669 (replaced)
Authors: Cheng Yin, Yankai Lin, Wang Xu, Sikyuen Tam, Xiangrui Zeng, Zhiyuan Liu, Zhouping Yin
Subjects: cs.LG; cs.AI; cs.RO
Tags: Embodied AI, Vision-Language Model, Reinforcement Learning
Code: code
Summary: 本文识别了思维链推理在视觉-语言-动作模型中有效的两个必要条件：解码对齐和因果对齐。基于这些发现，作者构建了DeepThinkVLA，在LIBERO上达到97.0%的成功率，在RoboTwin 2.0上超过最强基线21.7个百分点。

[717] Hierarchical Retrieval with Out-Of-Vocabulary Queries: A Case Study on SNOMED CT

arXiv: 2511.16698 (replaced)
Authors: Jonathon Dilworth, Hui Yang, Jiaoyan Chen, Yongsheng Gao, Ernesto Jimenez-Ruiz
Subjects: cs.CL; cs.AI
Tags: Knowledge Graph, Information Retrieval, Medical AI
Code: code
Summary: 本文提出了一种基于语言模型的本体嵌入方法，用于处理词汇外查询的SNOMED CT层次概念检索。该方法将层次概念表示在双曲空间中，以实现文本查询与任意概念之间的高效蕴含推理。

[718] Understanding Counting Mechanisms in Large Language and Vision-Language Models

arXiv: 2511.17699 (replaced)
Authors: Hosein Hasani, Amirmohammad Izadi, Fatemeh Askari, Mobin Bagherian, Sadegh Mohammadian, Mohammad Izadi, Mahdieh Soleymani Baghshah
Subjects: cs.CV; cs.AI
Tags: Interpretability, Vision-Language Model, LLM Reasoning
Venue: CVPR 2026
Summary: 本文通过行为、观察和因果中介分析研究了大型语言模型和视觉-语言模型在计数任务中如何表示和计算数值信息。研究发现计数在LLLM中呈现为结构化的分层过程，并受文本分隔符等结构线索的影响。

[719] Musical Score Understanding Benchmark: Evaluating Large Language Models' Comprehension of Complete Musical Scores

arXiv: 2511.20697 (replaced)
Authors: Congren Dai, Yue Yang, Krinos Li, Huichi Zhou, Shijie Liang, Bo Zhang, Enyang Liu, Ge Jin, Hongran An, Haosen Zhang, Peiyuan Jing, Kinhei Lee, Z henxuan Zhang, Xiaobing Li, Maosong Sun
Subjects: cs.SD; cs.AI
Tags: Benchmark, Multimodal Learning, Music Generation
Venue: ACL 2026
Code: code
Summary: 本文介绍了MSU-Bench，一个用于评估大语言模型和视觉-语言模型完整乐谱理解能力的人工策划基准。该基准包含1800个生成式问答对，涵盖文本(ABC记谱)和视觉(PDF)两种模态，组织为四个难度级别。

[720] MODEST: Multi-Optics Depth-of-Field Stereo Dataset

arXiv: 2511.20853 (replaced)
Authors: Nisarg K. Trivedi, Vinayak A. Belludi, Li-Yun Wang
Subjects: cs.CV; cs.AI; cs.LG; eess.IV
Tags: 3D Vision, Dataset, Depth Estimation
Summary: 本文提出了首个高分辨率立体单反数据集，包含18000张图像，系统性地变化焦距和光圈设置。该数据集支持对单目和立体深度估计、景深渲染、去模糊、3D场景重建和新视角合成等任务的几何和光学效应进行受控分析。

[721] Beyond URLs: Metadata Diversity and Position for Efficient LLM Pretraining

arXiv: 2511.21613 (replaced)
Authors: Dongyang Fan, Diba Hashemi, Sai Praneeth Karimireddy, Martin Jaggi
Subjects: cs.CL; cs.AI; cs.LG
Tags: LLM Training, Pre-training, Data Augmentation
Venue: ICLR 2026
Summary: 本文研究了多种元数据类型（而非仅URL）对LLM预训练加速的影响，发现细粒度的元数据在文档前添加或后接时能有效提升训练效率，并提出了可学习的元标记来恢复部分加速效果。

[722] Matrix: Peer-to-Peer Multi-Agent Synthetic Data Generation Framework

arXiv: 2511.21686 (replaced)
Authors: Dong Wang, Yang Li, Ansong Ni, Ching-Feng Yeh, Youssef Emad, Xinjie Lei, Liam Robbins, Karthik Padthe, Hu Xu, Xian Li, Asli Celikyilmaz, Ramya Raghavendra, Lifei Huang, Carole-Jean Wu, Shang-Wen Li
Subjects: cs.CL; cs.AI; cs.LG
Tags: Data Synthesis, Multi-Agent System, LLM Agent
Venue: MLSys 2026
Summary: 本文提出了Matrix，一个去中心化的多智能体合成数据生成框架，通过点对点消息传递消除中心化协调器，在相同硬件资源下实现2-15倍的数据生成吞吐量提升。

[723] State Space Models for Bioacoustics: A Comparative Evaluation with Transformers

arXiv: 2512.03563 (replaced)
Authors: Chengyu Tang, Sanjeev Baskiyar
Subjects: cs.SD; cs.AI
Tags: Bioacoustics, State Space Model, Speech Processing
Summary: 本文介绍了BioMamba，一种基于Mamba架构的野生动物声音音频表示模型，通过自监督学习预训练，在BEANS基准上达到与Transformer模型相当的性能，同时显著降低显存消耗。

[724] ODMA: On-Demand Memory Allocation Strategy for LLM Serving on LPDDR-Class Accelerators

arXiv: 2512.09427 (replaced)
Authors: Guoqiang Zou, Wanyu Wang, Hao Zheng, Longxiang Yin, Yinhe Han
Subjects: cs.AR; cs.AI
Tags: LLM Serving, Memory Architecture, KV Cache
Summary: 本文提出了ODMA，一种针对LPDDR类加速器的按需内存分配策略，通过轻量级长度预测器和自适应桶分区来提高KV缓存利用率和吞吐量，在寒武纪MLU370-X4加速器上实现了23-27%的吞吐量提升。

[725] Explanation Bias is a Product: Revealing the Hidden Lexical and Position Preferences in Post-Hoc Feature Attribution

arXiv: 2512.11108 (replaced)
Authors: Jonathan Kamp, Roos Bakker, Dominique Blok
Subjects: cs.CL; cs.AI
Tags: Interpretability, Explainable AI
Summary: 本文通过模型和方法无关的评估框架，系统分析了特征归因方法中的词汇偏差和位置偏差，发现在模型比较中存在词汇偏差和位置偏差之间的权衡关系。

[726] Rethinking Jailbreak Detection of Large Vision Language Models with Representational Contrastive Scoring

arXiv: 2512.12069 (replaced)
Authors: Peichun Hua, Hao Li, Shanghao Shi, Zhiyuan Yu, Ning Zhang
Subjects: cs.CR; cs.AI; cs.CL; cs.LG
Tags: Jailbreak Detection, Vision-Language Model, LLM Security
Venue: ACL 2026
Summary: 本文提出了RCS框架，通过学习轻量级投影来最大化分离LVLM内部表示中的良性和恶意输入，实现对多模态越狱攻击的有效检测，解决了现有方法泛化能力不足和过度拒绝的问题。

[727] Love, Lies, and Language Models: Investigating AI's Role in Romance-Baiting Scams

arXiv: 2512.16280 (replaced)
Authors: Gilad Gressel, Rahul Pankajakshan, Shir Rozenfeld, Ling Li, Ivan Franceschini, Krishnashree Achuthan, Yisroel Mirsky
Subjects: cs.CR; cs.AI; cs.CY
Tags: AI Safety, LLM Security, Cybersecurity
Summary: 本文通过访谈145名内部人员和5名受害者，以及对比LLM诈骗智能体与人类操作者的对话研究，发现LLM已广泛应用于诈骗组织，且现有安全过滤器对浪漫诈骗对话的检测率为0%。

[728] FaithLens: Detecting and Explaining Faithfulness Hallucination

arXiv: 2512.20182 (replaced)
Authors: Shuzheng Si, Qingyi Wang, Haozhe Zhao, Yuzhuo Bai, Guanqiao Chen, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun
Subjects: cs.CL; cs.AI
Tags: LLM Hallucination, LLM Evaluation
Venue: ACL 2026
Summary: 本文介绍了FaithLens，一个高效且有效的忠实性幻觉检测模型，能够同时提供二元预测和解释，在12个多样化任务上超越GPT-5.2和o3等先进模型。

[729] SpidR-Adapt: A Universal Speech Representation Model for Few-Shot Adaptation

arXiv: 2512.21204 (replaced)
Authors: Mahi Luthra, Jiayi Shen, Maxime Poli, Angelo Ortiz, Yosuke Higuchi, Youssef Benchekroun, Martin Gleize, Charles-Eric Saint-James, Dongyan Lin, Phillip Rust, Angel Villar, Surya Parimi, Vanessa Stark, Rashel Moritz, Juan Pino, Yann LeCun, Emmanuel Dupoux
Subjects: cs.CL; cs.AI
Tags: Speech Processing, Meta-Learning, Low-Resource NLP
Code: code
Summary: 本文提出了SpidR-Adapt，一种用于快速适应新语言的语音表示模型，通过元学习框架和一阶双层优化方法，在不到1小时的目标语言音频上实现显著提升，数据效率比标准多任务训练高100倍。

[730] How Large Language Models Systematically Misrepresent American Climate Opinions

arXiv: 2512.23889 (replaced)
Authors: Sola Kim, Jieshu Wang, Marco A. Janssen, John M. Anderies
Subjects: cs.CY; cs.AI
Tags: LLM Evaluation, Bias Mitigation, Fairness
Summary: 本文研究了LLM对美国气候观点的人口统计和交叉模式的表现，发现LLM压缩了美国气候观点的多样性，对较少关注的群体预测为更关注，反之亦然，这种压缩具有交叉性特征。

[731] DynaFix: Iterative Automated Program Repair Driven by Execution-Level Dynamic Information

arXiv: 2512.24635 (replaced)
Authors: Zhili Huang, Ling Xu, Chao Liu, Weifeng Sun, Xu Zhang, Yan Lei, Meng Yan, Hongyu Zhang
Subjects: cs.SE; cs.AI
Tags: Program Repair, LLM Reasoning, Software Engineering
Summary: 本文提出了DynaFix，一种由执行级动态信息驱动的迭代式自动程序修复方法，通过捕获变量状态、控制流路径和调用栈等运行时信息来指导LLM生成候选补丁，在Defects4J基准上修复了186个单函数错误。

[732] Geometric and Quantum Kernel Methods for Predicting Skeletal Muscle Outcomes in chronic obstructive pulmonary disease

arXiv: 2601.00921 (replaced)
Authors: Azadeh Alavi, Hamidreza Khalili, Stanley H. Chan, Fatemeh Kouchmeshki, Muhammad Usman, Ross Vlahos
Subjects: cs.LG; cs.AI
Tags: Quantum Computing, Medical AI, Representation Learning
Summary: 本文在COPD临床前队列中比较了几何感知SPD描述符和量子核方法预测骨骼肌结果，发现量子核岭回归在肌肉重量预测上取得最佳性能，优于匹配的经典基线。

[733] Lil: Less is Less When Applying Post-Training Sparse-Attention Algorithms in Long-Decode Stage

arXiv: 2601.03043 (replaced)
Authors: Junhao Hu, Fangze Li, Mingtao Xu, Feifan Meng, Shiju Zhao, Tiancheng Hu, Ting Peng, Anmin Liu, Wenrui Huang, Chenxu Liu, Ziyue Hua, Tao Xie
Subjects: cs.CL; cs.AI; cs.LG
Tags: LLM Inference, Sparse Attention
Summary: 本文发现稀疏注意力算法在解码阶段可能反而增加端到端复杂度，提出了一种早期停止算法来检测信息损失超过信息增益的阈值，在推理密集型基准上减少高达90%的token消耗。

[734] Do LLMs Encode Functional Importance of Reasoning Tokens?

arXiv: 2601.03066 (replaced)
Authors: Janvijay Singh, Dilek Hakkani-Tür
Subjects: cs.CL; cs.AI; cs.LG
Tags: LLM Reasoning, Knowledge Distillation
Venue: ACL 2026
Summary: 本文提出了贪婪剪枝方法来识别推理链中功能重要的token，发现在蒸馏框架中使用剪枝后的推理链训练的学生模型在相同推理长度下优于前沿模型监督的压缩基线。

[735] MMErroR: A Benchmark for Erroneous Reasoning in Vision-Language Models

arXiv: 2601.03331 (replaced)
Authors: Yang Shi, Yifeng Xie, Minzhe Guo, Liangsi Lu, Mingxuan Huang, Jingchao Wang, Zhihong Zhu, Boyan Xu, Zhiqi Huang
Subjects: cs.CV; cs.AI; cs.LG
Tags: Vision-Language Model, Benchmark, LLM Reasoning
Venue: ACL 2026
Summary: 本文介绍了MMErroR，一个包含1997个样本的多模态基准，用于评估视觉语言模型检测和分类推理错误的能力，涵盖6个顶级领域的24个子领域，最佳模型Gemini-3-Pro-Preview的错误分类准确率仅为66.65%。

[736] ReStyle-TTS: Relative and Continuous Style Control for Zero-Shot Speech Synthesis

arXiv: 2601.03632 (replaced)
Authors: Haitao Li, Chunxiang Jin, Chenglin Li, Wenhao Guan, Zhengxing Huang, Xie Chen
Subjects: eess.AS; cs.AI; cs.SD
Tags: Speech Synthesis, Zero-Shot Learning
Venue: ACL 2026
Summary: 本文提出了ReStyle-TTS框架，通过解耦无分类器指导和风格特定LoRA实现零样本TTS中的连续和参考相对风格控制，解决了现有方法无法进行连续和相对风格控制的问题。

[737] From Implicit to Explicit: Token-Efficient Logical Supervision for Mathematical Reasoning in LLMs

arXiv: 2601.03682 (replaced)
Authors: Shaojie Wang, Liang Zhang
Subjects: cs.CL; cs.AI
Tags: LLM Reasoning, Mathematical Reasoning
Summary: 本文分析了大语言模型在数学问题求解中的逻辑推理局限性，发现超过90%的错误与逻辑关系理解相关。作者提出FSLR框架，通过针对第一步规划步骤进行显式监督来提升逻辑关系理解能力，在提升3-6%准确率的同时实现4-6倍训练加速和80%以上的token节省。

[738] When Numbers Start Talking: Implicit Numerical Coordination Among LLM-Based Agents

arXiv: 2601.03846 (replaced)
Authors: Alessio Buscemi, Daniele Proverbio, Alessandro Di Stefano, The-Anh Han, German Castignani, Pietro Liò
Subjects: cs.MA; cs.AI
Tags: Multi-Agent System, LLM Agent, Game AI
Summary: 本文通过博弈论方法研究LLM多智能体系统中的隐蔽通信问题，分析了四种经典博弈场景下不同通信机制对协调和策略结果的影响。研究揭示了智能体如何通过嵌入在行动中的非语言信号进行隐式协调，并刻画了隐蔽信号出现的条件。

[739] FOREVER: Forgetting Curve-Inspired Memory Replay for Language Model Continual Learning

arXiv: 2601.03938 (replaced)
Authors: Yujie Feng, Hao Wang, Jian Li, Xu Chu, Zhaolu Kang, Yiran Liu, Yasha Wang, Philip S. Yu, Xiao-Ming Wu
Subjects: cs.LG; cs.AI; cs.CL
Tags: Continual Learning, LLM Training
Venue: ACL 2026
Summary: 本文提出FOREVER框架，基于艾宾浩斯遗忘曲线设计持续学习方法，通过优化器更新幅度定义模型时间来对齐重放调度。该方法结合遗忘曲线调度器和强度感知正则化机制，在多个基准测试和不同规模模型上有效缓解了灾难性遗忘问题。

[740] From Domains to Instances: Dual-Granularity Data Synthesis for LLM Unlearning

arXiv: 2601.04278 (replaced)
Authors: Xiaoyu Xu, Minxin Du, Zitong Li, Zi Liang, Zhibiao Guo, Shiyu Zhang, Peizhao Hu, Qingqing Ye, Haibo Hu
Subjects: cs.CL; cs.AI; cs.CR; cs.LG
Tags: Machine Unlearning, Data Synthesis
Venue: ACL 2026 Findings
Summary: 本文形式化了领域级和实例级两种遗忘粒度，提出BiForget框架用于自动合成高质量遗忘数据集。该方法利用目标模型自身通过种子引导和对抗性提示生成符合内部知识分布的数据，在减少一半数据量的同时实现了更优的相关性和多样性。

[741] Merging Triggers, Breaking Backdoors: Defensive Poisoning for Instruction-Tuned Language Models

arXiv: 2601.04448 (replaced)
Authors: San Kim, Gary Geunbae Lee
Subjects: cs.CL; cs.AI
Tags: LLM Security, Backdoor Detection, Instruction Tuning
Summary: 本文提出MB-Defense防御框架，通过两阶段方法保护指令微调LLM免受后门攻击。该方法将攻击者和防御触发器合并为统一表示，再通过额外训练打破该表示以恢复清洁行为，在保持指令跟随能力的同时显著降低攻击成功率。

[742] SpeechMedAssist: Efficiently and Effectively Adapting Speech Language Models for Medical Consultation

arXiv: 2601.04638 (replaced)
Authors: Sirry Chen, Jieyi Wang, Wei Chen, Zhongyu Wei
Subjects: cs.CL; cs.AI
Tags: Medical AI, Speech Processing, Multimodal Learning
Summary: 本文提出SpeechMedAssist语音语言模型，通过解耦训练范式将知识注入与模态重对齐分离，仅需10k合成语音样本即可实现医疗语音对话能力。该模型在单轮问答和多轮交互场景中均展现出优越的有效性和鲁棒性。

[743] StealthGraph: Exposing Domain-Specific Risks in LLMs through Knowledge-Graph-Guided Harmful Prompt Generation

arXiv: 2601.04740 (replaced)
Authors: Huawei Zheng, Xinqi Jiang, Sen Yang, Shouling Ji, Yingcai Wu, Dazhen Deng
Subjects: cs.CL; cs.AI
Tags: LLM Security, Knowledge Graph, AI Safety
Summary: 本文提出端到端框架用于生成领域特定的隐式有害提示，通过知识图谱引导生成和混淆重写策略将显式有害提示转化为隐式变体。该框架产出的数据集兼具强领域相关性和隐式性，为LLM安全红队测试提供了更真实的评估基准。

[744] Semi-Supervised Diseased Detection from Speech Dialogues with Multi-Level Data Modeling

arXiv: 2601.04744 (replaced)
Authors: Xingyuan Li, Mengyue Wu
Subjects: cs.SD; cs.AI
Tags: Medical AI, Speech Processing, Semi-Supervised Learning
Venue: ACL 2026 Findings
Code: code
Summary: 本文提出半监督学习框架用于从语音对话中检测疾病，通过联合学习帧级、片段级和会话级表示来处理病理特征的非均匀表达问题。该方法仅需11个标注样本即可达到全监督方法90%的性能，具有良好的跨语言和跨条件鲁棒性。

[745] Compositional Steering of Large Language Models with Steering Tokens

arXiv: 2601.05062 (replaced)
Authors: Gorjan Radevski, Kiril Gashteovski, Giwon Hong, Carolin Lawrence, Goran Glavaš
Subjects: cs.CL; cs.AI; cs.LG
Tags: LLM Inference, Prompt Engineering
Venue: ACL 2026
Summary: 本文提出组合式引导令牌方法用于LLM多行为控制，通过自蒸馏将行为嵌入专用令牌中实现零样本组合。该方法在可验证约束的多行为引导任务上优于现有方法，并能泛化到未见过的行为组合。

[746] Learning to Retrieve User History and Generate User Profiles for Personalized Persuasiveness Prediction

arXiv: 2601.05654 (replaced)
Authors: Sejun Park, Yoonah Park, Jongwon Lim, Yohan Jo
Subjects: cs.CL; cs.AI
Tags: AI Persuasion, LLM Personalization, User Profiling
Venue: ACL 2026 Findings
Summary: 本文提出上下文感知的用户画像框架，包含可训练的查询生成器和画像器组件，用于个性化说服力预测。该方法通过从用户历史中检索相关记录并生成任务导向的上下文相关画像，在F1指标上实现显著提升。

[747] Multimodal In-context Learning for ASR of Low-resource Languages

arXiv: 2601.05707 (replaced)
Authors: Zhaolin Li, Jan Niehues
Subjects: cs.CL; cs.AI
Tags: Speech Processing, In-Context Learning, Low-Resource NLP
Venue: ACL 2026 Findings
Summary: 本文研究语音LLM在低资源语言上的多模态上下文学习(MICL)，在三种濒危语言上验证了MICL的有效性。研究还提出结合声学模型与语音LLM的简单ASR系统，通过MICL假设选择实现性能提升。

[748] Context Matters: Peer-Aware Student Behavioral Engagement Measurement via VLM Action Parsing and LLM Sequence Classification

arXiv: 2601.06394 (replaced)
Authors: Ahmed Abdelkawy, Ahmed Elsayed, Asem Ali, Aly Farag, Thomas Tretter, Michael McIntyre
Subjects: cs.CV; cs.AI
Tags: Education Technology, Vision-Language Model, Action Recognition
Code: code
Summary: 本文提出三阶段框架用于视频学生参与度测量，结合视觉语言模型的少样本动作识别和大语言模型的序列分类。该方法通过滑动时间窗口处理连续动作序列，并融入课堂同伴上下文进行参与度判断。

[749] GanitLLM: Difficulty-Aware Bengali Mathematical Reasoning through Curriculum-GRPO

arXiv: 2601.06767 (replaced)
Authors: Shubhashis Roy Dipta, Khairul Mahbub, Nadia Najjar
Subjects: cs.CL; cs.AI; cs.LG
Tags: Mathematical Reasoning, Low-Resource NLP, Reinforcement Learning
Venue: ACL 2026 Findings
Summary: 本文提出GanitLLM孟加拉语数学推理模型，构建了难度感知的孟加拉语数学语料库和基于课程的GRPO训练流程。该方法结合多阶段训练与难度感知采样，在提升准确率的同时将孟加拉语推理令牌比例从14%提升至88%以上。

[750] Measuring Social Bias in Vision-Language Models with Face-Only Counterfactuals from Real Photos

arXiv: 2601.06931 (replaced)
Authors: Haodong Chen, Qiang Huang, Jiaqi Zhao, Qiuping Jiang, Xiaojun Chang, Jun Yu
Subjects: cs.CV; cs.AI; cs.CL
Tags: Vision-Language Model, Fairness, Bias Mitigation
Summary: 本文提出仅人脸反事实评估范式用于测量视觉语言模型中的社会偏见，通过仅编辑面部属性来隔离人口统计效应。作者构建了FOCUS数据集和REFLECT基准，揭示了在严格视觉控制下人口统计差异仍然存在且随任务设计变化。

[751] Stable On-Policy Distillation through Adaptive Target Reformulation

arXiv: 2601.07155 (replaced)
Authors: Ijun Jang, Jewon Yeom, Juan Yeo, Hyunggu Lim, Taesup Kim
Subjects: cs.LG; cs.AI
Tags: Knowledge Distillation, LLM Training
Venue: ACL 2026 Findings
Summary: 本文提出Veto方法用于稳定在线知识蒸馏，通过在logit空间构建几何桥梁来缓解教师与学生分布差距过大导致的训练不稳定问题。该方法通过抑制低置信度令牌上的有害梯度，在推理和生成任务上持续优于现有基线。

[752] Safe-FedLLM: Delving into the Safety of Federated Large Language Models

arXiv: 2601.07177 (replaced)
Authors: Mingxiang Tao, Yu Tian, Wenxuan Tu, Yue Yang, Xue Yang, Xiangyan Tang
Subjects: cs.CR; cs.AI
Tags: Federated Learning, LLM Security, LLM Training
Summary: 本文研究联邦LLM训练中的安全问题，提出Safe-FedLLM防御框架，通过轻量级分类器对客户端LoRA更新进行探测判别。该方法在步骤级、客户端级和影子级三个层面构建防御，有效提升了对恶意客户端的鲁棒性。

[753] Triples and Knowledge-Infused Embeddings for Clustering and Classification of Scientific Documents

arXiv: 2601.08841 (replaced)
Authors: Mihael Arcan
Subjects: cs.CL; cs.AI; cs.DL
Tags: Knowledge Graph, Document Understanding, Text Classification
Summary: 本文研究结构化知识（主谓宾三元组）是否能改善科学论文的聚类和分类效果。作者提出了一个模块化流水线，在四种文档表示方式上进行实验，发现仅使用摘要的输入在分类任务中表现最强，而添加三元组并不总能超越基线。

[754] MedRedFlag: Investigating how LLMs Redirect Misconceptions in Real-World Health Communication

arXiv: 2601.09853 (replaced)
Authors: Sraavya Sambara, Yuan Pu, Ayman Ali, Vishala Mishra, Lionel Wong, Monica Agrawal
Subjects: cs.CL; cs.AI
Tags: Medical AI, LLM Evaluation, Question Answering
Code: code
Summary: 本文研究大语言模型如何处理嵌入在真实健康问题中的错误前提。作者构建了MedRedFlag数据集，包含1100多个需要重定向的问题，发现LLM经常无法重定向有问题的提问，可能导致次优的医疗决策。

[755] HeteroCache: A Dynamic Retrieval Approach to Heterogeneous KV Cache Compression for Long-Context LLM Inference

arXiv: 2601.13684 (replaced)
Authors: Zhiyuan Shi, Qibo Qiu, Feng Xue, Zhonglin Jiang, Li Yu, Jian Jiang, Xiaofei He, Wenxiao Wang
Subjects: cs.CL; cs.AI
Tags: KV Cache, LLM Inference, Long Context
Venue: ACL 2026
Code: code
Summary: 本文提出HeteroCache，一种无需训练的动态压缩框架，用于长上下文LLM推理中的KV缓存压缩。该方法基于注意力头的时序异质性和空间冗余进行细粒度加权，并采用分层存储机制实现按需上下文检索，在长上下文基准上达到最优性能。

[756] Attention-space Contrastive Guidance for Efficient Hallucination Mitigation in LVLMs

arXiv: 2601.13707 (replaced)
Authors: Yujin Jo, Sangyoon Bae, Taesup Kim
Subjects: cs.CV; cs.AI; cs.LG
Tags: LLM Hallucination, Vision-Language Model, Contrastive Learning
Venue: CVPR 2026 Findings
Summary: 本文提出注意力空间对比引导（ACG），一种无需训练的单次前向传播方法，用于缓解大型视觉语言模型中的幻觉问题。ACG在自注意力层中构建图像条件和纯文本注意力路径，在提高忠实度的同时将延迟降低多达2倍。

[757] Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors

arXiv: 2601.15625 (replaced)
Authors: Zhiwei Zhang, Fei Zhao, Rui Wang, Zezhong Wang, Bin Liang, Jiakang Wang, Yao Hu, Shaosheng Cao, Kam-Fai Wong
Subjects: cs.LG; cs.AI
Tags: Tool Learning, LLM Agent, Reinforcement Learning
Venue: ACL 2026
Summary: 本文提出Fission-GRPO框架，将执行错误转化为强化学习训练循环中的纠正性监督。该方法通过错误模拟器生成诊断反馈，并在策略上重新采样恢复轨迹，使模型能够从探索过程中产生的精确错误中学习。

[758] VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning

arXiv: 2601.15724 (replaced)
Authors: Chenglin Li, Qianglong Chen, Feng Han, Yikun Wang, Xingxi Yin, Yan Gong, Ruilin Li, Yin Zhang, Jiaqi Wang
Subjects: cs.CV; cs.AI
Tags: Video Understanding, Tool Learning, Vision-Language Model
Summary: 本文提出VideoThinker，一种完全在合成工具交互轨迹上训练的智能视频大语言模型。该方法将视频转换为丰富字幕，使用智能语言模型生成多步工具使用序列，然后将其接地回视频，在长视频基准上显著超越基线。

[759] From Attribution to Abstention: Training-Free Attention-Based Auditing for Clinical Summarization

arXiv: 2601.16397 (replaced)
Authors: Qianqi Yan, Huy Nguyen, Sumana Srivatsa, Hari Bandi, Xin Eric Wang, Krishnaram Kenthapadi
Subjects: cs.CL; cs.AI
Tags: Medical AI, LLM Hallucination, Summarization
Summary: 本文提出ClinTrace，一个无需训练的框架，从解码器注意力权重中提取源归因和接地性分数，用于临床摘要任务。该方法在单次前向传播中同时实现句子级别的源归因和幻觉检测，无需额外推理成本。

[760] LOGICAL-COMMONSENSEQA: A Benchmark for Logical Commonsense Reasoning

arXiv: 2601.16504 (replaced)
Authors: Obed Junias, Maria Leonor Pacheco
Subjects: cs.CL; cs.AI
Tags: Commonsense Reasoning, Benchmark, LLM Reasoning
Summary: 本文引入LOGICAL-COMMONSENSEQA基准，将常识推理重构为使用逻辑运算符（AND、OR、NEITHER/NOR）对原子语句对的逻辑组合。评估显示模型在合取推理上表现尚可，但在否定类问题上性能急剧下降。

[761] Information Representation Fairness in Long-Document Embeddings: The Peculiar Interaction of Positional and Language Bias

arXiv: 2601.16934 (replaced)
Authors: Elias Schuhmacher, Andrianos Michail, Juri Opitz, Rico Sennrich, Simon Clematide
Subjects: cs.CL; cs.AI
Tags: Fairness, Representation Learning, Bias Mitigation
Venue: ACL 2026 Findings
Code: code
Summary: 本文引入基于排列的评估框架来量化嵌入模型中的表示偏差。研究发现最先进的嵌入模型表现出系统性的位置和语言偏见，早期片段和高资源语言被过度表示，并提出推理时注意力校准方法来缓解这一问题。

[762] Who Gets Which Message? Auditing Demographic Bias in LLM-Generated Targeted Text

arXiv: 2601.17172 (replaced)
Authors: Tunazzina Islam
Subjects: cs.CL; cs.AI; cs.CY; cs.LG
Tags: Fairness, Bias Mitigation, LLM Evaluation
Venue: ACL 2026 Findings
Summary: 本文首次系统分析了LLM在人口统计条件下的定向消息生成中的偏见行为。使用三个领先模型进行控制评估，发现一致的年龄和性别不对称性：男性和青年定向消息更强调进取性框架，而女性和老年人定向消息更多反映温暖和传统主题。

[763] Rethinking Cross-Modal Fine-Tuning: Optimizing the Interaction Between Feature Alignment and Target Fitting

arXiv: 2601.18231 (replaced)
Authors: Trong Khiem Tran, Manh Cuong Dao, Phi Le Nguyen, Thao Nguyen Truong, Trong Nghia Hoang
Subjects: cs.LG; cs.AI
Tags: Transfer Learning, Multimodal Learning, Fine-Tuning
Venue: AISTATS 2026
Summary: 本文开发了一个原则性框架，建立了跨模态微调中目标误差的可证明泛化界，通过特征-标签失真的新概念解释特征对齐与目标拟合之间的相互作用。该方法在广泛的基准数据集上显著优于现有方法。

[764] One Adapts to Any: Meta Reward Modeling for Personalized LLM Alignment

arXiv: 2601.18731 (replaced)
Authors: Hongru Cai, Yongqi Li, Tiezheng Yu, Fengbin Zhu, Wenjie Wang, Fuli Feng, Wenjie Li
Subjects: cs.CL; cs.AI
Tags: LLM Alignment, LLM Personalization, Meta-Learning
Venue: SIGIR 2026
Code: code
Summary: 本文提出元奖励建模（MRM），将个性化奖励建模重构为元学习问题。MRM将每个用户的奖励模型表示为基奖励函数的加权组合，并使用MAML风格框架优化初始化，以支持有限反馈下的快速适应。

[765] LVLMs and Humans Ground Differently in Referential Communication

arXiv: 2601.19792 (replaced)
Authors: Peter Zeng, Weiling Li, Amie Paige, Zhengxiang Wang, Panagiotis Kaliosis, Dimitris Samaras, Gregory Zelinsky, Susan Brennan, Owen Rambow
Subjects: cs.CL; cs.AI; cs.HC
Tags: Vision-Language Model, Human-Computer Interaction, Dialogue System
Summary: 本文通过指称交际实验研究LVLM与人类在建立共同基础方面的差异。实验涉及四种主管-匹配者配对组合，结果显示LVLM无法以支持流畅交流的方式交互式地生成和解析指称表达式。

[766] Generalizable Prompt Tuning for Audio-Language Models via Semantic Expansion

arXiv: 2601.20867 (replaced)
Authors: Jaehyuk Jang, Wonjun Lee, Kangwook Ko, Changick Kim
Subjects: cs.SD; cs.AI; eess.AS
Tags: Prompt Engineering, Speech Processing, Transfer Learning
Venue: ACL 2026 Findings
Summary: 本文提出语义扩展提示调优（SEPT），一个即插即用框架，通过引入LLM生成的语义邻居来正则化提示嵌入空间。SEPT引入带边界约束的语义扩展损失，促进类内紧凑性和类间可分性，在音频语言模型上建立了首个提示泛化基准。

[767] Function Words as Statistical Cues for Language Learning

arXiv: 2601.21191 (replaced)
Authors: Xiulin Yang, Heidi Getz, Ethan Gotlieb Wilcox
Subjects: cs.CL; cs.AI
Tags: Linguistic Resource, Self-Supervised Learning, Pre-training
Venue: ACL 2026
Summary: 本文研究功能词的统计分布如何支持从线性输入中学习抽象语法知识。对186种语言的跨语言语料库分析证实了三个普遍属性：高频、可靠的句法关联和短语边界对齐，神经学习者的实验表明保留这些属性有助于语言习得。

[768] Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification

arXiv: 2601.21244 (replaced)
Authors: Yiju Guo, Tianyi Hu, Zexu Sun, Yankai Lin
Subjects: cs.LG; cs.AI; cs.CL
Tags: LLM Reasoning, Reinforcement Learning, Prompt Engineering
Venue: ACL 2026
Summary: 本文提出少噪声采样框架（LENS），通过识别和移除提示中的干扰词元来改进强化学习推理。该框架将净化过程中的成功轨迹转移到原始噪声提示上的策略优化，在数学推理上实现3.88%的平均提升和超过1.6倍的加速。

[769] GeoRC: A Benchmark for Geolocation Reasoning Chains

arXiv: 2601.21278 (replaced)
Authors: Mohit Talreja, Joshua Diao, Jim Thannikary James, Radu Casapu, Tejas Santanam, Ethan Mendes, Alan Ritter, Wei Xu, James Hays
Subjects: cs.CV; cs.AI; cs.CL; cs.LG
Tags: Vision-Language Model, Benchmark, LLM Reasoning
Venue: ACL 2026
Summary: 本文介绍了GeoRC，首个基于GeoGuessr专家的地理定位推理链基准测试。该基准包含800条专家推理链，涵盖500个查询场景，揭示了大型VLM在位置预测上可媲美人类专家，但在生成可审计的推理链方面仍落后于人类专家。

[770] DynaWeb: Model-Based Reinforcement Learning of Web Agents

arXiv: 2601.22149 (replaced)
Authors: Hang Ding, Peidong Liu, Junqiao Wang, Ziwei Ji, Meng Cao, Rongzhao Zhang, Lynn Ai, Eric Yang, Tianyu Shi, Lei Yu
Subjects: cs.CL; cs.AI
Tags: Web Agent, Model-Based RL, LLM Agent
Summary: 本文提出DynaWeb，一种基于模型的强化学习框架，通过学习网页世界模型来训练网页智能体。该方法使智能体能够在模拟环境中进行大规模策略滚动，在WebArena和WebVoyager基准上显著提升了性能。

[771] Learning to Build Shapes by Extrusion

arXiv: 2601.22858 (replaced)
Authors: Thor Vestergaard Christiansen, Karran Pandey, Alba Reinders, Karan Singh, Morten Rieger Hannemose, J. Andreas Bærentzen
Subjects: cs.GR; cs.AI
Tags: 3D Vision, Text-to-3D, Code Generation
Summary: 本文提出文本编码挤压(TEE)表示法，将网格构建表示为面挤压序列，并使用大语言模型生成3D网格。该方法支持任意面数输出，天然生成流形网格，并支持对现有网格的编辑操作。

[772] DisCa: Accelerating Video Diffusion Transformers with Distillation-Compatible Learnable Feature Caching

arXiv: 2602.05449 (replaced)
Authors: Chang Zou, Changlin Li, Yang Li, Patrol Li, Jianbing Wu, Xiao He, Songtao Liu, Zhao Zhong, Kailin Huang, Linfeng Zhang
Subjects: cs.CV; cs.AI
Tags: Diffusion Model, Video Generation, Model Compression
Venue: CVPR 2026
Code: code
Summary: 本文首次提出一种蒸馏兼容的可学习特征缓存机制，用于加速视频扩散Transformer。通过轻量级可学习神经预测器和保守的受限MeanFlow方法，在保持生成质量的同时实现了11.8倍的加速。

[773] Emergent Structured Representations Support Flexible In-Context Inference in Large Language Models

arXiv: 2602.07794 (replaced)
Authors: Ningyu Xu, Qi Zhang, Xipeng Qiu, Xuanjing Huang
Subjects: cs.CL; cs.AI
Tags: LLM Reasoning, In-Context Learning, Interpretability
Summary: 本文研究LLM在上下文推理中的内部处理机制，发现在中后层出现概念子空间，并通过因果中介分析证明该子空间在推理中具有功能性作用。研究表明LLM动态构建并使用结构化潜在表示进行推理。

[774] Bielik Guard: Efficient Polish Language Safety Classifiers for LLM Content Moderation

arXiv: 2602.07954 (replaced)
Authors: Krzysztof Wróbel, Jan Maria Kowalski, Jerzy Surma, Igor Ciuciura, Maciej Szymański
Subjects: cs.CL; cs.AI
Tags: Content Moderation, LLM Security, Low-Resource NLP
Summary: 本文提出Bielik Guard，一系列高效的波兰语安全分类器，用于LLM内容审核。模型在五个安全类别上取得良好性能，其中0.1B参数版本在真实用户提示上实现了优异的精确率和低误报率。

[775] Capture Timing-Attention of Events in Clinical Time Series

arXiv: 2602.10385 (replaced)
Authors: Jia Li, Yu Hou, Rui Zhang
Subjects: cs.LG; cs.AI
Tags: Time Series Analysis, Medical AI, Interpretability
Summary: 本文提出LITT架构，通过在虚拟相对时间线上对齐序列事件来实现事件时间注意力机制。该方法在乳腺癌患者心电图毒性预测任务上验证了其有效性和可解释性，并在公开数据集上超越现有生存分析方法。

[776] Stop Tracking Me! Proactive Defense Against Attribute Inference Attack in LLMs

arXiv: 2602.11528 (replaced)
Authors: Dong Yan, Jian Liang, Ran He, Tieniu Tan
Subjects: cs.CR; cs.AI; cs.CL
Tags: Privacy, LLM Security, Adversarial Robustness
Venue: ICLR 2026
Code: code
Summary: 本文提出统一的防御框架，结合细粒度匿名化(TRACE)和推理阻止优化(RPS)来防御LLM中的属性推断攻击。该方法将开源模型上的属性推断准确率从约50%降至5%以下，同时保持良好的效用-隐私权衡。

[777] An Adaptive Horizon-Aware Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation

arXiv: 2602.13939 (replaced)
Authors: Adolfo González, Víctor Parada
Subjects: cs.LG; cs.AI
Tags: Time Series Forecasting, Optimization, Decision Making
Summary: 本文提出AHSIV框架，一种针对需求预测的感知时间范围的模型选择方法。该框架整合了指标退化分析、结构化需求分类和多目标帕累托优势，提高了异构需求设置下模型分配的一致性。

[778] Graph neural network for colliding particles with an application to sea ice floe modeling

arXiv: 2602.16213 (replaced)
Authors: Ruibiao Zhu
Subjects: cs.LG; cs.AI; cs.CV
Tags: Graph Neural Network, Simulation, Physics-Informed Learning
Summary: 本文提出一种基于图神经网络的碰撞粒子建模方法，应用于海冰浮块模拟。该方法利用海冰的天然图结构，结合数据同化技术，在不损失精度的情况下加速轨迹模拟。

[779] MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning

arXiv: 2602.17550 (replaced)
Authors: Xiaoliang Fu, Jiaye Lin, Yangyi Fang, Binbin Zheng, Chaowen Hu, Zekai Shao, Cong Qin, Lu Pan, Ke Zeng, Xunliang Cai
Subjects: cs.LG; cs.AI
Tags: LLM Reasoning, Reinforcement Learning, Optimization
Code: code
Summary: 本文提出MASPO框架，统一解决LLM推理中的梯度利用、概率质量和信号可靠性三个关键挑战。该方法整合了可微分软高斯门控、质量自适应限制器和非对称风险控制器，显著优于现有基线。

[780] Impact of AI Search Summaries on Website Traffic: Evidence from Google AI Overviews and Wikipedia

arXiv: 2602.18455 (replaced)
Authors: Mehrzad Khosravi, Hema Yoganarasimhan
Subjects: cs.CY; cs.AI
Tags: Information Retrieval, Web Search, AI Ethics
Summary: 本文使用双重差分设计估计Google AI Overview对Wikipedia流量的因果影响。研究发现AIO暴露使英文文章的日流量减少约15%，且在不同类别文章中存在异质性效应。

[781] SOK: A Taxonomy of Attack Vectors and Defense Strategies for Agentic Supply Chain Runtime

arXiv: 2602.19555 (replaced)
Authors: Xiaochong Jiang, Shiqi Yang, Wenting Yang, Yichen Liu, Cheng Ji
Subjects: cs.CR; cs.AI
Tags: LLM Security, LLM Agent, Cybersecurity
Venue: ICLR 2026 Workshop
Summary: 本文系统化了智能体系统的运行时安全风险，将威胁分为数据供应链攻击和工具供应链攻击两类。研究识别出病毒式智能体循环现象，并倡导采用零信任运行时架构来保障智能体安全。

[782] When Pretty Isn't Useful: Investigating Why Modern Text-to-Image Models Fail as Reliable Training Data Generators

arXiv: 2602.19946 (replaced)
Authors: Krzysztof Adamkiewicz, Brian Bernhard Moser, Stanislav Frolov, Tobias Christian Nauen, Federico Raue, Andreas Dengel
Subjects: cs.CV; cs.AI
Tags: Text-to-Image, Data Synthesis, Diffusion Model
Venue: CVPR 2026
Summary: 本文调查现代文本到图像模型作为训练数据生成器失败的原因。研究发现尽管视觉保真度提升，但较新模型会坍缩到狭窄的审美中心分布，损害多样性和真实数据分布覆盖。

[783] ImpRIF: Stronger Implicit Reasoning Leads to Better Complex Instruction Following

arXiv: 2602.21228 (replaced)
Authors: Yuancheng Yang, Lin Yang, Xu Wang, Chao Tong, Haihua Yang
Subjects: cs.CL; cs.AI
Tags: Instruction Tuning, LLM Reasoning, Reinforcement Learning
Venue: ACL 2026
Summary: 本文提出ImpRIF方法，通过增强隐式推理能力来改进复杂指令遵循。该方法将指令形式化为可验证的推理图，结合图推理微调和强化学习，在五个复杂指令遵循基准上显著超越基座模型。

[784] BRIDGE the Gap: Mitigating Bias Amplification in Automated Scoring of English Language Learners via Inter-group Data Augmentation

arXiv: 2602.23580 (replaced)
Authors: Yun Wang, Xuansheng Wu, Jingyuan Huang, Lei Liu, Xiaoming Zhai, Ninghao Liu
Subjects: cs.CL; cs.AI
Tags: Fairness, Data Augmentation, Education Technology
Venue: AIED 2026
Summary: 本文提出BRIDGE框架，通过跨组数据增强来缓解自动评分中的偏见放大问题。该方法通过将高分组非ELL样本的内容迁移到真实ELL语言模式中合成样本，有效降低了高分组ELL学生的预测偏见。

[785] Knowledge without Wisdom: Measuring Misalignment between LLMs and Intended Impact

arXiv: 2603.00883 (replaced)
Authors: Michael Hardy, Yunsung Kim
Subjects: cs.LG; cs.AI; cs.CY; stat.AP
Tags: LLM Alignment, LLM Evaluation
Summary: 本文研究了LLM在基准测试、下游任务以及任务预期影响之间的对齐问题，发现在教育场景中LLM的行为与专家人类行为相关性较低，且常与学生学习成果的预期影响呈负相关。研究表明多模型集成会进一步加剧这种错位，而LLM选择和提示策略仅能解释约15%的错位误差。

[786] From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents

arXiv: 2603.01455 (replaced)
Authors: Niu Lian, Yuting Wang, Hanshu Yao, Jinpeng Wang, Bin Chen, Yaowei Wang, Min Zhang, Shu-Tao Xia
Subjects: cs.CV; cs.AI; cs.CL; cs.IR; cs.MM
Tags: Video Understanding, LLM Agent, Memory Architecture
Venue: ACL 2026
Code: code
Summary: 本文提出MM-Mem，一种基于模糊痕迹理论的金字塔式多模态记忆架构，用于长时程视频理解。该方法将记忆分层组织为感觉缓冲区、情景流和符号模式，通过语义信息瓶颈目标实现从细粒度感知痕迹到高级语义模式的渐进蒸馏。

[787] Temporal Representations for Exploration: Learning Complex Exploratory Behavior without Extrinsic Rewards

arXiv: 2603.02008 (replaced)
Authors: Faisal Mohamed, Catherine Ji, Benjamin Eysenbach, Glen Berseth
Subjects: cs.LG; cs.AI
Tags: Reinforcement Learning, Representation Learning, Embodied AI
Summary: 本文提出一种利用时序对比表示引导探索的强化学习方法，通过优先考虑未来结果不可预测的状态来实现有效探索。该方法能够在没有外部奖励的情况下学习复杂的探索行为，适用于运动控制、操作和具身AI任务。

[788] Error as Signal: Stiffness-Aware Diffusion Sampling via Embedded Runge-Kutta Guidance

arXiv: 2603.03692 (replaced)
Authors: Inho Kong, Sojin Lee, Youngjoon Hong, Hyunwoo J. Kim
Subjects: cs.CV; cs.AI
Tags: Diffusion Model, Image Generation
Venue: ICLR 2026
Code: code
Summary: 本文提出嵌入式Runge-Kutta引导(ERK-Guid)方法，利用求解器诱导的误差作为引导信号来减少局部截断误差并稳定扩散模型的采样过程。该方法在刚性区域有效检测并处理误差，在合成数据集和ImageNet上均优于现有方法。

[789] CBR-to-SQL: Rethinking Retrieval-based Text-to-SQL using Case-based Reasoning in the Healthcare Domain

arXiv: 2603.05569 (replaced)
Authors: Hung Nguyen, Hans Moen, Pekka Marttinen
Subjects: cs.IR; cs.AI; cs.CL
Tags: Text-to-SQL, RAG, Medical AI
Summary: 本文提出CBR-to-SQL框架，将RAG的单步检索分解为两个阶段：检索结构相关示例和对齐实体与数据库模式。该方法在医疗领域文本转SQL任务中实现了与微调方法相当的准确率，同时在数据稀缺和检索扰动场景下表现出更高的样本效率和鲁棒性。

[790] AWPD: Frequency Shield Network for Agnostic Watermark Presence Detection

arXiv: 2603.06723 (replaced)
Authors: Xiang Ao, Yilin Du, Zidan Wang, Mengru Chen, Siyang Lu
Subjects: cs.CV; cs.AI
Tags: Image Watermarking, Image Classification
Summary: 本文提出不可知水印存在检测(AWPD)任务，旨在无需解码信息的情况下识别图像是否携带版权标记。作者构建了大规模数据集并提出频率屏蔽网络(FSNet)，通过自适应频谱感知和动态多光谱注意力实现零样本水印检测。

[791] Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

arXiv: 2603.07084 (replaced)
Authors: Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang
Subjects: cs.LG; cs.AI; cs.CL
Tags: LLM Alignment, Reinforcement Learning, Benchmark
Code: code
Summary: 本文引入Countdown-Code环境用于研究LLM中的奖励黑客行为，发现仅需1%的污染数据就足以让模型在SFT阶段内化奖励黑客行为，并在后续强化学习中放大和泛化。研究揭示了奖励黑客行为在LLM中涌现和持续的新途径。

[792] DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

arXiv: 2603.08090 (replaced)
Authors: Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang
Subjects: cs.CV; cs.AI
Tags: Text-to-Image, Benchmark, Image Generation
Summary: 本文提出DSH-Bench基准，用于系统评估主体驱动的文本到图像生成模型。该基准包含分层分类采样机制、主体难度级别和提示场景分类方案，以及新的主体身份一致性评分(SICS)指标，通过对19个模型的评估揭示了现有方法的局限性。

[793] Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

arXiv: 2603.09108 (replaced)
Authors: Yuheng Wang, Yuji Lin, Jiayue Cai, Z. Jane Wang, Tim K. Lee
Subjects: cs.CV; cs.AI
Tags: Medical Imaging, Vision-Language Model, Information Retrieval
Summary: 本文提出一种基于Transformer的框架用于皮肤癌组合视觉语言检索，通过分层查询表示和联合全局-局部对齐来匹配查询与候选图像。该方法在Derm7pt数据集上实现了优于现有方法的性能，支持临床决策和教育应用。

[794] Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style

arXiv: 2603.11024 (replaced)
Authors: Marvin Limpijankit, Milad Alshomary, Yassin Oulad Daoud, Amith Ananthram, Tim Trombley, Emily L. Spratt, Anna Filonenko, Hannah Pivo, Elias Stengel-Eskin, Mohit Bansal, Noam M. Elcott, Kathleen McKeown
Subjects: cs.CV; cs.AI
Tags: Vision-Language Model, Interpretability
Summary: 本研究通过跨学科合作调查视觉语言模型如何预测艺术风格，并评估其与艺术史学家推理标准的一致性。使用潜在空间分解方法提取驱动艺术风格预测的概念，发现73%的概念具有连贯且语义有意义的视觉特征，90%的概念与风格预测相关。

[795] From $\log π$ to $π$: Taming Divergence in Soft Clipping via Bilateral Decoupled Decay of Probability Gradient Weight

arXiv: 2603.14389 (replaced)
Authors: Xiaoliang Fu, Jiaye Lin, Yangyi Fang, Chaowen Hu, Cong Qin, Zekai Shao, Binbin Zheng, Lu Pan, Ke Zeng
Subjects: cs.LG; cs.AI
Tags: LLM Reasoning, Reinforcement Learning
Code: code
Summary: 本文提出解耦梯度策略优化(DGPO)方法，通过使用概率梯度替代对数概率梯度并应用非对称连续衰减来解决软裁剪中的发散问题。该方法在DeepSeek-R1-Distill-Qwen系列模型上实现了数学基准测试的一致性改进。

[796] s2n-bignum-bench: A practical benchmark for evaluating low-level code reasoning of LLMs

arXiv: 2603.14628 (replaced)
Authors: Balaji Rao, John Harrison, Soonho Kong, Juneyoung Lee, Carlo Lipizzi
Subjects: cs.PL; cs.AI; cs.CR; cs.LO
Tags: Formal Methods, Benchmark, Code Generation
Venue: AIPV 2026 Workshop
Code: code
Summary: 本文引入s2n-bignum-bench基准，这是首个用于评估LLM在工业级低级密码学汇编例程上进行机器可检查证明合成的基准。该基准源自AWS的s2n-bignum库，要求LLM生成被HOL Light接受的证明脚本。

[797] In-Context Symbolic Regression for Robustness-Improved Kolmogorov-Arnold Networks

arXiv: 2603.15250 (replaced)
Authors: Francesco Sovrano, Lidia Losavio, Giulia Vilone, Marc Langheinrich
Subjects: cs.LG; cs.AI
Tags: Symbolic Regression, In-Context Learning
Venue: XAI 2026
Summary: 本文研究Kolmogorov-Arnold网络中的上下文符号回归，提出贪婪上下文符号回归(GSR)和门控匹配追踪(GMP)两种方法。这些方法通过端到端损失改进选择边缘替换，实现了高达99.8%的中位测试误差降低。

[798] CLAG: Adaptive Memory Organization via Agent-Driven Clustering for Small Language Model Agents

arXiv: 2603.15421 (replaced)
Authors: Taeyun Roh, Wonjune Jang, Junha Jung, Jaewoo Kang
Subjects: cs.CL; cs.AI
Tags: LLM Agent, Memory Architecture
Venue: ACL 2026
Summary: 本文提出CLAG框架，一种基于聚类的小语言模型代理记忆组织方法，通过SLM驱动的路由器将传入记忆分配到语义一致的聚类中。该框架使用两阶段检索过程，先通过聚类配置过滤相关聚类，有效减少跨主题干扰。

[799] When Openclaw Agents Learn from Each Other: Insights from Emergent AI Agent Communities for Human-AI Partnership in Education

arXiv: 2603.16663 (replaced)
Authors: Eason Chen, Ce Guan, A Elshafiey, Zhonghao Zhao, Joshua Zekeri, Afeez Edeifo Shaibu, Emmanuel Osadebe Prince, Cyuan-Jhen Wu
Subjects: cs.CY; cs.AI; cs.HC; cs.MA
Tags: LLM Agent, Multi-Agent System, Education Technology
Venue: AIED 2026
Summary: 本文观察了超过167,000个AI代理参与的平台中涌现的学习行为，识别出四个与教育AI相关的现象：双向脚手架、同伴学习、共享记忆架构和信任动态。作者提出了”通过教授AI代理队友来学习”的课程设计示例。

[800] What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time

arXiv: 2603.19880 (replaced)
Authors: Dong Yan, Jian Liang, Yanbo Wang, Shuo Lu, Ran He, Tieniu Tan
Subjects: cs.LG; cs.AI
Tags: LLM Reasoning, Reinforcement Learning
Venue: ACL 2026
Code: code
Summary: 本文提出SCRL框架，一种鲁棒的测试时强化学习方法，通过选择性正伪标签和熵门控负伪标签来缓解标签噪声放大问题。该方法在多个推理基准上实现了显著改进，同时在受限的推演预算下保持鲁棒的泛化能力。

[801] More Than Sum of Its Parts: Deciphering Intent Shifts in Multimodal Hate Speech Detection

arXiv: 2603.21298 (replaced)
Authors: Runze Sun, Yu Zheng, Zexuan Xiong, Zhongjin Qu, Lei Chen, Jie Zhou, Jiwen Lu
Subjects: cs.CL; cs.AI
Tags: Multimodal Learning, Content Moderation, LLM Agent
Code: code
Summary: 该论文针对多模态仇恨言论检测中意图隐晦的问题，提出了H-VLI基准和ARCADE框架，通过模拟法庭辩论的代理机制来深入分析模态间的语义交互。实验表明该方法在检测隐式仇恨言论方面显著优于现有基线。

[802] When Visuals Aren't the Problem: Evaluating Vision-Language Models on Misleading Data Visualizations

arXiv: 2603.22368 (replaced)
Authors: Harsh Nishant Lalai, Raj Sanjay Shah, Hanspeter Pfister, Sashank Varma, Grace Guo
Subjects: cs.CV; cs.AI
Tags: Vision-Language Model, LLM Evaluation, Chart Understanding
Summary: 该论文评估了视觉语言模型在检测误导性数据可视化方面的能力，发现模型在检测视觉设计错误方面表现较好，但在识别基于推理的错误信息方面表现较差。研究构建了一个包含推理错误和可视化设计错误的细粒度分类基准。

[803] Decidable By Construction: Design-Time Verification for Trustworthy AI

arXiv: 2603.25414 (replaced)
Authors: Houston Haynes
Subjects: cs.PL; cs.AI; cs.LG; cs.LO
Tags: Formal Methods, AI Safety, Deep Learning Theory
Summary: 该论文提出了一种在设计时验证AI模型属性（如数值稳定性、计算正确性）的框架，通过代数结构和类型系统在训练前进行验证，从而消除事后验证的开销。该框架基于有限生成阿贝尔群上的约束，实现了多项式时间的可判定推理。

[804] Automatic Speech Recognition for Documenting Endangered Languages: Case Study of Ikema Miyakoan

arXiv: 2603.26248 (replaced)
Authors: Chihiro Taguchi, Yukinori Takubo, David Chiang
Subjects: cs.CL; cs.AI
Tags: Speech Processing, Low-Resource NLP, Linguistic Resource
Venue: LREC 2026
Summary: 该论文针对濒危语言Ikema开发了自动语音识别系统，构建了6.33小时的语音语料库，实现了15%的字错误率。研究表明ASR辅助可显著减少转录时间和认知负荷，为濒危语言的规模化文档化提供了实用路径。

[805] Foundation Model for Cardiac Time Series via Masked Latent Attention

arXiv: 2603.26475 (replaced)
Authors: Moritz Vandenhirtz, Samuel Ruipérez-Campillo, Simon Böhi, Sonia Laguna, Irene Cannistraci, Andrea Agostini, Ece Ozkan, Thomas M. Sutter, Julia E. Vogt
Subjects: cs.LG; cs.AI; eess.SP; math.RT
Tags: Medical AI, Foundation Model, Time Series Analysis
Summary: 该论文提出了LAMAE基础模型，通过潜在注意力机制学习导联间的交叉连接，充分利用ECG信号的结构冗余。该方法在ICD-10代码预测任务上表现优异，证明了跨导联连接是有效的结构监督形式。

[806] Evaluating Privilege Usage of Agents with Real-World Tools

arXiv: 2603.28166 (replaced)
Authors: Quan Zhang, Lianhang Fu, Lvsi Lian, Gwihwan Go, Yujue Wang, Chijin Zhou, Yu Jiang, Geguang Pu
Subjects: cs.CR; cs.AI
Tags: LLM Agent, LLM Security, Benchmark
Venue: FSE 2026 Workshop
Summary: 该论文提出了GrantBox安全评估沙箱，用于分析LLM代理在使用真实世界工具时的权限使用情况。实验表明，虽然LLM具有基本的安全意识，但在精心设计的攻击场景下平均攻击成功率达84.80%。

[807] Hydra: Unifying Document Retrieval and Generation in a Single Vision-Language Model

arXiv: 2603.28554 (replaced)
Authors: Athos Georgiou
Subjects: cs.CV; cs.AI; cs.IR
Tags: Vision-Language Model, Document Understanding, Parameter-Efficient Fine-Tuning
Summary: Hydra是一种双头视觉语言模型，通过单个LoRA适配器同时提供ColBERT风格的检索和自回归生成能力。该设计将4B模型的峰值GPU内存从28.85GB降至10.77GB（减少62.7%），同时保持生成质量。

[808] Oblivion: Self-Adaptive Agentic Memory Control through Decay-Driven Activation

arXiv: 2604.00131 (replaced)
Authors: Ashish Rana, Chia-Chien Hung, Qumeng Sun, Julian Martin Kunkel, Carolin Lawrence
Subjects: cs.CL; cs.AI
Tags: LLM Agent, Memory Architecture, LLM Reasoning
Code: code
Summary: Oblivion是一个记忆控制框架，通过衰减驱动的可访问性降低来模拟人类遗忘机制。该框架将记忆控制解耦为读写路径，实现了分层记忆组织，在动态长程交互基准测试中有效平衡了学习与遗忘。

[809] Towards Initialization-dependent and Non-vacuous Generalization Bounds for Overparameterized Shallow Neural Networks

arXiv: 2604.00505 (replaced)
Authors: Yunwen Lei, Yufeng Xie
Subjects: cs.LG; cs.AI
Tags: Deep Learning Theory, Generalization Bound
Summary: 该论文为过参数化浅层神经网络开发了基于初始化距离路径范数的泛化界，通过新的剥离技术处理初始化相关约束。实验表明，该泛化分析对过参数化网络能产生非空泛化界。

[810] A deep learning pipeline for PAM50 subtype classification using histopathology images and multi-objective patch selection

arXiv: 2604.01798 (replaced)
Authors: Arezoo Borji, Gernot Kronreif, Bernhard Angermayr, Francisco Mario Calisto, Wolfgang Birkfellner, Inna Servetnyk, Yinyin Yuan, Sepideh Hatamikia
Subjects: cs.CV; cs.AI
Tags: Medical Imaging, Medical AI, Optimization
Summary: 该论文提出了一种优化驱动的深度学习框架，通过NSGA-II和蒙特卡洛dropout不确定性估计联合优化patch选择，从H&E染色全切片图像预测PAM50乳腺癌亚型。方法在内部数据集上达到F1=0.88，外部验证集上达到F1=0.80。

[811] SkillX: Automatically Constructing Skill Knowledge Bases for Agents

arXiv: 2604.04804 (replaced)
Authors: Chenxi Wang, Zhuoyun Yu, Xin Xie, Wuguannan Yao, Runnan Fang, Shuofei Qiao, Kexin Cao, Guozhou Zheng, Xiang Qi, Peng Zhang, Shumin Deng
Subjects: cs.CL; cs.AI; cs.IR; cs.LG; cs.MA
Tags: LLM Agent, Knowledge Management, Data Synthesis
Code: code
Summary: SkillX是一个自动构建技能知识库的框架，将原始轨迹蒸馏为三层技能层次结构，并通过迭代优化和探索性扩展持续改进技能库。实验表明，技能库可迁移至较弱的基础代理，显著提升任务成功率和执行效率。

[812] LiveFact: A Dynamic, Time-Aware Benchmark for LLM-Driven Fake News Detection

arXiv: 2604.04815 (replaced)
Authors: Cheng Xu, Changhong Jin, Yingjie Niu, Nan Yan, Yuke Mei, Shuhao Guan, Liming Chen, M-Tahar Kechadi
Subjects: cs.CL; cs.AI
Tags: Fake News Detection, LLM Evaluation, Benchmark
Venue: ACL 2026
Summary: LiveFact是一个动态更新的假新闻检测基准，使用时序证据评估LLM在信息演变过程中的推理能力。测试22个LLM发现，开源MoE模型已达到或超越专有模型，并揭示了模型在识别不可验证声明方面的”推理差距”。

[813] Plausibility as Commonsense Reasoning: Humans Succeed, Large Language Models Do not

arXiv: 2604.04825 (replaced)
Authors: Sercan Karakaş
Subjects: cs.CL; cs.AI
Tags: Commonsense Reasoning, LLM Evaluation, Natural Language Understanding
Venue: LREC 2026 Workshop
Summary: 该论文通过土耳其语关系从句附着歧义测试LLM是否像人类一样整合世界知识与句法结构。实验表明人类表现出强烈的合理性效应，而LLM的合理性驱动偏移较弱、不稳定或方向相反，说明模型未能可靠地利用合理性信息。

[814] Learning Stable Predictors from Weak Supervision under Distribution Shift

arXiv: 2604.05002 (replaced)
Authors: Mehrdad Shoeibi, Elias Hossain, Ivan Garibay, Niloofar Yousefi
Subjects: cs.LG; cs.AI
Tags: Weak Supervision, Domain Adaptation, Transfer Learning
Summary: 该论文研究了弱监督下的”监督漂移”现象，即监督机制在不同环境中发生变化。使用CRISPR-Cas13d实验数据发现，时序迁移完全失败而跨细胞系迁移部分成功，表明失败源于监督漂移而非模型容量或简单的协变量偏移。

[815] Toward Consistent World Models with Multi-Token Prediction and Latent Semantic Enhancement

arXiv: 2604.06155 (replaced)
Authors: Qimin Zhong, Hao Liao, Haiming Qin, Mingyang Zhou, Rui Mao, Wei Chen, Naipeng Chao
Subjects: cs.LG; cs.AI; cs.CL
Tags: LLM Reasoning, World Model, Representation Learning
Venue: ACL 2026
Summary: 该论文分析了多token预测(MTP)对LLM学习世界模型的影响，发现MTP通过梯度耦合促进内部信念状态的收敛，但存在结构幻觉问题。提出的LSE-MTP方法将预测锚定到真实隐藏状态轨迹，有效弥合了离散token与连续状态表示之间的差距。

[816] Beyond Facts: Benchmarking Distributional Reading Comprehension in Large Language Models

arXiv: 2604.06201 (replaced)
Authors: Pei-Fu Guo, Ya-An Tsai, Chun-Chia Hsu, Kai-Xin Chen, Yun-Da Tsai, Kai-Wei Chang, Nanyun Peng, Mi-Yen Yeh, Shou-De Lin
Subjects: cs.CL; cs.AI
Tags: LLM Evaluation, Benchmark, Natural Language Understanding
Summary: Text2DistBench是一个评估LLM从文本推断分布性知识能力的基准，要求模型估计评论中的正负比例或识别最常见话题。基准自动更新以纳入新实体，实验揭示了当前LLM在分布性阅读理解方面的能力和局限。

[817] Illocutionary Explanation Planning for Source-Faithful Explanations in Retrieval-Augmented Language Models

arXiv: 2604.06211 (replaced)
Authors: Francesco Sovrano, Alberto Bacchelli
Subjects: cs.CL; cs.AI; cs.SE
Tags: RAG, Explainable AI, LLM Reasoning
Venue: XAI 2026
Summary: 该研究针对检索增强生成(RAG)中解释与来源不一致的问题，提出了基于言语行为理论的宏观规划方法和链式言语行为提示(CoI)，显著提高了解释对来源的忠实度。

[818] Instance-Adaptive Parametrization for Amortized Variational Inference

arXiv: 2604.06796 (replaced)
Authors: Andrea Pollastro, Andrea Apicella, Francesco Isgrò, Roberto Prevete
Subjects: cs.LG; cs.AI
Tags: Representation Learning, Variational Inference
Summary: 本文提出实例自适应变分自编码器(IA-VAE)，通过超网络生成输入相关的编码器调制，有效减少了摊销推理中的性能差距，同时保持了单次前向传播的效率。

[819] STRIDE-ED: A Strategy-Grounded Stepwise Reasoning Framework for Empathetic Dialogue Systems

arXiv: 2604.07100 (replaced)
Authors: Hongru Ji, Yuyin Fan, Meng Zhao, Xianghua Li, Lianwei Wu, Chao Gao
Subjects: cs.CL; cs.AI
Tags: Dialogue System, Affective Computing, Reinforcement Learning
Venue: ACL 2026
Code: code
Summary: STRIDE-ED框架通过策略条件推理建模共情对话，结合LLM标注的数据精炼流水线和多目标强化学习训练，在多种开源LLM上取得了优于现有方法的性能。

[820] EMSDialog: Synthetic Multi-person Emergency Medical Service Dialogue Generation from Electronic Patient Care Reports via Multi-LLM Agents

arXiv: 2604.07549 (replaced)
Authors: Xueren Ge, Sahil Murtaza, Anthony Cortez, Homa Alemzadeh
Subjects: cs.CL; cs.AI
Tags: Dialogue System, Medical AI, LLM Agent
Venue: ACL 2026 Findings
Summary: 本文提出基于电子病历的多智能体对话生成流水线，创建了包含多说话者EMS对话的数据集EMSDialog，并验证了该数据集能有效提升对话诊断预测的准确性。

[821] Reasoning-Based Refinement of Unsupervised Text Clusters with LLMs

arXiv: 2604.07562 (replaced)
Authors: Tunazzina Islam
Subjects: cs.CL; cs.AI; cs.CY; cs.LG
Tags: Clustering, LLM Reasoning
Venue: ACL 2026 Findings
Summary: 该研究提出基于推理的聚类精炼框架，利用LLM作为语义裁判来验证和重构无监督聚类结果，在社交媒体语料上显著提升了聚类一致性和标签质量。

[822] Filling the Gaps: Selective Knowledge Augmentation for LLM Recommenders

arXiv: 2604.07825 (replaced)
Authors: Jaehyun Lee, Sanghwan Jang, SeongKu Kang, Hwanjo Yu
Subjects: cs.IR; cs.AI
Tags: Recommender System, RAG
Venue: SIGIR 2026
Code: code
Summary: 针对LLM推荐系统中知识不均衡的问题，本文提出KnowSA_CKP方法，通过评估模型内部知识来选择性注入外部信息，有效提升了推荐准确性和上下文效率。

[823] Data Selection for Multi-turn Dialogue Instruction Tuning

arXiv: 2604.07892 (replaced)
Authors: Bo Li, Shikun Zhang, Wei Ye
Subjects: cs.CL; cs.AI
Tags: Instruction Tuning, Data Selection, Dialogue System
Code: code
Summary: 本文提出多轮对话选择框架MDS，从全局覆盖和局部结构两个层面评估对话质量，有效筛选出高质量的多轮对话数据用于指令微调。

[824] TOOLCAD: Exploring Tool-Using Large Language Models in Text-to-CAD Generation with Reinforcement Learning

arXiv: 2604.07960 (replaced)
Authors: Yifei Gong, Xing Wu, Wenda Liu, Kang Tu
Subjects: cs.CV; cs.AI; cs.CL
Tags: CAD Generation, LLM Agent, Tool Learning
Venue: ACL 2026
Summary: ToolCAD框架将LLM作为工具使用智能体应用于文本到CAD生成，通过强化学习训练使开源LLM能够执行与专有模型相当的CAD建模任务。

[825] SeLaR: Selective Latent Reasoning in Large Language Models

arXiv: 2604.08299 (replaced)
Authors: Renyu Fu, Guibo Luo
Subjects: cs.CL; cs.AI
Tags: LLM Reasoning, LLM Inference
Venue: ACL 2026
Summary: SeLaR提出一种无需训练的选择性潜在推理框架，通过熵门控机制仅在低置信度步骤激活软嵌入，有效提升了LLM的推理性能。

[826] DMax: Aggressive Parallel Decoding for dLLMs

arXiv: 2604.08302 (replaced)
Authors: Zigeng Chen, Gongfan Fang, Xinyin Ma, Ruonan Yu, Xinchao Wang
Subjects: cs.LG; cs.AI
Tags: LLM Inference, Diffusion Model
Code: code
Summary: DMax提出一种新的扩散语言模型并行解码范式，通过策略性训练和软并行解码，在保持生成质量的同时显著提升了推理速度。

[827] OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks

arXiv: 2604.08539 (replaced)
Authors: Wenbo Hu, Xin Chen, Yan Gao-Tian, Yihe Deng, Nanyun Peng, Kai-Wei Chang
Subjects: cs.CV; cs.AI; cs.CL
Tags: Vision-Language Model, LLM Reasoning, Reinforcement Learning
Code: code
Summary: OpenVLThinkerV2提出高斯GRPO训练目标，通过分布匹配确保任务间梯度公平性，构建了强大的多模态通用推理模型。

[828] StructRL: Recovering Dynamic Programming Structure from Learning Dynamics in Distributional Reinforcement Learning

arXiv: 2604.08620 (replaced)
Authors: Ivo Nowak
Subjects: cs.LG; cs.AI
Tags: Distributional RL, Reinforcement Learning
Summary: StructRL框架从分布强化学习的学习动态中恢复动态规划结构，利用时间学习指标引导采样，提供了一种新的结构化学习视角。

[829] Persona-E$^2$: A Human-Grounded Dataset for Personality-Shaped Emotional Responses to Textual Events

arXiv: 2604.09162 (replaced)
Authors: Yuqin Yang, Haowu Zhou, Haoran Tu, Zhiwen Hui, Shiqi Yan, HaoYang Li, Dong She, Xianrong Yao, Yang Gao, Zhanpeng Jin
Subjects: cs.CL; cs.AI; cs.HC
Tags: Affective Computing, Dataset
Venue: ACL 2026
Summary: Persona-E²数据集将人格特质与情绪反应相关联，揭示了现有LLM在捕捉人格驱动的情绪评估方面的局限性，为个性化情感计算提供了基准。

[830] Rays as Pixels: Learning A Joint Distribution of Videos and Camera Trajectories

arXiv: 2604.09429 (replaced)
Authors: Wonbong Jang, Shikun Liu, Soubhik Sanyal, Juan Camilo Perez, Kam Woh Ng, Sanskar Agrawal, Juan-Manuel Perez-Rua, Yiannis Douratsos, Tao Xiang
Subjects: cs.CV; cs.AI; cs.LG
Tags: Video Generation, Diffusion Model, 3D Vision
Summary: 本文提出”光线即像素”视频扩散模型，首次在统一框架内学习视频和相机轨迹的联合分布，支持相机姿态预测和相机控制视频生成。

[831] Assessing Model-Agnostic XAI Methods against EU AI Act Explainability Requirements

arXiv: 2604.09628 (replaced)
Authors: Francesco Sovrano, Giulia Vilone, Michael Lognoul
Subjects: cs.CY; cs.AI
Tags: Explainable AI, AI Governance
Venue: XAI 2026
Summary: 该研究将模型无关的可解释AI方法与欧盟AI法案要求相关联，提出定性到定量的评分框架，帮助从业者识别合规的XAI解决方案。

[832] Towards Green Wearable Computing: A Physics-Aware Spiking Neural Network for Energy-Efficient IMU-based Human Activity Recognition

arXiv: 2604.10458 (replaced)
Authors: Naichuan Zheng, Hailun Xia, Zepeng Sun, Weiyi Li, Yinzhe Zhou
Subjects: cs.LG; cs.AI; cs.HC
Tags: Spiking Neural Network, Human Activity Recognition, Energy Efficiency
Code: code
Summary: PAS-Net是一种面向可穿戴设备的物理感知脉冲神经网络，通过自适应拓扑混合器和因果神经调制器实现高精度、超低功耗的人体活动识别。

[833] COREY: Entropy-Guided Runtime Chunk Scheduling for Selective Scan Kernels

arXiv: 2604.10597 (replaced)
Authors: Bo Ma, Jinsong Wu, Hongjiang Wei, Weiqi Yan
Subjects: cs.CV; cs.AI
Tags: LLM Inference, State Space Model, Optimization
Code: code
Summary: 本文提出了COREY，一种基于激活熵的运行时块大小调度器，用于Mamba选择性状态空间模型的内核执行优化，相比静态分块实现了最高4.41倍的加速。

[834] Architecture-Agnostic Modality-Isolated Gated Fusion for Robust Multi-Modal Prostate MRI Segmentation

arXiv: 2604.10702 (replaced)
Authors: Yongbo Shu, Wenzhao Xie, Shanhu Yao, Zirui Xin, Luo Lei, Kewen Chen, Aijing Luo
Subjects: cs.CV; cs.AI
Tags: Medical Imaging, Image Segmentation, Multimodal Learning
Summary: 本文提出了MIGF，一种架构无关的模态隔离门控融合模块，通过独立的模态编码流和模态dropout训练，提升了多参数前列腺MRI分割在缺失模态和伪影场景下的鲁棒性。

[835] Deep-Reporter: Deep Research for Grounded Multimodal Long-Form Generation

arXiv: 2604.10741 (replaced)
Authors: Fangda Ye, Zhifei Xie, Yuxin Hu, Yihang Yin, Shurui Huang, Shikai Dong, Jianzhu Bao, Shuicheng Yan
Subjects: cs.CL; cs.AI; cs.IR
Tags: LLM Agent, Multimodal Learning, RAG
Code: code
Summary: 本文提出了Deep-Reporter，一个用于多模态长文本生成的智能体框架，通过智能体搜索、清单引导的增量合成和循环上下文管理，实现了图文融合的深度研究报告生成。

[836] FlowCoMotion: Text-to-Motion Generation via Token-Latent Flow Modeling

arXiv: 2604.11083 (replaced)
Authors: Dawei Guan, Di Yang, Chengjie Jin, Jiangtao Wang
Subjects: cs.CV; cs.AI
Tags: Motion Synthesis, Flow Matching, Text Generation
Summary: 本文提出了FlowCoMotion，一种文本到动作生成框架，通过token-latent耦合机制统一连续和离散动作表示，结合多视图蒸馏和ODE求解器实现高质量动作生成。

[837] THEIA: Learning Complete Kleene Three-Valued Logic in a Pure-Neural Modular Architecture

arXiv: 2604.11284 (replaced)
Authors: Augustus Haoyang Li
Subjects: cs.LG; cs.AI; cs.LO
Tags: Neurosymbolic AI, Interpretability, Knowledge Representation
Summary: 本文提出了THEIA，一种模块化神经架构，能够从任务数据中学习完整的Kleene三值逻辑，展示了不确定性-判断不对称传播特性以及在序列组合任务中的可靠泛化能力。

[838] Retrieval as Generation: A Unified Framework with Self-Triggered Information Planning

arXiv: 2604.11407 (replaced)
Authors: Bo Li, Mingda Wang, Gexiang Fang, Shikun Zhang, Wei Ye
Subjects: cs.CL; cs.AI
Tags: RAG, LLM Inference, Question Answering
Code: code
Summary: 本文提出了GRIP框架，将检索控制嵌入到token级解码中，使模型能够在单一自回归轨迹内自主决定何时检索、如何重构查询以及何时终止，实现了检索与生成的统一。

[839] Physics-Informed State Space Models for Reliable Solar Irradiance Forecasting in Off-Grid Systems

arXiv: 2604.11807 (replaced)
Authors: Mohammed Ezzaldin Babiker Abdullah
Subjects: cs.LG; cs.AI; eess.SY
Tags: Time Series Forecasting, Physics-Informed Learning, Energy Management
Code: code
Summary: 本文提出了PISSM，一种物理信息状态空间模型用于太阳能预测，通过物理引导门控机制强制执行日周期约束，在少于4万参数的情况下实现了高精度的边缘设备实时预测。

[840] Thermodynamic Liquid Manifold Networks: Physics-Bounded Deep Learning for Solar Forecasting in Autonomous Off-Grid Microgrids

arXiv: 2604.11909 (replaced)
Authors: Mohammed Ezzaldin Babiker Abdullah
Subjects: cs.LG; cs.AI; eess.SY
Tags: Time Series Forecasting, Physics-Informed Learning, Energy Management
Code: code
Summary: 本文提出了热力学液体流形网络，一种物理约束的深度学习框架，通过Koopman线性化黎曼流形映射气象变量，确保热力学一致性并消除夜间虚假发电预测。

[841] GCA Framework: A GCC Countries-Grounded Dataset and Agentic Pipeline for Climate Decision Support

arXiv: 2604.12306 (replaced)
Authors: Muhammad Umer Sheikh, Khawar Shehzad, Salman Khan, Fahad Shahbaz Khan, Muhammad Haris Khan
Subjects: cs.LG; cs.AI
Tags: LLM Agent, Environmental Planning, Dataset
Summary: 本文提出了GCA框架，结合面向海湾国家的多模态数据集和工具增强的气候分析智能体，通过领域微调和工具集成显著提升了气候决策支持的可靠性。

[842] EgoEsportsQA: An Egocentric Video Benchmark for Perception and Reasoning in Esports

arXiv: 2604.12320 (replaced)
Authors: Jianzhe Ma, Zhonghao Cao, Shangkui Chen, Yichen Xu, Wenxuan Wang, Qin Jin
Subjects: cs.CV; cs.AI; cs.MM
Tags: Video Understanding, Benchmark, Question Answering
Summary: 本文引入了EgoEsportsQA，一个面向电竞的第一人称视频问答基准，揭示了当前视频大语言模型在高速度虚拟环境中感知和战术推理能力的不足。

[843] From Kinematics to Dynamics: Learning to Refine Hybrid Plans for Physically Feasible Execution

arXiv: 2604.12474 (replaced)
Authors: Lidor Erez, Shahaf S. Shperberg, Ayal Taitler
Subjects: cs.RO; cs.AI
Tags: Robotics, Reinforcement Learning, Motion Planning
Summary: 本文提出了一种强化学习方法，通过显式融入二阶物理约束来修正混合时序规划器生成的一阶轨迹，弥合运动学规划与动力学可行执行之间的差距。

[844] Social Learning Strategies for Evolved Virtual Soft Robots

arXiv: 2604.12482 (replaced)
Authors: K. Ege de Bruin, Kyrre Glette, Kai Olav Ellefsen, Giorgia Nadizar, Eric Medvet
Subjects: cs.RO; cs.AI
Tags: Evolutionary Robotics, Imitation Learning, Multi-Agent System
Summary: 本文研究了虚拟软体机器人的社会学习策略，通过从同伴机器人继承优化经验来加速大脑-身体联合优化，证明了社会学习在同等计算预算下优于从头学习。

[845] On the Creativity of AI Agents

arXiv: 2604.13242 (replaced)
Authors: Giorgio Franceschelli, Mirco Musolesi
Subjects: cs.CY; cs.AI
Tags: LLM Agent, Cognitive Science, AI Ethics
Summary: 本文从功能主义和本体论两个互补视角分析了AI智能体的创造力，论证了LLM智能体表现出功能主义创造力但缺乏本体论创造力的关键要素，并讨论了通向人工创造力的路径。

[846] Outperforming Self-Attention Mechanisms in Solar Irradiance Forecasting via Physics-Guided Neural Networks

arXiv: 2604.13455 (replaced)
Authors: Mohammed Ezzaldin Babiker Abdullah, Rufaidah Abdallah Ibrahim Mohammed
Subjects: cs.LG; cs.AI; eess.SY
Tags: Time Series Forecasting, Physics-Informed Learning, Energy Management
Code: code
Summary: 本文提出了一种轻量级物理引导CNN-BiLSTM框架用于太阳辐照度预测，通过显式物理约束而非复杂注意力机制，在高噪声气象任务中实现了比Transformer架构更优的性能。

[847] Asymmetric-Loss-Guided Hybrid CNN-BiLSTM-Attention Model for Industrial RUL Prediction with Interpretable Failure Heatmaps

arXiv: 2604.13459 (replaced)
Authors: Mohammed Ezzaldin Babiker Abdullah
Subjects: cs.LG; cs.AI; eess.SY
Tags: Predictive Maintenance, Time Series Forecasting, Interpretability
Code: code
Summary: 本文提出了一种混合CNN-BiLSTM-Attention模型用于涡扇发动机剩余使用寿命预测，采用非对称损失函数惩罚过估计错误，并提供可解释的注意力热图用于退化分析。

[848] TIP: Token Importance in On-Policy Distillation

arXiv: 2604.14084 (replaced)
Authors: Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard
Subjects: cs.LG; cs.AI
Tags: Knowledge Distillation, LLM Training, LLM Inference
Code: code
Summary: 本文研究了在线策略蒸馏中的token重要性，发现高熵区域和低熵高分歧区域的token携带最有用的学习信号，提出了基于熵和师生分歧的双轴token选择分类法。

[849] Enhancing LLM-based Search Agents via Contribution Weighted Group Relative Policy Optimization

arXiv: 2604.14267 (replaced)
Authors: Junzhe Wang, Zhiheng Xi, Yajie Yang, Hao Luo, Shihan Dou, Tao Gui, Qi Zhang
Subjects: cs.LG; cs.AI
Tags: LLM Agent, LLM Reasoning, Reinforcement Learning
Venue: ACL 2026
Summary: 本文提出了CW-GRPO框架，将过程监督融入群体相对策略优化，用于训练LLM搜索代理。该方法通过LLM评估器对每轮搜索的检索效用和推理正确性进行评分，实现了细粒度的信用分配，在多个知识密集型基准上显著优于标准GRPO。

[850] Tight Sample Complexity Bounds for Best-Arm Identification Under Bounded Systematic Bias

arXiv: 2604.14345 (replaced)
Authors: Tianhao Qian
Subjects: cs.LG; cs.AI; stat.ML
Tags: Automated Planning, Deep Learning Theory, Decision Making
Summary: 本文将自主推理中的节点扩展问题建模为有界系统偏差下的最佳臂识别问题，通过Lambert W函数反演建立了样本复杂度上界，并给出了信息论下界来确认有偏搜索的结构限制。实验表明遵守局部安全边界可有效保留最优轨迹。

[851] VeriGraphi: A Multi-Agent Framework of Hierarchical RTL Generation for Large Hardware Designs

arXiv: 2604.14550 (replaced)
Authors: Sazzadul Islam, Tasnim Tabassum, Hao Zheng
Subjects: cs.AR; cs.AI; cs.LG; cs.MA; cs.PL
Tags: RTL Generation, Multi-Agent System, Knowledge Graph
Summary: 本文提出了VeriGraphi框架，通过构建规范锚定的知识图谱来驱动大规模层次化硬件设计的RTL生成。该框架将模块层次、端口接口和依赖关系编码为图谱实体，实现了RISC-V处理器等复杂设计的可靠层次化RTL生成。

[852] CPGRec+: A Balance-oriented Framework for Personalized Video Game Recommendations

arXiv: 2604.14586 (replaced)
Authors: Xiping Li, Aier Yang, Jianghong Ma, Kangzhe Liu, Shanshan Feng, Haijun Zhang, Yi Zhao
Subjects: cs.IR; cs.AI
Tags: Recommender System, Graph Neural Network, LLM Reasoning
Venue: ACM TOIS
Code: code
Summary: 本文提出了CPGRec+，一个面向平衡的游戏推荐系统，通过偏好感知的边重加权模块和表示生成模块来解决准确性与多样性的权衡问题。该方法利用LLM推理玩家偏好，在两个Steam数据集上取得了优于SOTA的准确性和多样性。

[853] AgileLog: A Forkable Shared Log for Agents on Data Streams

arXiv: 2604.14590 (replaced)
Authors: Shreesha G. Bhat, Tony Hong, Michael Noguera, Ramnatthan Alagappan, Aishwarya Ganesan
Subjects: cs.DC; cs.AI
Tags: LLM Agent, Data Streaming
Summary: 本文提出了AgileLog，一种可分叉的共享日志抽象，用于支持AI代理在流数据上的操作。该框架通过新颖的分叉原语提供逻辑隔离和性能隔离，解决了代理任务间的干扰问题和代理写入的安全处理问题。

[854] Mechanistic Decoding of Cognitive Constructs in LLMs

arXiv: 2604.14593 (replaced)
Authors: Yitong Shou, Manhao Guan
Subjects: cs.CL; cs.AI
Tags: Interpretability, Affective Computing, Representation Learning
Summary: 本文提出了基于表示工程的认知逆向工程框架，用于分析LLM中的社会比较嫉妒情绪。实验表明模型将嫉妒编码为优越性和相关性两个心理因素的线性组合，并可通过表示干预检测和抑制有毒情绪状态。

[855] STEP-Parts: Geometric Partitioning of Boundary Representations for Large-Scale CAD Processing

arXiv: 2604.14927 (replaced)
Authors: Shen Fan, Mikołaj Kida, Przemyslaw Musialski
Subjects: cs.GR; cs.AI; cs.CV; cs.LG
Tags: CAD Generation, Data Annotation, Benchmark
Summary: 本文提出了STEP-Parts，一个确定性的CAD到监督工具链，直接从原始STEP边界表示中提取几何实例分区。该方法基于B-Rep拓扑定义分区，在网格化变化下保持边界稳定，为下游学习任务提供了有效的监督来源。

[856] IUQ: Interrogative Uncertainty Quantification for Long-Form Large Language Model Generation

arXiv: 2604.15109 (replaced)
Authors: Haozhi Fan, Jinhao Duan, Kaidi Xu
Subjects: cs.CL; cs.AI; cs.LG
Tags: Uncertainty Estimation, LLM Evaluation, Long Context
Venue: ACL 2026
Code: code
Summary: 本文提出了IUQ框架，利用样本间一致性和样本内忠实度来量化长文本LLM输出的不确定性。该方法采用先提问后响应的范式，提供可靠的声明级不确定性度量和模型忠实度评估。

[857] SegWithU: Uncertainty as Perturbation Energy for Single-Forward-Pass Risk-Aware Medical Image Segmentation

arXiv: 2604.15271 (replaced)
Authors: Tianhao Fu, Austin Wang, Charles Chen, Roby Aldave-Garza, Yucheng Chen
Subjects: cs.CV; cs.AI; cs.LG
Tags: Medical Imaging, Image Segmentation, Uncertainty Estimation
Code: code
Summary: 本文提出了SegWithU，一个后处理框架，通过轻量级不确定性头增强预训练分割模型。该方法使用秩1后验探针将不确定性建模为扰动能量，在多个医学图像分割数据集上取得了最强的单次前向传递基线性能。

[858] VoodooNet: Achieving Analytic Ground States via High-Dimensional Random Projections

arXiv: 2604.15613 (replaced)
Authors: Wladimir Silva
Subjects: cs.LG; cs.AI
Tags: Neural Architecture, Optimization, Edge Computing
Summary: 本文提出了VoodooNet，一种非迭代神经网络架构，通过高维随机投影和Moore-Penrose伪逆实现闭式解析解，替代了传统的随机梯度下降。该方法在MNIST和Fashion-MNIST上取得了竞争性准确率，同时大幅减少了训练时间。

[859] cuNNQS-SCI: A Fully GPU-Accelerated Framework for High-Performance Configuration Interaction Selection with Neural Network Quantum States

arXiv: 2604.15768 (replaced)
Authors: Daran Sun, Bowen Kan, Haoquan Long, Hairui Zhao, Haoxu Li, Yicheng Liu, Pengyu Zhou, Ankang Feng, Wenjing Huang, Yida Gu, Zhenyu Li, Honghui Shang, Yunquan Zhang, Dingwen Tao, Ninghui Sun, Guangming Tan
Subjects: cs.DC; cs.AI; cs.CE
Tags: GPU Computing, High Performance Computing, Quantum Computing
Venue: HPDC 2026
Summary: 本文提出了cuNNQS-SCI，一个完全GPU加速的神经网络量子态选择组态相互作用框架。通过分布式去重、专用CUDA内核和GPU内存中心运行时，克服了CPU-GPU混合架构的瓶颈，在64 GPU集群上实现了2.32倍加速。

[860] Neurosymbolic Repo-level Code Localization

arXiv: 2604.16021 (replaced)
Authors: Xiufeng Xu, Xiufeng Wu, Zejun Zhang, Yi Li
Subjects: cs.SE; cs.AI
Tags: Neurosymbolic AI, Repo-Level Code Generation, Software Engineering
Summary: 本文识别了代码定位基准中的关键词捷径偏差，提出了LogicLoc框架，将LLM与Datalog的逻辑推理相结合进行精确代码定位。该方法在需要结构推理的诊断基准上显著优于SOTA方法，同时降低了token消耗。

[861] Towards Intrinsic Interpretability of Large Language Models:A Survey of Design Principles and Architectures

arXiv: 2604.16042 (replaced)
Authors: Yutong Gao, Qinglin Meng, Yuan Zhou, Liangming Pan
Subjects: cs.CL; cs.AI; cs.LG
Tags: Interpretability, Survey, LLM Evaluation
Venue: ACL 2026
Code: code
Summary: 本文对LLM内在可解释性进行了系统综述，将现有方法分为功能透明性、概念对齐、表示可分解性、显式模块化和潜在稀疏性诱导五种设计范式，并讨论了开放挑战和未来研究方向。

[862] Reckoning with the Political Economy of AI: Avoiding Decoys in Pursuit of Accountability

arXiv: 2604.16106 (replaced)
Authors: Janet Vertesi, danah boyd, Alex Taylor, Benjamin Shestakofsky
Subjects: cs.CY; cs.AI
Tags: AI Ethics, AI Governance, Fairness
Venue: FAccT 2026
Summary: 本文分析了AI项目如何通过诱饵机制制造问责假象，同时掩盖新兴的权力关系和物质政治经济。文章指出实现真正的公平和问责需要直接面对AI项目的物质政治经济。

[863] VEFX-Bench: A Holistic Benchmark for Generic Video Editing and Visual Effects

arXiv: 2604.16272 (replaced)
Authors: Xiangbo Gao, Sicong Jiang, Bangya Liu, Xinghao Chen, Minglai Yang, Siyuan Yang, Mingyang Wu, Jiongze Yu, Qi Zheng, Haozhi Wang, Jiayi Zhang, Jie Yang, Zihan Wang, Qing Yin, Zhengzhong Tu
Subjects: cs.CV; cs.AI; cs.CL
Tags: Video Editing, Benchmark, Video Generation
Summary: 本文发布了VEFX-Dataset数据集，包含5049个人工标注的视频编辑示例，以及专门用于视频编辑质量评估的VEFX-Reward奖励模型。实验表明该奖励模型与人类判断的对齐度优于通用VLM评估器。

cs.AI

This post is licensed under CC BY 4.0 by the author.