arXiv cs.AI Daily Update

Posted Apr 20, 2026

By myy1966

184 min read

cs.AI 领域 2026年4月20日共有 278 篇论文更新：

25 篇新投稿：LLM Reasoning (LACE [4], [9], [10]), LLM Agent (DeepER-Med [1], SocialGrid [20], [6]), Benchmark (KWBench [11], ReactBench [18], MEDLEY-BENCH [19]), Multi-Agent System (SocialGrid [20], MARCH [21], [5]), Decision Making (KWBench [11], [5], [8])
135 篇跨领域投稿：LLM Agent (Eco-Bee [31], MRGEN [40], SocialWise [43]), Medical AI (RelativeFlow [67], BioHiCL [86], CLIMB [90]), LLM Evaluation (LLMbench [76], SSAS [77], QuantSightBench [122]), Benchmark (PRL-Bench [61], GTA-2 [99], PIIBench [112]), Human-Computer Interaction ([28], [30], [32])
118 篇替换投稿：LLM Agent (WiseMind [162], AAIO [163], EvoTest [170]), Benchmark (TabularMath [166], MM-Telco [174], AscendKernelGen [176]), LLM Reasoning (HCoT [186], COEVO [189], [167]), LLM Evaluation (ARC-AGI-3 [181], MTR-DuplexBench [226], VLegal-Bench [232]), Medical AI (WiseMind [162], DB-FGA-Net [219], ArrayTac [254])

整体趋势：今日论文主要聚焦于LLM Agent、Benchmark、LLM Evaluation等方向。

已录用论文：[3](FAcCT 2026), [10](ICLR 2026 Workshop), [13](ACL 2026), [21](ACL 2026), [39](HRI 2026 Workshop), [48](AAMAS 2026 Workshop), [53](ACL 2026 Findings), [67](CVPR 2026), [72](ACL 2026), [74](DAC 2026), [83](ACL 2026), [84](ICCCBE 2026), [85](MLSys 2026), [86](ACL 2026), [89](ACL 2026), [93](IJCNN 2026), [95](Neural Computation), [96](AAMAS 2026 Workshop), [101](ISBI 2025), [106](ACL 2026), [109](HPDC 2026), [116](AIED 2026), [123](ACL 2026), [126](FAccT 2026), [127](ACL 2026), [131](ACL 2026), [138](ICPR 2026), [141](ACM FAccT 2026), [143](AIED 2025), [144](ACL 2026 Findings), [153](FAccT 2026), [155](FJCAI 2026), [159](FJCAI 2026), [162](npj Digital Medicine 2026), [164](ACM FAccT 2026), [165](ACL 2026 Findings), [166](ACL 2026), [167](ACL 2026 Findings), [168](ACL 2026), [169](ACL 2026 Findings), [170](ICLR 2026), [175](EuroMLSys 2026), [188](ACL 2026), [191](ACL 2026), [194](ICML 2025), [195](ICRA 2026), [200](IJCNN 2026), [201](CVPR 2026), [202](DAC 2026), [203](ACL 2026), [204](ACL 2026 Findings), [209](ACL 2026), [213](ACL 2026), [214](ACL 2026 Findings), [215](FSE 2026), [218](ACL 2026), [222](ACL 2026), [223](CVPR 2026 Workshop), [225](ACL Findings 2026), [226](ACL Findings 2026), [230](ACL 2026), [234](ACL Findings 2026), [236](ACL 2026), [237](ACL 2026), [240](ACL 2026), [241](Journal of Biomedical Informatics 2026), [243](ACL 2026), [245](ICDE 2026), [252](ACL 2026), [253](ACL 2026), [255](SIGIR 2026), [258](ACL 2026), [261](ACL 2026), [262](CVPR 2026), [263](FSE 2026), [275](ICLR 2026 Workshop)

开源论文：[48](code), [51](code), [58](code), [63](code), [72](code), [74](code), [81](code), [99](code), [100](code), [106](code), [112](code), [121](code), [124](code), [131](code), [137](code), [176](code), [177](code), [179](code), [188](code), [194](code), [198](code), [202](code), [204](code), [205](code), [210](code), [215](code), [218](code), [226](code), [233](code), [239](code), [240](code), [243](code), [245](code), [250](code), [255](code), [259](code)

新投稿 (25)

[1] DeepER-Med: Advancing Deep Evidence-Based Research in Medicine Through Agentic AI

arXiv: 2604.15456
Authors: Zhizheng Wang, Chih-Hsuan Wei, Joey Chan, Robert Leaman, Chi-Ping Day, Chuan Wu, Mark A Knepper, Antolin Serrano Farias, Jordina Rincon-Torroella, Hasan Slika, Betty Tyler, Ryan Huu-Tuan Nguyen, Asmita Indurkar, Mélanie Hébert, Shubo Tian, Lauren He, Noor Naffakh, Aseem Aseem, Nicholas Wan, Emily Y Chew, Tiarnan D L Keenan, Zhiyong Lu
Subjects: cs.AI
Tags: LLM Agent, Medical AI, Question Answering
Summary: 本文介绍了DeepER-Med，一个面向医学领域的智能体AI框架，用于循证研究，包含研究规划、智能体协作和证据综合三个模块。该框架在专家级医学研究问题数据集上表现优于现有生产级平台，并在真实临床案例中展现出决策支持潜力。

[2] GIST: Multimodal Knowledge Extraction and Spatial Grounding via Intelligent Semantic Topology

arXiv: 2604.15495
Authors: Shivendra Agrawal, Bradley Hayes
Subjects: cs.AI; cs.CV; cs.HC; cs.RO
Tags: Embodied AI, Multimodal Learning, Knowledge Extraction
Summary: 本文提出了GIST，一个多模态知识提取管道，能够将移动点云转换为语义标注的导航拓扑结构。该系统支持语义搜索、定位、区域分类和自然语言指令生成，在复杂环境中实现了80%的导航成功率。

[3] Bureaucratic Silences: What the Canadian AI Register Reveals, Omits, and Obscures

arXiv: 2604.15514
Authors: Dipto Das, Christelle Tessono, Syed Ishtiaque Ahmed, Shion Guha
Subjects: cs.AI; cs.CY; cs.HC
Tags: AI Governance, AI Ethics, Fairness
Venue: FAcCT 2026
Summary: 本文分析了加拿大联邦AI注册表，指出此类透明度工具并非中立的记录，而是主动构建问责边界的工具。研究发现注册表系统性地模糊了人类裁量权和不确定性管理，将AI构建为”可靠工具”而非”可争议的决策”。

[4] LACE: Lattice Attention for Cross-thread Exploration

arXiv: 2604.15529
Authors: Yang Li, Zirui Zhang, Yang Liu, Chengzhi Mao
Subjects: cs.AI
Tags: LLM Reasoning, LLM Inference
Summary: 本文提出了LACE框架，通过跨线程注意力机制使并行的推理路径能够共享中间见解并相互纠正。该方法将推理准确率提高了7个百分点以上，表明LLM在并行推理路径交互时更加有效。

[5] Preregistered Belief Revision Contracts

arXiv: 2604.15558
Authors: Saad Alqithami
Subjects: cs.AI; cs.CL; cs.LO; cs.MA
Tags: Multi-Agent System, Formal Methods, Decision Making
Summary: 本文提出了PBRC协议，一种用于多智能体系统的机制，严格分离开放通信与可承认的认知变化，以防止从众效应导致的错误级联。该框架提供了关于级联抑制、可审计性和信念轨迹属性的形式化保证。

[6] Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation

arXiv: 2604.15559
Authors: Jacob Dang, Brian Y. Xie, Omar G. Younis
Subjects: cs.AI
Tags: LLM Agent, Knowledge Distillation, AI Safety
Summary: 本文首次实证证明了不安全的智能体行为可以通过模型蒸馏以潜意识方式传递，即使过滤了所有显式不安全关键词。实验表明学生智能体继承了教师的行为偏见，揭示了显式数据清洗是不充分的防御手段。

[7] Bilevel Optimization of Agent Skills via Monte Carlo Tree Search

arXiv: 2604.15709
Authors: Chenyi Huang, Haoting Zhang, Jingxu Xu, Zeyu Zheng, Yunduan Lin
Subjects: cs.AI
Tags: LLM Agent, Optimization, Monte Carlo Tree Search
Summary: 本文提出了一个双层优化框架用于优化LLM智能体技能，外层使用蒙特卡洛树搜索确定技能结构，内层优化组件内容。实验表明该框架在运筹学问答数据集上提升了智能体性能。

[8] The World Leaks the Future: Harness Evolution for Future Prediction Agents

arXiv: 2604.15719
Authors: Chuyang Wei, Maohang Gao, Zhixin Han, Kefei Chen, Yu Zhuang, Haoxiang Guan, Yanzhi Zhang, Yilin Cheng, Jiyan He, Huanhuan Chen, Jian Li, Yu Shi, Yitong Duan, Shuxin Zheng
Subjects: cs.AI
Tags: LLM Agent, Decision Making
Summary: 本文介绍了Milkyway，一个自进化的智能体系统，用于未来预测任务。系统通过时间对比提取内部反馈，在问题解决前改进预测过程，在FutureX和FutureWorld基准上取得了最佳成绩。

[9] LLM Reasoning Is Latent, Not the Chain of Thought

arXiv: 2604.15726
Authors: Wenshuo Wang
Subjects: cs.AI
Tags: LLM Reasoning, Interpretability
Summary: 本文主张LLM推理应被研究为潜在状态轨迹形成而非表面思维链。作者形式化了三个竞争假设，并建议将潜在状态动力学作为LLM推理研究的默认对象，同时评估时应显式分离表面轨迹、潜在状态和串行计算。

[10] Structured Abductive-Deductive-Inductive Reasoning for LLMs via Algebraic Invariants

arXiv: 2604.15727
Authors: Sankalp Gilda, Shlok Gilda
Subjects: cs.AI; cs.LG; cs.LO
Tags: LLM Reasoning, Logical Reasoning, Neurosymbolic AI
Venue: ICLR 2026 Workshop
Summary: 本文提出了一个符号推理框架，将Peirce的三段推理（溯因、演绎、归纳）操作化为LLM辅助推理协议，通过五个代数不变量确保逻辑一致性。该框架防止了多步推理中逻辑不一致的累积。

[11] KWBench: Measuring Unprompted Problem Recognition in Knowledge Work

arXiv: 2604.15760
Authors: Ankit Maloo
Subjects: cs.AI; cs.GT
Tags: LLM Evaluation, Benchmark, Decision Making
Summary: 本文介绍了KWBench基准，用于评估LLM在解决问题前识别专业场景的能力。该基准包含223个来自多个领域的任务，编码了博弈论模式，显示最佳模型仅通过27.9%的任务。

[12] Stein Variational Black-Box Combinatorial Optimization

arXiv: 2604.15837
Authors: Thomas Landais, Olivier Goudet, Adrien Goëffon, Frédéric Saubion, Sylvain Lamprier
Subjects: cs.AI
Tags: Optimization, Neural Combinatorial Optimization
Summary: 本文将Stein算子引入分布估计算法，在参数空间中引入粒子间的排斥机制，鼓励种群分散并联合探索适应度景观的多个模式。该方法在大规模基准问题上取得了与最先进方法相当或更优的性能。

[13] Discover and Prove: An Open-source Agentic Framework for Hard Mode Automated Theorem Proving in Lean 4

arXiv: 2604.15839
Authors: Chengwu Liu, Yichun Yin, Ye Yuan, Jiaxuan Xie, Botao Li, Siqi Li, Jianhao Shen, Yan Xu, Lifeng Shang, Ming Zhang
Subjects: cs.AI; cs.CL; cs.LO
Tags: Automated Theorem Proving, LLM Reasoning, Formal Methods
Venue: ACL 2026
Summary: 本文引入了”困难模式”自动定理证明设置，系统必须在构建形式化证明前独立发现答案。作者发布了MiniF2F-Hard和FIMO-Hard基准，并提出了DAP智能体框架，在CombiBench和PutnamBench上取得了新的最优结果。

[14] Experience Compression Spectrum: Unifying Memory, Skills, and Rules in LLM Agents

arXiv: 2604.15877
Authors: Xing Zhang, Guanghui Wang, Yanwei Cui, Wei Qiu, Ziyuan Li, Bing Zhu, Peiyang He
Subjects: cs.AI; cs.CL; cs.MA
Tags: LLM Agent, Memory Architecture, Knowledge Management
Summary: 本文提出了经验压缩谱框架，将记忆、技能和规则统一为压缩程度递增的单一轴线上。分析揭示了现有系统均不支持自适应跨级压缩的”缺失对角线”差距，并提出了可扩展智能体学习系统的设计原则。

[15] Towards Rigorous Explainability by Feature Attribution

arXiv: 2604.15898
Authors: Olivier Létoffé, Xuanxiang Huang, Joao Marques-Silva
Subjects: cs.AI
Tags: Explainable AI, Interpretability
Summary: 本文概述了在可解释AI中使用严格符号方法进行特征归因的努力，作为非严格非符号方法（如SHAP）的替代方案。文章强调了当前方法在高风险机器学习应用中的局限性。

[16] Integrating Graphs, Large Language Models, and Agents: Reasoning and Retrieval

arXiv: 2604.15951
Authors: Hamed Jelodar, Samita Bai, Mohammad Meymani, Parisa Hamedi, Roozbeh Razavi-Far, Ali Ghorbani
Subjects: cs.AI
Tags: Survey, Graph Learning, Knowledge Graph, LLM Reasoning
Summary: 本综述提供了图-LLM集成方法的结构化概述，按目的（推理、检索、生成、推荐）、图模态和集成策略进行分类。文章映射了网络安全、医疗、材料科学、金融、机器人和多模态环境等多个领域的代表性工作。

[17] Weak-Link Optimization for Multi-Agent Reasoning and Collaboration

arXiv: 2604.15972
Authors: Haoyu Bian, Chaoning Zhang, Jiaquan Zhang, Xingyao Li, Yuanfang Guo, Wei Dong, Yang Yang
Subjects: cs.AI; cs.CL; cs.MA
Tags: Multi-Agent System, LLM Reasoning
Summary: 本文提出WORC框架，基于短板原则优化多智能体推理协作，通过元学习定位弱智能体并分配额外推理预算进行补偿，在推理基准测试中达到82.2%的平均准确率。

[18] ReactBench: A Benchmark for Topological Reasoning in MLLMs on Chemical Reaction Diagrams

arXiv: 2604.15994
Authors: Qiang Xu, Shengyuan Bai, Yu Wang, He Cao, Leqing Chen, Yuanyuan Liu, Bin Feng, Zijing Liu, Yu Li
Subjects: cs.AI
Tags: Vision-Language Model, Benchmark, Scientific Reasoning
Summary: 本文提出ReactBench基准，通过化学反应图评估多模态大语言模型的结构推理能力，发现模型在整体结构推理任务上的表现比锚点任务低30%以上，揭示了结构理解的根本缺陷。

[19] MEDLEY-BENCH: Scale Buys Evaluation but Not Control in AI Metacognition

arXiv: 2604.16009
Authors: Farhad Abtahi, Abdolamir Karbalaie, Eduardo Illueca-Fernandez, Fernando Seoane
Subjects: cs.AI
Tags: LLM Evaluation, Benchmark
Summary: 本文提出MEDLEY-BENCH基准，用于评估AI元认知能力，发现模型评估能力随规模增长而提升，但控制能力并不随之改善，揭示了评估与控制的分离现象。

[20] SocialGrid: A Benchmark for Planning and Social Reasoning in Embodied Multi-Agent Systems

arXiv: 2604.16022
Authors: Hikaru Shindo, Hanzhao Lin, Lukas Helff, Patrick Schramowski, Kristian Kersting
Subjects: cs.AI; cs.LG; cs.MA
Tags: Multi-Agent System, LLM Agent, Benchmark
Summary: 本文提出SocialGrid，一个受Among Us启发的具身多智能体环境，用于评估LLM智能体的规划、任务执行和社会推理能力，发现智能体在欺骗检测方面表现接近随机水平。

[21] MARCH: Multi-Agent Radiology Clinical Hierarchy for CT Report Generation

arXiv: 2604.16175
Authors: Yi Lin, Yihao Ding, Yonghui Wu, Yifan Peng
Subjects: cs.AI; cs.CV
Tags: Multi-Agent System, Medical AI, Vision-Language Model
Venue: ACL 2026
Summary: 本文提出MARCH多智能体框架，模拟放射科的专业层级结构，通过住院医师智能体起草报告、 Fellow智能体检索增强修订和主治医师智能体协调共识讨论，显著提升了CT报告生成的临床保真度。

[22] Characterising LLM-Generated Competency Questions: a Cross-Domain Empirical Study using Open and Closed Models

arXiv: 2604.16258
Authors: Reham Alharbi, Valentina Tamma, Terry R. Payne, Jacopo de Berardinis
Subjects: cs.AI
Tags: Knowledge Representation, LLM Evaluation
Summary: 本文引入一套定量指标，从可读性、相关性和结构复杂性等维度系统比较LLM生成的能力问题，分析了包括开源和闭源模型在内的多种LLM的生成特征。

[23] Learning to Reason with Insight for Informal Theorem Proving

arXiv: 2604.16278
Authors: Yunhe Li, Hao Shi, Bowen Deng, Wei Wang, Mengzhe Ruan, Hanxu Hou, Zhongxiang Dai, Siyang Gao, Chao Wang, Shuang Qiu, Linqi Song
Subjects: cs.AI; cs.CL; cs.LG
Tags: Mathematical Reasoning, LLM Reasoning
Summary: 本文提出一个培养洞察力推理能力的框架，构建了分层结构的数据集并采用渐进式多阶段训练策略，使模型能够识别和应用核心技术来解决非形式化定理证明问题。

[24] Using Large Language Models and Knowledge Graphs to Improve the Interpretability of Machine Learning Models in Manufacturing

arXiv: 2604.16280
Authors: Thomas Bayer, Alexander Lohr, Sarah Weiß, Bernd Michelberger, Wolfram Höpken
Subjects: cs.AI
Tags: Explainable AI, Knowledge Graph, Manufacturing AI
Summary: 本文提出一种结合知识图谱和LLM的方法，通过选择性检索相关三元组并生成用户友好的解释，提升制造环境中机器学习模型结果的可解释性。

[25] ASMR-Bench: Auditing for Sabotage in ML Research

arXiv: 2604.16286
Authors: Eric Gan, Aryan Bhatt, Buck Shlegeris, Julian Stastny, Vivek Hebbar
Subjects: cs.AI
Tags: Benchmark, AI Safety, Software Testing
Summary: 本文提出ASMR-Bench基准，用于评估检测机器学习研究代码库中蓄意破坏的能力，发现前沿LLM和人工审核者都难以可靠检测出精心设计的破坏行为。

跨领域投稿 (135)

[26] Seeing the Intangible: Survey of Image Classification into High-Level and Abstract Categories

arXiv: 2308.10562 (cross-listed)
Authors: Delfina Sol Martinez Pandiani, Valentina Presutti
Subjects: cs.CV; cs.AI; cs.CL; cs.CY
Tags: Survey, Image Classification, Computer Vision
Summary: 本文系统综述了高级视觉理解研究，特别关注抽象概念图像分类，将任务分为常识、情感、美学和归纳解释语义等类别，并分析了处理抽象概念面临的挑战。

[27] Modeling of ASD/TD Children's Behaviors in Interaction with a Virtual Social Robot During a Music Education Program Using Deep Neural Networks

arXiv: 2604.15314 (cross-listed)
Authors: Armin Tandiseh, Morteza Memari, Alireza Taheri
Subjects: cs.HC; cs.AI
Tags: Medical AI, Robotics
Summary: 本研究开发了一个智能系统，利用深度神经网络区分ASD儿童和神经典型儿童的行为，并生成逼真的行为模拟，在分类任务中达到81%的准确率和96%的敏感度。

[28] Anthropomorphism and Trust in Human-Large Language Model interactions

arXiv: 2604.15316 (cross-listed)
Authors: Akila Kadambi, Ylenia D'Elia, Tanishka Shah, Iulia Comsa, Alison Lentz, Katie Siri-Ngammuang, Tara Buechler, Jonas Kaplan, Antonio Damasio, Srini Narayanan, Lisa Aziz-Zadeh
Subjects: cs.HC; cs.AI
Tags: Human-Computer Interaction, LLM Evaluation
Summary: 本研究调查了人类如何对LLM进行拟人化和信任归因，发现温暖度和认知共情显著影响所有结果变量，而能力感影响除拟人化外的所有结果。

[29] Explainable Iterative Data Visualisation Refinement via an LLM Agent

arXiv: 2604.15319 (cross-listed)
Authors: Burak Susam, Tingting Mu
Subjects: cs.HC; cs.AI
Tags: LLM Agent, Data Visualization
Summary: 本文提出一个LLM智能体管道，通过生成多维度报告和迭代优化超参数配置，自动生成高质量的数据可视化图表。

[30] Struggle Premium : How Human Effort and Imperfection Drive Perceived Value in the Age of AI

arXiv: 2604.15324 (cross-listed)
Authors: Nazneen Sultana, Mst Rafia Islam, Md. Tanvir Hossain, Azmine Toushik Wasi
Subjects: cs.HC; cs.AI; cs.CY
Tags: AI Ethics, Human-Computer Interaction
Summary: 本研究探讨了努力溢价现象，即感知到的人类努力如何影响对AI生成创意作品的真实性和价值判断，发现过程导向的线索最能塑造真实性和价值感知。

[31] Eco-Bee: A Personalised Multi-Modal Agent for Advancing Student Climate Awareness and Sustainable Behaviour in Campus Ecosystems

arXiv: 2604.15327 (cross-listed)
Authors: Caleb Adu, Neil Kapadia, Binhe Liu, Jonathan Randall, Sruthi Viswanathan
Subjects: cs.HC; cs.AI
Tags: LLM Agent, Education Technology
Summary: 本文提出Eco-Bee，一个整合LLM和行星边界框架的个性化多模态智能体，通过可操作的洞察、同伴比较和游戏化挑战促进大学生的可持续行为改变。

[32] Evaluating LLMs as Human Surrogates in Controlled Experiments

arXiv: 2604.15329 (cross-listed)
Authors: Adnan Hoq, Tim Weninger
Subjects: cs.HC; cs.AI; cs.CL
Tags: LLM Evaluation, Human-Computer Interaction
Summary: 本文评估LLM作为人类行为研究替代者的有效性，发现LLM能够复现人类的方向性效应，但效应大小和调节模式在不同模型间存在差异。

[33] How people use Copilot for Health

arXiv: 2604.15331 (cross-listed)
Authors: Beatriz Costa-Gomes, Pavel Tolmachev, Eloise Taysom, Viknesh Sounderajah, Hannah Richardson, Philipp Schoenegger, Xiaoxuan Liu, Matthew M Nour, Seth Spielman, Samuel F. Way, Yash Shah, Michael Bhaskar, Harsha Nori, Christopher Kelly, Peter Hames, Bay Gross, Mustafa Suleyman, Dominic King
Subjects: cs.HC; cs.AI; cs.CY
Tags: Medical AI, Dialogue System, LLM Evaluation
Summary: 本文分析了超过50万条与Microsoft Copilot的健康相关对话，开发了包含12个主要类别的意图分类体系，发现近五分之一的对话涉及个人症状评估或病情讨论，且移动端更集中于个人健康问题，而桌面端则主要用于专业和学术工作。

[34] Automating Crash Diagram Generation Using Vision-Language Models: A Case Study on Multi-Lane Roundabouts

arXiv: 2604.15332 (cross-listed)
Authors: Xiao Lu, Hao Zhen, Jidong J. Yang
Subjects: cs.HC; cs.AI; cs.CV; cs.SE
Tags: Vision-Language Model, Autonomous Driving, Document Understanding
Summary: 本研究探索使用视觉语言模型(VLMs)从警方事故报告中自动生成碰撞图，以多车道环岛为测试案例，开发了三部分结构化提示框架和10指标评估体系，结果显示GPT-4o在语义准确性、空间保真度和视觉清晰度方面表现最佳。

[35] Technically Love: The Evolution of Human-AI Romance Discourse on Reddit

arXiv: 2604.15333 (cross-listed)
Authors: Tyler Chang, Jina Huh-Yoo, Afsaneh Razi
Subjects: cs.HC; cs.AI
Tags: Social Network Analysis, LLM Agent, Affective Computing
Summary: 本文通过分析2017-2025年间Reddit上3,383条关于浪漫伴侣AI的自披露帖子，发现讨论主题从积极的亲密关系逐渐转向平台治理、技术问题和现实后果，表明人机浪漫关系的框架正从私人体验转向技术调解和监管。

[36] Beyond Passive Viewing: A Pilot Study of a Hybrid Learning Platform Augmenting Video Lectures with Conversational AI

arXiv: 2604.15334 (cross-listed)
Authors: Mohammed Abraar, Raj Abhijit Dandekar, Rajat Dandekar, Sreedath Panat
Subjects: cs.HC; cs.AI
Tags: Education Technology, Dialogue System, Human-Computer Interaction
Summary: 本研究评估了一个将实时对话AI辅导与传统视频讲座相结合的混合学习平台，对照实验显示AI增强教学在即时后测中产生大效应量(d=1.505)，参与度持续时间提高71.1%，为开发可扩展的自适应学习系统提供了初步证据。

[37] A Comparative Study on the Impact of Traditional Learning and Interactive Learning on Students' Academic Performance and Emotional Well-Being

arXiv: 2604.15335 (cross-listed)
Authors: Siva Raja Sindiramutty
Subjects: cs.HC; cs.AI
Tags: Education Technology, Human-Computer Interaction
Summary: 本研究比较了传统学习与交互式学习对100名大学生学业表现和情绪健康的影响，结果显示交互式学习组在后测和期末考试中均显著优于传统学习组，行为参与度和情绪参与度分别提高67.01%和75.32%，但认知投入度下降39.8%表明可能存在认知过载。

[38] Facial-Expression-Aware Prompting for Empathetic LLM Tutoring

arXiv: 2604.15336 (cross-listed)
Authors: Shuangquan Feng, Laura Fleig, Ruisen Tu, Philip Chi, Edmund Bu, Melinda Ozel, Junhua Ma, Teng Fei, Virginia R. de Sa
Subjects: cs.HC; cs.AI
Tags: Education Technology, Multimodal Learning, Prompt Engineering
Summary: 本研究探索将面部表情感知信号通过提示级整合来改善LLM辅导系统的共情响应，在960轮多轮对话实验中，基于动作单元(AU)的条件化在所有辅导骨干模型中均持续提升了共情响应能力，且不影响教学清晰度。

[39] Uncertainty, Vagueness, and Ambiguity in Human-Robot Interaction: Why Conceptualization Matters

arXiv: 2604.15339 (cross-listed)
Authors: Xiaowen Sun, Cornelius Weber, Matthias Kerzel, Josua Spisak, Stefan Wermter
Subjects: cs.HC; cs.AI; cs.RO
Tags: Robotics, Human-Computer Interaction
Venue: HRI 2026 Workshop
Summary: 本文针对人机交互中不确定性、模糊性和歧义性概念混淆的问题，提出了一个一致的概念基础，通过字典定义分析、HRI情境下的区别与相互关系阐述，以及实例说明，为这些现象的方法设计和评估提供了清晰的框架。

[40] MRGEN: A Conceptual Framework for LLM-Powered Mixed Reality Authoring Tools for Education

arXiv: 2604.15341 (cross-listed)
Authors: Mohammed Oussama Seddini, Mohamed Ez-Zaouia, Ngoc Luyen Le, Iza Marfisi
Subjects: cs.HC; cs.AI
Tags: Education Technology, Multimodal Learning, LLM Agent
Summary: 本文提出MRGEN框架，用于支持教师创建移动设备上的混合现实学习活动，用户研究表明LLM驱动的创作工具平均减少36%的任务时间，超过90%的参与者认为AI支持对头脑风暴、结构化和内容对齐学习目标有帮助。

[41] When the Loop Closes: Architectural Limits of In-Context Isolation, Metacognitive Co-option, and the Two-Target Design Problem in Human-LLM Systems

arXiv: 2604.15343 (cross-listed)
Authors: Z. Cheng, N. Song
Subjects: cs.HC; cs.AI; cs.LG
Tags: LLM Agent, AI Safety, Human-Computer Interaction
Summary: 本文通过自我民族志案例研究，记录了一个将认知自我调节外化到LLM的多模态提示工程系统如何在48小时内导致决策权转移、自我推理能力丧失等行为变化，揭示了提示层隔离在架构上的不足，并提出了采用物理对话隔离的重新设计方案。

[42] To LLM, or Not to LLM: How Designers and Developers Navigate LLMs as Tools or Teammates

arXiv: 2604.15344 (cross-listed)
Authors: Varad Vishwarupe, Ivan Flechais, Nigel Shadbolt, Marina Jirotka
Subjects: cs.HC; cs.AI; cs.IR; cs.LG
Tags: Human-Computer Interaction, LLM Agent, AI Ethics
Summary: 本研究基于对33名设计师和开发者的访谈，发现从业者根据LLM在工作流中的角色定位（工具或队友）来推理其使用，当LLM被视为工具时更容易被接受，而作为队友时则因责任归属问题产生犹豫，研究提出了分析框架来描述角色定位如何影响决策权威和问责机制。

[43] SocialWise: LLM-Agentic Conversation Therapy for Individuals with Autism Spectrum Disorder to Enhance Communication Skills

arXiv: 2604.15347 (cross-listed)
Authors: Albert Tang
Subjects: cs.HC; cs.AI; cs.IR; cs.MA
Tags: LLM Agent, RAG, Healthcare Monitoring
Summary: 本文介绍SocialWise，一个基于浏览器的应用程序，将LLM对话代理与治疗性RAG知识库配对，帮助自闭症谱系障碍患者练习日常对话场景并获得即时结构化反馈，为可扩展的沟通技能训练提供了低成本的解决方案。

[44] Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit

arXiv: 2604.15356 (cross-listed)
Authors: Gregory Magarshak
Subjects: cs.LG; cs.AI; cs.IT; cs.NE
Tags: KV Cache, LLM Inference, Model Compression
Summary: 本文提出序列KV压缩方法，利用语言模型结构通过概率前缀去重和预测增量编码两层架构，在典型语言模型困惑度下实现每词元位置3.3-4.3比特的理论界限，相比TurboQuant在香农极限下可获得约914,000倍的理论压缩比。

[45] Taming Asynchronous CPU-GPU Coupling for Frequency-aware Latency Estimation on Mobile Edge

arXiv: 2604.15357 (cross-listed)
Authors: Jiesong Chen, Jun You, Zhidan Liu, Zhenjiang Li
Subjects: cs.AR; cs.AI; cs.DC
Tags: LLM Inference, Edge Computing, Mobile AI
Summary: 本文提出FLAME方法用于准确估计移动边缘设备上不同CPU-GPU频率组合下的模型推理延迟，通过层级建模量化异步处理器交互的重叠并行性，将DNN分析时间从数小时缩短至数分钟，SLM分析时间从数天缩短至数分钟。

[46] Applied Explainability for Large Language Models: A Comparative Study

arXiv: 2604.15371 (cross-listed)
Authors: Venkata Abhinandan Kancharla
Subjects: cs.CL; cs.AI; cs.LG
Tags: Interpretability, LLM Evaluation
Summary: 本研究对三种可解释性技术（积分梯度、注意力展开和SHAP）在微调DistilBERT情感分类模型上进行了比较评估，结果显示基于梯度的归因提供更稳定直观的解释，基于注意力的方法计算效率高但与预测相关特征对齐度较低。

[47] The Synthetic Media Shift: Tracking the Rise, Virality, and Detectability of AI-Generated Multimodal Misinformation

arXiv: 2604.15372 (cross-listed)
Authors: Zacharias Chrysidis, Stefanos-Iordanis Papadopoulos, Symeon Papadopoulos
Subjects: cs.CR; cs.AI; cs.MM
Tags: Deepfake Detection, Multimodal Learning, Fake News Detection
Summary: 本文提出CONVEX大规模多模态虚假信息数据集，分析发现AI生成内容获得不成比例的病毒式传播，但被标记后能更快达成社区共识，同时专用检测器和视觉语言模型在区分合成图像与真实图像方面的性能随时间持续下降。

[48] InfoChess: A Game of Adversarial Inference and a Laboratory for Quantifiable Information Control

arXiv: 2604.15373 (cross-listed)
Authors: Kieran A. Murphy
Subjects: cs.MA; cs.AI; cs.IT; cs.LG
Tags: Game AI, Reinforcement Learning, Information Theory
Venue: AAMAS 2026 Workshop
Code: code
Summary: 本文提出InfoChess对称对抗游戏，将竞争性信息获取作为主要目标，引入分层启发式代理并训练强化学习代理，通过信息论特征分析多智能体在部分可观察性下的推理，为研究信息控制提供了可量化的实验平台。

[49] Seeing the imagined: a latent functional alignment in visual imagery decoding from fMRI data

arXiv: 2604.15374 (cross-listed)
Authors: Fabrizio Spera, Tommaso Boccato, Michal Olak, Sara Cammarota, Matteo Ciferri, Michelangelo Tronti, Nicola Toschi, Matteo Ferrante
Subjects: q-bio.NC; cs.AI; eess.IV
Tags: Brain-Computer Interface, Diffusion Model, Vision-Language Model
Summary: 本文研究如何将最先进的视觉感知解码器适应到心理意象重建任务，提出了一种潜在功能对齐方法，将意象诱发的脑活动映射到预训练模型的条件空间中，并通过检索增强策略提升语义重建质量。

[50] VeriCWEty: Embedding enabled Line-Level CWE Detection in Verilog

arXiv: 2604.15375 (cross-listed)
Authors: Prithwish Basu Roy, Zeng Wang, Anatolii Chuvashlov, Weihua Xiao, Johann Knechtel, Ozgur Sinanoglu, Ramesh Karri
Subjects: cs.AR; cs.AI; cs.CR
Tags: RTL Verification, Cybersecurity
Summary: 本文提出了一种基于嵌入的错误检测框架，能够在模块级和行级粒度上检测和分类Verilog代码中的常见弱点(CWE)，在识别CWE-1244和CWE-1245等漏洞方面达到约89%的精确率。

[51] Zoom Consistency: A Free Confidence Signal in Multi-Step Visual Grounding Pipelines

arXiv: 2604.15376 (cross-listed)
Authors: Keon Kim, Krish Chelikavada
Subjects: cs.CV; cs.AI
Tags: Vision-Language Model, GUI Automation
Code: code
Summary: 本文提出了一种名为缩放一致性的几何置信度信号，用于多步视觉定位流水线，该信号无需校准即可在不同架构的视觉语言模型间直接比较，并能有效用于模型路由决策。

[52] Exascale Multi-Task Graph Foundation Models for Imbalanced, Multi-Fidelity Atomistic Data

arXiv: 2604.15380 (cross-listed)
Authors: Massimiliano Lupo Pasini, Jong Youl Choi, Kshitij Mehta, Richard Messerly, Rylie Weaver, Linda Ungerboeck, Isaac Lyngaas, Benajmin Stump, Ashwin M. Aji, Karl W. Schulz, Jorda Polo
Subjects: cs.AI
Tags: Graph Neural Network, Material Discovery, Foundation Model
Summary: 本文提出了一种用于材料发现的百亿亿次工作流，基于HydraGNN构建原子图基础模型，在5.44亿个结构上进行多任务训练，实现了十亿级原子结构的快速筛选。

[53] Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models

arXiv: 2604.15383 (cross-listed)
Authors: Yanda Li, Yuhan Liu, Zirui Song, Yunchao Wei, Martin Takáč, Salem Lahlou
Subjects: cs.SD; cs.AI
Tags: Speech Processing, LLM Inference
Venue: ACL 2026 Findings
Summary: 本文提出了一种无需训练的时间对比解码方法(TCD)，通过对比原始视图和时间模糊视图的下一个token logits，缓解大型音频语言模型中的时间平滑偏差问题。

[54] LinuxArena: A Control Setting for AI Agents in Live Production Software Environments

arXiv: 2604.15384 (cross-listed)
Authors: Tyler Tracy, Ram Potham, Nick Kuhn, Myles Heller, Anshul Khandelwal, Cody Rushing, Henri Lemoine, Miguel Brandao, Tomas Turlik, Adam Hanson, Josh Hills, Amy Ngo, Ram Rachum, Nik Mitchell, Falko Galperin, Oscar Sykes, Pip Arnott, Samuel Prieto Lima, Carlos Giudice, Matt Goldwater, Daniel Popp, Drew de Wet, Ruben Castaing, Qi Guo, Douw Marx, Benjamin Shaffrey, Justin Shenk, Martin Milbradt, Hannah Meagher, Shaheen Ahmed-Chowdhury, Daniel O'Connell, Chris Canal, Buck Shlegeris, Aryan Bhatt
Subjects: cs.CR; cs.AI; cs.SE
Tags: LLM Agent, AI Safety
Summary: 本文介绍了LinuxArena，一个用于评估AI代理在真实生产软件环境中行为的控制设置，包含20个环境、1671个主任务和184个安全相关副任务，用于破坏和监控评估。

[55] Exploring LLM-based Verilog Code Generation with Data-Efficient Fine-Tuning and Testbench Automation

arXiv: 2604.15388 (cross-listed)
Authors: Mu-Chi Chen, Po-Hsuan Huang, Yu-Hung Kao, Yen-Fu Liu, Yu-Kai Hung, Cheng Liang, Shao-Chun Ho, Chia-Heng Tu, Shih-Hao Hung
Subjects: cs.AR; cs.AI
Tags: RTL Generation, Code Generation
Summary: 本文提出了一种使用多代理模型自动生成测试平台的工作流程，用于高质量的Verilog代码生成微调数据，在减少训练数据的同时达到与最先进方法相当的性能。

[56] Analyzing Chain of Thought (CoT) Approaches in Control Flow Code Deobfuscation Tasks

arXiv: 2604.15390 (cross-listed)
Authors: Seyedreza Mohseni, Sarvesh Baskar, Edward Raff, Manas Gaur
Subjects: cs.SE; cs.AI
Tags: LLM Reasoning, Cybersecurity
Summary: 本文探索了思维链提示在控制流代码去混淆任务中的应用，实验表明CoT提示显著提升了去混淆质量，GPT-5在控制流图重建上平均提升约16%，在语义保持上提升约20.5%。

[57] Lightweight Geometric Adaptation for Training Physics-Informed Neural Networks

arXiv: 2604.15392 (cross-listed)
Authors: Kang An, Chenhao Si, Shiqian Ma, Ming Yan
Subjects: cs.LG; cs.AI; stat.ML
Tags: Physics-Informed Learning, Optimization
Summary: 本文提出了一种轻量级的曲率感知优化框架，通过基于割线信息的自适应预测校正来增强物理信息神经网络(PINNs)的训练，在多种PDE基准上实现了收敛速度和稳定性的提升。

[58] Hallucination as Trajectory Commitment: Causal Evidence for Asymmetric Attractor Dynamics in Transformer Generation

arXiv: 2604.15400 (cross-listed)
Authors: G. Aytug Akarlar
Subjects: cs.LG; cs.AI; cs.CL
Tags: LLM Hallucination, Interpretability
Code: code
Summary: 本文通过因果实验证明，语言模型中的幻觉是一种由非对称吸引子动力学支配的早期轨迹承诺，轨迹在第一步生成时就发生分叉，进入幻觉吸引子盆地后需要多步干预才能纠正。

[59] Dispatch-Aware Ragged Attention for Pruned Vision Transformers

arXiv: 2604.15408 (cross-listed)
Authors: Saif Mahmoud, Ahmad Almasri
Subjects: cs.LG; cs.AI
Tags: Vision Transformer, Model Compression
Summary: 本文提出了一种轻量级双向Triton注意力内核，通过降低调度开销使剪枝视觉Transformer的实际注意力延迟更好地反映理论加速比，端到端吞吐量提升达2.24倍。

[60] The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference

arXiv: 2604.15409 (cross-listed)
Authors: Ranjith Chodavarapu, Lei Xu
Subjects: cs.LG; cs.AI
Tags: LLM Inference, KV Cache
Summary: 本文揭示了FP16精度下KV缓存推理与无缓存计算存在系统性数值差异，由于浮点非结合性导致100%的token分歧率，这种差异是确定性的而非随机的。

[61] PRL-Bench: A Comprehensive Benchmark Evaluating LLMs' Capabilities in Frontier Physics Research

arXiv: 2604.15411 (cross-listed)
Authors: Tingjia Miao, Wenkai Jin, Muhua Zhang, Jinxin Tan, Yuelin Hu, Tu Guo, Jiejun Zhang, Yuhan Wang, Wenbo Li, Yinuo Gao, Shuo Chen, Weiqi Jiang, Yayun Hu, Zixing Lei, Xianghe Pang, Zexi Liu, Yuzhi Zhang, Linfeng Zhang, Kun Chen, Wei Wang, Weinan E, Siheng Chen
Subjects: cs.LG; cs.AI
Tags: Benchmark, Scientific Reasoning
Summary: 本文介绍了PRL-Bench，一个用于评估LLM在前沿物理研究中能力的基准测试，基于100篇Physical Review Letters论文构建，覆盖天体物理、凝聚态物理等五个主要子领域。

[62] Beyond Single-Model Optimization: Preserving Plasticity in Continual Reinforcement Learning

arXiv: 2604.15414 (cross-listed)
Authors: Lute Lillo, Nick Cheney
Subjects: cs.LG; cs.AI; cs.NE
Tags: Continual Learning, Reinforcement Learning
Summary: 本文提出了TeLAPA框架，通过维护行为多样化的策略档案和共享潜在空间来解决持续强化学习中的可塑性丧失问题，在MiniGrid持续学习设置中表现出更好的任务学习和恢复能力。

[63] HarmfulSkillBench: How Do Harmful Skills Weaponize Your Agents?

arXiv: 2604.15415 (cross-listed)
Authors: Yukun Jiang, Yage Zhang, Michael Backes, Xinyue Shen, Yang Zhang
Subjects: cs.CR; cs.AI
Tags: LLM Agent, LLM Security
Code: code
Summary: 本文首次对代理生态系统中的有害技能进行了大规模测量研究，发现4.93%的技能是有害的，并构建了HarmfulSkillBench基准来评估代理对有害技能的安全防护能力。

[64] StoSignSGD: Unbiased Structural Stochasticity Fixes SignSGD for Training Large Language Models

arXiv: 2604.15416 (cross-listed)
Authors: Dingzhi Yu, Rui Pan, Yuxing Liu, Tong Zhang
Subjects: cs.LG; cs.AI; math.OC
Tags: LLM Training, Optimization
Summary: 本文提出了StoSignSGD算法，通过在符号算子中注入结构随机性来保持无偏更新，解决了SignSGD在非光滑目标函数上的收敛问题，在LLM训练中展现出优异的稳定性和效率。

[65] Transfer Learning from Foundational Optimization Embeddings to Unsupervised SAT Representations

arXiv: 2604.15448 (cross-listed)
Authors: Koyena Pal, Serdar Kadioglu
Subjects: cs.LG; cs.AI; cs.LO
Tags: Transfer Learning, SAT Solving, Representation Learning
Summary: 本文研究了基础优化嵌入是否能从优化问题泛化到决策问题，特别是布尔可满足性问题(SAT)。作者将CNF公式映射为二分约束变量图表示，证明了这些嵌入能够捕获SAT实例的结构规律性，并支持实例聚类和分布识别等无监督任务。

[66] (1D) Ordered Tokens Enable Efficient Test-Time Search

arXiv: 2604.15453 (cross-listed)
Authors: Zhitong Gao, Parham Rezaei, Ali Cy, Mingqiao Ye, Nataša Jovanović, Jesse Allardice, Afshin Dehghan, Amir Zamir, Roman Bachmann, Oğuzhan Fatih Kar
Subjects: cs.CV; cs.AI; cs.LG
Tags: Tokenization, Text-to-Image, Test-Time Adaptation
Summary: 本文探讨了分词结构如何影响自回归生成模型的测试时搜索能力，发现具有粗到细结构的一维有序分词器比传统二维网格结构更适合搜索。研究表明，基于有序分词训练的AR模型在测试时扩展性更好，甚至可以通过纯测试时搜索实现无需训练的文本到图像生成。

[67] RelativeFlow: Taming Medical Image Denoising Learning with Noisy Reference

arXiv: 2604.15459 (cross-listed)
Authors: Yuxin Liu, Yiqing Dong, Wenxue Yu, Zhan Wu, Rongjun Ge, Yang Chen, Yuting He
Subjects: eess.IV; cs.AI; cs.CV
Tags: Medical AI, Image Enhancement, Flow Matching
Venue: CVPR 2026
Summary: 本文提出了RelativeFlow，一种流匹配框架，用于从异构噪声参考中学习的医学图像去噪。该方法将绝对噪声到干净的映射分解为相对的更噪声到噪声映射，在CT和MR去噪任务上显著优于现有方法。

[68] The Crutch or the Ceiling? How Different Generations of LLMs Shape EFL Student Writings

arXiv: 2604.15460 (cross-listed)
Authors: Hengky Susanto, David James Woo, Chingyi Yeung, Stephanie Wing Yan Lo-Philip, Chi Ho Yeung
Subjects: cs.HC; cs.AI
Tags: Education Technology, LLM Evaluation
Summary: 本研究探讨了LLM对EFL学生写作的影响，发现先进的LLM能提升低水平学习者的评估分数，但可能掩盖其真实能力。研究表明LLM辅助增加与专家评分呈负相关，表明表面流畅性缺乏深层连贯性。

[69] Ragged Paged Attention: A High-Performance and Flexible LLM Inference Kernel for TPU

arXiv: 2604.15464 (cross-listed)
Authors: Jevin Jiang, Ying Chen, Blake A. Hechtman, Fenghui Zhang, Yarong Mu
Subjects: cs.PF; cs.AI; cs.LG
Tags: LLM Inference, Hardware Acceleration, KV Cache
Summary: 本文提出了Ragged Paged Attention (RPA)，一种面向TPU的高性能注意力内核，解决了LLM服务中的动态和不规则执行模式问题。RPA在Llama 3 8B上实现了高达86%的内存带宽利用率和73%的模型FLOPs利用率。

[70] The Semi-Executable Stack: Agentic Software Engineering and the Expanding Scope of SE

arXiv: 2604.15468 (cross-listed)
Authors: Robert Feldt, Per Lenberg, Julian Frattini, Dhasarathy Parthasarathy
Subjects: cs.SE; cs.AI
Tags: LLM Agent, Software Engineering
Summary: 本文引入了半可执行堆栈作为诊断参考模型，用于推理软件工程如何从可执行代码扩展到半可执行工件。该模型跨越六个层级，从可执行工件到社会和制度适配，帮助定位AI系统中的贡献和瓶颈。

[71] Harmonizing Multi-Objective LLM Unlearning via Unified Domain Representation and Bidirectional Logit Distillation

arXiv: 2604.15482 (cross-listed)
Authors: Yisheng Zhong, Sijia Liu, Zhuangdi Zhu
Subjects: cs.LG; cs.AI
Tags: Machine Unlearning, LLM Alignment, Knowledge Distillation
Summary: 本文提出了一个多目标LLM遗忘框架，通过统一数据表示和双向蒸馏来协调多个遗忘目标，包括移除不良知识、保持效用、避免过度拒绝和确保鲁棒性。该方法在多样化挑战性需求下实现了最先进的性能。

[72] FineSteer: A Unified Framework for Fine-Grained Inference-Time Steering in Large Language Models

arXiv: 2604.15488 (cross-listed)
Authors: Zixuan Weng, Jinghuai Zhang, Kunlin Cai, Ying Li, Peiran Wang, Yuan Tian
Subjects: cs.LG; cs.AI; cs.CL
Tags: LLM Inference, LLM Alignment
Venue: ACL 2026
Code: code
Summary: 本文提出了FineSteer，一个细粒度推理时引导框架，将引导分解为条件引导和细粒度向量合成两个阶段。该方法使用子空间引导条件引导和混合引导专家机制，在安全性和真实性基准上实现了更强的引导性能和最小的效用损失。

[73] A Q-learning-based QoS-aware multipath routing protocol in IoMT-based wireless body area network

arXiv: 2604.15489 (cross-listed)
Authors: Mehdi Hosseinzadeh, Roohallah Alizadehsani, Amin Beheshti, Hamid Alinejad-Roknyd, Lu Chen, Mohammad Sadegh Yousefpoor, Efat Yousefpoor, Muneera Altayeb, Thantrira Porntaveetus, Sadia Din
Subjects: cs.NI; cs.AI
Tags: IoT, Reinforcement Learning, Healthcare Monitoring
Summary: 本文提出了QQMR，一种基于Q学习的QoS感知多路径路由方法，用于无线体域网中的IoMT应用。该方法将数据分为三个优先级，采用自适应多级队列和模糊C均值聚类优化路由决策，显著提高了数据包投递率并降低了延迟和能耗。

[74] SecureRouter: Encrypted Routing for Efficient Secure Inference

arXiv: 2604.15499 (cross-listed)
Authors: Yukuan Zhang, Mengxin Zheng, Qian Lou
Subjects: cs.CR; cs.AI
Tags: Privacy, LLM Inference, Hardware Security
Venue: DAC 2026
Code: code
Summary: 本文提出了SecureRouter，一个加密路由和推理框架，通过加密下的输入自适应模型选择加速安全Transformer推理。该框架将安全路由器与MPC优化的模型池集成，实现了1.95倍的延迟降低，同时保持可忽略的精度损失。

[75] PolicyBank: Evolving Policy Understanding for LLM Agents

arXiv: 2604.15505 (cross-listed)
Authors: Jihye Choi, Jinsung Yoon, Long T. Le, Somesh Jha, Tomas Pfister
Subjects: cs.CL; cs.AI
Tags: LLM Agent, Memory Architecture
Summary: 本文提出了PolicyBank，一种记忆机制，用于维护结构化的工具级策略洞察并通过交互和纠正反馈迭代优化。与将策略视为不可变的现有记忆机制不同，PolicyBank在策略差距场景中弥合了高达82%的差距。

[76] LLMbench: A Comparative Close Reading Workbench for Large Language Models

arXiv: 2604.15508 (cross-listed)
Authors: David M. Berry
Subjects: cs.CY; cs.AI
Tags: LLM Evaluation, Data Visualization
Summary: 本文介绍了LLMbench，一个用于LLM输出比较细读的浏览器端工作台，提供四种分析覆盖层和五种分析模式。该工具提供热力图、熵火花线和概率地形等可视化，使生成文本的概率结构在词元级别可读。

[77] Consistency Analysis of Sentiment Predictions using Syntactic & Semantic Context Assessment Summarization (SSAS)

arXiv: 2604.15547 (cross-listed)
Authors: Sharookh Daruwalla, Nitin Mayande, Shreeya Verma Kathuria, Nitin Joglekar, Charles Weber
Subjects: cs.CL; cs.AI
Tags: Sentiment Analysis, LLM Evaluation
Summary: 本文提出了SSAS框架，通过分层分类结构和摘要之摘要架构建立上下文，用于LLM情感预测的一致性分析。该框架通过噪声移除和情感预测估计改进，能够将数据质量提升高达30%。

[78] Natural gradient descent with momentum

arXiv: 2604.15554 (cross-listed)
Authors: Anthony Nouy, Agustín Somacal
Subjects: cs.LG; cs.AI; math.NA; math.OC
Tags: Optimization
Summary: 本文引入了自然梯度下降的自然惯性动态方法版本，类似于Heavy-Ball或Nesterov方法。该方法在处理非线性模型类和非理想条件损失函数时能够改善学习过程。

[79] Why Fine-Tuning Encourages Hallucinations and How to Fix It

arXiv: 2604.15574 (cross-listed)
Authors: Guy Kaplan, Zorik Gekhman, Zhen Zhu, Lotem Rozner, Yuval Reif, Swabha Swayamdipta, Derek Hoiem, Roy Schwartz
Subjects: cs.CL; cs.AI; cs.LG; cs.NE
Tags: LLM Hallucination, Instruction Tuning, Continual Learning
Summary: 本文探讨了为什么监督微调会增加LLM的幻觉，并提出了基于持续学习文献的解决方案。作者引入了基于自蒸馏的SFT方法，通过正则化输出分布漂移来促进有效的事实学习，同时最小化对预训练知识的幻觉。

[80] Reward Weighted Classifier-Free Guidance as Policy Improvement in Autoregressive Models

arXiv: 2604.15577 (cross-listed)
Authors: Alexander Peysakhovich, William Berman
Subjects: cs.LG; cs.AI
Tags: Molecular Generation, Reinforcement Learning, Autoregressive Model
Summary: 本文展示了奖励加权无分类器引导(RCFG)可以作为自回归模型中的策略改进算子，近似通过Q函数倾斜采样分布。该方法应用于分子生成，证明了可以在测试时优化新的奖励函数。

[81] Symbolic Guardrails for Domain-Specific Agents: Stronger Safety and Security Guarantees Without Sacrificing Utility

arXiv: 2604.15579 (cross-listed)
Authors: Yining Hong, Yining She, Eunsuk Kang, Christopher S. Timperley, Christian Kästner
Subjects: cs.SE; cs.AI; cs.CR
Tags: LLM Agent, AI Safety, LLM Security
Code: code
Summary: 该研究提出符号护栏作为确保AI代理安全性和有效性的实用方法，通过系统回顾80个基准并分析可保证的策略要求，发现符号护栏能有效执行大部分策略且不牺牲代理效用。

[82] PAWN: Piece Value Analysis with Neural Networks

arXiv: 2604.15585 (cross-listed)
Authors: Ethan Tang, Hasan Davulcu, Jia Zou, Zhongju Zhang
Subjects: cs.LG; cs.AI
Tags: Game AI, Representation Learning
Summary: 本文提出了一种结合CNN自编码器和MLP的架构，通过编码完整棋盘状态来预测国际象棋棋子的相对价值，显著降低了预测误差。

[83] "Excuse me, may I say something..." CoLabScience, A Proactive AI Assistant for Biomedical Discovery and LLM-Expert Collaborations

arXiv: 2604.15588 (cross-listed)
Authors: Yang Wu, Jinhong Yu, Jingwei Xiong, Zhimin Tao, Xiaozhong Liu
Subjects: cs.CL; cs.AI; cs.HC; cs.LG
Tags: LLM Agent, Medical AI, Reinforcement Learning
Venue: ACL 2026
Summary: 该研究提出了CoLabScience，一个主动式LLM助手，通过强化学习框架PULI决定在生物医学讨论中何时介入，显著提升了协作任务的效用。

[84] LLM attribution analysis across different fine-tuning strategies and model scales for automated code compliance

arXiv: 2604.15589 (cross-listed)
Authors: Jack Wei Lun Shi, Minghao Dang, Wawan Solihin, Justin K.W. Yeoh
Subjects: cs.CL; cs.AI; cs.LG
Tags: Interpretability, Code Generation
Venue: ICCCBE 2026
Summary: 本文通过基于扰动的归因分析，比较了不同微调策略和模型规模下LLM在自动化代码合规性任务中的解释行为，发现全量微调的归因模式更集中，且大模型倾向于优先处理数值约束。

[85] CSLE: A Reinforcement Learning Platform for Autonomous Security Management

arXiv: 2604.15590 (cross-listed)
Authors: Kim Hammar
Subjects: cs.CR; cs.AI
Tags: Reinforcement Learning, Cybersecurity
Venue: MLSys 2026
Summary: 本文介绍了CSLE，一个用于自主安全管理的强化学习平台，结合了仿真系统和模拟系统，以弥合理论性能与实际运行之间的差距。

[86] BioHiCL: Hierarchical Multi-Label Contrastive Learning for Biomedical Retrieval with MeSH Labels

arXiv: 2604.15591 (cross-listed)
Authors: Mengfei Lan, Lecheng Zheng, Halil Kilicoglu
Subjects: cs.IR; cs.AI
Tags: Information Retrieval, Medical AI
Venue: ACL 2026
Summary: 该论文提出了BioHiCL，一种利用层次化MeSH注释进行多标签对比学习的生物医学检索模型，在检索和问答任务上取得了良好的性能。

[87] DALM: A Domain-Algebraic Language Model via Three-Phase Structured Generation

arXiv: 2604.15593 (cross-listed)
Authors: Chao Li
Subjects: cs.CL; cs.AI
Tags: Knowledge Representation, Neurosymbolic AI
Summary: 本文提出了DALM，一种域代数语言模型，通过在域格上进行结构化去噪来替代无约束的标记生成，从而防止跨域知识干扰并实现多视角回答。

[88] DataCenterGym: A Physics-Grounded Simulator for Multi-Objective Data Center Scheduling

arXiv: 2604.15594 (cross-listed)
Authors: Nilavra Pathak, Samadrita Biswas, Nirmalya Roy
Subjects: cs.DC; cs.AI
Tags: Scheduling, Data Center
Summary: 本文介绍了DataCenterGym，一个物理基础的地理分布式数据中心作业调度模拟环境，并开发了一种分层模型预测控制算法以优化调度性能。

[89] Imperfectly Cooperative Human-AI Interactions: Comparing the Impacts of Human and AI Attributes in Simulated and User Studies

arXiv: 2604.15607 (cross-listed)
Authors: Myke C. Cohen, Mingqian Zheng, Neel Bhandari, Hsien-Te Kao, Xuhui Zhou, Daniel Nguyen, Laura Cassani, Maarten Sap, Svitlana Volkova
Subjects: cs.CL; cs.AI; cs.CY; cs.HC
Tags: Human-Computer Interaction, Negotiation System
Venue: ACL 2026
Summary: 该研究通过模拟和用户实验，探讨了在不完全合作场景下人类性格特征和AI设计属性对人机交互的影响，发现AI属性（尤其是透明度）在实际用户实验中影响更大。

[90] CLIMB: Controllable Longitudinal Brain Image Generation using Mamba-based Latent Diffusion Model and Gaussian-aligned Autoencoder

arXiv: 2604.15611 (cross-listed)
Authors: Duy-Phuong Dao, Muhammad Taqiyuddin, Jahae Kim, Sang-Heon Lee, Hye-Won Jung, Jaehoo Choi, Hyung-Jeong Yang
Subjects: cs.CV; cs.AI
Tags: Medical AI, Diffusion Model, Image Generation
Summary: 本文提出了CLIMB框架，利用基于Mamba的潜在扩散模型和高斯对齐自编码器，通过基线MRI扫描和多种条件变量来可控地生成纵向脑部图像，以预测大脑结构的演变。

[91] VoodooNet: Achieving Analytic Ground States via High-Dimensional Random Projections

arXiv: 2604.15613 (cross-listed)
Authors: Wladimir Silva
Subjects: cs.LG; cs.AI
Tags: Neural Architecture, Optimization
Summary: 本文提出了VoodooNet，一种非迭代式神经网络架构，通过高维随机投影和伪逆矩阵求解替代随机梯度下降，实现了快速且高精度的图像分类。

[92] Rethinking the Necessity of Adaptive Retrieval-Augmented Generation through the Lens of Adaptive Listwise Ranking

arXiv: 2604.15621 (cross-listed)
Authors: Jun Feng, Jiahui Tang, Zhicheng He, Hang Lv, Hongchao Gu, Hao Wang, Xuezhi Yang, Shuai Fang
Subjects: cs.IR; cs.AI; cs.CL
Tags: RAG, Information Retrieval, Knowledge Distillation
Summary: 该论文提出了AdaRankLLM框架，通过自适应列表排序和渐进式蒸馏来重新评估自适应检索增强生成的必要性，发现其对弱模型是关键的噪声过滤器，对强模型则是效率优化器。

[93] HYPERHEURIST: A Simulated Annealing-Based Control Framework for LLM-Driven Code Generation in Optimized Hardware Design

arXiv: 2604.15642 (cross-listed)
Authors: Shiva Ahir, Prajna Bhat, Alex Doboli
Subjects: cs.AR; cs.AI
Tags: RTL Generation, Code Generation
Venue: IJCNN 2026
Summary: 本文提出了HYPERHEURIST框架，利用模拟退火算法控制LLM生成的RTL代码，以确保功能正确性并优化功耗、性能和面积（PPA）。

[94] CodeMMR: Bridging Natural Language, Code, and Image for Unified Retrieval

arXiv: 2604.15663 (cross-listed)
Authors: Jiahui Geng, Qing Li, Fengyu Cai, Fakhri Karray
Subjects: cs.SE; cs.AI
Tags: Information Retrieval, Multimodal Learning, Code Generation
Summary: 该研究提出了首个多模态代码检索基准MMCoIR以及统一检索模型CodeMMR，通过指令驱动的多模态对齐将自然语言、代码和图像嵌入共享语义空间，显著提升了检索性能。

[95] Hierarchical Active Inference using Successor Representations

arXiv: 2604.15679 (cross-listed)
Authors: Prashant Rangarajan, Rajesh P. N. Rao
Subjects: cs.LG; cs.AI; cs.CV
Tags: Active Inference, Hierarchical RL
Venue: Neural Computation
Summary: 本文提出了一种基于后继表征的分层主动推理模型，通过学习高层抽象状态和动作来实现高效规划，并在多种导航和强化学习任务中验证了其性能。

[96] The Price of Paranoia: Robust Risk-Sensitive Cooperation in Non-Stationary Multi-Agent Reinforcement Learning

arXiv: 2604.15695 (cross-listed)
Authors: Deep Kumar Ganguly, Chandradithya S Jonnalagadda, Pratham Chintamani, Adithya Ananth
Subjects: cs.GT; cs.AI
Tags: Multi-Agent System, Reinforcement Learning
Venue: AAMAS 2026 Workshop
Summary: 本文研究了非平稳多智能体强化学习中的合作均衡问题，提出了一种基于伙伴不可预测性调节梯度更新的算法，以扩大合作区域并平衡稳定性与样本效率。

[97] SSMamba: A Self-Supervised Hybrid State Space Model for Pathological Image Classification

arXiv: 2604.15711 (cross-listed)
Authors: Enhui Chai, Sicheng Chen, Tianyi Zhang, Xingyu Li, Tianxiang Cui
Subjects: cs.CV; cs.AI
Tags: Medical AI, Self-Supervised Learning, Image Classification
Summary: 本文提出了SSMamba，一种用于病理图像分类的混合自监督学习框架，通过Mamba掩码图像建模、方向多尺度模块和局部感知残差模块来解决跨放大倍数域偏移、局部-全局关系建模和细粒度敏感性问题。

[98] Just Type It in Isabelle! AI Agents Drafting, Mechanizing, and Generalizing from Human Hints

arXiv: 2604.15713 (cross-listed)
Authors: Kevin Kappelmann, Maximilian Schäffeler, Lukas Stevens, Mohammad Abdulaziz, Andrei Popescu, Dmitriy Traytel
Subjects: cs.LO; cs.AI; cs.PL
Tags: Autoformalization, LLM Agent, Formal Methods
Summary: 本文研究了Isabelle中秩一多态λ演算项的完整且最小的类型标注问题，提供了元理论解释和形式化证明，并展示了人类驱动和AI驱动的形式化工作流程，其中LLM代理将证明自动形式化到Isabelle中。

[99] GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows

arXiv: 2604.15715 (cross-listed)
Authors: Jize Wang, Xuanxuan Liu, Yining Li, Songyang Zhang, Yijun Wang, Zifei Shan, Xinyi Le, Cailian Chen, Xinping Guan, Dacheng Tao
Subjects: cs.CL; cs.AI
Tags: LLM Agent, Benchmark, Tool Learning
Code: code
Summary: 本文提出了GTA-2，一个用于通用工具代理的分层基准测试，涵盖原子工具使用和开放式工作流，使用真实用户查询、部署工具和多模态上下文来评估模型能力和代理执行框架。

[100] NeuroLip: An Event-driven Spatiotemporal Learning Framework for Cross-Scene Lip-Motion-based Visual Speaker Recognition

arXiv: 2604.15718 (cross-listed)
Authors: Junguang Yao, Wenye Liu, Stjepan Picek, Yue Zheng
Subjects: cs.CV; cs.AI; cs.CR; cs.DB; cs.LG
Tags: Biometric Security, Neuromorphic Computing, Video Understanding
Code: code
Summary: 本文提出了NeuroLip，一个基于事件的跨场景唇动视觉说话人识别框架，通过时感知体素编码、结构感知空间增强器和极性一致性正则化机制，在变化的视角和光照条件下实现鲁棒的识别。

[101] Diffusion Autoencoder for Unsupervised Artifact Restoration in Handheld Fundus Images

arXiv: 2604.15723 (cross-listed)
Authors: Mathumetha Palani, Kavya Puthumana, Ayantika Das, Ganapathy Krishnamurthi
Subjects: cs.CV; cs.AI
Tags: Medical AI, Diffusion Model, Image Enhancement
Venue: ISBI 2025
Summary: 本文提出了一种无监督扩散自编码器，将上下文编码器与去噪过程集成，用于恢复手持式眼底图像中的伪影，仅使用高质量台式眼底图像进行训练，在未见数据集上提高了诊断准确率。

[102] Reasoning-targeted Jailbreak Attacks on Large Reasoning Models via Semantic Triggers and Psychological Framing

arXiv: 2604.15725 (cross-listed)
Authors: Zehao Wang, Lanjun Wang
Subjects: cs.LG; cs.AI
Tags: LLM Security, Jailbreak Detection, LLM Reasoning
Summary: 本文提出了基于心理学的推理目标越狱攻击框架(PRJA)，通过语义触发器选择和心理学指令生成，在保持答案不变的情况下向大型推理模型的推理步骤中注入有害内容，在多个商业模型上实现了高攻击成功率。

[103] Privacy-Preserving LLMs Routing

arXiv: 2604.15728 (cross-listed)
Authors: Xidong Wu, Yukuan Zhang, Yuqiong Ji, Reza Shirkavand, Qian Lou, Shangqian Gao
Subjects: cs.CR; cs.AI
Tags: Privacy, LLM Inference
Summary: 本文提出了PPRoute，一个隐私保护的LLM路由框架，使用安全多方计算(MPC)和MPC友好操作、多步模型训练和无排序Top-k算法，在保护隐私的同时实现了比朴素实现约20倍的加速。

[104] MambaBack: Bridging Local Features and Global Contexts in Whole Slide Image Analysis

arXiv: 2604.15729 (cross-listed)
Authors: Sicheng Chen, Chad Wong, Tianyi Zhang, Enhui Chai, Zeyu Liu, Fei Xia
Subjects: cs.CV; cs.AI
Tags: Medical AI, Vision Transformer, Image Classification
Summary: 本文提出了MambaBack，一种用于全切片图像分析的混合架构，结合Hilbert采样策略保持空间局部性、1D门控CNN捕获局部特征和BiMamba2聚合全局上下文，在多个数据集上取得了优越性能。

[105] Sketch and Text Synergy: Fusing Structural Contours and Descriptive Attributes for Fine-Grained Image Retrieval

arXiv: 2604.15735 (cross-listed)
Authors: Siyuan Wang, Hanchen Gao, Guangming Zhu, Jiang Lu, Yiyue Ma, Tianci Wu, Jincai Huang, Liang Zhang
Subjects: cs.CV; cs.AI
Tags: Image Retrieval, Multimodal Learning, Curriculum Learning
Summary: 本文提出了STBIR框架，通过融合手绘草图的结构轮廓和文本描述的颜色纹理信息进行细粒度图像检索，包含课程学习驱动的鲁棒性增强、类别知识特征空间优化和多阶段跨模态特征对齐机制。

[106] Learning Uncertainty from Sequential Internal Dispersion in Large Language Models

arXiv: 2604.15741 (cross-listed)
Authors: Ponhvoan Srey, Xiaobao Wu, Cong-Duy Nguyen, Anh Tuan Luu
Subjects: cs.CL; cs.AI
Tags: LLM Hallucination, Uncertainty Estimation, LLM Evaluation
Venue: ACL 2026
Code: code
Summary: 本文提出了SIVR，一个监督式幻觉检测框架，利用隐藏状态的词元级和层级特征来学习不确定性模式，假设不确定性表现为内部表示在层间的分散程度，在检测幻觉方面优于强基线方法。

[107] DepCap: Adaptive Block-Wise Parallel Decoding for Efficient Diffusion LM Inference

arXiv: 2604.15750 (cross-listed)
Authors: Xiang Xia, Wuyang Zhang, Jiazheng Liu, Cheng Yan, Yanyong Zhang
Subjects: cs.LG; cs.AI
Tags: Diffusion Model, LLM Inference, Text Generation
Summary: 本文提出了DepCap，一个无需训练的高效块级扩散语言模型推理框架，使用跨步信号自适应确定块边界，并识别无冲突的词元子集进行安全并行解码，在多个基准上实现了高达5.63倍的加速。

[108] When Do Early-Exit Networks Generalize? A PAC-Bayesian Theory of Adaptive Depth

arXiv: 2604.15764 (cross-listed)
Authors: Dongxin Guo, Jikun Wu, Siu Ming Yiu
Subjects: cs.LG; cs.AI
Tags: Deep Learning Theory, Model Compression
Summary: 本文建立了自适应深度网络的统一PAC-Bayesian框架，证明了依赖于退出深度熵和期望深度的泛化界，并建立了自适应深度网络严格优于固定深度网络的充分条件。

[109] cuNNQS-SCI: A Fully GPU-Accelerated Framework for High-Performance Configuration Interaction Selection withNeural Network QQantum States

arXiv: 2604.15768 (cross-listed)
Authors: Daran Sun, Bowen Kan, Haoquan Long, Hairui Zhao, Haoxu Li, Yicheng Liu, Pengyu Zhou, Ankang Feng, Wenjing Huang, Yida Gu, Zhenyu Li, Honghui Shang, Yunquan Zhang, Dingwen Tao, Ninghui Sun, Guangming Tan
Subjects: cs.DC; cs.AI; cs.CE
Tags: GPU Computing, Quantum Computing, High Performance Computing
Venue: HPDC 2026
Summary: 本文提出了cuNNQS-SCI，一个完全GPU加速的神经网络量子态选择组态相互作用框架，通过分布式去重、专用CUDA内核和GPU内存中心运行时，克服了可扩展性瓶颈，在64个GPU上实现了2.32倍的端到端加速。

[110] Closing the Theory-Practice Gap in Spiking Transformers via Effective Dimension

arXiv: 2604.15769 (cross-listed)
Authors: Dongxin Guo, Jikun Wu, Siu Ming Yiu
Subjects: cs.LG; cs.AI
Tags: Neuromorphic Computing, Vision Transformer, Deep Learning Theory
Summary: 本文建立了脉冲自注意力的首个全面表达性理论，证明了带泄漏积分发放神经元的脉冲注意力是连续置换等变函数的通用近似器，并通过率失真理论推导出紧密的脉冲计数下界。

[111] Phase Transitions as the Breakdown of Statistical Indistinguishability

arXiv: 2604.15773 (cross-listed)
Authors: Taiyo Narita, Hideyuki Miyahara
Subjects: cs.AI; stat.ME
Tags: Deep Learning Theory, Statistical Physics
Summary: 本文引入了一种基于假设检验的相变新表征方法，将相变定义为热力学极限下参数扰动消失时统计不可区分性的崩溃，并使用无分布双样本游程测试准确识别了二维Ising模型的临界点。

[112] PIIBench: A Unified Multi-Source Benchmark Corpus for Personally Identifiable Information Detection

arXiv: 2604.15776 (cross-listed)
Authors: Pritesh Jha
Subjects: cs.CL; cs.AI
Tags: Benchmark, Named Entity Recognition, Privacy
Code: code
Summary: 本文提出了PIIBench，一个统一的个人身份信息检测基准语料库，整合了十个公开数据集共237万条标注序列和48种PII实体类型，基线评估显示所有系统的F1分数均低于0.14。

[113] SegMix:Shuffle-based Feedback Learning for Semantic Segmentation of Pathology Images

arXiv: 2604.15777 (cross-listed)
Authors: Zhiling Yan, Sicheng Chen, Tianyi Zhang, Nan Ying, Yanli Lei, Guanglei Zhang
Subjects: cs.CV; cs.AI
Tags: Image Segmentation, Medical AI, Weak Supervision
Summary: 本文提出了一种基于洗牌的反馈学习方法，用于病理图像的语义分割。该方法受课程学习启发，通过图像块级别的洗牌操作，并根据学习反馈自适应调整洗牌策略，从而生成更高质量的伪语义分割掩码。

[114] EVIL: Evolving Interpretable Algorithms for Zero-Shot Inference on Event Sequences and Time Series with LLMs

arXiv: 2604.15787 (cross-listed)
Authors: David Berghaus
Subjects: cs.LG; cs.AI
Tags: LLM Reasoning, Evolutionary Computation, Time Series Analysis
Summary: 本文介绍了EVIL方法，利用LLM引导的进化搜索来发现简单可解释的算法，用于动态系统推理。该方法进化纯Python/NumPy程序，在时间点过程预测、马尔可夫跳跃过程和时间序列填补三个任务上实现了零样本推理。

[115] Self-Distillation as a Performance Recovery Mechanism for LLMs: Counteracting Compression and Catastrophic Forgetting

arXiv: 2604.15794 (cross-listed)
Authors: Chi Liu, Xin Chen, Xu Zhou, Fangbo Tu, Srinivasan Manoharan
Subjects: cs.LG; cs.AI; cs.CL
Tags: Knowledge Distillation, Model Compression, LLM Training
Summary: 本文提出了一种基于自蒸馏微调(SDFT)的性能恢复框架，用于修复LLM因灾难性遗忘、量化和剪枝导致的性能下降。研究通过中心核对齐(CKA)量化学生-教师激活轨迹的对齐程度，从理论上解释了自蒸馏的恢复机制。

[116] From Intention to Text: AI-Supported Goal Setting in Academic Writing

arXiv: 2604.15800 (cross-listed)
Authors: Yueling Fan, Richard Lee Davis, Olga Viberg
Subjects: cs.HC; cs.AI; cs.CL
Tags: Human-Computer Interaction, Education Technology
Venue: AIED 2026
Summary: 本文提出了WriteFlow，一个AI语音写作助手，通过目标导向的交互支持反思性学术写作。研究表明，WriteFlow通过支持迭代目标细化、维护目标-文本对齐以及提示目标完成评估，有效地支架了元认知调节和行动中的反思。

[117] From Seeing to Simulating: Generative High-Fidelity Simulation with Digital Cousins for Generalizable Robot Learning and Evaluation

arXiv: 2604.15805 (cross-listed)
Authors: Jasper Lu, Zhenhao Shen, Yuanfei Wang, Shugao Liu, Shengqiang Xu, Shawn Xie, Jingkai Xu, Feng Jiang, Jade Yang, Chen Xie, Ruihai Wu
Subjects: cs.RO; cs.AI
Tags: Robotics, Sim-to-Real, Generative Model
Summary: 本文提出了一个生成框架，建立从真实世界全景图到高保真仿真场景的生成式实到虚映射，并通过语义和几何编辑合成多样化的表亲场景。该框架支持交互式操作任务和长视野导航，验证了数字表亲在机器人学习和评估中的有效性。

[118] Beyond a Single Frame: Multi-Frame Spatially Grounded Reasoning Across Volumetric MRI

arXiv: 2604.15808 (cross-listed)
Authors: Lama Moukheiber, Caleb M. Yeung, Haotian Xue, Alec Helbling, Zelin Zhao, Yongxin Chen
Subjects: cs.CV; cs.AI
Tags: Vision-Language Model, Medical AI, Benchmark
Summary: 本文引入了SGMRI-VQA基准，包含41,307个问答对，用于体积MRI上的多帧空间定位推理。基准涵盖检测、定位、计数/分类和字幕任务，每个问答对包含临床医生对齐的思维链轨迹和帧索引边界框坐标。

[119] ECG-Lens: Benchmarking ML & DL Models on PTB-XL Dataset

arXiv: 2604.15822 (cross-listed)
Authors: Saloni Garg, Ukant Jadia, Amit Sagtani, Kamal Kant Hiran
Subjects: cs.LG; cs.AI; cs.CE; cs.NE; eess.SP
Tags: Medical AI, Time Series Classification, Benchmark
Summary: 本文比较了三种传统机器学习算法和三种深度学习模型在PTB-XL数据集上的ECG信号分类性能。使用静止小波变换进行数据增强，提出的ECG-Lens模型取得了最高性能，分类准确率达80%，ROC-AUC达90%。

[120] DPrivBench: Benchmarking LLMs' Reasoning for Differential Privacy

arXiv: 2604.15851 (cross-listed)
Authors: Erchi Wang, Pengrun Huang, Eli Chien, Om Thakkar, Kamalika Chaudhuri, Yu-Xiang Wang, Ruihan Wu
Subjects: cs.LG; cs.AI; cs.CR
Tags: LLM Reasoning, Differential Privacy, Benchmark
Summary: 本文引入了DPrivBench基准，用于评估LLM对差分隐私算法的推理能力。基准涵盖广泛的DP主题和不同难度级别，实验表明虽然最强模型能处理教科书机制，但所有模型在高级算法上都表现不佳，揭示了当前DP推理能力的显著差距。

[121] Robust Multispectral Semantic Segmentation under Missing or Full Modalities via Structured Latent Projection

arXiv: 2604.15856 (cross-listed)
Authors: Irem Ulku, Erdem Akagündüz, Ömer Özgür Tanrıöver
Subjects: cs.CV; cs.AI
Tags: Image Segmentation, Remote Sensing, Multimodal Learning
Code: code
Summary: 本文提出了CBC-SLP多模态语义分割模型，通过结构化潜在投影方法同时保留模态不变和模态特定信息。该方法将潜在表示结构化为共享和模态特定组件，根据模态可用性自适应传输到解码器，在全模态和缺失模态场景下均优于现有方法。

[122] QuantSightBench: Evaluating LLM Quantitative Forecasting with Prediction Intervals

arXiv: 2604.15859 (cross-listed)
Authors: Jeremy Qin, Maksym Andriushchenko
Subjects: cs.LG; cs.AI
Tags: LLM Evaluation, Time Series Forecasting, Benchmark
Summary: 本文引入了QuantSightBench基准，使用预测区间评估LLM的定量预测能力。实验评估了11个前沿模型，结果显示没有一个模型达到90%覆盖率目标，校准在极端量级时急剧下降，揭示了所有评估模型的系统性过度自信问题。

[123] DiZiNER: Disagreement-guided Instruction Refinement via Pilot Annotation Simulation for Zero-shot Named Entity Recognition

arXiv: 2604.15866 (cross-listed)
Authors: Siun Kim, Hyung-Jin Yoon
Subjects: cs.CL; cs.AI; cs.LG
Tags: Named Entity Recognition, Zero-Shot Learning, Instruction Tuning
Venue: ACL 2026
Summary: 本文提出了DiZiNER框架，通过模拟试点标注过程进行零样本命名实体识别。该方法使用多个异构LLM作为标注器，监督模型分析模型间分歧来细化任务指令，在18个基准中的14个上取得了零样本SOTA结果。

[124] UniEditBench: A Unified and Cost-Effective Benchmark for Image and Video Editing via Distilled MLLMs

arXiv: 2604.15871 (cross-listed)
Authors: Lifan Jiang, Tianrun Wu, Yuhang Pei, Chenyang Wang, Boxi Wu, Deng Cai
Subjects: cs.CV; cs.AI
Tags: Image Editing, Video Editing, Benchmark, Knowledge Distillation
Code: code
Summary: 本文提出了UniEditBench，一个统一的图像和视频编辑基准，支持重建型和指令驱动方法。基准将高容量MLLM评判器蒸馏为轻量级评估器，在结构保真度、文本对齐、背景一致性、自然度和时空一致性等维度提供多维度评分。

[125] Polarization by Default: Auditing Recommendation Bias in LLM-Based Content Curation

arXiv: 2604.15937 (cross-listed)
Authors: Nicolò Pagan, Christopher Barrie, Chris Andrew Bail, Petter Törnberg
Subjects: cs.SI; cs.AI; cs.CL; cs.CY; cs.MA
Tags: LLM Evaluation, Bias Mitigation, Recommender System
Summary: 本文通过54个实验条件下的540,000次模拟选择，审计了三个主要LLM提供商在社交媒体数据集上的内容选择偏见。研究发现极化在所有配置中都被放大，政治倾向偏见系统性地过度代表左倾作者，尽管右倾作者在数据集中占多数。

[126] From Vulnerable Data Subjects to Vulnerabilizing Data Practices: Navigating the Protection Paradox in AI-Based Analyses of Platformized Lives

arXiv: 2604.15990 (cross-listed)
Authors: Delfina S. Martinez Pandiani, Ella Streefkerk, Laurens Naudts, Paula Helm
Subjects: cs.CY; cs.AI; cs.CV; cs.HC
Tags: AI Ethics, Fairness, Privacy
Venue: FAccT 2026
Summary: 本文考察了AI分析平台化生活中数据实践如何主动构建脆弱性。通过YouTube家庭视频博客的AI for Social Good案例研究，作者揭示了保护悖论，并开发了一个反思性伦理协议，用于指导涉及平台化数据主体的研究伦理。

[127] AgentV-RL: Scaling Reward Modeling with Agentic Verifier

arXiv: 2604.16004 (cross-listed)
Authors: Jiazheng Zhang, Ziche Fu, Zhiheng Xi, Wenqing Jing, Mingxu Chai, Wei He, Guoqiang Zhang, Chenghao Fan, Chenxin An, Wenxiang Chen, Zhicheng Liu, Haojie Pan, Dingwei Zhu, Tao Gui, Qi Zhang, Xuanjing Huang
Subjects: cs.CL; cs.AI
Tags: LLM Reasoning, Reinforcement Learning, LLM Agent
Venue: ACL 2026
Summary: 本文提出了Agentic Verifier框架，将奖励建模转化为多轮、工具增强的审议过程。通过前向和后向代理的双向过程，结合强化学习进行主动探索，4B变体超越SOTA ORM 25.2%，成为代理奖励建模的有前景范式。

[128] Neurosymbolic Repo-level Code Localization

arXiv: 2604.16021 (cross-listed)
Authors: Xiufeng Xu, Xiufeng Wu, Zejun Zhang, Yi Li
Subjects: cs.SE; cs.AI
Tags: Neurosymbolic AI, Repo-Level Code Generation, LLM Reasoning
Summary: 本文识别了代码定位基准中的关键词捷径偏见，并引入KA-LogicQuery诊断基准，要求在无命名提示下进行结构化推理。提出的LogicLoc框架将LLM与Datalog的逻辑推理相结合，在KA-LogicQuery上显著优于SOTA方法。

[129] Where does output diversity collapse in post-training?

arXiv: 2604.16027 (cross-listed)
Authors: Constantinos Karouzos, Xingwei Tan, Nikolaos Aletras
Subjects: cs.CL; cs.AI; cs.LG
Tags: LLM Training, Instruction Tuning, Knowledge Distillation
Summary: 本文研究了后训练语言模型输出多样性下降的问题，通过追踪三种后训练路线（Think、Instruct、RL-Zero）发现多样性崩溃主要由训练数据组成决定，而非生成格式，且无法仅通过推理时方法解决。

[130] Safe Deep Reinforcement Learning for Building Heating Control and Demand-side Flexibility

arXiv: 2604.16033 (cross-listed)
Authors: Colin Jüni, Mina Montazeri, Yi Guo, Federica Bellizio, Giovanni Sansavini, Philipp Heer
Subjects: eess.SY; cs.AI
Tags: Reinforcement Learning, Energy Efficiency
Summary: 本文提出了一种安全的深度强化学习框架，用于优化建筑供暖控制并支持需求侧灵活性。该方法使用深度确定性策略梯度算法和实时自适应安全过滤器，在保证舒适度的同时实现高达50%的节能。

[131] Towards Intrinsic Interpretability of Large Language Models:A Survey of Design Principles and Architectures

arXiv: 2604.16042 (cross-listed)
Authors: Yutong Gao, Qinglin Meng, Yuan Zhou, Liangming Pan
Subjects: cs.CL; cs.AI; cs.LG
Tags: Interpretability, Survey
Venue: ACL 2026
Code: code
Summary: 本文综述了大语言模型内在可解释性的最新进展，将现有方法分为五种设计范式：功能透明性、概念对齐、表征可分解性、显式模块化和潜在稀疏性诱导，并讨论了开放挑战和未来研究方向。

[132] Mind's Eye: A Benchmark of Visual Abstraction, Transformation and Composition for Multimodal LLMs

arXiv: 2604.16054 (cross-listed)
Authors: Rohit Sinha, Aditya Kanade, Sai Srinivas Kancheti, Vineeth N Balasubramanian, Tanuja Ganu
Subjects: cs.CV; cs.AI
Tags: Vision-Language Model, Benchmark, Spatial Reasoning
Summary: 本文介绍了Mind’s Eye基准，用于评估多模态大语言模型的视觉认知和空间推理能力。该基准包含八个任务，涵盖抽象、关系和转换三类，结果显示当前MLLM准确率低于50%，而人类可达80%。

[133] AST: Adaptive, Seamless, and Training-Free Precise Speech Editing

arXiv: 2604.16056 (cross-listed)
Authors: Sihan Lv, Yechen Jin, Zhen Li, Jintao Chen, Jinshan Zhang, Ying Li, Jianwei Yin, Meng Xi
Subjects: cs.SD; cs.AI
Tags: Speech Processing, Speech Synthesis
Summary: 本文提出AST，一种无需训练的语音编辑框架，利用预训练自回归TTS模型和潜在重组技术实现精确语音编辑。该方法在保持说话人身份的同时，将词错误率降低近70%，达到最先进的时序保真度。

[134] Chain-of-Thought Degrades Visual Spatial Reasoning Capabilities of Multimodal LLMs

arXiv: 2604.16060 (cross-listed)
Authors: Sai Srinivas Kancheti, Aditya Sanjiv Kanade, Vineeth N. Balasubramanian, Tanuja Ganu
Subjects: cs.CV; cs.AI
Tags: Vision-Language Model, LLM Reasoning, Spatial Reasoning
Summary: 本文发现思维链提示会持续降低多模态模型在视觉空间推理任务上的性能。通过消融实验，作者证明MRMs存在严重的捷径学习问题，即使没有图像也会从文本先验中产生视觉细节幻觉。

[135] Prototype-Grounded Concept Models for Verifiable Concept Alignment

arXiv: 2604.16076 (cross-listed)
Authors: Stefano Colamonaco, David Debot, Pietro Barbiero, Giuseppe Marra
Subjects: cs.LG; cs.AI; cs.NE
Tags: Interpretability, Explainable AI
Summary: 本文提出原型接地概念模型(PGCMs)，将概念锚定在学习的视觉原型上，使概念语义可直接检查并支持针对性人工干预。该方法在保持预测性能的同时显著提高了透明度和可解释性。

[136] Early Detection of Acute Myeloid Leukemia (AML) Using YOLOv12 Deep Learning Model

arXiv: 2604.16082 (cross-listed)
Authors: Enas E. Ahmed, Salah A. Aly, Mayar Moner
Subjects: cs.CV; cs.AI; cs.LG
Tags: Medical AI, Object Detection, Image Segmentation
Summary: 本研究应用YOLOv12深度学习模型对急性髓系白血病细胞进行分类，结合细胞和细胞核分割方法。实验表明，使用Otsu阈值处理的细胞分割方法达到了99.3%的验证和测试准确率。

[137] Unveiling Stochasticity: Universal Multi-modal Probabilistic Modeling for Traffic Forecasting

arXiv: 2604.16084 (cross-listed)
Authors: Weijiang Xiong, Robert Fonod, Nikolas Geroliminis
Subjects: cs.LG; cs.AI
Tags: Time Series Forecasting, Uncertainty Estimation
Code: code
Summary: 本文提出一种通用方法，通过将输出层替换为高斯混合模型层，将现有交通预测模型转换为概率预测器。该方法无需修改训练流程，在保持确定性性能的同时提供不确定性量化。

[138] Stylistic-STORM (ST-STORM) : Perceiving the Semantic Nature of Appearance

arXiv: 2604.16086 (cross-listed)
Authors: Hamed Ouattara, Pierre Duthon, Pascal Houssam Salmane, Frédéric Bernardin, Omar Ait Aider
Subjects: cs.CV; cs.AI; cs.LG; stat.ML
Tags: Self-Supervised Learning, Representation Learning, Medical AI
Venue: ICPR 2026
Summary: 本文提出ST-STORM，一种混合自监督学习框架，将外观（风格）作为语义模态与内容分离。该架构通过门控机制调节两个潜在流，在天气表征和黑色素瘤检测任务上取得优异性能。

[139] Robust Synchronisation for Federated Learning in The Face of Correlated Device Failure

arXiv: 2604.16090 (cross-listed)
Authors: Stefan Behfar, Richard Mortier
Subjects: cs.DC; cs.AI
Tags: Federated Learning, Fairness
Summary: 本文提出可用性加权PSP(AW-PSP)，通过动态调整节点采样概率来解决联邦学习中的不公平采样问题。该方法使用马尔可夫可用性预测器和分布式哈希表层，提高了对相关故障的鲁棒性。

[140] Dual-Modal Lung Cancer AI: Interpretable Radiology and Microscopy with Clinical Risk Integration

arXiv: 2604.16104 (cross-listed)
Authors: Baramee Sukumal, Aueaphum Aueawatthanaphisut
Subjects: eess.IV; cs.AI; cs.CV
Tags: Medical AI, Multimodal Learning, Explainable AI
Summary: 本文提出一种双模态AI框架，整合CT影像和组织病理学进行肺癌诊断和亚型分类。系统应用多种可解释AI技术提供视觉可解释性，准确率达0.87，AUROC超过0.97。

[141] Reckoning with the Political Economy of AI: Avoiding Decoys in Pursuit of Accountability

arXiv: 2604.16106 (cross-listed)
Authors: Janet Vertesi, danah boyd, Alex Taylor, Benjamin Shestakofsky
Subjects: cs.CY; cs.AI
Tags: AI Ethics, AI Governance, Fairness
Venue: ACM FAccT 2026
Summary: 本文审视AI项目如何通过诱饵制造问责假象，同时掩盖新兴的政治经济。作者认为，实现真正的公平或问责需要识别诱饵的干扰作用，并直面AI项目的物质政治经济。

[142] The Relic Condition: When Published Scholarship Becomes Material for Its Own Replacement

arXiv: 2604.16116 (cross-listed)
Authors: Lin Deng, Chang-bo Liu
Subjects: cs.ET; cs.AI; cs.CY
Tags: Knowledge Extraction, Knowledge Representation
Summary: 本文展示了如何从学者发表作品中提取推理系统并转化为LLM约束，创建能够以专家级质量执行核心学术功能的学者机器人。作者将此现象称为遗物条件：发表系统成为自身功能替代的原材料。

[143] SCRIPT: Implementing an Intelligent Tutoring System for Programming in a German University Context

arXiv: 2604.16117 (cross-listed)
Authors: Alina Deriyeva, Jesper Dannath, Benjamin Paassen
Subjects: cs.LG; cs.AI
Tags: Education Technology
Venue: AIED 2025
Summary: 本文介绍SCRIPT，一个符合欧洲数据保护法规的Python编程智能辅导系统。该系统提供个性化提示，作为教学和研究平台，并支持接入LLM提示机制。

[144] Can LLMs Understand the Impact of Trauma? Costs and Benefits of LLMs Coding the Interviews of Firearm Violence Survivors

arXiv: 2604.16132 (cross-listed)
Authors: Jessica H. Zhu, Shayla Stringfield, Vahe Zaprosyan, Michael Wagner, Michel Cukier, Joseph B. Richardson Jr
Subjects: cs.CL; cs.AI
Tags: LLM Evaluation, AI Ethics, Information Extraction
Venue: ACL 2026 Findings
Summary: 本研究评估开源LLM对枪支暴力幸存者访谈进行归纳编码的能力。结果显示，虽然某些LLM配置能识别重要编码，但整体相关性较低，且LLM防护栏导致大量叙述被删除，凸显了在边缘群体研究中应用AI的伦理挑战。

[145] Training Time Prediction for Mixed Precision-based Distributed Training

arXiv: 2604.16145 (cross-listed)
Authors: Minchul Kang, Changyong Shin, Jinwoo Jeong, Hyunho Lee, Younghun Go, Gyeongmin Kim, Gyeongsik Yang, Chuck Yoo
Subjects: cs.LG; cs.AI; cs.DC; cs.PF
Tags: Distributed Training, LLM Training
Summary: 本文提出了一种精度感知的分布式训练时间预测器，考虑了混合精度设置对训练时间的影响，将平均绝对百分比误差从147.85%降低到9.8%。

[146] SWNet: A Cross-Spectral Network for Camouflaged Weed Detection

arXiv: 2604.16147 (cross-listed)
Authors: Henry O. Velesaca, Luigi Miranda, Angel D. Sappa
Subjects: cs.CV; cs.AI
Tags: Object Detection, Agricultural AI, Image Segmentation
Summary: 本文提出了SWNet，一种双模态跨光谱网络，利用可见光和近红外信息结合Pyramid Vision Transformer v2骨干网络，用于检测农业环境中伪装的杂草。

[147] AtManRL: Towards Faithful Reasoning via Differentiable Attention Saliency

arXiv: 2604.16158 (cross-listed)
Authors: Max Henning Höth, Kristian Kersting, Björn Deiseroth, Letitia Parcalabescu
Subjects: cs.CL; cs.AI; cs.LG
Tags: LLM Reasoning, Interpretability, Reinforcement Learning
Summary: 本文提出了AtManRL方法，通过可微分注意力操纵和强化学习来训练LLM生成更忠实的思维链推理轨迹，使推理过程真正影响最终预测。

[148] JumpLoRA: Sparse Adapters for Continual Learning in Large Language Models

arXiv: 2604.16171 (cross-listed)
Authors: Alexandra Dragomir, Ioana Pintilie, Antonio Barbalau, Marius Dragoi, Florin Brad, Cristian Daniel Paduraru, Alexandru Tifrea, Elena Burceanu, Radu Tudor Ionescu
Subjects: cs.LG; cs.AI; cs.CL
Tags: Continual Learning, Parameter-Efficient Fine-Tuning
Summary: 本文提出了JumpLoRA框架，通过JumpReLU门控机制在LoRA块中自适应地引入稀疏性，实现动态参数隔离以防止任务干扰，在持续学习中优于ELLA等现有方法。

[149] Synthetic data in cryptocurrencies using generative models

arXiv: 2604.16182 (cross-listed)
Authors: André Saimon S. Sousa, Otto Pires, Frank Acasiete, Oscar M. Granados, Valéria Loureiro da Silva, Hugo Saba
Subjects: cs.LG; cs.AI
Tags: Time Series Generation, Data Synthesis, Quantitative Finance
Summary: 本文提出使用条件生成对抗网络（CGAN）结合LSTM生成器和MLP判别器来生成加密货币价格时间序列的合成数据，能够保持市场趋势和动态特征。

[150] ChemGraph-XANES: An Agentic Framework for XANES Simulation and Analysis

arXiv: 2604.16205 (cross-listed)
Authors: Vitor F. Grizzi, Thang Duc Pham, Luke N. Pretzie, Jiayi Xu, Murat Keceli, Cong Liu
Subjects: cs.AI
Tags: LLM Agent, Scientific Computing, Material Discovery
Summary: 本文提出了ChemGraph-XANES，一个用于自动化XANES模拟和分析的智能体框架，利用LLM智能体编排工作流程操作，支持自然语言任务规范和高通量计算。

[151] AIFIND: Artifact-Aware Interpreting Fine-Grained Alignment for Incremental Face Forgery Detection

arXiv: 2604.16207 (cross-listed)
Authors: Hao Wang, Beichen Zhang, Yanpei Gong, Shaoyi Fang, Zhaobo Qi, Yuanrong Xu, Xinyan Liu, Weigang Zhang
Subjects: cs.CV; cs.AI
Tags: Deepfake Detection, Continual Learning
Summary: 本文提出了AIFIND方法用于增量式人脸伪造检测，通过从低级伪影线索构建语义锚点并使用注意力机制约束特征空间，有效缓解灾难性遗忘问题。

[152] Beyond Surface Statistics: Robust Conformal Prediction for LLMs via Internal Representations

arXiv: 2604.16217 (cross-listed)
Authors: Yanli Wang, Peng Kuang, Xiaoyu Han, Kaidi Xu, Haohan Wang
Subjects: cs.CL; cs.AI
Tags: Uncertainty Estimation, LLM Evaluation, Question Answering
Summary: 本文提出了一种用于LLM问答的共形预测框架，使用内部层间信息分数作为非一致性度量，在分布偏移下实现了比文本级基线更好的有效性-效率权衡。

[153] "Taking Stock at FAccT": Using Participatory Design to Co-Create a Vision for the Fairness, Accountability and Transparency Community

arXiv: 2604.16224 (cross-listed)
Authors: Shiran Dudy, Jan Simson, Yanan Long
Subjects: cs.HC; cs.AI; cs.CY
Tags: AI Ethics, AI Governance, Human-Computer Interaction
Venue: FAccT 2026
Summary: 本文报告了ACM FAccT会议的大规模参与式设计过程，结合线下会议和异步投票来共同创建会议治理愿景，促进了对AI社会影响的批判性讨论。

[154] Neuro-Symbolic ODE Discovery with Latent Grammar Flow

arXiv: 2604.16232 (cross-listed)
Authors: Karin Yu, Eleni Chatzi, Georgios Kissas
Subjects: cs.LG; cs.AI; cs.CE; cs.SC
Tags: Neurosymbolic AI, Scientific Computing, Symbolic Regression
Summary: 本文引入了潜在语法流（LGF），一种神经符号生成框架，用于从数据中发现常微分方程，将方程嵌入为基于语法的离散潜在表示并通过流模型引导采样。

[155] A Two-Stage, Object-Centric Deep Learning Framework for Robust Exam Cheating Detection

arXiv: 2604.16234 (cross-listed)
Authors: Van-Truong Le, Le-Khanh Nguyen, Trong-Doanh Nguyen
Subjects: cs.CV; cs.AI
Tags: Object Detection, Education Technology
Venue: FJCAI 2026
Summary: 本文提出了一种两阶段考试作弊检测框架，使用YOLOv8n进行学生定位和RexNet-150进行行为分类，在27万样本数据集上达到95%准确率。

[156] BAGEL: Benchmarking Animal Knowledge Expertise in Language Models

arXiv: 2604.16241 (cross-listed)
Authors: Jiacheng Shen, Masato Hagiwara, Milad Alizadeh, Ellen Gilsenan-McMahon, Marius Miron, David Robinson, Emmanuel Chemla, Sara Keen, Gagan Narula, Mathieu Laurière, Matthieu Geist, Olivier Pietquin
Subjects: cs.CL; cs.AI
Tags: Benchmark, LLM Evaluation, Knowledge Representation
Summary: 本文介绍了BAGEL基准测试，用于评估语言模型在动物相关知识方面的专业知识，涵盖分类学、形态学、栖息地、行为等多个方面，支持闭卷评估。

[157] Joint-Centric Dual Contrastive Alignment with Structure-Preserving and Information-Balanced Regularization

arXiv: 2604.16247 (cross-listed)
Authors: Habibeh Naderi, Behrouz Haji Soleimani, Stan Matwin
Subjects: cs.LG; cs.AI
Tags: Multimodal Learning, Speech Processing, Representation Learning
Summary: 本文提出了HILBERT框架，一种跨注意力多模态方法，用于在低资源数据设置下学习文档级音频-文本表示，采用双重对比对齐和混合专家分类器。

[158] Beyond Distribution Sharpening: The Importance of Task Rewards

arXiv: 2604.16259 (cross-listed)
Authors: Sarthak Mittal, Leo Gagnon, Guillaume Lajoie
Subjects: cs.LG; cs.AI
Tags: Reinforcement Learning, LLM Training, RLHF
Summary: 本文对比了分布锐化与基于任务奖励的强化学习，从理论和实验上证明了任务奖励信号能够实现更稳定和显著的性能提升，而分布锐化存在固有局限性。

[159] From Benchmarking to Reasoning: A Dual-Aspect, Large-Scale Evaluation of LLMs on Vietnamese Legal Text

arXiv: 2604.16270 (cross-listed)
Authors: Van-Truong Le
Subjects: cs.CL; cs.AI
Tags: Legal AI, LLM Evaluation, Benchmark
Venue: FJCAI 2026
Summary: 本文引入了双方面评估框架来评估LLM在越南法律文本上的表现，结合性能基准测试和大规模错误分析，揭示了可读性与法律准确性之间的权衡。

[160] VEFX-Bench: A Holistic Benchmark for Generic Video Editing and Visual Effects

arXiv: 2604.16272 (cross-listed)
Authors: Xiangbo Gao, Sicong Jiang, Bangya Liu, Xinghao Chen, Minglai Yang, Siyuan Yang, Mingyang Wu, Jiongze Yu, Qi Zheng, Haozhi Wang, Jiayi Zhang, Jared Yang, Jie Yang, Zihan Wang, Qing Yin, Zhengzhong Tu
Subjects: cs.CV; cs.AI; cs.CL
Tags: Video Editing, Benchmark, Video Generation
Summary: 本文介绍了VEFX-Dataset数据集和VEFX-Reward奖励模型，用于视频编辑质量评估，包含5049个人工标注的编辑示例，覆盖9个主要编辑类别。

替换投稿 (118)

[161] Large Language Models for Market Research: A Data-augmentation Approach

arXiv: 2412.19363 (replaced)
Authors: Mengxin Wang, Dennis J. Zhang, Heng Zhang
Subjects: cs.AI; cs.LG; stat.ME; stat.ML
Tags: Data Augmentation, User Simulation
Summary: 本文提出了一种统计数据增强方法，将LLM生成的数据与真实数据有效结合用于联合分析，解决了直接替代带来的偏差问题。实验表明该方法能显著减少估计误差并节省数据和成本，而简单的替代方法则因固有偏差而失效。

[162] WiseMind: a knowledge-guided multi-agent framework for accurate and empathetic psychiatric diagnosis

arXiv: 2502.20689 (replaced)
Authors: Yuqi Wu, Guangya Wan, Jingjing Li, Shengming Zhao, Lingfeng Ma, Tianyi Ye, Ion Pop, Yanbo Zhang, Jie Chen
Subjects: cs.AI; cs.CL
Tags: Medical AI, LLM Agent, Multi-Agent System
Venue: npj Digital Medicine 2026
Summary: 本文提出了WiseMind多智能体框架，结合理性与情感思维智能体进行精神病学评估，并利用DSM-5知识图谱指导诊断。该系统在模拟和真实交互数据中均取得了优于现有方法的诊断准确率，接近专业医生水平。

[163] Agentic AI Optimisation (AAIO): what it is, how it works, why it matters, and how to deal with it

arXiv: 2504.12482 (replaced)
Authors: Luciano Floridi, Carlotta Buttaboni, Nicolas Gertler, Emmie Hine, Jessica Morley, Claudio Novelli, Tyler Schroder
Subjects: cs.AI
Tags: LLM Agent, AI Ethics, AI Governance
Summary: 文章介绍了智能体AI优化（AAIO）作为一种确保网站与智能体AI系统有效集成的新方法论。作者探讨了AAIO在治理、伦理、法律和社会方面的影响，并主张建立积极的监管框架以确保公平和包容的访问。

[164] AI Agents and Hard Choices

arXiv: 2504.15304 (replaced)
Authors: Kangyu Wang
Subjects: cs.AI
Tags: LLM Agent, Decision Making, LLM Alignment
Venue: ACM FAccT 2026
Summary: 本文探讨了AI智能体在面对不可通约选项时的“艰难选择”问题，指出了当前基于多目标优化的智能体存在识别和解决能力的结构性局限。作者分析了由此产生的对齐问题，并提出了集成解决方案以及关于赋予AI自主权的规范性权衡。

[165] Dynamic Sampling that Adapts: Self-Aware Iterative Data Persistent Optimization for Mathematical Reasoning

arXiv: 2505.16176 (replaced)
Authors: Jun Rao, Xuebo Liu, Hexuan Deng, Zepeng Lin, Zixiong Yu, Jiansheng Wei, Xiaojun Meng, Min Zhang
Subjects: cs.AI; cs.CL
Tags: Mathematical Reasoning, Data Selection, LLM Training
Venue: ACL 2026 Findings
Summary: 本文提出了SAI-DPO动态采样框架，通过知识语义对齐和自我感知难度指标，使训练数据与模型能力动态对齐。实验证明该方法在数学推理任务上优于静态基线，显著提高了训练效率。

[166] TabularMath: Understanding Math Reasoning over Tables with Large Language Models

arXiv: 2505.19563 (replaced)
Authors: Shi-Yu Tian, Zhi Zhou, Wei Dong, Kun-Yang Yu, Ming Yang, Zi-Jian Cheng, Lan-Zhe Guo, Yu-Feng Li
Subjects: cs.AI; cs.CL
Tags: Mathematical Reasoning, Table Reasoning, Benchmark
Venue: ACL 2026
Summary: 本文提出了AutoT2T框架和TabularMath基准，用于评估大语言模型在表格数据上的数学推理能力。研究揭示了表格复杂度、质量及模态对推理性能的影响，并指出了当前模型在处理低质量表格时的风险。

[167] Persona-Assigned Large Language Models Exhibit Human-Like Motivated Reasoning

arXiv: 2506.20020 (replaced)
Authors: Saloni Dash, Amélie Reymond, Emma S. Spiro, Aylin Caliskan
Subjects: cs.AI; cs.CL
Tags: LLM Reasoning, Bias Mitigation, LLM Evaluation
Venue: ACL 2026 Findings
Summary: 研究发现，被赋予特定角色的LLM会表现出类似人类的动机性推理偏见，导致在辨别虚假信息和评估科学证据时的准确性下降。实验表明，这种偏见在政治相关角色中尤为明显，且常规的提示去偏方法难以有效缓解。

[168] Deliberative Searcher: Improving LLM Reliability via Reinforcement Learning with constraints

arXiv: 2507.16727 (replaced)
Authors: Zhenyun Yin, Shujie Wang, Xuhong Wang, Xingjun Ma, Yinchun Wang
Subjects: cs.AI
Tags: Question Answering, Reinforcement Learning, RAG
Venue: ACL 2026
Summary: 本文提出了Deliberative Searcher框架，首次将确定性校准与基于检索的搜索相结合，用于开放域问答。该智能体通过强化学习算法在可靠性约束下优化准确性，有效提高了模型置信度与正确性的一致性。

[169] Revisiting the Uniform Information Density Hypothesis in LLM Reasoning

arXiv: 2510.06953 (replaced)
Authors: Minju Gwak, Guijin Son, Jaehyung Kim
Subjects: cs.AI; cs.CL
Tags: LLM Reasoning, Information Theory, LLM Evaluation
Venue: ACL 2026 Findings
Summary: 本文重新审视了LLM推理中的均匀信息密度假设，发现高质量推理在局部表现出信息流的平滑过渡，而在轨迹层面则呈现结构化的非均匀性。研究表明，这种信息分布特征优于其他内部信号，可作为推理质量的有效预测指标。

[170] EvoTest: Evolutionary Test-Time Learning for Self-Improving Agentic Systems

arXiv: 2510.13220 (replaced)
Authors: Yufei He, Juncheng Liu, Yue Liu, Yibo Li, Tri Cao, Zhiyuan Hu, Xinxing Xu, Bryan Hooi
Subjects: cs.AI; cs.CL
Tags: LLM Agent, Test-Time Adaptation, Evolutionary Computation
Venue: ICLR 2026
Summary: 本文提出了J-TTL基准和EvoTest框架，旨在解决AI智能体在测试时无法即时学习复杂技能的局限性。EvoTest通过进化算法在无需微调的情况下动态调整智能体配置，显著提升了其在连续任务中的表现。

[171] Distribution Shift Alignment Helps LLMs Simulate Survey Response Distributions

arXiv: 2510.21977 (replaced)
Authors: Ji Huang, Mengfei Li, Shuai Shao
Subjects: cs.AI
Tags: User Simulation, Data Synthesis
Summary: 本文提出了分布偏移对齐（DSA）方法，通过学习分布变化而非拟合训练数据，显著提升了LLM模拟人类调查回复的能力。实验证明DSA在减少所需真实数据量的同时，提供了比训练数据更接近真实分布的结果。

[172] VeriMoA: A Mixture-of-Agents Framework for Spec-to-HDL Generation

arXiv: 2510.27617 (replaced)
Authors: Heng Ping, Arijit Bhattacharjee, Peiyu Zhang, Shixuan Li, Wei Yang, Anzhe Cheng, Xiaole Zhang, Jesse Thomason, Ali Jannesari, Nesreen Ahmed, Paul Bogdan
Subjects: cs.AI
Tags: RTL Generation, LLM Agent, Code Generation
Summary: 本文提出了VeriMoA框架，一种用于规范到HDL生成的免训练智能体混合架构。该框架通过质量引导的缓存机制和多路径生成策略，有效解决了现有方法中的噪声传播和推理空间受限问题，显著提升了生成成功率。

[173] Towards Understanding, Analyzing, and Optimizing Agentic AI Execution: A CPU-Centric Perspective

arXiv: 2511.00739 (replaced)
Authors: Ritik Raj, Souvik Kundu, Ishita Vohra, Hong Wang, Tushar Krishna
Subjects: cs.AI; cs.LG; cs.MA
Tags: LLM Agent, LLM Serving, Heterogeneous Computing
Summary: 本文从以CPU为中心的视角分析了智能体AI工作负载的系统瓶颈，并提出了两种调度优化方法：CPU感知重叠微批处理（COMB）和混合智能体调度（MAS）。实验结果表明，这些方法显著降低了延迟并提高了CPU-GPU的并发利用率。

[174] MM-Telco: Benchmarks and Multimodal Large Language Models for Telecom Applications

arXiv: 2511.13131 (replaced)
Authors: Anshul Kumar, Gagan Raj Gupta, Manish Rai, Apu Chakraborty, Ashutosh Modi, Abdelaali Chaoub, Soumajit Pramanik, Moyank Giri, Yashwanth Holla, Sunny Kumar, M. V. Kiran Sooraj
Subjects: cs.AI; cs.CV; cs.ET; cs.NI
Tags: Benchmark, Vision-Language Model, Wireless Networks
Summary: 本文提出了MM-Telco，一套专为电信领域定制的多模态基准和模型，旨在解决LLM在该领域部署时面临的特定挑战。该基准涵盖了网络运营、管理和文档质量等多种任务，实验表明微调后的模型性能显著提升。

[175] Cost-Aware Model Orchestration for LLM-based Systems

arXiv: 2512.01099 (replaced)
Authors: Daria Smirnova, Hamid Nasiri, Marta Adamska, Zhengxin Yu, Peter Garraghan
Subjects: cs.AI
Tags: LLM Serving, Energy Efficiency, Algorithm Selection
Venue: EuroMLSys 2026
Summary: 本文提出了一种考虑性能-成本权衡的成本感知模型选择方法，用于改进LLM编排系统中的决策过程。实验结果显示，该方法不仅提高了任务准确性，还显著提升了能效并降低了选择延迟。

[176] AscendKernelGen: A Systematic Study of LLM-Based Kernel Generation for Neural Processing Units

arXiv: 2601.07160 (replaced)
Authors: Xinzi Cao, Jianyang Zhai, Pengfei Li, Zhiheng Hu, Cen Yan, Bingxu Mu, Guanghuan Fang, Bin She, Jiayu Li, Yihan Su, Dongyang Tao, Xiansong Huang, Fan Xu, Feidiao Yang, Yao Lu, Chang-Dong Wang, Yutong Lu, Weicheng Xue, Bin Zhou, Yonghong Tian
Subjects: cs.AI; cs.LG
Tags: Code Generation, Hardware Acceleration, Benchmark
Code: code
Summary: 本文提出了AscendKernelGen框架，用于神经处理单元（NPU）的内核生成，解决了通用LLM在特定硬件领域代码生成上的不足。该框架结合了高质量数据集、领域自适应模型和综合基准测试，显著提升了复杂内核的编译成功率和功能正确性。

[177] Protecting Language Models Against Unauthorized Distillation through Trace Rewriting

arXiv: 2602.15143 (replaced)
Authors: Xinhang Ma, William Yeoh, Ning Zhang, Yevgeniy Vorobeychik
Subjects: cs.AI; cs.CL
Tags: Knowledge Distillation, LLM Security, Watermarking
Code: code
Summary: 本文研究如何通过修改教师模型生成的推理轨迹来防止未授权的知识蒸馏，提出了反蒸馏和API水印两种方法。实验表明，基于指令的重写方法在保持教师模型性能的同时实现了强反蒸馏效果，并能可靠地嵌入可验证的水印签名。

[178] The Informational Cost of Agency: A Bounded Measure of Interaction Efficiency for Deployed Reinforcement Learning

arXiv: 2603.01283 (replaced)
Authors: Wael Hafez, Cameron Reid, Amit Nazeri
Subjects: cs.AI; cs.LG
Tags: Reinforcement Learning, Uncertainty Estimation, Monitoring
Summary: 本文引入了双向可预测性(P)作为部署RL代理的监控指标，并提出了信息数字孪生(IDT)架构来实时计算该指标。实验表明，基于IDT的监控能检测89.3%的耦合退化，延迟比基于奖励的监控低4.4倍。

[179] vla-eval: A Unified Evaluation Harness for Vision-Language-Action Models

arXiv: 2603.13966 (replaced)
Authors: Suhwan Choi, Yunsung Lee, Yubeen Park, Chris Dongjoo Kim, Ranjay Krishna, Dieter Fox, Youngjae Yu
Subjects: cs.AI
Tags: Vision-Language Model, Benchmark, LLM Evaluation
Code: code
Summary: 本文提出了vla-eval，一个开源的视觉-语言-动作模型评估框架，通过WebSocket协议和Docker环境隔离解耦模型推理与基准执行。该框架支持14个仿真基准和6个模型服务器，通过并行评估实现高达47倍的加速。

[180] Seed1.8 Model Card: Towards Generalized Real-World Agency

arXiv: 2603.20633 (replaced)
Authors: Bytedance Seed
Subjects: cs.AI
Tags: LLM Agent, Foundation Model, Multimodal Learning
Summary: 本文介绍了Seed1.8，一个面向通用现实世界代理能力的基础模型，支持多轮交互、工具使用和多步执行。该模型在保持强大LLM和视觉语言性能的同时，提供统一的代理接口，包括搜索、代码生成执行和GUI交互。

[181] ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

arXiv: 2603.24621 (replaced)
Authors: ARC Prize Foundation
Subjects: cs.AI
Tags: Benchmark, LLM Agent, LLM Evaluation
Summary: 本文介绍了ARC-AGI-3，一个用于评估代理智能的交互式基准，包含新颖的抽象回合制环境。测试显示人类可以解决100%的环境，而前沿AI系统得分低于1%，揭示了流体自适应智能方面的显著差距。

[182] From Multi-Agent to Single-Agent: When Is Skill Distillation Beneficial?

arXiv: 2604.01608 (replaced)
Authors: Binyan Xu, Dong Fang, Haitao Li, Kehuan Zhang
Subjects: cs.AI
Tags: Multi-Agent System, Knowledge Distillation, LLM Agent
Summary: 本文研究了将多代理系统蒸馏为单代理技能的条件，引入了度量自由度(F)作为技能效用的预测器。作者提出了AdaSkill自适应蒸馏框架，在成本降低8倍、延迟降低15倍的同时达到或超越原始多代理系统性能。

[183] COMPOSITE-Stem

arXiv: 2604.09836 (replaced)
Authors: Kyle Waters, Lucas Nuzzi, Tadhg Looram, Alessandro Tomasiello, Ariel Ghislain Kemogne Kamdoum, Bikun Li, Damien Sileo, Egor Kretov, Francesco Fournier-Facio, Georgios Soloupis, Haile Kassahun, Hew Wolff, Jiaqi Cai, Lianghui Li, Marc Roth, Mohinder Naiya, Naixu Guo, Qicheng Tang, Richard Wheeler, Samuele Sala, Serguei Popov, Steven Dillmann, Yuqi Li
Subjects: cs.AI; cs.CL; cs.LG
Tags: Benchmark, Scientific Reasoning, LLM Agent
Summary: 本文介绍了COMPOSITE-STEM，一个包含70个物理、生物、化学和数学专家编写任务的基准，用于评估AI代理的科学推理能力。表现最好的模型仅达到21%，表明该基准捕捉到了当前代理能力之外的能力。

[184] The Amazing Agent Race: Strong Tool Users, Weak Navigators

arXiv: 2604.10261 (replaced)
Authors: Zae Myung Kim, Dongseok Lee, Jaehyung Kim, Vipul Raheja, Dongyeop Kang
Subjects: cs.AI; cs.CL; cs.LG
Tags: LLM Agent, Benchmark, Tool Learning
Summary: 本文介绍了The Amazing Agent Race基准，包含具有分叉-合并工具链的DAG谜题，用于评估LLM代理的导航和工具使用能力。结果显示代理擅长工具使用但导航能力薄弱，揭示了线性基准无法发现的盲点。

[185] Anthropogenic Regional Adaptation in Multimodal Vision-Language Model

arXiv: 2604.11490 (replaced)
Authors: Samuel Cahyawijaya, Peerat Limkonchotiwat, Tack Hwa Wong, Hitesh Laxmichand Patel, Amit Agarwal, Manuel Antonio Rufino, Carlos Rafael Catalan, Muhammad Reza Qorib, Vicky Feliren, Holy Lovenia, Aye Hninn Khine, Frederikus Hudi, David Anugraha, Alham Fikri Aji, Romrawin Chumpu, Viet-Thanh Pham, Minghan Wang, Mohamed Fazli Imam, Ruochen Zhang, Joseph Marvin Imperial, Khumaisa Nur'aini, Do Xuan Long, Musa Izzanardi Wijanarko, Joel Ruben Antony Moniz, Patrick Amadeus Irawan, Hanif Muhammad Zhafran, Isaiah Flores, Salsabila Zahirah Pranida, Jun Kevin, Jostin Jerico Rosal, Patricia Nicole Monderin, Kun Kerdthaisong, Ahmad Mustafid, My Chiffon Nguyen, Natchapon Jongwiriyanurak, Siva Worajitwannakul, Haochen Li, Adrian Xuan Wei Lim, Bin Wang, Muhammad Ravi Shulthan Habibi, Lynnette Hui Xian Ng, Mithil Bangera, Yeshil Bangera, Priyaranjan Pattnayak, Dun Li Chan, Sherissa Caren Djuniwar, Cho Chan Myei Oo, Hee Ming Shan
Subjects: cs.AI; cs.CL; cs.CV
Tags: Vision-Language Model, Domain Adaptation, Multimodal Learning
Summary: 本文引入了人类区域适应范式，旨在优化视觉语言模型对特定区域语境的相关性，同时保持全局泛化能力。提出的GG-EZ方法在东南亚区域文化相关性指标上提升5-15%，同时保持超过98%的全局性能。

[186] Heuristic Classification of Thoughts Prompting (HCoT): Integrating Expert System Heuristics for Structured Reasoning into Large Language Models

arXiv: 2604.12390 (replaced)
Authors: Lei Lin, Jizhao Zhu, Yong Liu, Donghong Sun, Hongbo He, Yihua Du
Subjects: cs.AI
Tags: Prompt Engineering, LLM Reasoning, In-Context Learning
Summary: 本文提出了启发式思维分类提示(HCoT)，将专家系统启发式与LLM推理相结合，解决随机生成和静态解耦的局限性。HCoT在复杂归纳推理任务上优于现有方法，同时在准确性和令牌使用上实现了帕累托最优平衡。

[187] Mind DeepResearch Technical Report

arXiv: 2604.14518 (replaced)
Authors: MindDR Team, Li Auto Inc
Subjects: cs.AI
Tags: LLM Agent, Multi-Agent System, Data Synthesis
Summary: 本文介绍了Mind DeepResearch，一个高效的多代理深度研究框架，通过精心设计的数据合成和多阶段训练流水线，仅用约30B参数模型就实现了领先性能。系统在多个基准上超越同类开源代理系统，并已部署为在线产品。

[188] Targeted Exploration via Unified Entropy Control for Reinforcement Learning

arXiv: 2604.14646 (replaced)
Authors: Chen Wang, Lai Wei, Yanzhi Zhang, Chenyang Shao, Zedong Dan, Weiran Huang, Ge Lan, Yue Wang
Subjects: cs.AI
Tags: Reinforcement Learning, LLM Reasoning, LLM Training
Venue: ACL 2026
Code: code
Summary: 本文提出了UEC-RL框架，为LLM和VLM的强化学习训练提供针对性的探索和稳定化机制。该方法在Geometry3K上相比GRPO实现了37.9%的相对提升，在不损害收敛的情况下维持了有效探索。

[189] COEVO: Co-Evolutionary Framework for Joint Functional Correctness and PPA Optimization in LLM-Based RTL Generation

arXiv: 2604.15001 (replaced)
Authors: Heng Ping, Peiyu Zhang, Shixuan Li, Wei Yang, Anzhe Cheng, Shukai Duan, Xiaole Zhang, Paul Bogdan
Subjects: cs.AI
Tags: RTL Generation, Code Generation, LLM Reasoning
Summary: 本文提出了COEVO协同进化框架，在LLM驱动的RTL代码生成中统一功能正确性和PPA优化。该框架在基准测试中达到97.5%和94.5%的Pass@1，并在49个可综合设计中的43个上获得最佳PPA。

[190] Deep Learning Based Amharic Chatbot for FAQs in Universities

arXiv: 2402.01720 (replaced)
Authors: Goitom Ybrah Hailu, Hadush Hailu, Shishay Welay
Subjects: cs.CY; cs.AI; cs.CL; cs.LG
Tags: Dialogue System, Low-Resource NLP, Question Answering
Summary: 本文提出了一个使用自然语言处理和深度学习技术回答阿姆哈拉语大学常见问题的聊天机器人模型。深度学习模型达到91.55%的准确率，并已集成到Facebook Messenger实现24小时可访问性。

[191] Automatic Combination of Sample Selection Strategies for Few-Shot Learning

arXiv: 2402.03038 (replaced)
Authors: Branislav Pecher, Ivan Srba, Maria Bielikova, Joaquin Vanschoren
Subjects: cs.LG; cs.AI; cs.CL
Tags: Few-Shot Learning, In-Context Learning, Data Selection
Venue: ACL 2026
Summary: 本文提出了ACSESS方法，用于自动组合样本选择策略以进行少样本学习。该方法在多个模型和数据集上始终优于所有单独的选择策略，并与专门针对上下文学习的基线相当或更优。

[192] DASB -- Discrete Audio and Speech Benchmark

arXiv: 2406.14294 (replaced)
Authors: Pooneh Mousavi, Jarod Duret, Darius Petermann, Artem Ploujnikov, Luca Della Libera, Anastasia Kuznetsova, Cem Subakan, Mirco Ravanelli
Subjects: cs.SD; cs.AI; eess.AS
Tags: Speech Processing, Benchmark, Multimodal Learning
Summary: 本文介绍了DASB，一个用于评估离散音频标记在语音、通用音频和音乐领域表现的综合性基准框架。结果表明离散表示不如连续表示稳健，语义标记通常优于声学标记，但与连续特征之间仍存在差距。

[193] Subjective and Objective Quality-of-Experience Evaluation Study for Live Video Streaming

arXiv: 2409.17596 (replaced)
Authors: Zehao Zhu, Wei Sun, Jun Jia, Wei Wu, Sibin Deng, Kai Li, Ying Chen, Xiongkuo Min, Jia Wang, Guangtao Zhai
Subjects: cs.MM; cs.AI; eess.IV
Tags: Video Streaming, Video Quality Assessment
Summary: 本文介绍了首个直播视频流QoE数据集TaoLive QoE，包含42个源视频和1155个失真视频，并提出了Tao-QoE端到端评估模型，该模型融合多尺度语义特征和光流运动特征来预测QoE分数。

[194] Prices, Bids, Values: One ML-Powered Combinatorial Auction to Rule Them All

arXiv: 2411.09355 (replaced)
Authors: Ermis Soumalias, Jakob Heiss, Jakob Weissteiner, Sven Seuken
Subjects: cs.GT; cs.AI; cs.LG
Tags: Combinatorial Optimization, Multi-Agent System
Venue: ICML 2025
Code: code
Summary: 本文提出了MLHCA，一种新型机器学习驱动的组合拍卖算法，通过结合价值查询和需求查询，相比现有最优方法将效率损失降低至多10倍，同时减少58%的查询次数。

[195] VeriGraph: Scene Graphs for Execution Verifiable Robot Planning

arXiv: 2411.10446 (replaced)
Authors: Daniel Ekpo, Mara Levy, Saksham Suri, Chuong Huynh, Archana Swaminathan, Abhinav Shrivastava
Subjects: cs.RO; cs.AI
Tags: Robotics, LLM Agent, Scene Graph
Venue: ICRA 2026
Summary: 本文提出VeriGraph框架，利用场景图作为中间表示来验证和修正LLM任务规划器生成的动作序列，在语言任务、拼图任务和图像任务上分别比基线方法提升58%、56%和30%的任务完成率。

[196] Transformer Neural Processes - Kernel Regression

arXiv: 2411.12502 (replaced)
Authors: Daniel Jenson, Jhonathan Navott, Mengyan Zhang, Makkunda Sharma, Elizaveta Semenova, Seth Flaxman
Subjects: cs.LG; cs.AI; stat.ML
Tags: Neural Process, Transformer Architecture
Summary: 本文提出了TNP-KR，一种可扩展的神经过程模型，通过引入核回归块和新型注意力机制实现O(n_c² + n_c n_t)复杂度，可在单张24GB GPU上对100K上下文点和100万测试点进行推理。

[197] Opportunities and Challenges of Large Language Models for Low-Resource Languages in Humanities Research

arXiv: 2412.04497 (replaced)
Authors: Tianyang Zhong, Zhenyuan Yang, Zhengliang Liu, Ruidong Zhang, Weihang You, Yiheng Liu, Haiyang Sun, Yi Pan, Yiwei Li, Yifan Zhou, Hanqi Jiang, Junhao Chen, Xiang Li, Tianming Liu
Subjects: cs.CL; cs.AI
Tags: Low-Resource NLP, Linguistic Resource
Summary: 本文系统评估了LLM在低资源语言研究中的应用，涵盖语言变异、历史文献、文化表达和文学分析，识别了数据可及性、模型适应性和文化敏感性等关键挑战。

[198] When Cultures Meet: Multicultural Text-to-Image Generation

arXiv: 2502.15972 (replaced)
Authors: Parth Bhalerao, Mounika Yalamarty, Brian Trinh, Oana Ignat
Subjects: cs.CV; cs.AI
Tags: Text-to-Image, Multimodal Learning
Code: code
Summary: 本文将多文化文本到图像生成作为新任务，构建了包含9000张图像的基准数据集，并提出了MosAIG多智能体框架，利用具有不同文化角色的LLM来增强多文化图像生成。

[199] FSPO: Few-Shot Optimization of Synthetic Preferences Personalizes to Real Users

arXiv: 2502.19312 (replaced)
Authors: Anikait Singh, Sheryl Hsu, Kyle Hsu, Eric Mitchell, Stefano Ermon, Tatsunori Hashimoto, Archit Sharma, Chelsea Finn
Subjects: cs.LG; cs.AI; cs.CL; cs.HC; stat.ML
Tags: LLM Personalization, Reinforcement Learning
Summary: 本文提出FSPO算法，将奖励建模重构为元学习问题，使LLM能够从少量标注偏好中快速推断个性化奖励函数，在合成用户上达到87%胜率，在真实用户上达到70%胜率。

[200] A PennyLane-Centric Dataset to Enhance LLM-based Quantum Code Generation using RAG

arXiv: 2503.02497 (replaced)
Authors: Abdul Basit, Nouhaila Innan, Muhammad Haider Asif, Minghao Shao, Muhammad Kashif, Alberto Marchisio, Muhammad Shafique
Subjects: cs.SE; cs.AI
Tags: Code Generation, RAG, Quantum Computing
Venue: IJCNN 2026
Summary: 本文介绍了PennyLang数据集，包含3347个PennyLane量子代码样本，通过RAG管道验证该数据集可将Qwen 7B的成功率从8.7%提升至41.7%，显著改善量子代码生成性能。

[201] Enhancing Visual Representation with Textual Semantics: Textual Semantics-Powered Prototypes for Heterogeneous Federated Learning

arXiv: 2503.13543 (replaced)
Authors: Xinghao Wu, Jianwei Niu, Xuefeng Liu, Guogang Zhu, Jiayuan Zhang, Shaojie Tang, Wei Chen
Subjects: cs.LG; cs.AI
Tags: Federated Learning, Vision-Language Model
Venue: CVPR 2026
Summary: 本文提出FedTSP方法，利用预训练语言模型从文本模态构建语义增强的原型，有效缓解联邦学习中的数据异构性问题并显著加速收敛。

[202] Scalable Multi-Task Learning through Spiking Neural Networks with Adaptive Task-Switching Policy for Intelligent Autonomous Agents

arXiv: 2504.13541 (replaced)
Authors: Rachmad Vidya Wicaksana Putra, Avaneesh Devkota, Muhammad Shafique
Subjects: cs.NE; cs.AI; cs.LG; cs.RO
Tags: Multi-Task Learning, Reinforcement Learning, Neuromorphic Computing
Venue: DAC 2026
Code: code
Summary: 本文提出SwitchMT方法，采用脉冲神经网络和自适应任务切换策略进行多任务学习，在多个Atari游戏中取得竞争性分数，同时实现低功耗运行。

[203] Interpretable Traces, Unexpected Outcomes: Investigating the Disconnect in Trace-Based Knowledge Distillation

arXiv: 2505.13792 (replaced)
Authors: Siddhant Bhambri, Upasana Biswas, Subbarao Kambhampati
Subjects: cs.CL; cs.AI
Tags: Knowledge Distillation, LLM Reasoning, Interpretability
Venue: ACL 2026
Summary: 本文研究了思维链追踪的正确性和可解释性，发现追踪正确性不能可靠预测最终答案正确性，冗长的R1追踪产生最佳模型性能但用户可解释性评分最低。

[204] ChemAmp: Amplified Chemistry Tools via Composable Agents

arXiv: 2505.21569 (replaced)
Authors: Zhucong Li, Powei Chang, Jin Xiao, Zhijian Zhou, Qianyu He, Jiaqing Liang, Fenglei Cao, Xu Yinghui, Yuan Qi
Subjects: cs.LG; cs.AI; cs.CL
Tags: LLM Agent, Molecular Generation
Venue: ACL 2026 Findings
Code: code
Summary: 本文提出ChemAmp框架，将化学工具动态组合为可构建块智能体来创建任务专用超级智能体，在四个核心化学任务上超越专业模型和通用LLM，同时减少94%的推理token成本。

[205] Theory of Mind in Action: The Instruction Inference Task in Dynamic Human-Agent Collaboration

arXiv: 2507.02935 (replaced)
Authors: Fardin Saad, Pradeep K. Murukannaiah, Munindar P. Singh
Subjects: cs.CL; cs.AI; cs.MA
Tags: LLM Agent, Human-Computer Interaction
Code: code
Summary: 本文引入指令推断任务来评估人机协作中的心智理论能力，并提出了Tomcat智能体，在解释不完整或模糊指令方面达到与人类参与者相当的性能。

[206] TriagerX: Dual Transformers for Bug Triaging Tasks with Content and Interaction Based Rankings

arXiv: 2508.16860 (replaced)
Authors: Md Afif Al Mamun, Gias Uddin, Lan Xia, Longyu Zhang
Subjects: cs.SE; cs.AI; cs.LG
Tags: Software Engineering, Bug Triaging
Summary: 本文提出TriagerX双Transformer架构用于缺陷分配，结合基于内容和基于交互的排序方法，在Top-1和Top-3开发者推荐准确率上提升超过10%，并已在工业环境中成功部署。

[207] The threat of analytic flexibility in using large language models to simulate human data

arXiv: 2509.13397 (replaced)
Authors: Jamie Cummins
Subjects: cs.CY; cs.AI
Tags: LLM Evaluation, Social Simulation
Summary: 本文研究了使用LLM创建硅样本时的分析灵活性威胁，发现不同的配置选择会显著改变硅样本与人类数据之间的对应关系结论，呼吁研究者关注这一问题。

[208] Intelligent Healthcare Imaging Platform: A VLM-Based Framework for Automated Medical Image Analysis and Clinical Report Generation

arXiv: 2509.13590 (replaced)
Authors: Samer Al-Hamadani
Subjects: eess.IV; cs.AI; cs.CV
Tags: Medical AI, Vision-Language Model, Report Generation
Summary: 本文提出了一个基于视觉语言模型的智能医疗影像平台，用于CT、MRI、X射线和超声等多种模态的自动化医学图像分析和临床报告生成，具有零样本学习能力。

[209] Multi-View Attention Multiple-Instance Learning Enhanced by LLM Reasoning for Cognitive Distortion Detection

arXiv: 2509.17292 (replaced)
Authors: Jun Seo Kim, Hyemi Kim, Woo Joo Oh, Hongjin Cho, Hochul Lee, Hye Hyeon Kim
Subjects: cs.CL; cs.AI
Tags: Medical AI, LLM Reasoning, Text Classification
Venue: ACL 2026
Summary: 该论文提出了一种结合大语言模型（LLM）和多示例学习（MIL）的新框架，用于检测认知扭曲。通过将话语分解为情绪、逻辑和行为组件，并利用多视图门控注意力机制进行分类，实验表明该方法在处理高解释歧义的扭曲时表现优异。

[210] Bridging the phenotype-target gap for molecular generation via multi-objective reinforcement learning

arXiv: 2509.21010 (replaced)
Authors: Haotian Guo, Hui Liu
Subjects: cs.LG; cs.AI
Tags: Molecular Generation, Drug Discovery, Reinforcement Learning
Code: code
Summary: 本文提出了SmilesGEN，一种基于变分自编码器（VAE）的生成模型，旨在通过联合建模药物扰动和转录反应来生成具有治疗潜力的药物分子。实验结果表明，该方法在生成分子的有效性、新颖性以及与已知配体的相似性方面均优于现有模型。

[211] OjaKV: Context-Aware Online Low-Rank KV Cache Compression

arXiv: 2509.21623 (replaced)
Authors: Yuxuan Zhu, David H. Yang, Mohammad Mohammadi Amiri, Keerthiram Murugesan, Tejaswini Pedapati, Pin-Yu Chen
Subjects: cs.CL; cs.AI; cs.LG
Tags: KV Cache, LLM Inference, Model Compression
Summary: 针对大语言模型中KV缓存的内存瓶颈问题，该论文提出了OjaKV框架，通过结合混合存储策略和在线子空间自适应技术来实现高效的KV缓存压缩。实验显示，该方法在高压缩率下保持了零样本准确率，特别适用于需要复杂推理的长上下文场景。

[212] WARBERT: A Hierarchical BERT-based Model for Web API Recommendation

arXiv: 2509.23175 (replaced)
Authors: Zishuo Xu, Yuhong Gu, Dezhong Yao
Subjects: cs.IR; cs.AI
Tags: Recommender System, Information Retrieval
Summary: 该论文提出了WARBERT，一种基于BERT的分层模型，用于Web API推荐，旨在解决语义歧义和计算效率低下的问题。通过结合推荐和匹配两个组件，该方法在ProgrammableWeb数据集上的准确率和效率均优于现有基线。

[213] Scaling Behaviors of LLM Reinforcement Learning Post-Training: An Empirical Study in Mathematical Reasoning

arXiv: 2509.25300 (replaced)
Authors: Zelin Tan, Hejia Geng, Xiaohang Yu, Mulei Zhang, Guancheng Wan, Yifan Zhou, Qiang He, Xiangyuan Xue, Heng Zhou, Yutao Fan, Zhongzhi Li, Zaibin Zhang, Guibin Zhang, Chen Zhang, Zhenfei Yin, Philip Torr, Lei Bai
Subjects: cs.LG; cs.AI
Tags: LLM Reasoning, Reinforcement Learning, Mathematical Reasoning
Venue: ACL 2026
Summary: 本文系统研究了在大语言模型强化学习后训练中的缩放行为，特别关注数学推理能力。通过对Qwen2.5模型系列的实验，揭示了模型规模、数据量和计算预算之间的相互作用，为高效扩展LLM推理能力提供了指导原则。

[214] RoleConflictBench: A Benchmark of Role Conflict Scenarios for Evaluating LLMs' Contextual Sensitivity

arXiv: 2509.25897 (replaced)
Authors: Jisu Shin, Hoyun Song, Juhyun Oh, Changgeon Ko, Eunsu Kim, Chani Jung, Alice Oh
Subjects: cs.CL; cs.AI; cs.CY
Tags: LLM Evaluation, Benchmark, Social Reasoning
Venue: ACL 2026 Findings
Summary: 该论文引入了RoleConflictBench基准，用于评估大语言模型在角色冲突场景下的上下文敏感性。研究发现，模型决策主要受特定社会角色的偏好主导，而非动态的上下文线索，偏离了客观基线。

[215] AISysRev -- LLM-based Tool for Title-abstract Screening

arXiv: 2510.06708 (replaced)
Authors: Aleksi Huotala, Miikka Kuutila, Olli-Pekka Turtio, Simo Sipilä, Mika Mäntylä
Subjects: cs.SE; cs.AI
Tags: Systematic Review, Text Classification
Venue: FSE 2026
Code: code
Summary: 本文介绍了AISysRev，一个基于大语言模型的系统综述筛选工具，能够通过并行处理快速筛选文献标题和摘要。该工具支持多种模型和提示策略，有效减轻了研究人员评估大量科学文献的负担。

[216] When Search Goes Wrong: Red-Teaming Web-Augmented Large Language Models

arXiv: 2510.09689 (replaced)
Authors: Haoran Ou, Kangjie Chen, Xingshuo Han, Gelei Deng, Jie Zhang, Han Qiu, Tianwei Zhang
Subjects: cs.CR; cs.AI
Tags: LLM Security, RAG, Adversarial Robustness
Summary: 该论文提出了CREST-Search框架，用于对具备网络搜索能力的大语言模型进行红队测试。通过生成看似良性的搜索查询来诱导不安全的引用，揭示了现有模型在整合网络信息时的安全漏洞。

[217] Revisiting Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning

arXiv: 2510.10959 (replaced)
Authors: Xiaoyun Zhang, Xiaojian Yuan, Di Huang, Wang You, Chen Hu, Jingqing Ruan, Ai Jian, Kejiang Chen, Xing Hu
Subjects: cs.LG; cs.AI; cs.CL; stat.ML
Tags: LLM Reasoning, Reinforcement Learning, Optimization
Summary: 针对大语言模型强化学习训练中常见的策略熵崩塌问题，本文提出了自适应熵正则化（AER）框架。该方法通过动态调整探索与利用的平衡，在多个数学推理基准测试中显著提升了模型的推理准确性和探索能力。

[218] A Linguistics-Aware LLM Watermarking via Syntactic Predictability

arXiv: 2510.13829 (replaced)
Authors: Shinwoo Park, Hyejin Park, Hyeseon An, Yo-Sub Han
Subjects: cs.CL; cs.AI
Tags: Text Watermarking, LLM Security
Venue: ACL 2026
Code: code
Summary: 该论文提出了STELA框架，一种基于句法可预测性的语言学感知水印方法，旨在平衡文本质量与检测鲁棒性。该方法利用词性标注动态调整水印强度，且检测过程无需访问模型logits，在多种语言上表现出优越的检测性能。

[219] DB-FGA-Net: Dual Backbone Frequency Gated Attention Network for Multi-Class Brain Tumor Classification with Grad-CAM Interpretability

arXiv: 2510.20299 (replaced)
Authors: Saraf Anzum Shreya, MD. Abu Ismail Siddique, Sharaf Tasnim
Subjects: cs.LG; cs.AI
Tags: Medical AI, Image Classification, Explainable AI
Summary: 本文提出了一种双骨干网络DB-FGA-Net，结合频率门控注意力机制用于脑肿瘤分类。该模型在不依赖数据增强的情况下实现了高精度，并利用Grad-CAM提供了可解释的肿瘤区域可视化，具有良好的临床应用潜力。

[220] Noise Aggregation Analysis Driven by Small-Noise Injection: Efficient Membership Inference for Diffusion Models

arXiv: 2510.21783 (replaced)
Authors: Guo Li, Weihong Chen, Yongfu Fan
Subjects: cs.CV; cs.AI; cs.CR
Tags: Privacy, Diffusion Model, Adversarial Robustness
Summary: 该论文提出了一种基于噪声聚合分析的成员推理攻击方法，通过引入单步低强度噪声来区分扩散模型的训练集成员与非成员样本。该方法在大幅降低模型查询需求的同时，实现了更高效、准确的推理攻击。

[221] Power to the Clients: Federated Learning in a Dictatorship Setting

arXiv: 2510.22149 (replaced)
Authors: Mohammadsajad Alipour, Mohammad Mohammadi Amiri
Subjects: cs.LG; cs.AI; cs.CL; cs.CR; cs.CV; cs.DC
Tags: Federated Learning, Adversarial Robustness
Summary: 本文在联邦学习环境中引入了“独裁客户端”的概念，这类恶意客户端能够消除其他客户端的贡献并保留自身影响。研究分析了多种攻击策略及其对全局模型收敛性的影响，揭示了联邦学习中的新型漏洞。

[222] The Reasoning Trap: How Enhancing LLM Reasoning Amplifies Tool Hallucination

arXiv: 2510.22977 (replaced)
Authors: Chenlong Yin, Zeyang Sha, Shiwen Cui, Changhua Meng, Zechao Li
Subjects: cs.LG; cs.AI
Tags: LLM Reasoning, LLM Hallucination, Tool Learning
Venue: ACL 2026
Summary: 该论文研究了增强大语言模型推理能力是否会加剧工具幻觉问题。通过引入SimpleToolHalluBench基准并进行对照实验，研究发现强化推理训练确实会导致工具幻觉比例增加，揭示了当前推理增强方法中能力与可靠性之间的权衡。

[223] PULSE: Privileged Knowledge Transfer from Rich to Deployable Sensors for Embodied Multi-Sensory Learning

arXiv: 2510.24058 (replaced)
Authors: Zihan Zhao, Kaushik Pendiyala, Masood Mortazavi, Ning Yan
Subjects: eess.SP; cs.AI; cs.LG
Tags: Knowledge Distillation, Embodied AI, Wearable Computing
Venue: CVPR 2026 Workshop
Summary: 本文提出了PULSE框架，用于在具身多感官学习中将特权知识从昂贵的教师传感器迁移到可部署的学生传感器。在可穿戴压力监测任务上的实验表明，该方法在推理时无需昂贵传感器即可达到全传感器模型的性能。

[224] Beyond MCQ: An Open-Ended Arabic Cultural QA Benchmark with Dialect Variants

arXiv: 2510.24328 (replaced)
Authors: Hunzalah Hassan Bhatti, Firoj Alam
Subjects: cs.CL; cs.AI
Tags: Benchmark, Question Answering, Multilingual Learning
Summary: 该论文提出了一种将现代标准阿拉伯语多项选择题转换为方言和开放式问题的方法，并构建了相应的基准数据集。实验发现现有模型在方言和文化相关问题上表现不佳，且思维链推理能提升判断正确率。

[225] Reading Between the Lines: The One-Sided Conversation Problem

arXiv: 2511.03056 (replaced)
Authors: Victoria Ebert, Rishabh Singh, Tuochao Chen, Noah A. Smith, Shyamnath Gollakota
Subjects: cs.CL; cs.AI; cs.LG
Tags: Dialogue System, LLM Hallucination, Privacy
Venue: ACL Findings 2026
Summary: 本文形式化了单边对话问题(1SC)，即只能获取对话一方内容的场景，研究了缺失说话人轮次重建和单边转录摘要生成两个任务。实验表明，使用占位符提示可缓解幻觉问题，且无需重建缺失轮次即可生成高质量摘要。

[226] MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models

arXiv: 2511.10262 (replaced)
Authors: He Zhang, Wenqian Cui, Haoning Xu, Xiaohui Li, Lei Zhu, Haoli Bai, Shaohua Ma, Irwin King
Subjects: cs.CL; cs.AI; eess.AS
Tags: Speech Processing, Dialogue System, LLM Evaluation
Venue: ACL Findings 2026
Code: code
Summary: 本文提出了MTR-DuplexBench，首个用于全面评估全双工语音语言模型多轮对话能力的基准。该基准解决了传统评估中忽视的轮次边界模糊和上下文不一致问题，涵盖对话特征、对话质量、指令遵循和安全性等多个评估维度。

[227] Enabling Predictive Maintenance in District Heating Substations: A Labelled Dataset and Fault Detection Evaluation Framework based on Service Data

arXiv: 2511.14791 (replaced)
Authors: Cyriana M.A. Roelofs, Edison Guevara Bastidas, Thomas Hugo, Stefan Faulstich, Anna Cadenbach
Subjects: cs.SE; cs.AI
Tags: Predictive Maintenance, Anomaly Detection, Time Series Forecasting
Summary: 本文提出了一个用于区域供热变电站故障检测的开源框架，包含标注数据集和基于准确性、可靠性、及时性的评估方法。实验表明该方法在正常行为识别上达到0.98准确率，能在用户报告前平均3-5天检测到60%的故障。

[228] Mitigating hallucinations and omissions in LLMs for invertible problems: An application to hardware logic design automation

arXiv: 2512.03053 (replaced)
Authors: Andrew S. Cassidy, Guillaume Garreau, Jay Sivagnaname, Mike Grassi, Bernard Brezzo, John V. Arthur, Dharmendra S. Modha
Subjects: cs.LG; cs.AI; cs.AR; cs.PL
Tags: LLM Hallucination, RTL Generation, Circuit Design
Summary: 本文提出将大语言模型作为无损编解码器用于可逆问题（如逻辑条件表到硬件描述语言代码的转换），类似于信息论中的无损压缩。实验表明该方法能有效缓解幻觉和遗漏问题，同时帮助开发者发现设计规范错误。

[229] Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio Understanding

arXiv: 2512.04847 (replaced)
Authors: Tsai-Ning Wang, Lin-Lin Chen, Neil Zeghidour, Aaqib Saeed
Subjects: cs.SD; cs.AI
Tags: Medical AI, Speech Processing, Multimodal Learning
Summary: 本文提出了AcuLa框架，通过将音频编码器与医学语言模型对齐来赋予其临床语义理解能力。该方法在18个心肺任务上取得最优结果，分类基准的平均AUROC从0.68提升至0.79，COVID-19咳嗽检测任务的AUROC从0.55提升至0.89。

[230] TPA: Next Token Probability Attribution for Detecting Hallucinations in RAG

arXiv: 2512.07515 (replaced)
Authors: Pengqian Lu, Jie Lu, Anjin Liu, Guangquan Zhang
Subjects: cs.CL; cs.AI
Tags: LLM Hallucination, RAG, Interpretability
Venue: ACL 2026
Summary: 本文提出了TPA方法，将每个token的概率归因于七个不同来源（查询、RAG上下文、历史token、自身token、FFN、最终LayerNorm和初始嵌入），用于检测RAG系统中的幻觉。通过分析词性标签模式，TPA能有效识别幻觉响应。

[231] Information-Consistent Language Model Recommendations through Group Relative Policy Optimization

arXiv: 2512.12858 (replaced)
Authors: Sonal Prabhune, Balaji Padmanabhan, Kaushik Dutta
Subjects: cs.LG; cs.AI
Tags: LLM Alignment, Reinforcement Learning, Recommender System
Summary: 本文提出了一种基于GRPO的强化学习框架，用于优化大语言模型在语义等价提示下的一致性。该方法引入基于熵的帮助性和稳定性奖励，将提示变体视为组群来减少企业推荐场景中的输出变异性。

[232] VLegal-Bench: Cognitively Grounded Benchmark for Vietnamese Legal Reasoning of Large Language Models

arXiv: 2512.14554 (replaced)
Authors: Nguyen Tien Dong, Minh-Anh Nguyen, Thanh Dat Hoang, Nguyen Tuan Ngoc, Dao Xuan Quang Minh, Phan Phi Hai, Nguyen Thi Ngoc Anh, Dang Van Tu, Binh Vu
Subjects: cs.CL; cs.AI
Tags: Legal AI, LLM Evaluation, Benchmark
Summary: 本文介绍了VLegal-Bench，首个用于评估大语言模型越南法律推理能力的综合基准。基于布鲁姆认知分类法，该基准包含10,450个样本，涵盖法律问答、检索增强生成、多步推理和场景问题求解等任务。

[233] AutoFed: Personalized Federated Traffic Prediction via Adaptive Prompt

arXiv: 2512.24625 (replaced)
Authors: Zijian Zhao, Yitong Shang, Sen Li
Subjects: cs.LG; cs.AI
Tags: Federated Learning, Time Series Forecasting, Prompt Engineering
Code: code
Summary: 本文提出了AutoFed，一个用于交通预测的个性化联邦学习框架，通过自适应提示消除手动超参数调优需求。该框架使用联邦表示器和客户端对齐适配器将本地数据蒸馏为全局共享的提示矩阵。

[234] Losses that Cook: Topological Optimal Transport for Structured Recipe Generation

arXiv: 2601.02531 (replaced)
Authors: Mattia Ottoborgo, Daniele Rege Cambrin, Paolo Garza
Subjects: cs.CL; cs.AI
Tags: Text Generation, Optimal Transport
Venue: ACL Findings 2026
Summary: 本文研究用于菜谱生成的复合训练目标，提出了一种拓扑损失函数，将食材列表表示为嵌入空间中的点云。实验表明该方法显著提升了食材和动作级别的指标，人类偏好分析显示62%的用户更偏好该模型。

[235] MFC-RFNet: A Multi-scale Guided Rectified Flow Network for Radar Sequence Prediction

arXiv: 2601.03633 (replaced)
Authors: Wenjie Luo, Chuanhu Deng, Chaorong Li, Rongyao Deng, Qiang Yang
Subjects: cs.CV; cs.AI
Tags: Weather Forecasting, Diffusion Model, Time Series Forecasting
Summary: 本文提出了MFC-RFNet，一个用于雷达回波序列降水临近预报的生成框架。该框架整合了多尺度通信和引导特征融合，采用小波引导跳跃连接和条件引导空间变换融合，在四个公开数据集上取得了优于强基线的性能。

[236] Disco-RAG: Discourse-Aware Retrieval-Augmented Generation

arXiv: 2601.04377 (replaced)
Authors: Dongqi Liu, Hang Ding, Qiming Feng, Xurong Xie, Zhucun Xue, Chengjie Wang, Jian Li, Jiangning Zhang, Yabiao Wang
Subjects: cs.CL; cs.AI; cs.LG
Tags: RAG, Summarization, Question Answering
Venue: ACL 2026
Summary: 本文提出了Disco-RAG，一个话语感知的检索增强生成框架，通过构建块内话语树和块间修辞图来捕获结构线索。该方法在问答和长文档摘要基准上无需微调即可达到最优结果。

[237] Mechanisms of Prompt-Induced Hallucination in Vision-Language Models

arXiv: 2601.05201 (replaced)
Authors: William Rudman, Michal Golovanevsky, Dana Arad, Yonatan Belinkov, Ritambhara Singh, Carsten Eickhoff, Kyle Mahowald
Subjects: cs.CV; cs.AI; cs.CL
Tags: LLM Hallucination, Vision-Language Model, Interpretability
Venue: ACL 2026
Summary: 本文通过受控的物体计数实验研究视觉语言模型中的提示诱导幻觉问题，识别出一组注意力头，其消融可将幻觉减少至少40%。分析揭示了这些PIH头在不同模型中以特定方式介导提示复制行为。

[238] VIB-Probe: Detecting and Mitigating Hallucinations in Vision-Language Models via Variational Information Bottleneck

arXiv: 2601.05547 (replaced)
Authors: Feiran Zhang, Yixin Wu, Zhenghua Wang, Xiaohua Wang, Changze Lv, Xuanjing Huang, Xiaoqing Zheng
Subjects: cs.CV; cs.AI
Tags: LLM Hallucination, Vision-Language Model, Interpretability
Summary: 本文提出了VIB-Probe框架，利用变分信息瓶颈理论检测和缓解视觉语言模型中的幻觉。该方法从注意力头中提取判别性模式并过滤语义噪声，并引入推理时干预策略进行幻觉缓解。

[239] EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis

arXiv: 2601.05808 (replaced)
Authors: Xiaoshuai Song, Haofei Chang, Guanting Dong, Yutao Zhu, Ji-Rong Wen, Zhicheng Dou
Subjects: cs.CL; cs.AI; cs.LG
Tags: LLM Agent, Data Synthesis, Tool Learning
Code: code
Summary: 本文提出了EnvScaler，一个通过程序化合成自动生成工具交互环境的框架。该框架生成了191个环境和约7K个场景，应用于Qwen3系列模型的监督微调和强化学习，显著提升了LLM在多轮多工具交互任务中的能力。

[240] CLewR: Curriculum Learning with Restarts for Machine Translation Preference Learning

arXiv: 2601.05858 (replaced)
Authors: Alexandra Dragomir, Florin Brad, Radu Tudor Ionescu
Subjects: cs.CL; cs.AI; cs.LG
Tags: Machine Translation, Curriculum Learning, LLM Alignment
Venue: ACL 2026
Code: code
Summary: 本文将课程学习集成到机器翻译偏好优化算法中，提出了CLewR策略，通过多次重复从易到难的课程来有效缓解对简单样本的灾难性遗忘。该方法在多个模型家族和偏好优化技术上均显示出一致的提升。

[241] AI-assisted Protocol Information Extraction For Improved Accuracy and Efficiency in Clinical Trial Workflows

arXiv: 2602.00052 (replaced)
Authors: Ramtin Babaeipour, François Charest, Madison Wright
Subjects: cs.IR; cs.AI; cs.CL; cs.LG
Tags: RAG, Medical AI, Information Extraction
Venue: Journal of Biomedical Informatics 2026
Summary: 该论文评估了一个使用RAG增强的生成式LLM系统用于临床试验方案信息自动提取，结果显示其准确率(89%)显著高于独立LLM(62.6%)，且在模拟工作流程中任务完成速度提升40%。

[242] 1S-DAug: One-Shot Data Augmentation for Robust Few-Shot Generalization

arXiv: 2602.00114 (replaced)
Authors: Yunwei Bai, Ying Kiat Tan, Yao Shu, Tsuhan Chen
Subjects: cs.CV; cs.AI; cs.LG
Tags: Data Augmentation, Few-Shot Learning, Diffusion Model
Summary: 该论文提出了1S-DAug，一种单样本生成式数据增强方法，通过结合几何扰动、噪声注入和条件去噪扩散过程，在测试时从单张图像合成多样化变体，显著提升少样本分类性能。

[243] CoMeT: Collaborative Memory Transformer for Efficient Long Context Modeling

arXiv: 2602.01766 (replaced)
Authors: Runsong Zhao, Shilei Liu, Jiwei Tang, Langming Liu, Haibin Chen, Weidong Zhang, Yujin Yuan, Tong Xiao, Jingbo Zhu, Wenbo Su, Bo Zheng
Subjects: cs.LG; cs.AI
Tags: Long Context, Memory Architecture, LLM Inference
Venue: ACL 2026
Code: code
Summary: 该论文提出了CoMeT，一种具有双记忆系统的协作记忆Transformer架构，使LLM能够以恒定内存和线性时间复杂度处理任意长序列，在长上下文基准测试中表现优异。

[244] Capture the Flags: Family-Based Evaluation of Agentic LLMs via Semantics-Preserving Transformations

arXiv: 2602.05523 (replaced)
Authors: Shahin Honarvar, Amber Gorzynski, James Lee-Jones, Harry Coppock, Marek Rei, Joseph Ryan, Alastair F. Donaldson
Subjects: cs.SE; cs.AI
Tags: LLM Agent, Cybersecurity, LLM Evaluation
Summary: 该论文引入CTF挑战族和Evolve-CTF工具，通过语义保持的程序变换生成等价挑战变体，用于评估代理式LLM在网络安全任务中的鲁棒性和泛化能力。

[245] KRONE: Scalable LLM-Augmented Log Anomaly Detection via Hierarchical Abstraction

arXiv: 2602.07303 (replaced)
Authors: Lei Ma, Jinyang Liu, Tieying Zhang, Peter M. VanNostrand, Dennis M. Hofmann, Lei Cao, Elke A. Rundensteiner, Jianjun Chen
Subjects: cs.DB; cs.AI; cs.SE
Tags: Anomaly Detection, LLM Inference, Log Analysis
Venue: ICDE 2026
Code: code
Summary: 该论文提出了KRONE，一种分层异常检测框架，通过自动从扁平日志中提取执行层次结构，结合LLM增强的检测策略，在日志异常检测中实现了显著的准确率和效率提升。

[246] Security Threat Modeling for Emerging AI-Agent Protocols: A Comparative Analysis of MCP, A2A, Agora, and ANP

arXiv: 2602.11327 (replaced)
Authors: Zeynab Anbiaee, Mahdi Rabbani, Mansur Mirani, Gunjan Piya, Igor Opushnyev, Ali Ghorbani, Sajjad Dadkhah
Subjects: cs.CR; cs.AI
Tags: LLM Agent, LLM Security, Agent Protocol
Summary: 该论文对四种新兴AI代理通信协议(MCP、A2A、Agora、ANP)进行了系统性安全分析，开发了威胁建模框架并识别了十二种协议级风险。

[247] Puppets or partners? Governing cyborg propaganda in the digital public square

arXiv: 2602.13088 (replaced)
Authors: Jonas R. Kunst, Kinga Bierwiaczonek, Meeyoung Cha, Omid V. Ebrahimi, Marc Fawcett-Atkinson, Asbjørn Følstad, Anton Gollwitzer, Nils Köbis, Gary Marcus, Jon Roozenbeek, Daniel Thilo Schroeder, Jay J. Van Bavel, Sander van der Linden, Rory White, Live Leonhardsen Wilhelmsen
Subjects: cs.CY; cs.AI
Tags: AI Ethics, AI Governance, Social Simulation
Summary: 该论文提出了’半机械人宣传’概念，分析结合验证人类账户与算法自动化的大规模个性化内容生成对民主话语的威胁，并提出相应的监管响应建议。

[248] Differential privacy representation geometry for medical image analysis

arXiv: 2603.01098 (replaced)
Authors: Soroosh Tayebi Arasteh, Marziyeh Mohammadi, Sven Nebelung, Daniel Truhn
Subjects: cs.CV; cs.AI; cs.LG
Tags: Differential Privacy, Medical AI, Representation Learning
Summary: 该论文引入DP-RGMI框架，将差分隐私解释为表示空间的结构化变换，将性能下降分解为编码器几何和任务头利用率，揭示了隐私导致的效用损失机制。

[249] Social-JEPA: Emergent Geometric Isomorphism

arXiv: 2603.02263 (replaced)
Authors: Haoran Zhang, Youjin Wang, Yi Duan, Rong Fu, Dianyu Zhao, Sicheng Fan, Shuaishuai Cao, Wentao Guo, Xiao Zhou
Subjects: cs.CV; cs.AI
Tags: Representation Learning, Multi-Agent System, Self-Supervised Learning
Summary: 该论文展示了分离的智能体在无参数共享的情况下，通过预测学习目标从不同视角获得对齐的潜在表示，实现了零样本分类器迁移和跨智能体互操作性。

[250] Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

arXiv: 2603.03332 (replaced)
Authors: Ashwath Vaithinathan Aravindan, Mayank Kejriwal
Subjects: cs.CL; cs.AI; cs.LG
Tags: LLM Reasoning, Adversarial Robustness, LLM Evaluation
Code: code
Summary: 该论文全面评估了LLM对思维链推理中五种扰动类型的鲁棒性，发现模型对数学错误最敏感，对额外步骤最不敏感，且模型规模对某些扰动具有保护作用。

[251] Jailbreak Scaling Laws for Large Language Models: Polynomial-Exponential Crossover

arXiv: 2603.11331 (replaced)
Authors: Indranil Halder, Annesya Banerjee, Cengiz Pehlevan
Subjects: cs.LG; cs.AI
Tags: LLM Security, Jailbreak Detection, LLM Alignment
Summary: 该论文发现对抗性攻击对LLM的成功率随推理时采样次数呈现从多项式到指数的缩放转变，并提出基于自旋玻璃系统的理论生成模型来解释这一现象。

[252] OSCBench: Benchmarking Object State Change in Text-to-Video Generation

arXiv: 2603.11698 (replaced)
Authors: Xianjing Han, Bin Zhu, Shiqi Hu, Franklin Mingzhe Li, Patrick Carrington, Roger Zimmermann, Jingjing Chen
Subjects: cs.CV; cs.AI; cs.CL
Tags: Video Generation, Benchmark, Text-to-Video
Venue: ACL 2026
Summary: 该论文引入OSCBench基准，用于评估文本到视频生成模型中的物体状态变化能力，发现当前T2V模型在准确和时间一致的物体状态变化方面存在显著不足。

[253] Preconditioned Test-Time Adaptation for Out-of-Distribution Debiasing in Narrative Generation

arXiv: 2603.13683 (replaced)
Authors: Hanwen Shen, Ting Ying, Jiajie Lu, Shanshan Wang
Subjects: cs.CL; cs.AI; cs.CY
Tags: Test-Time Adaptation, Text Generation, Bias Mitigation
Venue: ACL 2026
Summary: 该论文提出了CAP-TTA测试时适应框架，通过偏置风险分数触发的上下文感知LoRA更新，实时修正LLM叙事生成中的毒性/偏置问题，同时保持生成流畅性。

[254] ArrayTac: A Closed-loop Piezoelectric Tactile Platform for Continuously Tunable Rendering of Shape, Stiffness, and Friction

arXiv: 2603.13829 (replaced)
Authors: Tianhai Liang, Shiyi Guo, Baiye Cheng, Zhengrong Xue, Han Zhang, Huazhe Xu
Subjects: cs.RO; cs.AI; cs.HC
Tags: Haptic Rendering, Medical AI, Hardware Architecture
Summary: 该论文提出了ArrayTac，一种闭环压电触觉显示平台，能够同时连续可调地渲染形状、刚度和摩擦三个维度，在心理物理实验和远程医疗触诊中验证了其有效性。

[255] Spectral Tempering for Embedding Compression in Dense Passage Retrieval

arXiv: 2603.19339 (replaced)
Authors: Yongkang Li, Panagiotis Eustratiadis, Evangelos Kanoulas
Subjects: cs.IR; cs.AI; cs.CL
Tags: Information Retrieval, Model Compression, Representation Learning
Venue: SIGIR 2026
Code: code
Summary: 该论文提出了Spectral Tempering方法，一种无需学习的嵌入压缩方法，通过局部信噪比分析自适应确定最优谱缩放系数，在密集检索中实现接近oracle的性能。

[256] CRoCoDiL: Continuous and Robust Conditioned Diffusion for Language

arXiv: 2603.20210 (replaced)
Authors: Roy Uziel, Omer Belhasin, Itay Levy, Akhiad Bercovich, Ran El-Yaniv, Ran Zilberstein, Michael Elad
Subjects: cs.CL; cs.AI
Tags: Diffusion Model, Text Generation, Representation Learning
Summary: 该论文提出了CRoCoDiL，一种将掩码扩散模型转移到连续句子级语义空间的统一微调方法，实现了更优的生成质量和10倍以上的采样加速。

[257] Cognitive Agency Surrender: Defending Epistemic Sovereignty via Scaffolded AI Friction

arXiv: 2603.21735 (replaced)
Authors: Kuangzhe Xu, Yu Shen, Longjie Yan, Yinghui Ren
Subjects: cs.HC; cs.AI
Tags: Human-Computer Interaction, Cognitive Science, AI Ethics
Summary: 本文探讨了生成式AI的“零摩擦”设计如何导致人类认知代理权的丧失，并提出利用多智能体系统构建“脚手架认知摩擦”以维护人类的认知主权。通过对AI-HCI论文的语义分析，研究揭示了向自主机器代理优化的趋势，并主张通过有意设计的摩擦来增强认知韧性。

[258] Context-Agent: Dynamic Discourse Trees for Non-Linear Dialogue

arXiv: 2604.05552 (replaced)
Authors: Junan Hu, Shudan Guo, Wenqi Liu, Jianhua Yin, Yinwei Wei
Subjects: cs.CL; cs.AI
Tags: Dialogue System, LLM Agent
Venue: ACL 2026
Summary: 针对大语言模型在处理非线性对话流时的局限性，本文提出了Context-Agent框架，将多轮对话历史建模为动态树结构以更好地管理上下文。同时，研究引入了非线性任务多轮对话基准（NTM），实验证明该方法提高了任务完成率和令牌效率。

[259] Neural Computers

arXiv: 2604.06425 (replaced)
Authors: Mingchen Zhuge, Changsheng Zhao, Haozhe Liu, Zijian Zhou, Shuming Liu, Wenyi Wang, Ernie Chang, Gael Le Lan, Junjie Fei, Wenxuan Zhang, Yasheng Sun, Zhipeng Cai, Zechun Liu, Yunyang Xiong, Yining Yang, Yuandong Tian, Yangyang Shi, Vikas Chandra, Jürgen Schmidhuber
Subjects: cs.LG; cs.AI
Tags: LLM Agent, World Model
Code: code
Summary: 本文提出了“神经计算机”的概念，旨在统一传统计算机的计算、内存和I/O于一个学习到的运行时状态中。作为初步尝试，研究将NC实例化为视频模型，展示了其在CLI和GUI环境中获取基本接口原语的能力，并规划了通往通用神经计算机的路线图。

[260] HQF-Net: A Hybrid Quantum-Classical Multi-Scale Fusion Network for Remote Sensing Image Segmentation

arXiv: 2604.06715 (replaced)
Authors: Md Aminur Hossain, Ayush V. Patel, Siddhant Gole, Sanjay K. Singh, Biplab Banerjee
Subjects: cs.CV; cs.AI
Tags: Remote Sensing, Image Segmentation, Quantum Computing
Summary: 本文提出了HQF-Net，一种用于遥感图像分割的混合量子-经典多尺度融合网络，结合了DINOv3骨干网络与量子增强的跳跃连接和瓶颈模块。实验结果表明，该方法在多个遥感基准数据集上取得了显著的性能提升，验证了结构化混合量子-经典特征处理的有效性。

[261] STRIDE-ED: A Strategy-Grounded Stepwise Reasoning Framework for Empathetic Dialogue Systems

arXiv: 2604.07100 (replaced)
Authors: Hongru Ji, Yuyin Fan, Meng Zhao, Xianghua Li, Lianwei Wu, Chao Gao
Subjects: cs.CL; cs.AI
Tags: Dialogue System, Reinforcement Learning
Venue: ACL 2026
Summary: 针对现有共情对话系统的不足，本文提出了STRIDE-ED框架，通过结构化的策略条件推理来建模共情对话，并结合监督微调与多目标强化学习进行训练。实验结果显示，该方法在自动评估和人工评估中均优于现有方法，并能有效泛化至不同的开源大语言模型。

[262] Neural Distribution Prior for LiDAR Out-of-Distribution Detection

arXiv: 2604.09232 (replaced)
Authors: Zizhao Li, Zhengkang Xiang, Jiayang Ao, Feng Liu, Joseph West, Kourosh Khoshelham
Subjects: cs.CV; cs.AI
Tags: Autonomous Driving, Out-of-Distribution Detection
Venue: CVPR 2026
Summary: 针对LiDAR感知中的分布外（OOD）检测问题，本文提出了神经分布先验（NDP）框架，通过建模网络预测的分布结构并自适应重新加权OOD分数来提升性能。该方法结合了基于柏林噪声的OOD合成策略，在SemanticKITTI和STU基准上取得了显著的性能提升。

[263] MR-Coupler: Automated Metamorphic Test Generation via Functional Coupling Analysis

arXiv: 2604.10126 (replaced)
Authors: Congying Xu, Hengcheng Zhu, Songqiang Chen, Jiarong Wu, Valerio Terragni, Shing-Chi Cheung
Subjects: cs.SE; cs.AI
Tags: Software Testing, Code Generation
Venue: FSE 2026
Summary: 本文提出了MR-Coupler，一种利用函数间耦合关系自动构建蜕变关系并生成蜕变测试用例的方法。该工具结合大语言模型生成候选测试用例，并通过测试放大和变异分析进行验证，在真实世界的Bug检测中表现出色。

[264] The Blind Spot of Agent Safety: How Benign User Instructions Expose Critical Vulnerabilities in Computer-Use Agents

arXiv: 2604.10577 (replaced)
Authors: Xuwei Ding, Skylar Zhai, Linxin Song, Jiate Li, Taiwei Shi, Nicholas Meade, Siva Reddy, Jian Kang, Jieyu Zhao
Subjects: cs.CR; cs.AI
Tags: LLM Agent, LLM Security, Benchmark
Summary: 本文介绍了OS-BLIND基准，用于评估计算机使用智能体在良性用户指令下因环境或执行结果导致的安全漏洞。评估显示，即使是安全对齐的模型在多智能体系统中攻击成功率也极高，揭示了现有安全防御在处理良性指令时的局限性。

[265] ReXSonoVQA: A Video QA Benchmark for Procedure-Centric Ultrasound Understanding

arXiv: 2604.10916 (replaced)
Authors: Xucheng Wang, Xiaoman Zhang, Sung Eun Kim, Ankit Pal, Pranav Rajpurkar
Subjects: cs.CV; cs.AI
Tags: Medical AI, Video Understanding, Benchmark
Summary: 本文提出了ReXSonoVQA视频问答基准，旨在评估视觉语言模型在超声检查程序理解方面的能力，特别是动作目标推理和伪影解决等。零样本评估显示现有模型在因果推理方面存在局限，为超声培训和自动化系统开发提供了参考。

[266] A Triadic Suffix Tokenization Scheme for Numerical Reasoning

arXiv: 2604.11582 (replaced)
Authors: Olga Chetverina
Subjects: cs.CL; cs.AI; cs.LG
Tags: Tokenization, Mathematical Reasoning
Summary: 针对标准子词分词方法破坏数字结构导致算术推理错误的问题，本文提出了一种三元后缀分词方案（TST），通过显式的量级标记来保留数字的位置和小数结构。该方法与架构无关，可作为预处理步骤集成，旨在为数值推理提供一致的梯度信号。

[267] Layerwise Dynamics for In-Context Classification in Transformers

arXiv: 2604.11613 (replaced)
Authors: Patrick Lutz, Themistoklis Haris, Arjun Chandra, Aditya Gangrade, Venkatesh Saligrama
Subjects: cs.LG; cs.AI
Tags: In-Context Learning, Deep Learning Theory
Summary: 本文研究了Transformer在上下文分类中的层间动力学，通过强制特征和标签置换等变性，提取出了一个显式的深度索引递归更新规则。研究发现注意力矩阵驱动了训练点和标签的耦合更新，实现了一种可证明放大类别分离的几何驱动算法模式。

[268] Beyond LLMs, Sparse Distributed Memory, and Neuromorphics <A Hyper-Dimensional SRAM-CAM "VaCoAl" for Ultra-High Speed, Ultra-Low Power, and Low Cost>

arXiv: 2604.11665 (replaced)
Authors: Hiroyuki Chuma, Kanji Otsuka, Yoichi Sato
Subjects: cs.NE; cs.AI
Tags: Hyperdimensional Computing, Knowledge Representation
Summary: 本文提出了一种基于超维计算的VaCoAl算法，利用伽罗瓦域代数实现路径依赖的语义选择机制，以解决灾难性遗忘和绑定问题。该方法在Wikidata的多跳推理任务中进行了评估，展示了其作为一种区别于LLM的可审计推理范式的潜力。

[269] SOAR: Self-Correction for Optimal Alignment and Refinement in Diffusion Models

arXiv: 2604.12617 (replaced)
Authors: You Qin, Linqing Wang, Hao Fei, Roger Zimmermann, Liefeng Bo, Qinglin Lu, Chunyu Wang
Subjects: cs.LG; cs.AI
Tags: Diffusion Model, Image Generation
Summary: 针对扩散模型后训练中监督微调存在的曝光偏差问题，本文提出了SOAR方法，通过自校正机制提供密集的每步监督。该方法无需奖励模型，在SD3.5-Medium上显著提升了生成质量和偏好评分，可作为SFT的替代阶段。

[270] Token Statistics Reveal Conversational Drift in Multi-turn LLM Interaction

arXiv: 2604.13061 (replaced)
Authors: Wael Hafez, Amir Nazeri
Subjects: cs.CL; cs.AI
Tags: LLM Evaluation, Dialogue System
Summary: 本文提出了一种名为“双可预测性”的指标，利用令牌频率统计来监测多轮大语言模型交互中的对话漂移和结构一致性。通过轻量级的辅助架构“信息数字孪生”，该方法能有效检测对话中的矛盾和主题转移，无需嵌入或模型内部访问权限。

[271] Selectivity and Shape in the Design of Forward-Forward Goodness Functions

arXiv: 2604.13081 (replaced)
Authors: Talha Ruzgar Akkus, Suayp Talha Kocabay, Kamer Ali Yuksel, Hassan Sawaf
Subjects: cs.LG; cs.AI; cs.NE
Tags: Deep Learning Theory, Optimization
Summary: 本文系统探索了Forward-Forward算法中“优度函数”的设计空间，提出了选择性函数和形状敏感函数来捕捉峰值活动和重尾分布。实验表明，新设计的函数在多个基准数据集上显著优于传统的平方和函数，提升了分类性能。

[272] KV Packet: Recomputation-Free Context-Independent KV Caching for LLMs

arXiv: 2604.13226 (replaced)
Authors: Chuangtao Chen, Grace Li Zhang, Xunzhao Yin, Cheng Zhuo, Bing Li, Ulf Schlichtmann
Subjects: cs.LG; cs.AI
Tags: KV Cache, LLM Inference
Summary: 针对大语言模型中KV缓存重用需要昂贵重计算的问题，本文提出了KV Packet框架，通过轻量级的可训练软令牌适配器实现无重计算的缓存重用。实验表明，该方法在保持性能的同时显著降低了计算开销和首令牌延迟。

[273] Optimistic Policy Learning under Pessimistic Adversaries with Regret and Violation Guarantees

arXiv: 2604.14243 (replaced)
Authors: Sourav Ganguly, Kartik Pandit, Arnob Ghosh
Subjects: cs.LG; cs.AI
Tags: Model-Based RL, AI Safety, Decision Making
Summary: 该论文研究在对抗性动态下的安全约束强化学习问题，其中外部对抗者共同决定状态转移。作者提出了RHC-UCRL算法，这是一种基于模型的算法，能够实现次线性遗憾和约束违反保证。

[274] Aerial Multi-Functional RIS in Fluid Antennas-Aided Full-Duplex Networks: A Self-Optimized Hybrid Deep Reinforcement Learning Approach

arXiv: 2604.14309 (replaced)
Authors: Li-Hsiang Shen, Yu-Quan Zheng
Subjects: cs.IT; cs.AI; eess.SP
Tags: Wireless Networks, Multi-Agent System
Summary: 该论文提出了一种将自主飞行器与多功能可重构智能表面相结合的架构，用于6G网络中的全双工通信。作者设计了自优化混合深度强化学习框架来联合优化多个参数以最大化能效。

[275] Mamba-SSM with LLM Reasoning for Feature Selection: Faithfulness-Aware Biomarker Discovery

arXiv: 2604.14334 (replaced)
Authors: Pushpa Kumar Balan, Aijing Feng
Subjects: q-bio.QM; cs.AI
Tags: LLM Reasoning, Medical AI, Bioinformatics
Venue: ICLR 2026 Workshop
Summary: 该论文利用LLM链式思维推理来过滤由Mamba SSM模型梯度显著性识别的基因生物标志物。LLM过滤后的基因集在AUC性能上优于原始显著性集，使用更少特征实现了更好的预测效果。

[276] SatBLIP: Context Understanding and Feature Identification from Satellite Imagery with Vision-Language Learning

arXiv: 2604.14373 (replaced)
Authors: Xue Wu, Shengting Cao, Shenglin Li, Jiaqi Gong
Subjects: cs.CV; cs.AI
Tags: Vision-Language Model, Remote Sensing
Summary: 该论文提出了SatBLIP，一个用于农村环境理解的卫星专用视觉-语言框架，用于预测县级社会脆弱性指数。该方法结合对比图文对齐和自举字幕生成，实现了可解释的风险环境映射。

[277] Can LLMs Score Medical Diagnoses and Clinical Reasoning as well as Expert Panels?

arXiv: 2604.14892 (replaced)
Authors: Amy Rouillard, Sitwala Mundia, Linda Camara, Michael Cameron Gramanie, Ziyaad Dangor, Ismail Kalla, Shabir A. Madhi, Kajal Morar, Marlvin T. Ncube, Haroon Saloojee, Bruce A. Bassett
Subjects: cs.LG; cs.AI
Tags: LLM Evaluation, Medical AI
Summary: 该论文评估了使用LLM评审团来评分医疗诊断作为专家临床小组的替代方案。结果表明，经过校准的多模型LLM评审团可以作为医疗AI基准测试中专家评估的可靠代理。

[278] UniDoc-RL: Coarse-to-Fine Visual RAG with Hierarchical Actions and Dense Rewards

arXiv: 2604.14967 (replaced)
Authors: Jun Wang, Shuo Tan, Zelong Sun, Tiancheng Gu, Yongle Zhao, Ziyong Feng, Kaicheng Yang, Zhiwu Lu
Subjects: cs.CV; cs.AI
Tags: RAG, Vision-Language Model
Summary: 该论文提出了UniDoc-RL，一个用于视觉RAG的强化学习框架，联合执行检索、重排序、主动视觉感知和推理。该方法使用层次化动作空间和密集多奖励方案进行端到端训练。

cs.AI

This post is licensed under CC BY 4.0 by the author.