arXiv cs.AR Daily Update

Posted Apr 21, 2026

By myy1966

19 min read

cs.AR 领域 2026年4月21日共有 30 篇论文更新：

12 篇新投稿：Hardware Acceleration (Forge-UGC [2], AccelCIM [9], [10]), LLM Inference (Forge-UGC [2], AQPIM [11], [7]), RTL Generation (VerilogCL [12], [6], [7]), Low Power (E2AFS [4], [1]), RTL Verification (EquivFusion [3], Clover [8])
9 篇跨领域投稿：KV Cache (HieraSparse [13], [15]), LLM Inference (HieraSparse [13], M100 [18]), Edge Computing (Privatar [17], [14]), Autonomous Driving (M100 [18], [16]), Hardware Architecture (M100 [18], Proxics [19])
9 篇替换投稿：Compiler Optimization (Aquas [24], [29]), LLM Inference (ODMA [25], CIMple [28]), Circuit Design (CIMple [28], ARCS [30]), Neuromorphic Computing (SparrowSNN [22]), Edge Computing (SparrowSNN [22])

整体趋势：今日论文主要聚焦于LLM Inference、Circuit Design、RTL Generation等方向。

已录用论文：[3](FSE 2026), [9](DAC 2026), [10](DAC 2026), [11](HPCA 2026), [17](MLSys 2024), [18](ISCA 2026), [26](ISCAS 2026)

开源论文：[10](code), [13](code), [30](code)

新投稿 (12)

[1] Full Feature Spiking Neural Network Simulation on Micro-Controllers for Neuromorphic Applications at the Edge

arXiv: 2604.16474
Authors: L. Niedermeier, J. L. Krichmar
Subjects: cs.AR; cs.AI; cs.NE
Tags: Neuromorphic Computing, Edge Computing, Low Power
Summary: 本文展示了在RP2350微控制器上运行完整的SNN模拟器CARLsim，通过使用IEEE 16位浮点数减少内存需求，实现了97.5%的准确率，并在20mW功耗下实现实时运行，能效比ARM处理器高5倍。

[2] Forge-UGC: FX optimization and register-graph engine for universal graph compiler

arXiv: 2604.16498
Authors: Satyam Kumar, Saurabh Jha
Subjects: cs.AR; cs.AI; cs.DC
Tags: Hardware Acceleration, LLM Inference, Compiler Optimization
Summary: 本文提出了Forge-UGC，一个用于Transformer在异构加速器上部署的四阶段编译器，相比OpenVINO和ONNX Runtime实现了6.9-9.2倍的编译加速和18.2-35.7%的推理延迟降低。

[3] EquivFusion: Unifying Hardware Equivalence Checking from Algorithms to Netlists via MLIR

arXiv: 2604.16571
Authors: Jiaying Zhu, Baoqi Zhang, Mengxia Tao, Kezhi Li, Hao Yan, Qiang Xu, Min Li
Subjects: cs.AR; cs.SE
Tags: Formal Methods, EDA, RTL Verification
Venue: FSE 2026
Summary: 本文提出了EquivFusion，一个端到端的等价性检查工具，通过MLIR中间表示统一PyTorch、C/C++、Chisel、Verilog等多种设计入口，实现跨抽象层次的自动化形式验证。

[4] E2AFS: Energy-Efficient Approximate Floating Point Square Rooter for Error Tolerant Computing

arXiv: 2604.16964
Authors: Prateek Goyal, Jatin Kumar Reddy Mothe, Swara Rajesh Shelke, Sujit Kumar Sahoo
Subjects: cs.AR
Tags: Circuit Design, Low Power, Energy Efficiency
Summary: 本文提出了E2AFS，一种轻量级无乘法器的浮点平方根架构，针对能效计算进行优化，在FPGA上实现了最低动态功耗和最短关键路径延迟，适用于低功耗实时边缘和嵌入式平台。

[5] Different Perspectives of Memory System Simulation

arXiv: 2604.16965
Authors: Pouya Esmaili-Dokht, Arash Yadegari, Victor Xirau, Julian Pavon, Adrian Cristal, Eduard Ayguade, Petar Radojkovic
Subjects: cs.AR
Tags: Memory Architecture, Simulation
Summary: 本文研究了内存模拟器与真实硬件性能差异的原因，提出从内存模拟器、CPU-内存接口和应用三个视角评估内存性能的方法，发现CPU-内存接口是导致不准确性的主要来源。

[6] From Natural Language to Silicon: The Representation Bottleneck in LLM Hardware Design

arXiv: 2604.17097
Authors: Weimin Fu, Zeng Wang, Minghao Shao, Johann Knechtel, Ozgur Sinanoglu, Ramesh Karri, Muhammad Shafique, Xiaolong Guo
Subjects: cs.AR
Tags: RTL Generation, Code Generation, FPGA
Summary: 本文证明在LLM驱动的FPGA设计中，中间表示(IR)的选择而非模型选择是决定端到端成功的主导因素，揭示了用户友好的IR反而产生最差LLM性能的可访问性-能力悖论。

[7] Configuration Over Selection: Hyperparameter Sensitivity Exceeds Model Differences in Open-Source LLMs for RTL Generation

arXiv: 2604.17102
Authors: Minghao Shao, Zeng Wang, Weimin Fu, Xiaolong Guo, Johann Knechtel, Ozgur Sinanoglu, Ramesh Karri, Muhammad Shafique
Subjects: cs.AR; cs.AI
Tags: RTL Generation, LLM Inference, Hyperparameter Optimization
Summary: 本文研究表明，对于RTL生成任务，推理时解码配置比模型选择更重要，同一LLM的不同超参数设置可导致高达25.5%的通过率差距，是模型家族差异的5倍。

[8] Clover: A Neural-Symbolic Agentic Harness with Stochastic Tree-of-Thoughts for Verified RTL Repair

arXiv: 2604.17288
Authors: Zizhang Luo, Yansong Xu, Runlin Guo, Fan Cui, Kexing Zhou, Mile Xia, Hongyuan Hou, Yuhao Luo, Yun Liang
Subjects: cs.AR; cs.AI
Tags: RTL Verification, LLM Agent, Program Repair
Summary: 本文提出了Clover，一个神经符号代理框架，通过随机思维树机制和专业化LLM代理与符号求解器的动态调度，实现了96.8%的RTL错误修复率。

[9] AccelCIM: Systematic Dataflow Exploration for SRAM Compute-in-Memory Accelerator

arXiv: 2604.17692
Authors: Chenhao Xue, Yukun Wang, An Guo, Yuhui Shi, Jinwei Zhou, Xiping Dong, Yihan Yin, Yuanpeng Zhang, Tianyu Jia, Wei Gao, Qiang Wu, Xin Si, Jun Yang, Guangyu Sun
Subjects: cs.AR
Tags: Compute-in-Memory, Hardware Acceleration, DNN Deployment
Venue: DAC 2026
Summary: 本文介绍了AccelCIM，一个针对SRAM存内计算加速器的系统性数据流探索框架，解决了CIM宏配置和宏阵列组织的设计空间探索问题。

[10] Enabling AI ASICs for Zero Knowledge Proof

arXiv: 2604.17808
Authors: Jianming Tong, Jingtian Dang, Simon Langowski, Tianhao Huang, Asra Ali, Jeremy Kun, Jevin Jiang, Srinivas Devadas, Tushar Krishna
Subjects: cs.AR; cs.CL; cs.CR; cs.DS; cs.PL
Tags: Hardware Acceleration, Zero-Knowledge Proof, ASIC Design
Venue: DAC 2026
Code: code
Summary: 本文提出了MORPH框架，将零知识证明内核重构以匹配AI-ASIC执行，在TPUv6e8上实现了NTT吞吐量比GZKP高10倍的性能提升。

[11] AQPIM: Breaking the PIM Capacity Wall for LLMs with In-Memory Activation Quantization

arXiv: 2604.18137
Authors: Kosuke Matsushima, Yasuyuki Okoshi, Masato Motomura, Daichi Fujiki
Subjects: cs.AR; cs.AI; cs.LG
Tags: Compute-in-Memory, LLM Inference, Quantization
Venue: HPCA 2026
Summary: 本文提出了AQPIM，一个基于乘积量化的PIM感知激活量化框架，通过在内存内直接对压缩数据进行量化，显著减少了内存占用和注意力计算开销，相比SOTA PIM方法实现3.4倍加速。

[12] VerilogCL: A Contrastive Learning Framework for Robust LLM-Based Verilog Generation

arXiv: 2604.18162
Authors: Yan Tan, Tong Liu, Xiangchen Meng, Yangdi Lyu
Subjects: cs.AR
Tags: RTL Generation, Code Generation, Contrastive Learning
Summary: 本文提出了VerilogCL框架，通过对比学习和主动错误筛选增强Verilog代码生成，使模型能够学习正确与错误RTL之间的边界，在编译成功率和功能正确性上超越基线模型。

跨领域投稿 (9)

[13] HieraSparse: Hierarchical Semi-Structured Sparse KV Attention

arXiv: 2604.16864 (cross-listed)
Authors: Haoxuan Wang, Chen Wang
Subjects: cs.DC; cs.AR
Tags: KV Cache, LLM Inference, Sparse Attention
Code: code
Summary: 本文介绍了HieraSparse，一个分层半结构化稀疏KV注意力框架，利用GPU稀疏张量核心加速KV Cache注意力，在解码阶段实现高达4.57倍的注意力加速。

[14] When Spike Sparsity Does Not Translate to Deployed Cost: VS-WNO on Jetson Orin Nano

arXiv: 2604.17040 (cross-listed)
Authors: Jason Yoo, Shailesh Garg, Souvik Chakraborty, Syed Bahauddin Alam
Subjects: cs.LG; cs.AR; cs.NE
Tags: Neuromorphic Computing, Edge Computing, GPU Computing
Summary: 本文研究了脉冲稀疏性在Jetson Orin Nano边缘GPU上的部署效果，发现由于运行时保持密集计算模式，算法层面的脉冲稀疏性并未转化为部署成本降低。

[15] Bit-Flip Vulnerability of Shared KV-Cache Blocks in LLM Serving Systems

arXiv: 2604.17249 (cross-listed)
Authors: Yuji Yamamoto, Satoshi Matsuura
Subjects: cs.CR; cs.AR; cs.LG
Tags: LLM Security, KV Cache, LLM Serving
Summary: 本文分析了LLM服务系统中共享KV-Cache块的位翻转漏洞，识别出静默分歧、选择性传播和持续累积三种威胁特性，并提出了基于校验和的对策。

[16] RISC-V Functional Safety for Autonomous Automotive Systems: An Analytical Framework and Research Roadmap for ML-Assisted Certification

arXiv: 2604.17391 (cross-listed)
Authors: Nick Andreasyan, Mikhail Struve, Alexey Popov, Maksim Nikolaev, Vadim Vashkelis
Subjects: cs.SE; cs.AR; cs.LG
Tags: Autonomous Driving, Formal Methods, Hardware Security
Summary: 本文分析了RISC-V在汽车功能安全中的作用，提出了以认证经济学为核心的框架和研究路线图，讨论了LLM辅助FMEDA生成、知识图谱安全案例自动化等ML方法如何支持认证工作流。

[17] Privatar: Scalable Privacy-preserving Multi-user VR via Secure Offloading

arXiv: 2604.17476 (cross-listed)
Authors: Jianming Tong, Hanshen Xiao, Krishna Kumar Nair, Hao Kang, Ashish Sirasao, Ziqi Zhang, G. Edward Suh, Tushar Krishna
Subjects: cs.CR; cs.AR; cs.CV; eess.SY
Tags: Privacy, Edge Computing, Virtual Reality
Venue: MLSys 2024
Summary: 本文提出Privatar框架，用于多用户VR中的隐私保护头像重建卸载，通过水平分区保留高能频率分量在设备端，并采用分布感知最小扰动(DAMP)方法提供形式化隐私保证，在Meta Quest Pro上支持2.37倍并发用户数。

[18] M100: An Orchestrated Dataflow Architecture Powering General AI Computing

arXiv: 2604.17862 (cross-listed)
Authors: Yan Xie, Changkui Mao, Changsong Wu, Chao Lu, Chao Suo, Cheng Qian, Chun Yang, Danyang Zhu, Hengchang Xiong, Hongzhan Lu, Hongzhen Liu, Jiafu Liu, Jie Chen, Jie Dai, Junfeng Tang, Kai Liu, Kun Li, Lipeng Ge, Meng Sun, Min Luo, Peng Chen, Peng Wang, Shaodong Yang, Shibin Tang, Shibo Chen, Weikang Zhang, Xiao Ling, Xiaobo Du, Xin Wu, Yang Liu, Yi Jiang, Yihua Jin, Yin Huang, Yuli Zhang, Zhen Yuan, Zhiyuan Man, Zhongxiao Yao
Subjects: cs.LG; cs.AR
Tags: Hardware Architecture, Autonomous Driving, LLM Inference
Venue: ISCA 2026
Summary: M100是理想汽车提出的通用AI计算架构，采用数据流并行架构，通过编译器-架构协同设计优化数据移动，支持自动驾驶、大语言模型等多种推理应用，在效率上超越GPGPU架构。

[19] Proxics: an efficient programming model for far memory accelerators

arXiv: 2604.18120 (cross-listed)
Authors: Zikai Liu, Niels Pressel, Jasmin Schult, Roman Meier, Pengcheng Xu, Timothy Roscoe
Subjects: cs.OS; cs.AR; cs.ET; cs.SE
Tags: Near-Data Processing, Memory Architecture, Hardware Architecture
Summary: 本文提出了一种基于虚拟处理器和进程间通信通道的近数据处理(NDP)编程模型，通过编译和互连协议优化实现轻量级抽象，在真实硬件平台上验证了其在内存操作、数据库和图应用中的性能优势。

[20] Scattering-Matrix-Based Parametric Characterization of a Two-Port Bridged-T Network for Microstrip Filter Applications

arXiv: 2604.18353 (cross-listed)
Authors: Naser Khatti Dizabadi, Douglas Jussaume
Subjects: cs.ET; cs.AR
Tags: Circuit Design
Summary: 本文使用传输矩阵和散射矩阵对二端口Bridged-T网络进行参数化表征，推导了S11、S12、S21、S22等散射参数，并设计了基于该网络的高通滤波器，仿真结果显示具有良好的滚降特性。

[21] AutoPPA: Automated Circuit PPA Optimization via Contrastive Code-based Rule Library Learning

arXiv: 2604.18445 (cross-listed)
Authors: Chongxiao Li, Pengwei Jin, Di Huang, Guangrun Sun, Husheng Han, Jianan Mu, Xinyao Zheng, Jiaguo Zhu, Shuyi Xing, Hanjun Wei, Tianyun Ma, Shuyao Cheng, Rui Zhang, Ying Wang, Zidong Du, Qi Guo, Xing Hu
Subjects: cs.LG; cs.AR
Tags: RTL Generation, EDA, Circuit Design
Summary: AutoPPA是一个全自动的RTL设计PPA优化框架，通过对比代码规则库学习自动生成优化规则，采用探索-评估-归纳工作流，在实验中超越了人工优化和现有方法。

替换投稿 (9)

[22] SparrowSNN: A Hardware/software Co-design for Energy Efficient ECG Classification

arXiv: 2406.06543 (replaced)
Authors: Zhanglu Yan, Zhenyu Bai, Tulika Mitra, Weng-Fai Wong
Subjects: cs.AR; cs.LG; cs.NE; eess.SP
Tags: Neuromorphic Computing, Edge Computing, ASIC Design, Medical AI
Summary: SparrowSNN是一个面向边缘应用的软硬件协同设计脉冲神经网络框架，提出了硬件友好的SSF激活函数、可定制的低功耗量化混合ANN-SNN模型和紧凑的可重构ASIC架构，在ECG和EEG数据集上实现了20-100倍的能耗降低。

[23] Eliminating the Hidden Cost of Zone Management in ZNS SSDs

arXiv: 2511.04687 (replaced)
Authors: Teona Bagashvili, Tarikul Islam Papon, Subhadeep Sarkar, Manos Athanassoulis
Subjects: cs.AR
Tags: Storage Systems
Summary: 本文提出SilentZNS，一种新的ZNS SSD区域管理方法，通过灵活的区域分配方案减少设备级写放大和磨损，在保持并行性和读性能的同时显著降低不必要的写入操作。

[24] Aquas: Enhancing Domain Specialization through Holistic Hardware-Software Co-Optimization based on MLIR

arXiv: 2511.22267 (replaced)
Authors: Yuyang Zou, Youwei Xiao, Chenyun Yin, Yansong Xu, Yuhao Luo, Yitian Sun, Ruifan Xu, Renze Chen, Yun Liang
Subjects: cs.AR
Tags: Hardware-Software Co-design, Compiler Optimization, Hardware Architecture
Summary: Aquas是一个基于MLIR的软硬件协同设计框架，用于RISC-V架构的ASIP设计，提出了内存接口模型和基于e图的编译方法，在四个领域实现了高达15.61倍的加速。

[25] ODMA: On-Demand Memory Allocation Strategy for LLM Serving on LPDDR-Class Accelerators

arXiv: 2512.09427 (replaced)
Authors: Guoqiang Zou, Wanyu Wang, Hao Zheng, Longxiang Yin, Yinhe Han
Subjects: cs.AR; cs.AI
Tags: LLM Serving, Memory Architecture, LLM Inference
Summary: ODMA是一种面向LPDDR类加速器的按需内存分配策略，通过轻量级长度预测器和自适应桶分区解决生产负载中的分布漂移和重尾请求问题，显著提高了KV缓存利用率和吞吐量。

[26] SegSEM: Enabling and Enhancing SAM2 for SEM Contour Extraction

arXiv: 2602.20471 (replaced)
Authors: Da Chen, Guangyu Hu, Kaihong Xu, Kaichao Liang, Songjiang Li, Wei Yang, XiangYu Wen, Mingxuan Yuan
Subjects: cs.AR
Tags: Image Segmentation, Few-Shot Learning, Foundation Model
Venue: ISCAS 2026
Summary: SegSEM是一个将SAM2适配到SEM轮廓提取任务的框架，采用数据高效微调策略和混合架构，仅使用60张生产图像就在少样本设置下实现了高保真轮廓提取。

[27] VeriGraphi: A Multi-Agent Framework of Hierarchical RTL Generation for Large Hardware Designs

arXiv: 2604.14550 (replaced)
Authors: Sazzadul Islam, Tasnim Tabassum, Hao Zheng
Subjects: cs.AR; cs.AI; cs.LG; cs.MA; cs.PL
Tags: RTL Generation, Multi-Agent System, Knowledge Graph
Summary: VeriGraphi是一个多智能体框架，通过构建规范锚定的知识图谱来驱动层次化RTL生成，解决了LLM在大型硬件设计中保持结构一致性的挑战，在RISC-V处理器设计上验证了其有效性。

[28] CIMple: Standard-cell SRAM-based CIM with LUT-based split softmax for attention acceleration

arXiv: 2604.15944 (replaced)
Authors: Bas Ahn, Xingjian Tao, Manil Dev Gomony, Marc Geilen, Henk Corporaal
Subjects: cs.AR
Tags: Compute-in-Memory, LLM Inference, Circuit Design
Summary: CIMple是一种基于标准单元SRAM的存内计算架构加速器，专为自注意力机制设计，采用双库结构和基于LUT的定点softmax实现，在28nm工艺下实现了26.1 TOPS/W的能效。

[29] The Program Hypergraph: Multi-Way Relational Structure for Geometric Algebra, Spatial Compute, and Physics-Aware Compilation

arXiv: 2603.17627 (replaced)
Authors: Houston Haynes
Subjects: cs.PL; cs.AR
Tags: Geometric Algebra, Compiler Optimization, Graph Learning
Summary: 本文引入程序超图(PHG)作为程序语义图的推广，将二元边推广为任意元超边，解决了空间数据流架构中的瓦片共置问题和几何代数计算中的多路乘积表示问题。

[30] ARCS: Autoregressive Circuit Synthesis with Topology-Aware Graph Attention and Spec Conditioning

arXiv: 2603.29068 (replaced)
Authors: Tushar Dhananjay Pathak
Subjects: cs.LG; cs.AR
Tags: Circuit Design, Generative Model, Reinforcement Learning
Code: code
Summary: ARCS是一个自回归电路综合系统，结合图VAE和流匹配模型在毫秒级生成完整的模拟电路设计，通过GRPO强化学习方法解决了跨拓扑奖励分布不匹配问题，实现了99.9%的仿真有效性。

cs.AR

This post is licensed under CC BY 4.0 by the author.