arXiv cs.AR Daily Update

Posted Apr 20, 2026

By myy1966

15 min read

cs.AR 领域 2026年4月20日共有 22 篇论文更新：

15 篇新投稿：LLM Inference (Fleet [6], CIMple [13], MemExplorer [14]), RTL Verification (VeriCWEty [5], Spec2Cov [9], [2]), Hardware Architecture (Fleet [6], MemExplorer [14], [2]), Hardware Acceleration (GEN-Graph [3], CIMple [13], [4]), LLM Agent (Spec2Cov [9], [7], [12])
2 篇跨领域投稿：IoT ([16]), Hardware Security ([16]), Biometric Security ([16]), High Performance Computing ([17]), Flow Control ([17])
5 篇替换投稿：Hardware Simulation ([18]), Research Reproducibility ([18]), RTL Verification (Pecker [19]), Debugging (Pecker [19]), 3D Vision (Spira [20])

整体趋势：今日论文主要聚焦于RTL Verification、Hardware Architecture、LLM Inference等方向。

已录用论文：[10](DAC 2026), [11](IJCNN 2026), [18](ISPASS 2026)

开源论文：[20](code)

新投稿 (15)

[1] Taming Asynchronous CPU-GPU Coupling for Frequency-aware Latency Estimation on Mobile Edge

arXiv: 2604.15357
Authors: Jiesong Chen, Jun You, Zhidan Liu, Zhenjiang Li
Subjects: cs.AR; cs.AI; cs.DC
Tags: LLM Inference, Edge Computing, Energy Efficiency
Summary: 本文提出了FLAME系统，用于在移动边缘设备上准确估计不同CPU/GPU频率组合下的模型推理延迟。该方法采用层级建模来量化重叠并行度和流水线气泡，将小型语言模型的性能分析时间从数天缩短至数分钟。

[2] AutoFlows++: Hierarchical Message Flow Mining for System on Chip Designs

arXiv: 2604.15359
Authors: Bardia Nadimi, Hao Zheng
Subjects: cs.AR; cs.LG; cs.SE
Tags: EDA, RTL Verification, Hardware Architecture
Summary: 本文提出了AutoFlows++，一个用于从SoC设计通信轨迹中挖掘消息流的分层框架。该框架采用两阶段方法（局部挖掘和全局挖掘）来提取通信模式，显著提高了SoC验证任务的流程提取准确性。

[3] GEN-Graph: Heterogeneous PIM Accelerator for General Computational Patterns in Graph-based Dynamic Programming

arXiv: 2604.15361
Authors: Yanru Chen, Runyang Tian, Zheyu Li, Mahbod Afarin, Weihong Xu, Tajana Rosing
Subjects: cs.AR; cs.SI
Tags: Compute-in-Memory, Hardware Acceleration, Bioinformatics
Summary: 本文提出了GEN-Graph，一种异构存内处理芯片，集成了两种专用计算单元以支持不同的图动态规划模式。该架构在矩阵中心工作负载和遍历中心工作负载上均实现了显著的性能提升。

[4] Photonic AI: A Hybrid Diffractive Holographic Neural System for Passive Optical Real-Time Image Classification

arXiv: 2604.15364
Authors: Prakul Sunil Hiremath
Subjects: cs.AR; cs.LG
Tags: Photonic Computing, Image Classification, Hardware Acceleration
Summary: 本文开发了一种用于图像分类的混合衍射全息架构，将衍射光神经网络与全息干涉学习算子相结合。该系统在MNIST上实现了91.2%的测试准确率，具有纳秒级延迟。

[5] VeriCWEty: Embedding enabled Line-Level CWE Detection in Verilog

arXiv: 2604.15375
Authors: Prithwish Basu Roy, Zeng Wang, Anatolii Chuvashlov, Weihua Xiao, Johann Knechtel, Ozgur Sinanoglu, Ramesh Karri
Subjects: cs.AR; cs.AI; cs.CR
Tags: RTL Verification, Hardware Security, Vulnerability Detection
Summary: 本文提出了一种基于嵌入的错误检测框架，用于在模块级和行级粒度检测和分类Verilog代码中的常见弱点枚举（CWE）。该方法在识别CWE方面达到约89%的精确度，在检测行级错误方面达到96%的准确率。

[6] Fleet: Hierarchical Task-based Abstraction for Megakernels on Multi-Die GPUs

arXiv: 2604.15379
Authors: Sangeeta Chowdhary, Ryan Swann, Sean Siddens, Muhammad Osama, Stephen Neuendorffer, Alexandru Dutu, Karthik Sangaiah, Sandeepa Bhuyan, Samuel Bayliss, Ganesh Dasika
Subjects: cs.AR
Tags: LLM Inference, GPU Computing, Hardware Architecture
Summary: 本文提出了Fleet，一种用于多芯片GPU的分层任务模型，引入了芯片级任务抽象来绑定工作和数据到特定芯片。该方法通过改进缓存利用率，在AMD Instinct MI350上实现了1.3-1.5倍的LLM推理延迟降低。

[7] Exploring LLM-based Verilog Code Generation with Data-Efficient Fine-Tuning and Testbench Automation

arXiv: 2604.15388
Authors: Mu-Chi Chen, Po-Hsuan Huang, Yu-Hung Kao, Yen-Fu Liu, Yu-Kai Hung, Cheng Liang, Shao-Chun Ho, Chia-Heng Tu, Shih-Hao Hung
Subjects: cs.AR; cs.AI
Tags: RTL Generation, LLM Agent, Code Generation
Summary: 本文提出了一种使用多智能体模型生成测试平台的工作流程，用于Verilog代码生成的高质量微调数据。微调后的模型在VerilogEval v2基准测试上达到了与最先进方法相当的性能，同时使用了更少的训练数据。

[8] EasyRider: Mitigating Power Transients in Datacenter-Scale Training Workloads

arXiv: 2604.15522
Authors: Dillon Jensen, Obi Nnorom Jr., Grant Wilkins, Hugo Budd, Ram Rajagopal, Juan Rivas-Davila, Phil Levis
Subjects: cs.AR; eess.SY
Tags: Power Management, Distributed Training, Data Center
Summary: 本文介绍了EasyRider，一种用于缓解大规模AI训练工作负载功率波动的机架级功率架构。该系统使用无源元件和辅助储能装置，在不修改AI训练框架的情况下将机架功率变化限制在电网安全要求范围内。

[9] Spec2Cov: An Agentic Framework for Code Coverage Closure of Digital Hardware Designs

arXiv: 2604.15606
Authors: Sean Lowe, Elias Hilaneh, Alma Babbit, Nakul Gopalan, Vidya Chhabria, Aman Arora
Subjects: cs.AR
Tags: RTL Verification, LLM Agent, Test Generation
Summary: 本文介绍了Spec2Cov，一个自动从设计规范生成测试激励以加速硬件验证覆盖率闭合的智能体框架。该框架在简单设计上实现了100%覆盖率，在复杂设计上实现了高达49%的覆盖率。

[10] Overmind NSA: A Unified Neuro-Symbolic Computing Architecture with Approximate Nonlinear Activations and Preemptive Memory Bypass

arXiv: 2604.15623
Authors: Weilun Wang, Zirui Wang, Wantong Li
Subjects: cs.AR
Tags: Neurosymbolic AI, Hardware Architecture, Energy Efficiency
Venue: DAC 2026
Summary: 本文提出了Overmind，一种具有跨层优化的统一神经符号架构，采用Padé近似处理非线性函数和抢占式内存旁路技术。该架构在混合神经符号工作负载上实现了8.1 TOPS/W的能效和410 GOPS的吞吐量。

[11] HYPERHEURIST: A Simulated Annealing-Based Control Framework for LLM-Driven Code Generation in Optimized Hardware Design

arXiv: 2604.15642
Authors: Shiva Ahir, Prajna Bhat, Alex Doboli
Subjects: cs.AR; cs.AI
Tags: RTL Generation, Code Generation, Optimization
Venue: IJCNN 2026
Summary: 本文提出了HYPERHEURIST，一个基于模拟退火的控制框架，将LLM生成的RTL视为中间候选设计，同时关注功能正确性和功耗-性能-面积优化。该方法产生了比单次LLM生成更稳定的优化行为。

[12] Understanding Inference-Time Token Allocation and Coverage Limits in Agentic Hardware Verification

arXiv: 2604.15657
Authors: Vihaan Patel, Vidya Chhabria, Aman Arora
Subjects: cs.AR
Tags: RTL Verification, LLM Agent, LLM Evaluation
Summary: 本文对硬件验证中LLM覆盖率闭合进行了实证研究，表征了覆盖漏洞并跟踪了各类别的令牌使用情况。增强系统实现了95-99%的覆盖率，同时使用的令牌数比基线少4-13倍。

[13] CIMple: Standard-cell SRAM-based CIM with LUT-based split softmax for attention acceleration

arXiv: 2604.15944
Authors: Bas Ahn, Xingjian Tao, Manil Dev Gomongy, Marc Geilen, Henk Corporaal
Subjects: cs.AR
Tags: Compute-in-Memory, LLM Inference, Hardware Acceleration
Summary: 本文提出了CIMple，一种用于Transformer自注意力加速的全数字标准单元SRAM存内计算架构。该架构采用基于查找表的定点实现，在28nm工艺下实现了26.1 TOPS/W的能效。

[14] MemExplorer: Navigating the Heterogeneous Memory Design Space for Agentic Inference NPUs

arXiv: 2604.16007
Authors: Haoran Wu, Zeyu Cao, Yao Lai, Binglei Lou, Jiayi Nie, Can Xiao, Timi Adeniran, Przemyslaw Forys, Kauser Johar, Catriona Wright, Junyi Liu, Kai Shi, Nicholas D. Lane, Rika Antonova, Jianyi Cheng, Timothy Jones, Aaron Zhao, Robert Mullins
Subjects: cs.AR
Tags: LLM Inference, Hardware Architecture, Memory Architecture
Summary: 本文提出了MemExplorer，一个用于异构NPU系统的内存系统合成器，自动确定高效的内存架构以平衡智能体LLM工作负载的预填充和解码设备之间的吞吐量和功耗。

[15] Co-Design of CNN Accelerators for TinyML using Approximate Matrix Decomposition

arXiv: 2604.16113
Authors: José Juan Hernández Morales, Georgios Mentzos, Frank Hannig, Konstantinos Balaskas, Georgios Zervakis, Jörg Henkel, Jürgen Teich
Subjects: cs.AR
Tags: DNN Deployment, Edge Computing, Model Compression
Summary: 本文提出了一种使用近似矩阵分解优化TinyML CNN加速器设计的框架，无需重新训练。该遗传算法驱动的框架在FPGA目标上实现了平均33%的延迟改进，平均准确率损失仅为1.3%。

跨领域投稿 (2)

[16] Secure Authentication in Wireless IoT: Hamming Code Assisted SRAM PUF as Device Fingerprint

arXiv: 2604.15810 (cross-listed)
Authors: Florian Lehn, Pascal Ahr, Hans D. Schotten
Subjects: cs.CR; cs.AR
Tags: IoT, Hardware Security, Biometric Security
Summary: 本文演示了一种使用SRAM PUF进行工业物联网设备认证的基于阈值的认证方案，结合汉明码纠错和时序多数投票。该研究建立了平衡纠错质量与资源约束的设计空间。

[17] Characterization of Real Communication Patterns and Congestion Dynamics in HPC Interconnection Networks

arXiv: 2604.16088 (cross-listed)
Authors: Miguel Sánchez de La Rosa, Gabriel Gomez-Lopez, Alejandro Baviera, Jose Duro, Francisco J. andújar, Jesus Escudero-Sahuquillo, Pedro J. Garcia, Francisco J. Alfaro, Maria E. Gomez, Julio Sahuquillo, José L. Sánchez, Francisco J. Quiles
Subjects: cs.NI; cs.AR
Tags: High Performance Computing, Flow Control, Data Center
Summary: 本文提出了一种基于VEF Traces框架的方法，用于表征、建模和模拟高性能计算应用的通信模式，分析了NEST、GROMACS、LAMMPS和PATMOS等应用在超级计算机上的网络拥塞场景。

替换投稿 (5)

[18] Cleaning up the Mess: Re-Evaluating the Real-System Modeling Accuracy of Ramulator 2.0

arXiv: 2510.15744 (replaced)
Authors: F. Nisa Bostanci, Haocong Luo, Ataberk Olgun, Maria Makeenkova, Geraldo F. Oliveira, A. Giray Yaglikci, Onur Mutlu
Subjects: cs.AR; cs.PF
Tags: Hardware Simulation, Research Reproducibility
Venue: ISPASS 2026
Summary: 本文对一篇MICRO 2024论文提出质疑，指出其在评估Ramulator 2.0内存系统模拟器时存在技术配置错误和方法论问题，证明正确配置后的Ramulator 2.0能够很好地模拟真实系统性能特征。

[19] Pecker: Bug Localization Framework for Sequential Designs via Causal Chain Reconstruction

arXiv: 2603.02583 (replaced)
Authors: Jiaping Tang, Jianan Mu, Tianyun Ma, Zhiteng Chao, Jing Ye, Huawei Li
Subjects: cs.AR
Tags: RTL Verification, Debugging
Summary: 本文提出了Pecker框架，用于时序电路设计的错误定位，通过因果链重建技术解决时序设计中错误激活与观察之间的时间错位问题，在Top-1/3/5排名内分别定位51%/80%/85%的错误。

[20] Spira: Exploiting Voxel Data Structural Properties for Efficient Sparse Convolution in Point Cloud Networks

arXiv: 2511.20834 (replaced)
Authors: Dionysios Adamopoulos, Anastasia Poulopoulou, Georgios Goumas, Christina Giannoula
Subjects: cs.DC; cs.AR; cs.LG; cs.PF
Tags: 3D Vision, GPU Computing, Autonomous Driving
Code: code
Summary: 本文提出了Spira，首个针对GPU的体素属性感知稀疏卷积引擎，利用体素坐标的整数性、有界性和几何连续性等特性，在端到端推理上比现有最先进方法平均快1.68倍。

[21] Mitigating hallucinations and omissions in LLMs for invertible problems: An application to hardware logic design automation

arXiv: 2512.03053 (replaced)
Authors: Andrew S. Cassidy, Guillaume Garreau, Jay Sivagnaname, Mike Grassi, Bernard Brezzo, John V. Arthur, Dharmendra S. Modha
Subjects: cs.LG; cs.AI; cs.AR; cs.PL
Tags: LLM Hallucination, RTL Generation, Circuit Design
Summary: 本文提出了一种利用大语言模型作为无损编码器和解码器的方法，用于解决可逆问题（如逻辑条件表到硬件描述语言代码的转换），有效缓解了LLM的幻觉和遗漏问题，并成功生成了二维片上网络路由器的完整HDL代码。

[22] Micrometer-scale displacement and thickness sensing using a single terahertz resonant-tunneling diode

arXiv: 2602.23621 (replaced)
Authors: Li Yi, Shota Ito, Chao Tang, Yousuke Nishida, Koji Terumoto, Toshihisa Maeda, Yuta Inose, Masayuki Fujita
Subjects: cs.AR
Tags: THz Sensing, Hardware Architecture
Summary: 本文提出了一种基于单个谐振隧道二极管的280 GHz频段雷达系统，利用自混频效应产生低频干涉信号，实现了约5微米的最小可检测位移，并能定量分辨12.5、25和50微米的聚合物薄膜厚度。

cs.AR

This post is licensed under CC BY 4.0 by the author.