arXiv cs.AR Daily Update

Posted Apr 17, 2026

By myy1966

10 min read

cs.AR 领域 2026年4月17日共有 11 篇论文更新：

5 篇新投稿：LLM Agent (VeriGraphi [1], [3]), Hardware Architecture (SCENIC [4], [5]), RTL Generation (VeriGraphi [1]), Knowledge Graph (VeriGraphi [1]), Hardware Acceleration ([2])
5 篇跨领域投稿：Hardware Acceleration (ELMoE-3D [8], [9]), Fault Tolerance (BitFlipScope [6]), LLM Security (BitFlipScope [6]), Model Security (BitFlipScope [6]), GPU Computing (DEEP-GAP [7])
1 篇替换投稿：GPU Computing ([11]), Hardware Acceleration ([11]), Quantization ([11])

整体趋势：今日论文主要聚焦于Hardware Acceleration、LLM Agent、RTL Generation等方向。

已录用论文：[3](DAC 2026), [6](HOST 2026)

开源论文：[11](code)

新投稿 (5)

[1] VeriGraphi: A Multi-Agent Framework of Hierarchical RTL Generation for Large Hardware Designs

arXiv: 2604.14550
Authors: Sazzadul Islam, Tasnim Tabassum, Hao Zheng
Subjects: cs.AR; cs.AI; cs.LG; cs.MA; cs.PL
Tags: RTL Generation, LLM Agent, Knowledge Graph
Summary: 本文提出了VeriGraphi框架，通过引入规范锚定的知识图谱作为架构基础，驱动RTL生成流程，解决了大语言模型在生成大规模层次化硬件设计时面临的上下文丢失、接口幻觉和结构不一致等问题。该框架通过多智能体迭代分析构建知识图谱，显式编码模块层次、端口接口和模块间依赖关系，实现了RISC-V处理器的可靠层次化RTL生成。

[2] Accelerating CRONet on AMD Versal AIE-ML Engines

arXiv: 2604.14700
Authors: Kaustubh Mhatre, Vedant Tewari, Aditya Ray, Farhan Khan, Ridwan Olabiyi, Ashif Iquebal, Aman Arora
Subjects: cs.AR
Tags: Hardware Acceleration, DNN Deployment, Energy Efficiency
Summary: 本文在AMD Versal AIE-ML架构上实现了拓扑优化神经网络CRONet的硬件加速方案，充分利用AIE-ML引擎的并行性和内存层次结构优化神经网络算子执行。这是首个在AIE-ML阵列上完全实现的端到端神经网络，所有中间激活值和网络权重在推理过程中均驻留在片上，相比GPU实现了2.49倍延迟降低和4.18倍能效提升。

[3] Autonomous Evolution of EDA Tools: Multi-Agent Self-Evolved ABC

arXiv: 2604.15082
Authors: Cunxi Yu, Haoxing Ren
Subjects: cs.AR; cs.AI
Tags: EDA, LLM Agent, Code Generation
Venue: DAC 2026
Summary: 本文首次提出了自演化逻辑综合框架，利用大语言模型智能体自主改进广泛采用的逻辑综合系统ABC的源代码。框架通过正确性和QoR驱动的评估循环迭代演化特定子组件，在多套基准测试上持续发现超越人工设计启发式规则的优化策略，实现了百万行规模EDA工具的自主渐进式改进。

[4] SCENIC: Stream Computation-Enhanced SmartNIC

arXiv: 2604.15128
Authors: Benjamin Ramhorst, Maximilian Jakob Heer, Luhao Liu, Heejae Kim, Jonas Dann, Jin-Soo Kim, Gustavo Alonso
Subjects: cs.AR; cs.DC; cs.NI
Tags: Hardware Architecture, Network Protocol, Edge Computing
Summary: 本文介绍了SCENIC，一个开源数据中心SmartNIC，将NIC数据路径视为一流流计算基板，结合共享硬件/软件抽象实现基础设施与应用的紧密协同设计。该系统实现200G网络数据路径，支持卸载的TCP/IP和RDMA协议栈，并通过数据路径上的流计算单元和嵌入式ARM核心实现灵活的数据处理和控制路径操作。

[5] Democratization of Real-time Multi-Spectral Photoacoustic Imaging: Open-Sourced System Architecture for OPOTEK Phocus & Verasonics Vantage Combination

arXiv: 2604.15255
Authors: Ryo Murakami, Yichuan Tang, Haichong K. Zhang
Subjects: cs.AR; eess.SY
Tags: Medical AI, Hardware Architecture, Sensor Fusion
Summary: 本文针对实时多光谱光声成像中快速调谐激光器与数据采集平台之间的同步不稳定问题，建立了适用于OPOTEK Phocus激光器和Verasonics Vantage系统组合的开源硬件-软件架构。通过采用独立微控制器进行确定性激光触发计数和解耦的客户端-服务器数据流框架，系统克服了操作系统引起的时间偏差和本地存储瓶颈。

跨领域投稿 (5)

[6] BitFlipScope: Scalable Fault Localization and Recovery for Bit-Flip Corruptions in LLMs

arXiv: 2512.22174 (cross-listed)
Authors: Muhammad Zeeshan Karamat, Sadman Saif, Christiana Chamon Garcia
Subjects: cs.DC; cs.AI; cs.AR; cs.CR; cs.LG
Tags: Fault Tolerance, LLM Security, Model Security
Venue: HOST 2026
Summary: 本文提出了BitFlipScope，一个可扩展的软件框架，用于识别和恢复大语言模型中由硬件退化、宇宙辐射或Rowhammer攻击引起的位翻转故障。该框架支持有无干净参考模型两种场景，通过差分分析和残差路径扰动定位故障区域，并支持无需微调的轻量级性能恢复，为硬件故障和对抗环境下的可信LLLM部署提供支持。

[7] DEEP-GAP: Deep-learning Evaluation of Execution Parallelism in GPU Architectural Performance

arXiv: 2604.14552 (cross-listed)
Authors: Kathiravan Palaniappan
Subjects: cs.PF; cs.AR; cs.LG
Tags: GPU Computing, LLM Inference, Benchmark
Summary: 本文介绍了DEEP-GAP，一个系统性的GPU推理性能评估框架，在相同配置和工作负载下对比评估NVIDIA T4和L4 GPU在FP32、FP16和INT8精度模式下的性能表现。结果显示L4相比T4实现高达4.4倍吞吐量提升，并在较小批量下达到峰值效率，为现代推理部署中的精度模式、批量大小和GPU架构选择提供了实用指导。

[8] ELMoE-3D: Leveraging Intrinsic Elasticity of MoE for Hybrid-Bonding-Enabled Self-Speculative Decoding in On-Premises Serving

arXiv: 2604.14626 (cross-listed)
Authors: Yuseon Choi, Jingu Lee, Jungjun Oh, Sunjoo Whang, Byeongcheol Kim, Minsung Kim, Hoi-Jun Yoo, Sangjin Kim
Subjects: cs.LG; cs.AI; cs.AR; cs.DC
Tags: Mixture-of-Experts, Speculative Decoding, Hardware Acceleration
Summary: 本文提出了ELMoE-3D，一个基于混合键合的软硬件协同设计框架，统一缓存加速和推测解码以在MoE模型服务中实现跨批量大小的整体加速。该框架利用MoE专家和比特位的内在弹性构建弹性自推测解码，在3D堆叠硬件上实现了平均6.6倍加速和4.4倍能效提升。

[9] Scaling Photonic Tensor Cores with Unary and Homodyne Designs

arXiv: 2604.14664 (cross-listed)
Authors: Oluwaseun Alo, Ishan Thakkar
Subjects: cs.AR
Tags: Photonic Computing, Hardware Acceleration
Summary: 本文分析了五种光子微环张量核心设计，使用统一的光功率模型评估其可扩展性。研究表明电路排序、一元编码和零差累加影响可扩展性，其中后两者为实现更高并行度提供了最强路径。

[10] Dr.~RTL: Autonomous Agentic RTL Optimization through Tool-Grounded Self-Improvement

arXiv: 2604.14989 (cross-listed)
Authors: Wenji Fang, Yao Lu, Shang Liu, Jing Wang, Ziyan Guo, Junxian He, Fengbin Tu, Zhiyao Xie
Subjects: cs.AI; cs.AR
Tags: RTL Generation, LLM Agent, EDA
Summary: 本文提出了Dr. RTL，一个用于RTL时序优化的智能体框架，在真实评估环境中通过工具驱动的自我改进实现持续优化。框架通过多智能体协作进行关键路径分析、并行RTL重写和基于工具的评估，并将优化经验提炼为可复用的技能库，在20个真实RTL设计上实现了平均21%/17%的WNS/TNS改进和6%的面积减少。

替换投稿 (1)

[11] Bit-Accurate Modeling of GPU Matrix Multiply-Accumulate Units: Demystifying Numerical Discrepancy and Accuracy

arXiv: 2511.10909 (replaced)
Authors: Peichen Xie, Shuotao Xu, Yang Wang, Fan Yang, Mao Yang
Subjects: cs.AR; cs.LG; math.NA
Tags: GPU Computing, Hardware Acceleration, Quantization
Code: code
Summary: 本文提出了闭环特征探测框架，用于构建GPU矩阵乘累加单元的完整算术行为模型，首次推导出从NVIDIA Volta到RTX Blackwell以及AMD CDNA1到CDNA3共十种GPU架构上MMA指令的位精确算术模型。这些模型解释了跨平台数值差异和精度问题，揭示了四种精度瓶颈设计和一种数值不对称设计，为未来MMA单元提供了软件解决方案和设计指导。

cs.AR

This post is licensed under CC BY 4.0 by the author.