什么是HiReLC框架？

HiReLC是一种分层强化学习框架，可自动对深度神经网络进行联合量化与结构化剪枝，实现约6至6.7倍参数压缩。

为什么HiReLC对AI模型部署很重要？

它通过高低层代理协同优化，解决传统分离处理导致的精度损失，在大幅压缩模型体积的同时保持甚至提升准确率。

HiReLC的架构无关设计带来哪些实际应用前景？

其架构无关设计可无缝集成至主流框架，降低边缘设备部署门槛，为自动化模型压缩与轻量化AI提供新范式。

HiReLC：分层强化学习重构神经网络压缩搜索空间，实现高效联合剪枝与量化

近日，研究团队提出HiReLC框架，利用分层集成强化学习实现深度神经网络的自动联合量化与结构化剪枝。该框架通过高低层代理协同，在降低计算成本的同时优化全局预算分配。实验显示，HiReLC在Vision Transformer和CNN基准上达成近6至7倍压缩比，部分场景准确率显著提升。这一突破为自动化模型压缩提供了新范式，有望加速AI模型在边缘设备上的部署与应用。

深度神经网络的部署面临计算资源与存储成本的严峻挑战，传统的模型压缩方法往往将剪枝与量化分离处理，难以捕捉两者之间的复杂耦合关系，导致压缩效率低下或精度损失严重。针对这一核心问题，本文提出了HiReLC框架，旨在通过分层强化学习实现自动化的联合量化与结构化剪枝。该研究的核心贡献在于设计了一种架构无关的模块化控制器，将压缩搜索空间分解为低层和高层两个抽象层级。低层代理负责细粒度的配置选择，包括位宽、剪枝比例和量化粒度，而高层代理则专注于全局资源预算的协调分配。这种分层设计不仅降低了搜索空间的维度灾难，还通过引入基于Fisher信息的敏感性估计，使高层代理能够更智能地识别网络中不同模块对压缩的敏感度，从而在保持模型精度的前提下实现更高效的参数压缩。这种方法论上的创新为自动化机器学习在模型压缩领域的应用提供了新的思路，解决了传统方法在搜索效率与压缩效果之间难以平衡的痛点。

在技术方法层面，HiReLC构建了一个双层强化学习代理系统。低层代理（LLAs）在每个网络模块中独立运行，其动作空间是多离散的，涵盖了量化位宽、剪枝保留率、量化类型以及量化粒度等多个维度的选择。这种细粒度的控制允许模型针对每个模块的特性进行定制化压缩。高层代理（HLAs）则通过集成投票机制来协调全局预算，其决策依据是基于Fisher信息矩阵计算的敏感性估计，这有助于识别哪些层对误差传播更为敏感，从而优先保护这些层或给予更宽松的压缩预算。为了缓解强化学习中策略评估的高计算成本，框架设计了一个迭代主动学习循环。该循环将基于代理模型的强化学习优化与压缩后的微调过程交替进行。

具体而言，使用一个轻量级的多层感知机（MLP）作为代理模型来近似评估压缩策略的效果，主要用于奖励塑形，而非替代最终的严格评估。在冷启动阶段，框架采用logit-MSE作为代理指标，以加速初始策略的收敛。这种设计既保证了训练效率，又确保了最终模型性能评估的准确性，体现了工程实现上的精细考量。实验部分在Vision Transformer和CNN等多种主流基准模型上进行了广泛验证，展示了HiReLC的通用性和有效性。关键结果显示，该框架能够实现5.99至6.72倍的参数存储压缩比，这是一个显著的压缩成果。在精度方面，表现呈现出多样性：在某些设置下，压缩后的模型准确率甚至提升了3.83%，这表明合理的压缩策略可能具有正则化效果，有助于提升泛化能力；而在其他设置中，准确率下降了0.55%至5.62%，仍在可接受范围内。

消融实验进一步验证了分层策略分解和敏感性感知引导作为实用设计选择的重要性。结果表明，相较于单层代理或非敏感性引导的方法，HiReLC在压缩率和精度保持之间取得了更好的平衡。这些实验数据不仅证明了框架的有效性，也为后续研究提供了关于如何平衡压缩强度与模型性能的重要参考依据，特别是在处理不同架构模型时的适应性表现。从行业意义与潜在影响来看，HiReLC为开源社区和工业落地提供了强有力的工具。其架构无关的设计意味着该框架可以轻松集成到现有的深度学习框架中，支持各种类型的神经网络结构，降低了应用门槛。对于工业界而言，自动化的联合压缩方法减少了人工调参的成本，加速了模型从训练到部署的周期，特别是在边缘计算和移动设备等资源受限场景下，具有巨大的应用潜力。此外，该框架中引入的代理模型和主动学习机制，为降低强化学习在大规模模型优化中的计算开销提供了新的范式，可能对后续的大模型压缩研究产生深远影响。通过揭示分层搜索和敏感性引导在压缩任务中的优势，本文也为学术界探索更高效的自动化模型压缩算法指明了方向，促进了AI基础设施的轻量化发展。

Sources

arXiv