北理工宋大为团队在大语言模型轻量化、价值观对齐和推理优化及应用方面取得重要进展-学院新闻-北京理工大学计算机学院

北理工宋大为团队在大语言模型轻量化、价值观对齐和推理优化及应用方面取得重要进展

编辑：林婷审核：周连景供稿：宋大伟发布时间：2026-04-17 浏览次数：

北京理工大学计算机学院宋大为教授团队大语言模型蒸馏、价值观对齐、检索增强和推理优化、以及机器翻译和情感分析等下游应用方面取得一系列重要进展，继2025年获顶级国际会议ACL2025（CCF-A类）“杰出论文奖”（Outstanding Paper Award）之后，近日又有4篇论文被ACL2026接收。

图片1.png

ACL（Annual Meeting of the Association for Computational Linguistics）是人工智能、计算语言学及自然语言处理相关领域的CCF A类顶级国际学术会议。ACL2025于2025年7月27日至8月1日在奥地利维也纳召开，团队博士生张辰的论文“Towards the Law of Capacity Gap in Distilling Language Models”获得“杰出论文奖”。该论文首次提出了大模型蒸馏的教师-学生容量差异定律，揭示了对于给定规模的学生模型，其最优教师模型规模与学生规模之间近似呈线性比例关系，通过应用该定律蒸馏出的3B模型，在标准基准上性能优于当时的同规模基线模型，建立了新的计算-性能帕累托前沿。论文链接：https://aclanthology.org/2025.acl-long.1097.pdf

图片2.png

ACL2026将于7月2日至7月7日在美国加利福尼亚洲圣迭戈举办，本次会议main conference录用率为19%，findings的录用率为18%。团队硕士毕业生李泽林、博士生田炎智（与计算机学院郭宇航博士共同指导）、随艺和孟令昂的4篇论文被录用。录用论文工作简介如下。

论文1：Reward Alignment Optimization: A Direct Point-wise Alignment Approach（Main）

作者：Zelin Li，Jia Leng，Dawei Song，Yangen Hu

论文概述：本论文针对大语言模型价值观直接对齐算法核心问题，提出RAO（Reward Alignment Optimization）方法，引入一致通用前缀将归一化项转化成可计算项，无需引入额外计算和有偏估计即可实现逐点对齐优化。RAO利用显式奖励模型对回复进行标注，通过逐点MSE损失将奖励信息直接蒸馏到策略模型中，充分利用跨提示词的奖励信息，并且解耦了传统对齐目标。实验表明，RAO在多个代表性基座大模型上全面超越DPO、SimPO、RLHF等基线。

论文代码：https://github.com/Vespertinus9/RAO

图片3.png

论文2：Beyond Literal Mapping: Benchmarking and Improving Non-Literal Translation Evaluation （Main）

作者：Yanzhi Tian，Cunxiang Wang，Zeming Liu，Heyan Huang，Wenbo Yu，Dawei Song，Jie Tang，Yuhang Guo

论文概述：本工作针对传统机器翻译指标（如BLEU）以及LLM-as-a-Judge难以准确评估非直译领域机器翻译质量的问题，提出了支持调用搜索工具的Agent-as-a-Judge评估框架RATE。该框架通过一个执行自我反思循环的核心智能体，根据待评估翻译特点选择性地调用3个子智能体：搜索智能体、评估智能体和比较智能体，构建了首个针对非直译领域翻译质量评估的meta-evaluation数据集MENT。实验结果表示，RATE在非直译领域翻译质量评估中有更高的准确性。

论文链接：https://arxiv.org/abs/2601.07338

代码链接：https://github.com/BITHLP/RATE

图片4.png

论文3：Think Less, Know More: State-Aware Reasoning Compression with Knowledge Guidance for Efficient Reasoning（Findings）

作者：Yi Sui, Chaozhuo Li, Dawei Song

论文概述：针对大模型在长链式推理中普遍存在的“过度推理”与效率低下问题，提出了STACK框架，从细粒度的“状态感知”视角出发，通过引入基于局部信息熵的犹豫状态检测，在不确定性较高时触发知识引导的对比解码以纠正推理方向，在高置信但冗长时采用自提示压缩以去除冗余，同时结合基于答案分布收敛的信息增益早停机制，避免无效的重复验证步骤。实验结果表明，STACK在多个数学推理基准上显著优于现有方法，实现了准确性与效率之间的更优平衡。

论文链接：https://arxiv.org/abs/2604.09150

图片5.png

论文4：Beyond Polarity: Continuous Affect-Enhanced Multimodal Aspect-Based Sentiment Classification （Findings）

作者：Ling-Ang Meng, Tianyu Zhao, Dawei Song, Jingxu Cao, Youhui Zuo

论文概述：现有方面级多模态情感分析（MABSA）方法多依赖离散情感极性与通用视觉特征表示，导致在复杂语境下的情感推理能力受限。本文基于心理学中的 Valence–Arousal–Dominance（VAD）情感空间提出VADE框架，将情感建模拓展为连续情感驱动的多模态推理机制。通过构建情感增强数据集对CLIP视觉编码器进行微调，提升了视觉模态对情感线索的表达能力，并联合建模文本、图像与连续情感特征，实现精细化情感推理。实验结果表明，VADE在系列基准数据集上优于现有方法，验证了连续情感建模与基于情感感知的视觉表示的有效性。

代码链接：https://github.com/Maydayflower/VADE

图片6.png

主要研究人员个人简介：

宋大为教授主要研究兴趣包括量子认知计算、情感计算、大语言模型、信息检索等，先后主持欧盟、英国和中国（包括国自然重点、面上、973、重点研发）等国家级课题近20项，已发表学术论文270余篇，获得IBM创新成就奖、ACM SIGIR ICTIR2011最佳论文奖、ECIR2011最佳短论文奖、ACM SIGIR ICTIR2019最佳论文提名奖、NLPCC2022最佳论文奖、ACL2025杰出论文奖等。

郭宇航博士主要研究方向为自然语言处理，包括大语言模型智能体、语音与图像机器翻译、多模态信息处理、模型编辑等。主持国家自然科学基金青年项目，参与多项国家重点研发和国自然联合基金项目。获国际机器翻译评测第一名3次，在AAAI、ACL等顶级会议发表多篇论文。