北京理工大学计算机学院宋大为教授团队大语言模型蒸馏、价值观对齐、检索增强和推理优化、以及机器翻译和情感分析等下游应用方面取得一系列重要进展,继2025年获顶级国际会议ACL2025(CCF-A类)“杰出论文奖”(Outstanding Paper Award)之后,近日又有4篇论文被ACL2026接收。

ACL(Annual Meeting of the Association for Computational Linguistics)是人工智能、计算语言学及自然语言处理相关领域的CCF A类顶级国际学术会议。ACL2025于2025年7月27日至8月1日在奥地利维也纳召开,团队博士生张辰的论文“Towards the Law of Capacity Gap in Distilling Language Models”获得“杰出论文奖”。该论文首次提出了大模型蒸馏的教师-学生容量差异定律,揭示了对于给定规模的学生模型,其最优教师模型规模与学生规模之间近似呈线性比例关系,通过应用该定律蒸馏出的3B模型,在标准基准上性能优于当时的同规模基线模型,建立了新的计算-性能帕累托前沿。论文链接:https://aclanthology.org/2025.acl-long.1097.pdf

ACL2026将于7月2日至7月7日在美国加利福尼亚洲圣迭戈举办,本次会议main conference录用率为19%,findings的录用率为18%。团队硕士毕业生李泽林、博士生田炎智(与计算机学院郭宇航博士共同指导)、随艺和孟令昂的4篇论文被录用。录用论文工作简介如下。
论文1:Reward Alignment Optimization: A Direct Point-wise Alignment Approach(Main)
作者:Zelin Li,Jia Leng,Dawei Song,Yangen Hu
论文概述:本论文针对大语言模型价值观直接对齐算法核心问题,提出RAO(Reward Alignment Optimization)方法,引入一致通用前缀将归一化项转化成可计算项,无需引入额外计算和有偏估计即可实现逐点对齐优化。RAO利用显式奖励模型对回复进行标注,通过逐点MSE损失将奖励信息直接蒸馏到策略模型中,充分利用跨提示词的奖励信息,并且解耦了传统对齐目标。实验表明,RAO在多个代表性基座大模型上全面超越DPO、SimPO、RLHF等基线。
论文代码:https://github.com/Vespertinus9/RAO

论文2:Beyond Literal Mapping: Benchmarking and Improving Non-Literal Translation Evaluation (Main)
作者:Yanzhi Tian,Cunxiang Wang,Zeming Liu,Heyan Huang,Wenbo Yu,Dawei Song,Jie Tang,Yuhang Guo
论文概述:本工作针对传统机器翻译指标(如BLEU)以及LLM-as-a-Judge难以准确评估非直译领域机器翻译质量的问题,提出了支持调用搜索工具的Agent-as-a-Judge评估框架RATE。该框架通过一个执行自我反思循环的核心智能体,根据待评估翻译特点选择性地调用3个子智能体:搜索智能体、评估智能体和比较智能体,构建了首个针对非直译领域翻译质量评估的meta-evaluation数据集MENT。实验结果表示,RATE在非直译领域翻译质量评估中有更高的准确性。
论文链接:https://arxiv.org/abs/2601.07338
代码链接:https://github.com/BITHLP/RATE

论文3:Think Less, Know More: State-Aware Reasoning Compression with Knowledge Guidance for Efficient Reasoning(Findings)
作者:Yi Sui, Chaozhuo Li, Dawei Song
论文概述:针对大模型在长链式推理中普遍存在的“过度推理”与效率低下问题,提出了STACK框架,从细粒度的“状态感知”视角出发,通过引入基于局部信息熵的犹豫状态检测,在不确定性较高时触发知识引导的对比解码以纠正推理方向,在高置信但冗长时采用自提示压缩以去除冗余,同时结合基于答案分布收敛的信息增益早停机制,避免无效的重复验证步骤。实验结果表明,STACK在多个数学推理基准上显著优于现有方法,实现了准确性与效率之间的更优平衡。
论文链接:https://arxiv.org/abs/2604.09150

论文4:Beyond Polarity: Continuous Affect-Enhanced Multimodal Aspect-Based Sentiment Classification (Findings)
作者:Ling-Ang Meng, Tianyu Zhao, Dawei Song, Jingxu Cao, Youhui Zuo
论文概述:现有方面级多模态情感分析(MABSA)方法多依赖离散情感极性与通用视觉特征表示,导致在复杂语境下的情感推理能力受限。本文基于心理学中的 Valence–Arousal–Dominance(VAD)情感空间提出VADE框架,将情感建模拓展为连续情感驱动的多模态推理机制。通过构建情感增强数据集对CLIP视觉编码器进行微调,提升了视觉模态对情感线索的表达能力,并联合建模文本、图像与连续情感特征,实现精细化情感推理。实验结果表明,VADE在系列基准数据集上优于现有方法,验证了连续情感建模与基于情感感知的视觉表示的有效性。
代码链接:https://github.com/Maydayflower/VADE

主要研究人员个人简介:
宋大为教授主要研究兴趣包括量子认知计算、情感计算、大语言模型、信息检索等,先后主持欧盟、英国和中国(包括国自然重点、面上、973、重点研发)等国家级课题近20项,已发表学术论文270余篇,获得IBM创新成就奖、ACM SIGIR ICTIR2011最佳论文奖、ECIR2011最佳短论文奖、ACM SIGIR ICTIR2019最佳论文提名奖、NLPCC2022最佳论文奖、ACL2025杰出论文奖等。
郭宇航博士主要研究方向为自然语言处理,包括大语言模型智能体、语音与图像机器翻译、多模态信息处理、模型编辑等。主持国家自然科学基金青年项目,参与多项国家重点研发和国自然联合基金项目。获国际机器翻译评测第一名3次,在AAAI、ACL等顶级会议发表多篇论文。