近日,北京大学化学与分子工程学院联合计算中心、计算机学院、元培学院发布化学大模型基准SUPERChem。该基准针对当前化学知识水平评测中题目难度有限、多模态与推理过程评估缺失等不足,系统构建了专注评估大语言模型(LLM)化学推理分析能力的新体系,旨在推动化学智能评测的深入发展。
2025年,随着开源推理模型DeepSeek-R1推出,LLM在“深度思考”范式下快速发展,其在自然科学领域的应用已从简单问答转向复杂推理。然而,现有通用科学基准趋于饱和,化学专用基准多关注基础能力与化学信息学任务,缺乏对深度推理的系统考察。
从基础教育、化学奥赛到高等教育,化学学习强调知识综合运用与多步推理,是评估推理分析能力的理想场景。设计高质量评估题目需融合抽象概念与具体情境,构建层层递进的推理链,对出题者专业素养要求极高。
研究团队依托北京大学化学与分子工程学院高水平的学生群体,充分发挥其扎实学科功底与丰富解题命题经验,对已有题目素材进行准确评估与合理优化,共同构建了SUPERChem基准,填补了化学深度推理评估的空白。

SUPERChem总览与例题

SUPERChem题库的三阶段审核流程
SUPERChem题库由北大化学专业近百名师生共建,涵盖题目编写、解析撰写及严格评审的三阶段审核。题目源自专业改编,并采用防泄漏设计,避免LLM依赖记忆或从选项逆推。针对化学信息的多模态特点,同步提供图文交错与纯文本版本的对齐数据集,支持探究视觉信息对推理的影响。
目前,SUPERChem先期发布500道专家级精选题目,覆盖结构与性质、化学反应与合成、化学原理与计算、实验设计与分析等四大化学核心领域。为细粒度评估LLM思考过程,SUPERChem引入推理路径一致性(Reasoning Path Fidelity,RPF)指标:团队为每道题目撰写了含关键检查点的详细解析,通过自动化评估模型思维链与解析的一致性,判别模型是否真正“理解”化学。

前沿模型在SUPERChem上的表现
评测结果显示,SUPERChem具有较高难度与区分度。在化学专业低年级本科生闭卷测试中,人类准确率为40.3%。参与评测的前沿模型中,表现最佳的GPT-5(High)准确率为38.5%,表明其化学推理能力与低年级本科生水平相当,尚未超越人类基础专业认知。

前沿模型的正确率与RPF关系
分析RPF指标可见,不同模型推理过程质量差异明显:Gemini-2.5-Pro和GPT-5(High)在取得较高准确率的同时,其推理逻辑也更符合专家路径;而DeepSeek-V3.1-Think虽然准确率相近,但RPF得分相对较低,反映其更倾向通过启发式路径得出结论。

输入模态对不同模型的影响
在依赖多模态输入的题目中,视觉信息对不同模型影响各异。对Gemini-2.5-Pro等强推理模型,图像输入可提升准确率;而对GPT-4o等推理能力较弱的模型,图像信息会造成干扰。这表明在科学任务中需根据模型能力匹配合适的输入模态。
为进一步探究LLM推理失败的深层原因,研究团队进行了推理断点分析。结果表明,前沿模型的推理断点集中于产物结构预测、反应机理识别、构效关系分析等高阶化学推理环节。这反映出当前LLM在涉及反应性与分子结构理解的核心任务上仍存在短板。

推理断点所属化学能力分布
综上所述,SUPERChem为系统评估大语言模型的化学推理能力提供了细致、可靠的基准。评测结果指出,当前前沿模型的化学能力仍处于基础水平,在涉及高阶化学推理能力的任务上存在明显局限,为后续模型的针对性优化提供了明确方向。
SUPERChem项目由北京大学化学与分子工程学院和元培学院的赵泽华、黄志贤、李隽仁、林思宇同学领衔完成。近百位化学与分子工程学院博士生和高年级本科生参与题库构建与审核,其中包括多位国际与中国化学奥林匹克决赛获奖选手。174位北京大学化学专业低年级本科生参与了人类基线测试。
SUPERChem项目在北京大学化学与分子工程学院裴坚、高珍老师,计算中心马皓老师,计算机学院杨仝老师的指导下开展。项目获得北京大学计算中心与高性能计算平台资源支持,来自Chemy、好未来、质心教育等机构和化学与分子工程学院邹鹏、郑捷等多位教授的题目素材支持以及高杨、龙汀汀老师的专业协助。
信息来源: 北大化学与分子工程学院