对于此次“书生”大模型的突破,第50届国际数学奥林匹克竞赛金牌选手郑凡表示,这彻底改变了他对当前大模型数学能力上限的看法,未来大模型有望成为一名真正的“研究伙伴”,和人类携手探索数学大满贯官网,乃至更广阔的科学疆域。
超凡国际首先是以数学引理为核心的多轮分层推理机制。面对高难度数学问题,大模型像数学家一样将复杂推理拆解为一个个可复用的“引理模块”,通过多种模型的分工协作,突破了单次上下文长度限制,实现了分阶段探索与校验。
上海AI实验室主任、首席科学家周伯文
AI接连攻克基础科学堡垒
“书生”走出了独特的“第三条路”。据项目团队介绍,该模型通过多项核心技术创新,实现了“通专融合”,使得通用模型也具备进行超长程的严谨推理能力。

“通专融合”走出“第三条路”
正如上海AI实验室主任、首席科学家周伯文所说,AI for Science应当在未来迈向AGI(通用人工智能) for Science,这意味着需要从纯粹依赖自然语言,走向自然语言与符号语言等多种表示形式的融合。“书生”模型正是这一理念的体现。
最震撼的是其中第4题的解答大满贯官网,这是一道涉及30种颜色、2100张纸牌操作的复杂组合题。“书生”模型不仅在规定时间内得出了正确结论,其解题思路被专家评价为“一个新的解法,巧妙的调整法,在学生的解法中没有见过”。

此次在数学奥赛中取得佳绩,并非上海AI实验室在科学领域的“首金”。就在上个月,该实验室的AI模型同样经受了2025年国际物理奥赛(IPhO)的考验,并拿下金牌,成为首个也是唯一获得金牌的开源模型。接连攻克两座基础科学的“堡垒”,某种意义上标志着AI正从单一任务的求解者,逐渐向具备跨学科能力的“全能科学家”演进。
从“做对题”迈向“创造性解题”
三是将通用模型与专业符号引擎结合,使AI兼具“发散性思维”和精确严谨,使其能像人类科学家一样逐步推导、试错和修正。
最终,“书生”大模型展现出了惊人的思维能力。在全部6题中,有4题获得满分21分,另两题则因为“未证明最优性”“部分不严格”而分别得到9分。阅卷专家惊叹其表达方式“非常接近人类”。
数学奥赛犹如智慧皇冠上的明珠,是顶尖智力的竞技,也一度成为人工智能(AI)难以攻克的高地。在近日揭晓的全国中学生数学奥林匹克竞赛(CMO)决赛中,由上海人工智能实验室(上海AI实验室)研发的“书生”科学多模态大模型(Intern-S1)斩获102分的高分,不仅远超78分的金牌分数线,更跨过了87分的国家集训队入选线,位列大模型得分榜首。
据上海AI实验室透露,他们计划将“书生”模型的长程推理能力,拓展至物理、化学、生命科学等更广泛的基础科研领域,不断推进“长时间独立思考”,甚至是“长时间独立科研”,从而加速各领域科研范式的根本性变革,为重大科学突破提供关键支撑,赋能未来的科学发现进程。
“书生”模型之所以能取得如此突破,关键在于它采用了上海AI实验室提出的“通专融合”技术架构。
二是基于结果的过程校验。针对AI在进行长链条推理时容易出错的痛点,科研人员引入了高密度的监督机制,显著提升了证明过程的严谨性。
未曾见过的解法,对AI来说,意味着它绝非“知识的搬运工”,而是可以突破人类思维局限,从“做对题”迈向“创造性解题”。而这一点,哪怕是对人类参赛者而言,这也是一个了不起的成就。
当前,全球围绕科研领域的AI竞赛存在两条主要技术路线:一条是“专业派”,以谷歌AlphaProof为代表,核心是基于形式化语言的专业模型,其推理过程绝对严谨,但泛化性差、效率低;另一条是“通用派”,主要采用基于自然语言的通用模型,泛化性强,但容易产生幻觉,难以保证推理的严谨性。
当前,不少科学领域都积累了许多专业工具和计算引擎。一旦AI模型能够展现出足够的泛化能力,那么采取“通专融合”的路线,叠加相关学科领域的专业工具,AI有望快速达到该领域专家水平。
值得一提的是,上海AI实验室的这一技术路线已展现出极高的数据效率。相比于谷歌的几何模型AlphaGeometry2,“书生”仅需不到万分之一的训练样本就实现了超越,摆脱了对超大规模合成数据的依赖。
当前,全球科技巨头都在竞相布局AI for Science(人工智能驱动的科学研究),但往往受困于无法突破“长程思考”的瓶颈。上海AI实验室的探索证明,“通专融合”在赋能多领域科研方面的技术可行性。
CMO是中国最高规格的高中生数学奥林匹克竞赛,难度不亚于国际数学奥林匹克竞赛(IMO),试题以条件隐蔽、逻辑链条极长等著称,且所有题型均为证明题,相比解答题,对AI的挑战要大得多。本次CMO决赛的700多名参赛者中,首次纳入AI模型,堪称一场史无前例的“人机同考”,双方面临的是相同的时长和阅卷标准。
这一突破标志着国产大模型在复杂逻辑推理方面迈出关键一步。上海AI实验室青年领军科学家陈恺认为大满贯官网,数学奥赛终于迎来“AlphaGo时刻”,显示出人工智能在高难度代数、几何、数论、组合数学证明题领域的巨大潜力。