如果模型在达到有提交最终答案,它将收到一个最终提示,要求立即提交最终答案; 如果在收到该提示后模型仍然无法提供正确格式化的最终答案,则该
尝试被标记为不正确 陶哲轩
看了都说难 为了进一步验证FrontierMath的难度,该机构还 墨西哥电报数据 特意采访了4位数学大佬。 包括菲尔兹奖得主陶哲轩 (2006)、蒂莫西·高尔斯 (1998)、理查德·博赫兹 (1998),以及国际数学奥林匹克竞赛 (IMO) 教练陈谊廷 (Evan Chen)在内,他们一致认为这些题非常具有挑战性。 下一步也计划从四个方面持续推进: 定期评
估这些领先的大模型并观察高级
数学推理能力随时间推移和规模扩大而提高的情况; 保持难度的同时,向FrontierMath添加更多问题; 在未来几个月内发布更多代表性问题,供大家研究讨论; 扩大专家审查、增加错 在线电话短信是指 误数量和改进同行评审流程来加强质量控制; 这也合了卡帕西的心意,他认为这样的新基准应该更多,尤其是为那些看似“容易”的事情创建评估。 之所以引入这个基准,是因为大模型越来越多地碾压现有的数学基准。有趣的问题是,尽管从许多方面(/evals)来看,大模型正逐步跻身顶
级专家行列(如数学和编
码等)但你不会雇用他们而不是让他们从事最琐碎的工作。 如果你把问题描述整齐地放在盘子里,他们就能解决复杂的封闭式问题,但他们很难连贯地把长长的、自主的、解决问题的序列串联起来,而人却会觉得非常容易。 这是莫拉维克悖论的变相,他在30多年前就观察到,对人类来说容易/困难的事情,与对计算机来说容易
/困难的事情,在非直觉上可能
相径庭。 例如,人类对计算机下国际象棋印 CA 手机号码所 象深刻,但国际象棋对计算机来说却很容易,因为它是一个封闭的、确定性的系统,具有离散的行动空间、完全的可观测性等等。 反之亦然,人类可以系好鞋带或叠好衬衫,而且根本不需要考虑太多,但这是一项极其复杂的传感运动