苹果研究员发现大模型不能形式推理

October 12, 2024

六名苹果 AI 研究员(其中一名是实习生)在预印本平台 arxiv 上发表了一篇论文《GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models》，他们发现大模型不能形式推理。研究人员称，GSM8K 基准测试被广泛用于评估大模型在小学水平问题上的数学推理能力。过去几年，大模型在 GSM8K 上的表现有显著提高，但它们的数学推理能力是否真的提升了？研究人员利用符号模板创建了一个改进基准测试 GSM-Symbolic，能对大模型的推理能力进行更可控的评估。结果显示，大模型并不具有真正的逻辑推理能力，仅仅改变问题的某个数值或者增加一条子句，大模型的表现就会显著下降。