REIMAGINE:SymbolicBenchmarkSynthesisforReasoningEvaluation20250618|MSRCUK,MicrosoftResearchIndia|ICML2025🔺2http:arxiv.orgabs2506.15455v1https:huggingface.copapers2506.15455研究背景与意义问题定义与现状当前大型语言模型(LLMs)在多种推理基准测试中表现出较高准确率,但仍存在争议,即这些结果是否源自真正的推理能力,还是仅仅是训练数据的统计记忆。推理作为一种认知过程,涉及基于事实...