LLM能力评测与基准构建:金融LLM认知诊断框架;LLM未来事件预测评估基准;LLM MCP的评估基准
FromScorestoSkills:ACognitiveDiagnosisFrameworkforEvaluatingFinancialLargeLanguageModels20250819|WHU,WHU,NAU,SWJTU,BUFT,AU,UoM🔺53http:arxiv.orgabs2508.13491v1https:huggingface.copapers2508.13491https:github.comWHUNextGenFinCDM研究背景与意义问题定义与现状概述金融领域中大型语言模型(LLMs)展现出广泛应用潜力,但现有评测方法多依赖单一分数,难以揭示模型对金融知识的具体掌握情况。传统金融LLM...