恋恋青鸟
LV.1
这个用户很懒,还没有个人简介
声望 66
关注 0
粉丝 0
私信
主帖 6
回帖
5月14日,OpenAI发布了GPT4o,支持文本、图像、语音、视频等多种形式的输入,大幅提升了推理响应的速度,在非英文任务上具有较大提升,并拥有比现有模型更强的视觉理解能力。我们第一时间对GPT4o模型的图像文本多模态能力进行了评测。OpenAI官方公布的视觉理解性能基于多模态大模型开源评测工具VLMEvalKit,我们在OpenVLMLeaderboard中的十二个图文多模态评测集上测试了GPT4o的视觉能力。GPT4o(20240513)与此前的GPT4v版本在各...
2天前 180浏览 0点赞 0回复 0收藏
长文本评测随着大模型能够处理的上下文信息越来越多,达到百万级别的词汇量,人们对于模型长文本能力的研究兴趣也随之增长。这些工作基于一些开源自建的数据集构建样本,其构建评测集上的性能已可以一定程度上反映模型的能力。因此,在长文本评测这一工作里,我们认为一个好的长文本评测集应该具备以下性质:样本长度可控:测试样本的上下文长度最好是可控的,以便于测量和比较模型在各个上下文长度下的能力变化(若测试集由不...
4天前 121浏览 0点赞 0回复 0收藏
先放结论如果你想为你的项目挑选合适的图文多模态模型,以下是一些可供参考的模型性能(括号内为评测分数):已测性能最强的闭源模型:GPT4o(海外API模型,69.9)GLM4v(国内API模型,60.8)已测位于"参数量性能"前沿上的开源模型:InternVLv1.5(26B,61.7)MiniCPMLlama3V2.5(8B,58.8)InternLMXComposer27B4KHD(7B,58.8)​MiniInternVL(4B,56.2;2B,49.8)本期的多模态模型性能榜单1.多模态大模型评测榜单构成更新在4月底,司南多...
2024-07-01 11:12:48 471浏览 0点赞 0回复 0收藏
Flames是由上海人工智能实验室和复旦大学联合构建的大语言模型价值对齐评测基准,包含一个综合性评测框架、高对抗性中文数据集和自动评分模型,囊括Fairness(公平),Safety(安全),Morality(道德),DataProtection(数据保护),以及Legality(合法)五个大维度,Flames名字也来源于此。一、为什么需要Flames?当前大语言模型在深层次的价值对齐和无害性方面存在诸多挑战,高质量的评测集可以有效评估模型的价值对齐情况。然而...
2024-05-30 11:07:43 472浏览 0点赞 0回复 0收藏
ChemBench是上海人工智能实验室AIforScience团队自建的化学语言模型评测数据集,实现了大模型能力在化学领域的全面评估。研究团队从互联网公开资源中采集并设计构建了4100多道多项选择题,每个选择题只有一个正确答案。覆盖了基于文本的分子生成、名称转换、性质预测、温度预测、分子描述、产率预测、溶剂预测、逆合成分析、产物预测九大化学任务。ChemBench评测任务介绍随着大语言模型的飞速发展,一系列特定领域的垂类模型也...
2024-05-28 10:25:26 583浏览 0点赞 0回复 0收藏
随着现代大语言模型(LLMs)如OpenAI的ChatGPT和GPT4的出现,LLMs展示了生成类人对话和解决复杂数学难题的非凡能力。从Meta在4月18日发布Llama38B&70B开始,Qwen开源的首个百B大模型Qwen1.5110B,到深度求索的MoE模型DeepSeekV2,还有近几日OpenAI放出的大招GPT4o,号称更低的价格,更强的性能,大家都号称自己的新模型数学能力顶呱呱,但事实真是这样吗?如何透明化评测大模型的各项数学能力如今成了大家的难题,因为开源数据...
2024-05-23 15:02:08 566浏览 0点赞 0回复 0收藏
获得成就
已积累 623 人气
获得 0 个点赞
获得 0 次收藏