51CTO首页
AI.x社区
博客
学堂
精品班
软考社区
免费课
企业培训
鸿蒙开发者社区
信创认证
公众号矩阵
移动端
视频课
免费课
排行榜
短视频
直播课
软考学堂
全部课程
软考
信创认证
华为认证
厂商认证
IT技术
PMP项目管理
免费题库
在线学习
文章
资源
问答
课堂
专栏
直播
51CTO
鸿蒙开发者社区
51CTO技术栈
51CTO官微
51CTO学堂
51CTO博客
CTO训练营
鸿蒙开发者社区订阅号
51CTO软考
51CTO学堂APP
51CTO学堂企业版APP
鸿蒙开发者社区视频号
51CTO软考题库
AI.x社区
首页
文章
课堂
直播
评选
登录/注册
51CTO
中国优质的IT技术网站
51CTO博客
专业IT技术创作平台
51CTO学堂
IT职业在线教育平台
我的关注
全部帖子
默认
发布时间
热度
原创
精华
热门标签
AI
算家云
LLM
DSARE:当传统NLP遇到LLM后的关系提取新思路
精华
1.背景关系提取是指通过自然语言处理技术从非结构化文本中确定两个实体之间的关系。图片如上图所示,大多数传统的关系提取(RelationExtraction,RE)方法是为RE任务量身定制,但是这些方法往往缺乏特定领域的先验知识。特别是当可供配置资源空间太少的时候,比如FewShotRelationExtraction(FSRE)场景。另一方面,基于LLM的新方法却存在相反的问题,尽管随着模型规模和语料库的增大,LLMs拥有大量先验知识,但是由于LLMs往往...
大语言模型论文跟踪
0回复
3973浏览
DSARE
LLM
NLP
LLM 预训练语料、预处理和数据集索引、加载总结
精华
一、背景介绍LLM的模型参数量很大,其模型效果也需要巨大的语料库支撑,LLM预训练需要的Token数已经从早期的300BToken逐渐增加到1.4T,甚至进一步扩展到3T以上。本文中我们具体介绍LLM预训练语料库的来源,构建语料库的预处理过程以及LLM预训练的Dataset存储、混合、加载方式。二、常见语料库虽然不同LLM的模型大小不同,预训练的Token数也各不一样,但是其原始的语料都大同小异,主要有几种类型:CommonCrawl、Wikipedia、Book...
amei2000go
0回复
7621浏览
LLM
预处理
索引
上海交大、复旦、上海 AI Lab引入渐进学习框架来验证弱到强的推理
一、结论写在前面论文标题:WeaktoStrongReasoning论文链接:https:arxiv.orgpdf2407.13647代码等:https:github.comGAIRNLPweaktostrongreasoning当大型语言模型(LLMs)超越人类水平能力时,为这些模型提供全面且准确的监督变得愈发困难。弱到强学习,即利用能力较弱的模型来解锁更强大模型的潜在能力,在此背景下被证明是有价值的。然而,这种方法在复杂推理任务中的有效性仍未得到验证。此外,在弱到强设置...
sbf_2000
0回复
3185浏览
AI
框架
验证
ElevenLabs悄然推出最强文本转语音模型,Turbo2.5模型成行业领头羊
在AI浪潮席卷全球之际,ElevenLabs悄然推出的Turbo2.5文本转语音模型,犹如一记重拳,直击AI语音合成领域的痛点。这款模型不仅是技术的集大成者,更是成为行业的领头羊。ElevenLabs悄悄推出Turbo2.5文本转语音模型,相当低调Turbo2.5模型在速度上的飞跃,堪称摧枯拉朽。响应时间控制在400毫秒以内,普通话等27种语言的响应速度提升三倍,英语提速25%,这不是简单的数字游戏,而是对整个行业的降维打击。将AI语音合成推向了近乎...
InfonityAI智推星
0回复
3537浏览
文本
语音
模型
视觉语言模型能够“看见”吗?
来自奥本大学和阿尔伯塔大学的研究人员发现,最先进的具有视觉能力的大型语言模型(VLMs)在理解涉及基本几何形状的空间信息方面表现得非常糟糕,例如判断两个圆是否重叠。他们提出了一个名为BlindTest的新基准测试,包括7项简单任务,这些任务在互联网上自然语言中不太可能有现成答案,以测试VLM像人类一样“看见”图像的能力。现有的VLM基准(如MMMU和ChartQA)涵盖了广泛的主题,但输入图像并非总是回答问题所必需的,即答案...
lintoms
0回复
2932浏览
视觉
语言
模型
谷歌发布专用于个人健康的大语言模型PH-LLM
随着智能手表、健身追踪器等可穿戴设备的普及,使得我们能持续监测健康状况,包括睡眠质量、日常活动、心率和血压等。但如何有效利用这些数据,并从中找出一些健康问题,对于普通用户来说却很难。所以,谷歌的研究人员在Gemini模型的基础之上,微调出了专用于个人健康的大语言模型PHLLM。用户通过将健康数据与PHLLM相结合,就能快速获取个性化健康建议、日常疾病问答、健康报告预测等专家级医疗咨询服务。论文地址:https:arxiv...
Aceryt
0回复
3100浏览
模型
生成
登顶新SOTA!阿里新开源语音模型Qwen2-Audio ,实测优于 Gemini-1.5-pro,网友:离GPT-4o只差一步
原创
SOTA水准的Qwen2家族又迎来了新成员!阿里云发布并开源语音模型Qwen2Audio。GitHub:https:github.comQwenLMQwen2Audio论文:https:arxiv.orgpdf2407.10759作为大规模的音频语言模型,Qwen2Audio能够接受各种音频信号输入,并执行音频分析或根据语音指令直接进行文字响应。很妙的是,在Qwen2Audio支持的语音聊天(但没有音频输出)和音频分析这两种交互模式之间,模型可以自主判断,并在这两种模式之间智能地切...
51CTO技术栈
0回复
3735浏览
GPT-4o
模态
语音
OpenAI正式打响海外价格战,GPT-4o mini成地表最强小模型,百万tokens仅需60美分
精华
OpenAI于7月19日凌晨推出了一款新品——GPT4omini,立即在科技圈引发热议。这款被誉为"小而精"的AI模型,是GPT4o的精简版本,旨在为用户提供更高性价比的AI体验。OpenAI在7月19日凌晨发布GPT4omini据OpenAI介绍,GPT4omini支持128k、16k输入tokens,包括图像和文本。在定价方面,每百万输入tokens收费15美分(约1.09元人民币),每百万输出tokens收费60美分(约4.36元)。这一价格策略使得GPT4omini比GPT3.5Turbo便宜60%以上,...
InfonityAI智推星
0回复
4117浏览
OpenAI
GPT-4o
模型
13.11 和 13.8 到底哪个大?超过一半 AI 大模型回答错误,强如 GPT-4O 也翻车了
这个话题主要是由《歌手2024》栏目引发的,孙楠与外国歌手的微小分数差异,引发了网友关于13.8%和13.11%谁大谁小的争论。很多网友给出了自己认为13.11>13.8理由,看似合理,实则漏洞百出。这个小学四年级的知识点,一下子就成为了全民热议的话题。很多网友还举例AI给出的结果也是13.11大,一下子激起我的兴趣,这么简单的问题,AI竟然回答错误了。国内模型测试Kimichat:通义千问:腾讯元宝:文心一言:智谱清言:讯飞星火:商...
wsp_ping
0回复
4679浏览
AI
大模型
GPT-4O
Unstructured专家分享RAG应用中文档分块(Chunking)的最佳实践
近日,MariaKhalusova在Unstructured官方博客分享了有关分块的最佳实践。Unstructured成立于2022年9月,致力于解决自然语言处理(NLP)和大型语言模型(LLM)应用中的数据预处理问题。公司总部位于美国,专注于将非结构化数据转化为LLM可以处理的格式,当下流行的pdf解析库就来自于它们,它们在数据预处理方面拥有非常前沿的技术和经验。分块是文档处理的一个步骤,当各种格式的文档被解析变成文本文档后,接下来就需要对文档进...
Syrupup
0回复
6218浏览
RAG
应用中文
chunking
几何视角下的大语言模型推理
一、结论写在前面论文标题:ReasoninginLargeLanguageModels:AGeometricPerspective论文链接:https:arxiv.orgpdf2407.02678大语言模型在实际应用中的进步关键取决于其推理能力的提升。论文在此介绍了DNN和LLMs几何学的一些方面,特别是展示了由MLP利用其分段线性公式引起的输入空间划分的重要性。DNN的适应性划分在其逼近能力中起着巨大的作用。事实上,与传统的样条相比,MLP在其输入空间中引起的区域是数据依赖的,...
sbf_2000
0回复
3089浏览
语言
模型
几何
万字综述:全面梳理 FP8 训练和推理技术
精华
一、背景随着ChatGPT的横空出世,LLMAIGC领域迎来空前的关注,各类大模型如雨后春笋般出现,科技公司对AI算力的需求也呈爆发式增长。在这样的背景下,如何在有限资源内提升模型训练和推理效率成为研究的热点。而在众多的方向中FP8逐渐成为研究热点,FP8的应用落地也是一个极具潜力的方向。FP8的重要性日益凸显,很大程度上得益于NVIDIAHopper架构和AdaLovelace架构对FP8的硬件支持。最新发布的Blackwell架构更是进一步拓展了低...
amei2000go
0回复
1.4w浏览
FP8
训练
技术
SpreadsheetLLM:微软对Excel编码的“摊膀伏”
原创
精华
1.SpreadsheetLLMExcel的特点是二维数据格式、灵活的布局和多样化的格式选项。微软最近引入了SpreadsheetLLM,开创了一种高效的编码方法,用于释放和优化LLMs在电子表格上的强大理解和推理能力。最初研究人员提出一种包含单元格地址、值和格式的普通序列化方法。但是这种方法受到LLMs上下文长度的约束,为此微软推出了SheetCompressor(下图绿色部分),它是一种创新的编码框架,可以有效地压缩电子表格。左边为文档输入,经过S...
鲁班模锤1
0回复
3362浏览
微软
Excel
编码
少或零样本异常检测最新研究跟踪
少或零样本异常检测旨在给定少量几张正常样本或不给定任何样本实现对未见类别的异常检测。该方向的很多研究成果发表在最近一年内,主要得益于视觉语言模型(CLIP)的强大泛化能力。基于视觉语言模型的方法CVPR2023,WinCLIP该方法首次证实视觉语言的基础模型在零样本异常检测任务上仍然保持强的泛化性。该方法首先为正常和异常分别设计了多个文本提示,将该提示表征对和图像表征计算相似度然后以softmax归一化获得图像级的异常得...
angel
0回复
5317浏览
视觉
模型
虚拟试衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍档
文章链接:https:arxiv.orgpdf2407.12705github链接:https:imagdressing.github.ioDemo试用:https:sf.dictdoc.site亮点直击为商家引入了一项新的虚拟试衣(VD)任务,并设计了一个综合亲和力测量指数(CAMI)用于评估生成图像与参考服装之间的一致性。提出了IMAGDressingv1,其中包括一个用于提取细粒度服装特征的服装UNet和一个带有混合注意力模块的去噪UNet,以平衡服装特征与文本提示控制。在所有评估指标上表现优于其他...
angel
0回复
3994浏览
虚拟
AI
速看!AI大模型性能最新排名
原创
大家好,我是橙哥!今天我们来盘点一下主流AI大模型各方面性能的最新排名,分别从质量、速度、价格、对话能力、推理能力、编码、响应时间等能力来进行对比。一、对话能力ChatbotArena是一个基于众包的大型模型评测基准。它为开发者和研究者提供了一个平台,在这里可以发布、测试和比较各种类型的聊天机器人,下面是根据ChatbotArena的榜单排名。我们可以看出前三名是:GPT4o、Claude3.5Sonnet、Gemini1.5Pro。二、推理能力MMLU...
开发者阿橙
0回复
6300浏览
大模型
AI PC真值得入手?84%电脑发烧友拒绝买单:AI助手成了PDF加载的绊脚石!网友:真不仅仅是性能原因
原创
撰稿丨诺亚出品51CTO技术栈(微信号:blog51cto)最近,TechPowerUp进行的一项民意调查显示,绝大多数PC用户不愿为具备AI能力的硬件支付额外费用。这份调查共收集了超过2万6千份有效回复,其中高达84%的参与者表明,他们不会为AI增强的特性多掏腰包,仅有7%的受访者表示愿意,还有9%的人保持不确定态度。图片尽管PC行业正积极拥抱AI技术,但这一结果表明,核心用户群体,即那些热衷于科技并对新功能有深刻见解的发烧友们,绝大...
51CTO技术栈
0回复
2698浏览
AI
PDF
PC
如何在保证模型性能条件下优化Prompt降低使用成本及响应延迟?
随着大模型应用的不断发展,提示工程技术也在快速迭代更新,越来越多的任务通过精妙的Prompt或者agenticworkflow等方式解锁。但随之而来,大量详细的、巨大的prompt却会带来高的成本以及缓慢的响应。这也使得高成本和高延迟成为了大模型应用落地生产的主要障碍。随着当下LLM应用已经不再是单次的对话,而是复杂的组合AI系统(伯克利:即使模型再强大,复合AI系统(CompoundAISystems)都将会是一种领先的应用模式)都将会是一种...
Syrupup
0回复
3981浏览
Prompt
模型
性能
一文看懂RAG的各种套路 | 综述:当RAG遇到大语言模型
精华
背景图片检索技术是指解析查询,并从外部数据源中获取有关信息,在搜索、问答、推荐系统等多个领域得到广泛运用。比如谷歌、Bing、baidu都是检索技术成功应用的典型代表,这些搜索引擎可以精准筛选并提供与用户查询相匹配的网页和文档,大大提升了信息检索的效率。用过维护外部数据库中的数据,检索模型可以获得最新、准确的知识。在AIGC时代,检索基于与生成式模型结合,催生了RAG(检索增强生成技术),这一技术对提升文本内...
大语言模型论文跟踪
0回复
5442浏览
RAG
语言模型
AI
Long-CLIP:无缝扩展 CLIP 模型的长文本理解能力
一、背景这里介绍一下新出的文章LongCLIP,方案虽然比较简单,但是CLIP使用的场景非常多,因此对很多任务也会比较有帮助。对应的论文为:https:arxiv.orgabs2403.15378对应的代码库为:https:github.combeichenzbcLongCLIPtreemain二、摘要CLIP(ContrastiveLanguageImagePreTraining)模型在涉及图文相关的场景中非常常用,比如图文检索、文生图以及大型多模态模型等。它们通常使用CLIP中的TextEncoder或Image...
amei2000go
0回复
6623浏览
CLIP
模型
无缝扩展
暂无内容
1
261
262
263
264
265
266
267
268
269
客服