51CTO首页
AI.x社区
博客
学堂
精品班
软考社区
免费课
企业培训
鸿蒙开发者社区
信创认证
公众号矩阵
移动端
视频课
免费课
排行榜
短视频
直播课
软考学堂
全部课程
软考
信创认证
华为认证
厂商认证
IT技术
PMP项目管理
免费题库
在线学习
文章
资源
问答
课堂
专栏
直播
51CTO
鸿蒙开发者社区
51CTO技术栈
51CTO官微
51CTO学堂
51CTO博客
CTO训练营
鸿蒙开发者社区订阅号
51CTO软考
51CTO学堂APP
51CTO学堂企业版APP
鸿蒙开发者社区视频号
51CTO软考题库
AI.x社区
首页
文章
课堂
直播
评选
登录/注册
51CTO
中国优质的IT技术网站
51CTO博客
专业IT技术创作平台
51CTO学堂
IT职业在线教育平台
我的关注
全部帖子
默认
发布时间
热度
原创
精华
热门标签
AI
OpenAI
大模型
ICLR 2024 Oral|用巧妙的「传送」技巧,让神经网络的训练更加高效
本论文作者赵博是加州大学圣地亚哥分校的三年级在读博士,其导师为RoseYu。她的主要研究方向为神经网络参数空间中的对称性,及其对优化、泛化和损失函数地貌的影响。她曾获DeepMind奖学金,并且是高通创新奖学金的决赛入围者。众多神经网络模型中都会有一个有趣的现象:不同的参数值可以得到相同的损失值。这种现象可以通过参数空间对称性来解释,即某些参数的变换不会影响损失函数的结果。基于这一发现,传送算法(teleportati...
轻薄滴假象
0回复
2880浏览
神经网络
算法
Anthropic秘密「混合模型」 Claude 4首曝细节,硬刚GPT-5!深度推理模型来了
精华
Anthropic终于要开始搞点事情啦!近期的「推理模型」热潮中,Anthropic除了其CEO打了几个嘴炮外,还没有掏出一个拿得出手的产品。在这样下去,可能要退出AI一线模型玩家行列了。Anthropic自己显然不想看到这种情况发生。就在刚刚,有消息称,Anthropic会在未来几周内发布其全新的「混合AI」模型。Anthropic版「推理模型」,测试时计算完全掌控在OpenAI去年秋季发布其「推理模型」后,谷歌以及国内众多AI公司纷纷推出了自己的模...
duhorse
0回复
3121浏览
AI
模型
数据
人工智能技术栈:解锁智能应用开发的底层密码
原创
01、概述在当今竞争激烈的商业环境中,人工智能(AI)已经从一种奢侈品转变为必需品。无论是企业希望提升运营效率,还是开发者想要打造前沿产品,深入理解AI技术栈都显得至关重要。它不仅能帮助我们构建革命性的智能应用,还能在激烈的市场竞争中脱颖而出。今天,就让我们深入探索AI技术栈的奥秘,一窥究竟。02、AI技术栈的分层架构AI技术栈是一个由多个相互依赖的层级组成的结构框架,每一层都承担着确保系统高效运行的关键功...
Halo咯咯
0回复
3783浏览
人工智能
Fixie AI 推出 Ultravox v0.4.1:专门用于与 LLM 进行实时对话以及 GPT-4o 实时的替代方案
原创
01、概述在人工智能领域,与AI进行无缝的实时交互一直是开发者和研究者面临的一大挑战。特别是将文本、图片、音频等多模态信息整合成一个连贯的对话系统,更是难上加难。尽管像GPT4这样的语言模型在对话流畅性和上下文理解上取得了长足进步,但在实际应用中,这些模型仍然存在不足之处:实时对话流畅度:模型无法快速响应复杂的上下文信息。多模态理解:面对图片、文本、甚至音频的整合时表现力不足。高计算资源需求:实时部署...
Halo咯咯
0回复
3065浏览
大预言模型
框架
OpenAI震撼推出GPT-4o:开启全球免费AI服务的新篇章
精华
在北京时间5月14日凌晨,OpenAI在其首次「春季新品发布会」上推出了新一代旗舰生成模型GPT4o和桌面应用程序,在人工智能的发展史上,今天将被铭记为一个里程碑。这一天,OpenAI宣布了GPT4o——一款全新的、功能强大的多模态人工智能模型。这不仅是技术的一次飞跃,更是对未来人机交互方式的一次革命性预示。GPT4o的发布,不仅在AI领域引起了轰动,更在全球范围内激起了广泛的讨论和热烈的反响。GPT4o的问世是OpenAI对其使命——...
xuxiangda
0回复
4961浏览
OpenAI
GPT-4o
AI
神经网络与2024诺贝尔物理奖
原创
约翰·霍普菲尔德(JohnJ.Hopfield)和杰弗里·辛顿(GeoffreyE.Hinton)周二被授予诺贝尔物理学奖(NobelPhysicsPrize),以表彰他们的发现帮助计算机以人脑的方式学习更多知识,为人工智能的发展奠定了基础。该奖项是对AI在人们生活和工作方式中日益增长的重要性的认可。诺贝尔委员会表示,使用人工神经网络的机器学习能够理解大量数据,已经在科学研究中发挥了重要作用,包括在物理学领域,它被用于创造“具有特定特性的新材...
鲁班模锤1
0回复
2825浏览
神经网络
诺贝尔
物理奖
对标GPT-4o!不锁区、支持手机、免费使用,Moshi来啦!
7月4日凌晨,法国知名开源AI研究实验室Kyutai在官网发布了,具备看、听、说多模态大模型——Moshi。Moshi功能与OpenAI在5月14日展示的最新模型GPT4o差不多,可以听取人的语音提问后进行实时推理回答内容。但GPT4o的语音模式要在秋天才能全面开放使用,而Moshi已经提供使用了。「AIGC开放社区」已经亲自测试,Moshi不锁区,填写一个邮箱地址就能直接使用,无需任何等待。值得一提的是,Moshi是支持手机移动端使用的,只不过对普...
Aceryt
0回复
3506浏览
AI
模型
神经网络的通用训练流程
原创
“神经网络模型核心有三步,模型搭建,数据处理,模型训练评估”今天总结一下神经网络模型的通用训练步骤和流程,以及其作用。模型通用训练流程从功能上来说,所有基于神经网络搭建的模型都要经过以下三个步骤:模型搭建数据处理模型训练及评估模型搭建需要经过以下几个步骤:模型定义根据任务需求,可以设计不同的网络层,比如嵌入层,卷积层等。一般的神经网络模型都由多层网络层组成。网络层实现了对输入信号的处理,比如卷...
AI探索时代
0回复
3509浏览
大模型
神经网络
什么是神经网络-终于把神经网络参数更新搞明白了!
今天我们来讲一讲神经网络的参数到底是如何更新的!我们先来看看如下神经网络中的最后一个参数b3是怎样进行更新的。后面的章节再来讲w1w2w3b1b2是如何更新的。我们先假设w1w2w3b1b2参数均已得到最优解,分别如上图中绿色数据所示。假设我们要拟合的曲线如下图所示:我们先给b3赋一个默认的初始值0。假设最上面的绿色曲线是我们要拟合的真实曲线,最下面的绿色曲线是当前的预测曲线。我们先来求一个残差平方和,即对于所有的输入...
人工智能训练营
0回复
2427浏览
神经网络
参数
曲线
什么是神经网络-终于把神经网络参数更新搞明白了 反向传播详解
今天我们来讲一讲神经网络的参数到底是如何更新的!我们先来看看如下神经网络中的最后一个参数b3是怎样进行更新的。后面的章节再来讲w1w2w3b1b2是如何更新的。我们先假设w1w2w3b1b2参数均已得到最优解,分别如上图中绿色数据所示。假设我们要拟合的曲线如下图所示:我们先给b3赋一个默认的初始值0。假设最上面的绿色曲线是我们要拟合的真实曲线,最下面的绿色曲线是当前的预测曲线。我们先来求一个残差平方和,即对于所有的输入...
人工智能训练营
0回复
2693浏览
神经
网络参数
b3
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
大语言模型都卷起来了,模型越做越大,token越来越多,输出越来越长。那么问题来了,如何有效地评估大语言模型的长篇大论呢?要是输出长度长了但胡言乱语输出质量差,又臭又长,岂不是白搭首先能想到的方法就是人工评估。人工评估虽然对于评价模型性能至关重要,但受到主观性、评估者之间的差异性以及广泛评估的高成本的限制。考虑到这些因素,谷歌DeepMind研究团队提出了自动评估解决方案FLAMe。论文地址:https:arxiv.orgabs2...
duhorse
0回复
3021浏览
谷歌
模型
QOQA:利用TopK文档进行查询改写,平均提升RAG 1.6% 准确率
1.背景大型语言模型(LLMs)在众多语言任务中展现出非常不错的效果,然而,LLMs中的幻觉现象正极大地削弱它们的可信度和实用性。一种解决大语言模型幻觉的方法是检索增强生成(RAG),通过检索文档来提供基于检索到文档中的事实信息的更准确的用户查询答复。大语言模型幻觉(Hallucination)是指大语言模型产生错误或者误导性的信息。然而,RAG并未完全根除幻觉,这样因此激发大量研究来提高RAG的准确性。一个不完善的RAG系统,...
大语言模型论文跟踪
0回复
3743浏览
RAG
TopK
文档
你知道神经网络是怎么运作的吗?神经网络内部原理解析
原创
“神经网络就是一个具有输入和输出的黑盒”神经网络模型就是模仿人类大脑神经元传递的过程,从使用者的角度来说,神经网络就是一个具有输入和输出的黑盒模型。简化模型如下图:只需要设定特定的输入和输出格式,隐藏层可以根据不同的任务需求进行实现。01、神经网络模型神经网络主要由神经元构成,然后会根据任务复杂度,设计一个到多个网络层,网络层数越多,处理的问题越复杂。如下图所示,就是一个简单的神经网络模型图,具...
AI探索时代
0回复
3212浏览
大模型
神经元
神经网络
EDC²-RAG:利用聚类和压缩技术提升RAG准确性
精华
该框架不仅能够有效挖掘潜在的跨文档关系,还能同时去除无关信息和冗余内容。我基于GPT3.5构建的方法在多个常用的知识问答和幻觉检测数据集上进行了验证。实验结果表明,该方法在各种场景和实验设置下均实现了性能的显著提升,展现出强大的鲁棒性和广泛的适用性。https:arxiv.orgabs2504.03165一、为什么需要高效动态聚类文档压缩技术?1.1大语言模型的挑战与检索增强生成(RAG)的兴起近年来,大语言模型(LargeLanguageModels...
大语言模型论文跟踪
0回复
2489浏览
EDC²-RAG
压缩技术
聚类
Qwen3模型架构、训练方法梳理
原创
模型架构Dense模型结构改进:GQA、SwiGLU、RoPE、RMSNormwithprenormalization与Qwen2.5相似。移除了Qwen2中的移除QKV偏置,减少模型复杂性,在注意力机制中引入QKNorm来确保稳定训练。MoE模型结构改进:改进点描述细粒度专家分割增强模型的表达能力和效率。全局批次负载均衡损失鼓励专家专业化,提高模型整体性能。移除共享专家与Qwen2.5MoE不同,Qwen3MoE设计中排除了共享专家。128个总专家,每个token激活8个专家增加专家数...
大模型自然语言处理
0回复
3721浏览
Qwen3
模型架构
预训练
Kimi-VL开源多模态大模型结构、训练方法、训练数据浅析
原创
模型架构KimiVL模型整体架构框架与前期内容介绍的llava、reyes等多模态大模型的架构大差不差,组成形式:视觉编码器(MoonViT)+MLP层+MoE的LLM。模型架构1.MoonViT:视觉编码器MoonViT的设计目标是能够以图像的原始分辨率处理图像,从而消除复杂的子图像分割和拼接操作。这种设计使得MoonViT能够更灵活地处理不同分辨率的图像,而不需要进行额外的预处理步骤。实现方式:图像分块和拼接:MoonViT采用NaViT中的打包方法,将图像...
大模型自然语言处理
0回复
2329浏览
多模态
大语言模型
预训练模型
深度长文,手把手教你微调Qwen-3大模型,基于Python和Unsloth(下)
社区头条
维持对话与推理的比例平衡在准备好数据集后,通常即可开始模型训练,但我们仍需考虑模型的对话与推理比例(ChattoReasonRatio)。较高的对话比例侧重对话流畅性和通用知识,而较高的推理比例则强调逻辑推理和问题解决能力。二者的平衡对构建既能进行自然对话又能处理复杂任务的多功能模型起着重要作用。本文假设需要构建一个对话模型,因此设定对话部分占比70%,推理部分占比30%。实现方式如下:importpandasaspd设定对话比例ch...
小虎哦哦
0回复
2877浏览
Qwen-3
大模型
Python
为什么用Qwen3 embedding和rerank
排名是真的挺好,开源闭源现在都是第一了,这个事embeddiing的,rerank应该也是第一,甚至4B的基本也除了8B以外就是它第一。它和普通的比如原来的我们常用的BGE之类的有啥区别?传统的embedding都是基于bert来弄模型,一般也就encoderonly,bert原来也就是干分类器的,给一句话到它,它给你进行embedding了,这里考虑到有些同学可以不理解整套流程,我就稍微说细点一般来讲用3层法就很好理解:第一层:词元嵌入(TokenEmbedding...
熵减AI
0回复
1308浏览
Qwen3
BGE
开源
LLM和RAG技术的比较探索
原创
作者AshokGorantla整理言征出品51CTO技术栈(微信号:blog51cto)在人工智能(AI)的动态环境中,两种开创性的技术——大型语言模型(LLM)和检索增强生成(RAG)——在理解和生成类人文本方面脱颖而出。本文开始了LLM和RAG之间的比较之旅,揭示了它们的机制、应用以及它们为人工智能领域提供的独特优势。一、大型语言模型(LLM):基础与应用LLM,如GPT(GenerativePretrainedTransformer),凭借其在广泛的主题中生成连贯和上...
51CTO技术栈
0回复
4664浏览
LLM
RAG
技术
Qwen3 Embedding 数据生成技术深度解析:从 LLM 驱动合成到领域适配优化
精华
在Qwen3Embedding的技术体系中,数据生成模块通过大模型驱动的结构化合成框架突破了传统文本嵌入模型的训练数据瓶颈。这一创新不仅使模型在MTEB多语言排行榜以70.58分登顶,更在代码检索等专业领域实现80.68分的突破。以下结合官方技术报告与开源实践,详解数据生成的全流程技术细节。一、两阶段数据生成架构:从语义建模到查询生成1.1配置阶段:三维语义空间定义Qwen3采用Qwen332B大模型为文档生成结构化语义配置,通过三大维...
鸿煊的学习笔记
0回复
2688浏览
Qwen3
数据生成
LLM
暂无内容
1
68
69
70
71
72
73
74
75
76
客服