51CTO首页
AI.x社区
博客
学堂
精品班
软考社区
免费课
企业培训
鸿蒙开发者社区
信创认证
公众号矩阵
移动端
视频课
免费课
排行榜
短视频
直播课
软考学堂
全部课程
软考
信创认证
华为认证
厂商认证
IT技术
PMP项目管理
免费题库
在线学习
文章
资源
问答
课堂
专栏
直播
51CTO
鸿蒙开发者社区
51CTO技术栈
51CTO官微
51CTO学堂
51CTO博客
CTO训练营
鸿蒙开发者社区订阅号
51CTO软考
51CTO学堂APP
51CTO学堂企业版APP
鸿蒙开发者社区视频号
51CTO软考题库
AI.x社区
首页
文章
课堂
直播
评选
登录/注册
51CTO
中国优质的IT技术网站
51CTO博客
专业IT技术创作平台
51CTO学堂
IT职业在线教育平台
我的关注
全部帖子
默认
发布时间
热度
原创
精华
热门标签
算家云
AI
LLM
神经网络之损失函数与优化函数——梯度下降
原创
“损失函数和梯度下降是神经网络中仅次于神经网络模型本身的两个函数,甚至神经网络模型的性能就是由其所决定的”今天我们来介绍一下神经网络模型中非常重要的两个知识点,损失函数与优化函数。了解过神经网络模型基础运作流程的应该都知道这两个重要函数,可以说一个神经网络设计的怎么样是一方面,但怎么让神经网络表现更好,就看这两个函数的质量了。损失函数与优化函数神经网络训练流程在现有的神经网络体系中,神经网...
AI探索时代
0回复
2933浏览
神经网络
损失函数
优化函数
关于神经网络的输入格式——数据集的处理,关于神经网络模型的结构说明
原创
“外部数据需要经过嵌入——Embedding转换成神经网络可以识别的向量格式的数据”开发一个大模型或者说神经网络需要经过以下几个大致步骤:1.数据集的处理2.神经网络模型设计3.神经网络模型训练前向传播损失计算优化器反向传播可能很多人觉得神经网络模型很复杂,也看不懂啥是啥;比如说很多人还分不清pytorch和Transformer的区别,也看不明白Transformer的结构图是什么。所以,今天我们以Transformer架构为例,详细梳理一下神经...
AI探索时代
0回复
2905浏览
神经网络
大模型
RAG从入门到精通系列:基础RAG
LLM(LargeLanguageModel,大型语言模型)是一个功能强大的新平台,但它们并不总是使用与我们的任务相关的数据或者是最新的数据进行训练。RAG(RetrievalAugmentedGeneration,检索增强生成)是一种将LLM与外部数据源(例如私有数据或最新数据)连接的通用方法。它允许LLM使用外部数据来生成其输出。要想真正掌握RAG,我们需要学习下图所示的技术(技巧):图片这个图看起来很让人头大,但是不用担心,你来对地方了。本系列教程...
PyTorch研习社
0回复
3697浏览
RAG
语言
模型
深度学习训练崩溃的真凶:梯度消失与梯度爆炸背后的秘密
梯度消失(VanishingGradient)与梯度爆炸(ExplodingGradient)梯度消失和梯度爆炸是深度神经网络训练中经常遇到的两个重要问题,尤其是在训练较深的网络时。这两个问题都会影响网络的训练效率,甚至导致训练失败。下面小A将详细讲解这两个问题。一.梯度消失概念梯度消失是指在训练深度神经网络时,反向传播过程中的梯度逐渐变小,最终导致梯度接近于零的现象。这使得神经网络的权重更新非常缓慢,甚至导致某些层的权重根本不...
人工智能训练营
0回复
3633浏览
深度学习
梯度消失
神经网络
Tasks 先行,OpenAI Agent :Operator即将发布!
OpenAI推出一项名为Tasks的测试版功能。图片无论是任何任务,只需要向它说明需求和时间,它就能实现自动化处理。“任务”(Tasks)功能的推出可能是“Operator”的前兆。之前,在SamAltman博客“反思”文章中,OpenAI的全新子域名operator被挖掘出来,这个就是,2025年1月即将发布的第一个AIAgent。图片operator预计会集成在ChatGPT中,可以自动化编码、内容等多种业务场景,与第三方应用API交互,实现自动化。根据OpenAI的设想...
AIGC新知
0回复
2517浏览
Tasks
OpenAI
Agent
Questel:2024深度学习与大模型全球专利全景报告
“欧米伽未来研究所”关注科技未来发展趋势,研究人类向欧米伽点演化过程中面临的重大机遇与挑战。将不定期推荐和发布世界范围重要科技研究进展和未来趋势研究。Questel是一家世界著名端到端知识产权解决方案提供商,为超过20,000家客户和150万用户提供服务,覆盖30个国家。主要提供软件套件,用于发明和知识产权资产的搜索、分析和管理。简述深度学习和大型语言模型(LLMs)专利的关键趋势图示深度学习领域知识产权保护的激烈...
欧米伽未来研究所
0回复
3773浏览
深度学习
大模型
DL
阿里面试惊现难题:大模型服务吞吐率太小咋整?
想象一下,就像咱们家里的水管,正常来讲水应该哗哗地流,可要是这管子太窄了,水就只能滴滴答答,让人干着急!当下咱们面临的大模型服务吞吐率太小,不就类似于这窄窄的水管吗?当面试官问你有没有办法把大模型服务吞吐这个“管子”拓宽,让数据像奔腾的江河一样顺畅流淌,你准备怎么解决?1.面试官心理分析当面试官问你这个问题的时候,其实面试官主要是想考验你如下3个方面:第一,在实际业务中,你有没有做过大模型服务性能...
丁师兄大模型
0回复
2514浏览
大模型
服务
吞吐率
基于 LlamaFactory 微调大模型的实体识别的评估实现
介绍使用LlamaFactory结合开源大语言模型实现文本分类:从数据集构建到LoRA微调与推理评估.https:blog.csdn.netsjxgghgarticledetails144290200在前一篇文章的文本分类评估中,已经介绍了主要的框架,故在大模型微调的流程框架方面本文不再赘述。实体数据集格式下述是实体识别评估的一条数据示例:{"prompt":"从以下政府文本中,提取指定的实体类别,并按照JSON格式输出结果。xxx","predict":"\njson\n{\n\"行政区划和地理实体\...
AI悠闲区
0回复
3216浏览
微调
大模型
实体识别
全面指南!掰细了讲混合专家模型MoE的内部结构
什么是混合专家模型MoE呢?混合专家模型MoE是一种能让大型语言模型(LLM)质量变好的技术。它主要由两部分组成:专家——现在每个前馈神经网络(FFNN)层都有好多个“专家”,每次可以用其中一部分。“专家”一般也是前馈神经网络。门控网络——它能决定把哪些tokens送到哪些专家那儿。在带混合专家模型MoE的大型语言模型的每一层,都能看到这些有点专门作用的专家:要知道,这里的‘专家’可不是像‘心理学’‘生物学’这种特定...
智驻未来
0回复
4120浏览
MoE
模型
数据
2024,中国大模型落地究竟如何,这些人和企业值得关注!
原创
2024,中国大模型行业落地究竟怎么样了?回顾2024,生成式AI浪潮汹涌,但核心驱动力却始终没有变化,依旧源自于“人”不懈推动。特别是过去一年,行业内涌现出众多上下求索的创新先锋,他们对中国人工智能落地产生了深远影响。透过这些人物群像,我们可以窥见2024中国AI落地进程的生动面貌。他们其中,不乏互联网业内的精英,敏锐捕捉到前沿技术的落地痛点,通过出色的产品表现,赢得公众的声声喝彩。更有佼佼者走出大厂,为信...
51CTO技术栈
0回复
3011浏览
大模型
AI
阿里巴巴
文档解析技术指南:从传统Pipeline到端到端大模型
原创
编者按:每天我们都在与各种格式的文档打交道,如何快速准确地从这些文档中提取有价值的信息,如何让AI理解文档中的表格、公式和图表,成为摆在我们面前的一道难题。特别是对于从事数据分析、学术研究或法律工作的专业人士来说,手动处理和整理这些文档不仅耗时耗力,还容易出错。一份技术报告中的复杂数学公式,一篇论文中的多层嵌套表格,或是一份合同中的关键条款,都需要我们投入大量精力去理解和提取。本文深入剖析了当前...
Baihai_IDP
0回复
3522浏览
LLMs
AI
拒绝复制粘贴!Snap&卡内基梅隆提出多主体开集个性化视频生成新范式Video Alchemist!
文章链接:https:arxiv.orgpdf2501.06187项目链接:https:snapresearch.github.ioopensetvideopersonalization亮点直击提出了VideoAlchemist,这是一种支持前景对象和背景的多主体、开放集合个性化的新型视频生成模型。精心构建了大规模训练数据集,并引入训练技术以降低模型过拟合。引入了MSRVTTPersonalization,这是一种新的视频个性化基准,提供多种条件模式并能准确测量主体保真度。总结速览解决的问题现有视频个性化生成...
angel
0回复
3159浏览
图像
生成
AI
什么?推荐系统未必数据越多,效果越好!
原创
推荐系统自1992年基于用户的协同过滤算法诞生以来,经历了一波又一波的革新大潮,发展至今,已经形成了一套体系完善,理论严密的技术领域。随着越来越多的基于深度学习的推荐系统模型诞生,该领域关于准确率的追求似乎已经不再吸引人们的眼球。相反,越来越多的人开始关注其他热点技术,比如大模型算法。2023年,来自澳大利亚RMIT大学的YueqingXuan等研究人员在arXiv上公布了一篇题为MoreIsLess:WhenDoRecommendersUnderperform...
51CTO内容精选
0回复
2488浏览
大模型
算法
推荐系统
多模态大模型Reyes增加batch推理方式,提升推理速度
原创
笔者在前面预训练了一个多模态大模型Reyes,详情见《【多模态&LLM】Reyes:一个从0到1开始训练的多模态大模型(技术报告)》。本文将为Reyes增加一个batch推理方式,提高Reyes的推理速度。Reyes8B开源地址:modelscope权重下载地址:https:modelscope.cnmodelsyujunhuinlpReyes8Bgithub:https:github.comyujunhuicsReyes使用方式将本仓库中的modelingreyes.py文件替换modelscrope下载的modelingreyes.py...
大模型自然语言处理
0回复
2772浏览
多模态
大模型
Meta AI 发布 Apollo:视频理解的新家族——LMM 大型多模态模型
原创
01、概述近年来,随着多模态模型(LMMs)在文本和图像处理任务上的进步,视频处理领域却显得有些“姗姗来迟”。与单一静态数据相比,视频集成了时间和空间维度的复杂性,对计算资源的要求更高。然而,现有方法通常沿用图像处理模型的架构,或依赖简单的均匀帧采样,这种方式难以有效捕捉视频中的动态与时间模式。此外,训练大规模视频模型耗费极大的计算资源,使得实验和创新受限。为了解决这些问题,MetaAI和斯坦福大学的研究...
Halo咯咯
0回复
3115浏览
多模态
大语言模型
阿里巴巴AI研究院发布CosyVoice 2:改进的流式语音合成模型
原创
01、概述近年来,语音合成技术取得了显著进展,尤其是在实现实时、自然流畅的语音生成方面。然而,在真正的应用中,诸如延迟、发音准确度、说话人一致性等问题仍然困扰着行业,尤其是在需要高响应性的流媒体应用中。这些技术难题在处理复杂语言输入时尤为突出,比如绕口令或多音字,这超出了现有模型的处理能力。为了应对这些挑战,阿里巴巴的研究人员推出了CosyVoice2,一款针对语音合成技术难题的升级版模型,旨在有效解决这...
Halo咯咯
0回复
5518浏览
语音合成模型
Hugging Face 发布 Picotron:解决 LLM 训练 4D 并行化的微型框架
原创
01、概述近年来,随着大型语言模型(LLMs)的兴起,自然语言处理技术取得了飞速发展。从GPT到Llama,这些前沿的语言模型在各个领域中展现出了令人惊叹的能力。然而,训练这些顶级模型的过程却充满了挑战。以Llama3.1405B为例,其训练过程中需要约3900万个GPU小时,相当于4500年单GPU计算时间。为了在几个月内完成这样的训练,工程师们采用了4D并行化的策略,跨越数据、张量、上下文和管道等多个维度进行优化。这种方法虽然高效...
Halo咯咯
0回复
2805浏览
人工智能
框架
突发,美国开始拉黑国产大模型公司!智谱官方回应:手握全链路大模型核心技术,无实质影响!
原创
编辑伊风月初,腾讯被美国国防部列进了“中国军工企业清单”(1260H清单)已经够离谱了!没想到刚过去10天,更离谱的事情出现了:大模型公司也登上了美国黑名单!昨晚深夜,美国商务部工业和安全局(BIS)修订了实体清单,其中大模型六小虎之一的智谱公司赫然在列。图片把手伸向大模型公司,美国官方也给定了理由:“十个实体因其通过发展和整合先进的人工智能研究来推动中国的军事现代化而被列入清单。”令人惊讶的是,这十家...
51CTO技术栈
0回复
2724浏览
美国
腾讯
大模型
李飞飞:通过「空间智能」重构世界
在人工智能的持续演进中,多模态大语言模型(MLLMs)已成为核心研究领域之一,其在整合语言和视觉信息方面的潜力备受关注。李飞飞、谢赛宁团队的最新研究成果犹如一颗璀璨的新星,照亮了MLLM在空间智能领域的探索之路,引发了学界和业界的广泛关注。本文将深入剖析该团队的研究,详细阐述MLLM在空间智能方面的突破与挑战,一同探索MLLMs在视觉空间智能方面的进展与难题。1.引言视觉空间智能在人类的日常生活中,视觉空间智能起...
AIGC前沿技术追踪
0回复
4742浏览
李飞飞
空间智能
MLLMs
闭着眼学机器学习—朴素贝叶斯分类
1.算法介绍朴素贝叶斯是一种基于贝叶斯定理的分类算法,广泛应用于文本分类、垃圾邮件过滤、情感分析等领域。它是一种简单但非常有效的分类方法,特别适用于高维度特征空间的分类问题。朴素贝叶斯分类器的"朴素"来源于它对特征之间独立性的假设。尽管这个假设在现实中往往不成立,但该算法在许多实际应用中仍然表现出色。2.算法原理3.案例分析我们使用著名的鸢尾花(Iris)数据集来演示朴素贝叶斯分类器的应用。首先建立朴素贝叶斯分...
AIPaperDaily
0回复
2277浏览
朴素贝叶斯
分类
算法
暂无内容
1
181
182
183
184
185
186
187
188
189
客服