51CTO首页
AI.x社区
博客
学堂
精品班
软考社区
免费课
企业培训
鸿蒙开发者社区
信创认证
公众号矩阵
移动端
视频课
免费课
排行榜
短视频
直播课
软考学堂
全部课程
软考
信创认证
华为认证
厂商认证
IT技术
PMP项目管理
免费题库
在线学习
文章
资源
问答
课堂
专栏
直播
51CTO
鸿蒙开发者社区
51CTO技术栈
51CTO官微
51CTO学堂
51CTO博客
CTO训练营
鸿蒙开发者社区订阅号
51CTO软考
51CTO学堂APP
51CTO学堂企业版APP
鸿蒙开发者社区视频号
51CTO软考题库
AI.x社区
首页
文章
课堂
直播
评选
登录/注册
51CTO
中国优质的IT技术网站
51CTO博客
专业IT技术创作平台
51CTO学堂
IT职业在线教育平台
我的关注
全部帖子
默认
发布时间
热度
原创
精华
热门标签
AI
LLM
算家云
颠覆传统OCR轻松搞定复杂PDF的工具
LLM辅助OCR项目是一个先进的系统,旨在显著提高光学字符识别(OCR)输出的质量。通过利用尖端的自然语言处理技术和大型语言模型(LLM),将原始OCR文本转换为高度准确、格式良好且可读的文档成为可能。本篇文章将介绍一款在github上拥有1.7kstar的开源实现工具LLMAidedOCR。特征本项目支持以下功能:PDF到图像转换使用Tesseract进行OCR使用LLM(本地或基于API)进行高级错误更正智能文本分块,高效处理Markdown格式选项抑制页眉和页...
恰似惊鸿
0回复
4512浏览
自然语言处理技术
大型语言模型
光学字符识别
从数据仓库到数据飞轮:技术进化与实践案例解析
原创
从数据仓库到数据飞轮:技术进化与实践案例解析前言数据技术的发展如同企业发展的脉络,从数据仓库的诞生到数据中台的崛起,再到如今数据飞轮的广泛应用,这一系列技术变革不仅展示了数据管理的演进过程,更反映了企业在应对复杂市场需求时对数据利用的不断深化。每一个技术阶段的出现,都是企业在面对数据量激增、业务流程复杂化以及对实时分析需求提升时的必然选择。数据仓库的出现,最早解决了企业分散在各个业务系统中的数...
wx6110dd2be671e
0回复
3301浏览
数据仓库
数据治理
经典论文ReAct精读
原创
人类智能的一个独特特征是能够将面向任务的行为与语言推理(或称作内心独白)无缝结合。理论上,这被认为是人类认知中的重要一环,能够实现自我调节或策略化并维持工作记忆。以在厨房烹饪一道菜为例,在任何两个具体行为之间,我们可能会:(1)用语言进行推理以跟踪进度(例如“现在一切都切好了,我应该把水壶里的水加热”);(2)处理异常情况或根据情况调整计划(例如“我没有盐,所以让我用酱油和胡椒代替”);(3)意识...
AIGC最前线
0回复
3668浏览
ReAct
大模型技术在AIGC领域所面临的主要问题
原创
“怎么打造出一款具有市场竞争力的AIGC产品?”AIGC——人工智能生成内容,是大模型技术目前的一个主要应用方向,简单来说大模型就像一个擅长某个领域的人,比如绘画,写作,设计等;而这种内容创作的领域就属于AIGC。但AIGC虽然发展得如火如荼,但其还面临着诸多问题。AIGC所面临的问题技术方面AIGC作为一项人工智能技术的应用场景,其技术是第一个需要解决的问题,否则一切都无从谈起。但AIGC在技术方面还面临着很多问题,比...
AI探索时代
0回复
3431浏览
大模型
AIGC
什么时候需要训练和微调属于自己的大模型——小微企业必须要明白的问题
原创
“从问题出发,先有需求再有解决方案”老板和员工在思维方式上有一个很大的差别就是,作为老板他们喜欢寻找现有的解决方案,如果现有的解决方案无法满足的情况下,才会自己设计一个解决方案。而作为员工来说特别是技术人员,大都有一种技术至上的心态,比如说很多技术人员找工作会特别在乎公司用的技术是否足够牛逼,足够高大上。之所以产生这种现象的原因是因为,技术人员的心态是学会牛逼的技术,走到哪里都不怕。而老板的心...
AI探索时代
0回复
2806浏览
大模型
人工智能
麻省理工创新模型:用2D视频扩散,生成 3D 视频
精华
传统的3D视频生成主要有两种方法,一种是通过2D视频模型和静态3D场景模型的分类器指导来优化动态3D视频场景表示,不过这种对算力的需求极大,生成一个3D视频需要数小时;另一种是通过变形初始3D场景表示来实现,但需要严格的时间结构并且需调整复杂的参数。为了解决这些难题,麻省理工、Databricks马赛克科研所和康奈尔大学联合推出了创新模型Vid3D。该模型假设无需明确建模3D时间动态,通过生成2D视频的时序动态轮廓,然后独立...
Aceryt
0回复
3674浏览
3D
视频生成
不要沉迷大模型的技术与理论,学习大模型的方法——从做一个小应用开始
原创
“在应用中学习技术,而不是沉迷于技术本身”不知道大家都是怎么学习大模型技术的,但从个人的经验和公众号的反馈来看,有些人在学习大模型技术时转进了牛角尖,导致很多东西学不明白,事倍功半。今天就从个人的学习历程出发,来讨论一下关于大模型技术的学习方法。学习大模型技术的方法应该跟很多人一样,之所以学习大模型技术是因为大模型技术的爆火,以及大模型技术在未来的发展潜力,更重要的一点是不了解和学习大模型以后...
AI探索时代
0回复
3221浏览
大模型
超全两万字长文详解视频扩散模型的最新进展
精华
最近,AIGCer在使用一些视频生成工具,对其中的技术点有了强烈兴趣,正好搜索到了这篇视频扩散模型综述,方法果然浩如烟海,读下来感觉受益良多,分享给大家。人工智能生成内容(AIGC)浪潮在计算机视觉领域取得了巨大成功,扩散模型在这一成就中发挥着关键作用。由于其出色的生成能力,扩散模型逐渐取代了基于GAN和自回归Transformer的方法,在图像生成和编辑以及视频相关研究领域表现出色。然而,现有的调查主要集中在图像生...
angel
0回复
8635浏览
AI
生成
Open-Sora 1.1 解读:完全开源的高效复现类Sora视频生成方案!
项目链接:https:github.comhpcaitechOpenSoraOpenSora1.1是ColossalAI开发的开源视频生成模型的最新迭代,标志着在这个快速发展的领域取得了实质性的飞跃。在其前身OpenSora1.0的基础上,该版本在功能、训练效率和整体灵活性方面进行了显著改进。OpenSora项目是一项致力于高效制作高质量视频,并使所有人都能使用其模型、工具和内容的计划。通过采用开源原则,OpenSora不仅实现了先进视频生成技术的低成本普及,还提供了一个精...
angel
0回复
3117浏览
视频生成
技术
OpenAI文本嵌入模型入门指南
原创
这篇综合指南介绍了如何使用OpenAI文本嵌入模型在GenAI应用程序中嵌入创建和语义搜索。向量嵌入在AI中至关重要,它可以将复杂的非结构化数据转换成机器可以处理的数值向量。这些嵌入捕获数据中的语义和关系,从而实现更有效的分析和内容生成。ChatGPT的创建者OpenAI提供了各种嵌入模型,这些模型提供高质量的向量表示,可用于包括语义搜索、聚类和异常检测在内的各种应用。这篇指南将探讨如何利用OpenAI的文本嵌入模型来构建响...
51CTO内容精选
0回复
4309浏览
OpenAI
ChatGPT
向量嵌入
RAG高级优化:一文看尽Query的转换之路
原创
准确地找到与用户查询最相关的信息是RAG系统成功的关键,如何帮助检索系统提升召回的效果是RAG系统研究的热门方向,之前的文章介绍了在分块阶段的优化方法:RAG高级优化:基于问题生成的文档检索增强。本文将介绍三种query理解的方法,以增强检索增强生成(RAG)系统中的检索过程:查询重写:重新定义查询,使其更加具体和详细。Stepback提示:生成更广泛的查询,以获得更好的上下文检索。子查询分解:将复杂查询分解为更简单的...
恰似惊鸿
0回复
3634浏览
RAG
Query
一款好用的开源工具,高效实现Reranker
原创
Reranker是任何检索架构(RAG、Agent等)的重要组成部分,但它们通常也比PipeLine中其他部分更模糊。有时,甚至很难知道该使用哪一个。每个问题都是不同的,使用X的最佳模型不一定与使用Y的模型相同;新的重新排名方法不断涌现,该如何兼容他们呢?今天介绍一款高效扩展工具rerankers:设计目标新的重新排名方法不断涌现:例如,RankGPT使用LLM对文档进行重新排序,就在去年出现,取得了非常有希望的零样本基准测试结果。所有不同...
恰似惊鸿
0回复
4662浏览
开源工具
Reranker
支持大模型流式输出的JSON提取工具
原创
在我们日常处理大模型的输出时,经常希望输出的结果为结构化的(例如输出json格式),这样有助于我们进行结果的后处理。但是在模型输出超过限制和流式输出时就会遇到问题了,由于答案没完全输出,转json就存在问题。大型语言模型(LLMs)产生结构化输出的原因包括:提高可读性:结构化输出使得信息以一种逻辑清晰、易于理解的方式呈现,提高了信息的可读性和用户体验。便于处理:结构化数据可以更容易地被机器读取和处理,有助于...
恰似惊鸿
0回复
4178浏览
大模型
JSON
增强问答文本检索的排序(RAG)模型,你学会了吗?
引言:文本检索在信息检索系统中的重要性文本检索是信息检索系统的核心组成部分,它在搜索引擎、问答系统和推荐系统等多种应用中发挥着至关重要的作用。随着技术的发展,文本检索已经从简单的关键词匹配演变为利用复杂的算法理解和匹配文本的语义。特别是在问答系统中,文本检索技术能够从大量数据中找到与用户查询最相关的信息,这对于提高系统的准确性和用户满意度至关重要。近年来,随着深度学习技术的发展,基于神经网络的...
AI论文解读
0回复
4421浏览
文本检索
排序
RAG
百度CEO李彦宏就当前业界对大模型的认知误区发表了自己的看法
在近期的一次内部员工交流会上,百度创始人、董事长兼CEO李彦宏就当前业界对大模型的认知误区发表了自己的看法。他的讲话涵盖了大模型竞争、开源模型效率以及智能体趋势等热点话题,引发了广泛关注。李彦宏认为,未来大模型之间的差距可能会越来越大。他指出,大模型的潜力和天花板非常高,目前的发展水平距离理想状态还有很大差距。因此,模型需要不断进行快速迭代、更新和升级。这需要企业能够持续数年乃至十几年如一日地投入资源,...
InfonityAI智推星
0回复
2720浏览
百度CEO
模型
李彦宏
最近一段时间关于大模型技术的学习及应用的心得体会
原创
“怎么把大模型的各种技术与应用场景相结合是一个值得思考的问题”今天这篇文章应该算是对这几个月以来学习和应用大模型技术的总结,也可以说是这段时间的心得体会。今天主要从技术与应用两个方面来讲,当然也会夹杂着一些自己的理解与想法。关于大模型技术的学习与应用及心得体会对任何一项技术来说,主要有两个方面,其一是技术面,其二是应用面;技术本质只是一个工具,也就是我们常说的,技术是为业务服务的。一项新技术的...
AI探索时代
0回复
4430浏览
人工智能
大模型
麻省理工研究团队革新科学研究方式,通过多智能体智能图推理实现科学发现自动化
在当今快速发展的科学研究领域,如何高效地探索新领域、识别复杂模式并揭示庞大科学数据中的隐藏联系,成为了人工智能面临的重大挑战。传统的科学研究方法虽然取得了许多突破,但受限于研究人员的创造力和背景知识,可能无法充分挖掘现有数据中的潜在知识。为了解决这一问题,麻省理工学院(MIT)的研究团队提出SciAgents通过多智能体智能图推理,自动化科学发现过程,推动科学研究进入新的高度。科学发现的过程通常包括背景知...
xuxiangda
0回复
5280浏览
MIT
AI
模块化
OpenAI o1模型推理能力大幅提升的背后:重复采样如何提升AI推理能力
精华
今天OpenAI对外发布了o1模型,最大的特点便是推理能力大大增强,推理速度大大变慢。传统大模型都在比拼降低响应延迟的时候,OpenAI竟然做了一个“超慢”模型。为什么会这样答案就在下面这张图里,它解释了o1的推理工作原理,也回答了它为啥变慢。o1模型的特点是在回答前进行思考,并不直接给出推理结果,响应用户之前会产生长串的内部思维链,生成不同的方法,进行验证尝试,有成功的,也有失败的,但不会展示给用户,就像是打...
Syrupup
0回复
4401浏览
OpenAI
模型
AI
SDM: 第三代神经网络和扩散模型强强联合!FID最多超基线12倍,能耗省60%,实力SOTA!
论文链接:https:arxiv.orgpdf2408.16467代码链接:https:github.comAndyCao1125SDM亮点直击本文提出了脉冲扩散模型(SpikingDiffusionModel,SDM),一种高质量的图像生成器,在基于SNN的生成模型中实现了SOTA性能。从生物学的角度出发,本文提出了一种时间脉冲机制(TemporalwiseSpikingMechanism,TSM),使脉冲神经元能够捕捉更多的动态信息,从而提高去噪图像的质量。大量结果显示,SDM在CIFAR10数据集上的FID分数上超越了SN...
angel
0回复
4254浏览
模型
数据
实战LangGraph中实现「人机交互」!如何确保Agent系统每一步都符合预期?
嘿,大家好!这里是一个专注于AI智能体的频道!今天我们聊聊如何在LangGraph中实现“人机交互”(HumanintheLoop,简称HIL)的机制。这可是让智能系统更懂你、更贴心的秘密武器哦!想象一下,你的智能助手在执行任务时突然停下来,问你:“嘿,我接下来要用这个工具,你觉得怎么样?”这就是HIL的核心——在关键时刻让人类介入,确保每一步都符合你的期望。具体怎么做呢?我们通过在LangGraph中设置断点来实现。这些断点会在执...
探索AGI
1回复
7370浏览
LangGraph
Agent
系统
暂无内容
1
239
240
241
242
243
244
245
246
247
客服