鲁班模锤1
LV.3
基于开源技术生态,跟踪与普及人工智能、隐私计算、区块链等技术
声望 248
关注 0
粉丝 1
私信
主帖 27
回帖
大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文​重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调​或者LLM背后的基础模型​重新阅读。而最新科技(Mamba,xLSTM,KAN)​则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏​。技术宅麻烦死磕AI架构设计。当然最重要的是订阅“鲁班模锤”。在过去的十年中,ImageNet预训练的视觉模型显著提高了...
2天前 85浏览 0点赞 0回复 0收藏
“现在AI和数据处理密不可分,80%的企业可以利用ApacheNiFi轻松解决复杂的数据问题,快速完成场景建设。犹如花上百来块钱在家享受一顿不亚于五星级西餐厅的法式大餐。对于全栈式的数据分析师或者数据应用的Java研发工程师,NiFi让其摆脱复杂的数据工程,而是将精力放在分析和应用的创新之上。而NiFi的GUI也着实令人赏心悦目!”1.ApacheNiFi说到数据平台,很多人的第一反应要么是ETLELT,要么是Spark或Hadoop,要么是Flink,要...
8天前 165浏览 0点赞 0回复 0收藏
约翰·霍普菲尔德(JohnJ.Hopfield)和杰弗里·辛顿(GeoffreyE.Hinton)周二被授予诺贝尔物理学奖(NobelPhysicsPrize),以表彰他们的发现帮助计算机以人脑的方式学习更多知识,为人工智能的发展奠定了基础。该奖项是对AI在人们生活和工作方式中日益增长的重要性的认可。诺贝尔委员会表示,使用人工神经网络的机器学习能够理解大量数据,已经在科学研究中发挥了重要作用,包括在物理学领域,它被用于创造“具有特定特性的新材...
2024-10-09 14:26:07 162浏览 0点赞 0回复 0收藏
实时了解业内动态,论文是最好的桥梁,专栏精选论文​重点解读热点论文,围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调​或者LLM背后的基础模型​重新阅读。而最新科技(Mamba,xLSTM,KAN)​则提供了大模型领域最新技术跟踪。1.总览EAGLE2EAGLE2是一种加速大型语言模型(LLM)推理过程的技术。具体来说,它采用了基于推测性采样(speculativesampling)的技术,它通过引入动态草稿树和草稿模型的置...
2024-09-30 16:18:49 284浏览 0点赞 0回复 0收藏
并行策略正如和分布式一样,如何利用多设备和多硬件也是很重要的一个环节。大模型训练也是如此,如今训练大模型离不开各种分布式并行策略,常用的并行策略包括:数据并行(dataparallelism,DP):假设有N张显卡,每张显卡都加载完整的模型,每一次迭代(iterationstep)都将一个批次的训练数据据分割成N份系统大小的小批次(microbatch),每张显卡按照自身拿到的小批次数据进行独立的计算梯度,然后调用AllReduce计算梯度均值...
2024-09-27 13:29:41 205浏览 0点赞 0回复 0收藏
DavidMiller表示该模型的目标很明确:弥合尖端AI研究和实际应用之间的差距。他认识到,许多现有NLP模型需要大量的计算资源,并且通常局限于专有系统,从而限制了它们的可访问性。作为回应,WordLlama被设计为既轻量级又高效,使更广泛的用户能够在不牺牲质量的情况下将高性能NLP集成到他们的工作流程中。WordLlama一个开源、快速、轻量级(16MB)NLP工具包,它是一种用于NLP和单词嵌入的实用型模型,它类似于GloVe、Word2Vec或F...
2024-09-20 10:57:46 349浏览 0点赞 0回复 0收藏
“这个模型肯定比我更擅长解决AP数学考试,而且我在大学时辅修数学,”OpenAI的首席研究官鲍勃·麦格鲁(BobMcGrew)告诉我。他说,OpenAI还根据国际数学奥林匹克竞赛的资格考试对o1进行了测试,虽然GPT4o只正确解决了13%的问题,但o1的得分为83%。OpenAI发布名为o1新模型,这是全新“推理”模型系列中的第一个,这些模型经过训练可以比人类更快地回答更复杂的问题。它与o1mini一起发布,o1mini是一个更小而且较为便宜的版本。...
2024-09-13 11:33:24 312浏览 0点赞 0回复 0收藏
实时了解业内动态,论文是最好的桥梁,专栏精选论文重点解读热点论文,围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。LlamaIndex和LangChain的对比其实是一个很复杂的话题,若需要用一句话来总结,LlamaIndex是数据之王,而Lang...
2024-09-10 11:46:28 309浏览 0点赞 0回复 0收藏
大模型技术论文不断,每个月总会新增上千篇。本专栏​​精选论文​​​重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到​​大模型必备腔调​​​或者​​LLM背后的基础模型​​​新阅读。而​​最新科技(Mamba,xLSTM,KAN)​​则提供了大模型领域最新技术跟踪。1.自注意力SelfAttention自注意力的主要功能是从输入序列本身生成上下文感知向量,而不是像基于RNN的编码器解码器架构那样同时考虑输...
2024-09-05 13:27:26 436浏览 0点赞 0回复 0收藏
时间序列数据具有内在的长程和短程依赖性,对分析应用提出了独特的挑战。虽然基于Transformer的模型擅长捕获长程依赖关系,但它们在噪声灵敏度、计算效率和与较小数据集的过度拟合方面存在局限性。本次的研究人员引入了一种新颖的时间序列轻量级自适应网络(TSLANet),作为各种时间序列任务的通用卷积模型。具体来说,利用傅里叶分析来增强特征表示并捕获长期和短期相互作用,同时通过自适应阈值来减轻噪声。此外还引入了交互...
2024-09-03 11:41:07 426浏览 0点赞 0回复 0收藏
Python在机器学习领域的地位十分关键,虽然后面有Julia,Mojo等其他对手的挑战,然而Python拥有庞大的机器学习库和框架,尤其是生态系统比以往任何时候又强大了不少。从另外维度它和Java,Scala,Go,Rust等编程语言对比,在工程化方面还是稍欠火候。本文科普和机器学习相关Python库,而这类的使用者往往是机器学习从业者和数据科学家。来自GoogleBrain的TensorFlow仍然是最受欢迎和强大的机器学习库之一。它是开源,全面且灵活...
2024-08-29 14:53:01 338浏览 0点赞 0回复 0收藏
AI21服务于企业,为企业构建基础模型和AI系统以加速GenAI在生产中的使用。AI21成立于2017年,已从NVIDIA、Intel、Google等公司共筹集了3.36亿美元。它是最早将生成式AI推向大众的公司之一,借助AI21平台,企业可以构建自己的生成式AI的应用程序和服务。Jamba算是世界上第一款基于Mamba的生产级别的模型。近日AI21Labs发布Jamba1.5系列开放模型,包括Jamba1.5Mini和Jamba1.5Large,这些模型建立在新颖的SSMTransformer架构之上,...
2024-08-27 12:01:32 452浏览 0点赞 0回复 0收藏
大家也许会很好奇为什么在ViT章节插入了NVIDIALlama3.1Minitron4B,ViT因为应用场景的特殊性所以都寄希望于高效率的模型,因此各种针对大参数模型的提炼和优化技术层出不穷。而NVIDIALlama3.1Minitron则复现了这些系列的教科书实验。对于一些基本的术语,可以移步​​ViT1​​温习一下。1.Llama3.1Minitron4BLLMs例如Llama3.1405B和NVIDIANemotron4340B在许多具有挑战性的任务中表现出色,包括编码、推理和数学。但是部署它们需...
2024-08-22 13:55:16 332浏览 0点赞 0回复 0收藏
最近很多的咨询都在问我相同的问题,如何将LLM集成到垂直领域的业务场景。这里提到的场景当然这些场景不再是生成式应用,而是较为专业的领域。我翻了一篇三月份的论文,以这篇论文来回答读者的问题。其实就是要将LLM去其形,而留其意。LLM的主要战场还是在于自然语言的理解。其一它的特点是大,其二它的内核为Transformer引擎,这种引擎能够在所有的输入中提取有用的关联信息。这些信息可以是自然语言识别,也可以是时序数据,...
2024-08-20 10:31:19 322浏览 0点赞 0回复 0收藏
将语言模型不断地扩大规模是可以提高它们的能力。而日常运用的时候,通常将推理限制在一次。要是对于同一个问题进行多次反复的采样生成,那么是否能够覆盖正确的答案?是否能够被准确的捞出?最近一项研究进行如下的探索。整个过程如上图所示,它分为两个步骤,准备一个问题,然后遵循重复采样程序,通过具有正温度(代表着回答多样性)的LLM中采样来为给定问题生成很多的K个候选解决方案。第二个步骤使用特定领域的验证器从生...
2024-08-09 16:42:22 252浏览 0点赞 0回复 0收藏
BlackForestLabs是一家由前Stability.ai开发人员创立的AI初创公司,旨在为图像和视频创建尖端的生成式AI模型。这家初创公司声称,其第一个模型系列Flux.1为文本到图像的生成设定新的标准。BlackForestLabs总部位于德国弗莱堡,由AI研究人员和开发人员组成,他们曾在Stability.ai从事StableDiffusion和其他生成式AI模型的工作。团队在今年春季从Stability.ai离开,到目前为止已经筹集了3100万美元的种子资金。本轮融资由Andreess...
2024-08-07 15:05:31 409浏览 0点赞 0回复 0收藏
谷歌称著名数学家蒂莫西·高尔斯爵士(SirTimothyGowers)和约瑟夫·迈尔斯(JosephMyers)博士使用国际海事组织(IMO)的官方规则对人工智能模型的解决方案进行了评分。该公司报告称,其组合系统获得了42分中的28分,略低于29分的金牌门槛。AlphaProof解决了两个代数问题和一个数论问题,而AlphaGeometry2解决了几何问题。这包括在比赛中最难的问题上获得满分,谷歌声称今年只有五名人类参赛者解决了这个问题。图表显示了Alpha...
2024-08-02 15:18:31 416浏览 0点赞 0回复 0收藏
“继用于图像的MetaSegmentAnythingModel(SAM)取得成功之后,我们发布了SAM2,这是一种用于在图像和视频中实时进行对象分割的统一模型,已经达到最先进的性能。”模型适用于增强现实(AR)、虚拟现实(VR)、机器人、自动驾驶车辆和视频编辑等需要时间定位的应用。1.SAM2分割是计算机视觉的重要组成部分,用于识别哪些图像像素属于物体。它在各种现实世界场景中都有应用,从分析科学图像到编辑照片。最早在2023年,Meta宣布了...
2024-08-01 14:22:26 628浏览 0点赞 0回复 0收藏
最近的Pytorch2.4推出AI任务加速,提供对IntelGPU的支持。为了进一步加速AI任务,PyTorch2.4现在为Intel数据中心GPUMax系列提供支持,该系列将IntelGPU和SYCL软件堆栈集成到标准PyTorch堆栈中。<下图为各个组件被引入到pytorch的各个版本信息。小编建议快速浏览,第二章节再仔细理解这些组件的内涵!>借助IntelGPU支持,读者可以拥有更多GPU选择,并可以使用相同的前后端GPU编程模型。现在可以在IntelGPU上部署和操作,几乎不需...
2024-07-30 00:43:22 555浏览 0点赞 0回复 0收藏
System1和System2的思维来自丹尼尔·卡尼曼(DanielKahneman)的《思考,快与慢》一书。里面介绍了两种不同的认知处理模式。System1快速、自动且直观,几乎无需费力即可操作。这种思维模式使人类能够根据模式和经验做出快速决策和判断。相比之下,System2是缓慢的、深思熟虑的和有意识的,需要有意识地努力。这种类型的思维用于复杂的问题解决和分析任务,在这些任务中需要更多的思考和考虑。上下班途中,人总是知道该走哪条路...
2024-07-23 11:05:24 893浏览 0点赞 0回复 0收藏
获得成就
已积累 3003 人气
获得 0 个点赞
获得 0 次收藏