K最近邻(KNN)算法是一种用于解决分类和回归问题的监督机器学习方法。EvelynFix和JosephHodges于1951年开发了该算法,随后ThomasCover对其进行了扩展。本文探讨了KNN算法的基本原理、工作原理和实现。什么是K最近邻算法?KNN是机器学习中最基本但最重要的分类算法之一。它属于监督学习领域,在模式识别、数据挖掘和入侵检测中有广泛的应用。它在现实生活中被广泛使用,因为它是非参数的,这意味着它不会对数据的分布做出任何基本...
2025-07-21 07:11:30 995浏览 0点赞 0回复 0收藏
什么是逻辑回归本文讨论逻辑回归的基础知识及其在Python中的实现。逻辑回归基本上是一种有监督分类算法。在分类问题中,目标变量(或输出)y对于给定的一组特征(或输入)X,且X只能取离散值。有一点与流行的看法相反地是,我认为逻辑回归是一种回归模型。该模型建立一个回归模型来预测给定数据条目属于编号为“1”的类别的概率。就像线性回归假设数据遵循线性函数一样,逻辑回归只是使用sigmoid函数对数据建模。仅当将决策阈值...
2025-06-17 06:35:55 1181浏览 0点赞 0回复 0收藏
为什么会过拟合?首先需要有一个基本概念,机器学习目前还是处于统计学习范畴,即在一堆数据集(训练集)中寻找规律,然后在新的数据(测试集)预测结果,如果在新数据那预测的效果不佳但训练集效果极好,这时候我们就大概率确认是过拟合的情况。机器学习过拟合情况.png550如何缓解过拟合?增加训练集这是一个很直接但有效的解决方案,可以想象一下,我们假定模型的灵活性很高,它很好地拟合了我们的训练集,但我们的训练集(已...
2025-06-04 07:02:18 1595浏览 0点赞 0回复 0收藏
一种叫做AdaptiVocab方法,通过词汇表适配,在垂直领域显著提升LLM效率,且不损失生成质量与知识能力。其轻量级特性为实际部署提供了可行方案,尤其在资源受限场景下具有重要应用价值。1.研究背景与动机问题提出:大型语言模型(LLM)在通用领域表现出色,但计算成本高,尤其在自回归解码中每一步都需要前向传播。领域特定需求:在专业领域(如地球科学、物理史),通用词汇冗余,导致效率低下。传统领域适应方法关注性能而非效...
2025-05-21 07:34:48 1474浏览 0点赞 0回复 0收藏
主要来说,FunctionCalling的训练主要涉及数据构造、模型架构适配、多阶段微调等关键环节。主要开源方案可以参考Llama3.1或者QwenAgent,基本上在Llama3的技术报告(https:arxiv.orgpdf2407.21783)中就可以知道FunctionCalling的实现路径。以下是Llama3的技术报告里面如何用二阶段训练来提升FunctionCalling的准确性。一、数据预处理Llama3设计了一套多阶段数据筛选策略,通过质量评估与内容优化提升训练数据价值:1.主题分级...
2025-05-08 06:32:22 2036浏览 0点赞 0回复 0收藏
FramepackAI是由斯坦福大学的研究人员开发的一种开创性的神经网络结构,它彻底改变了视频生成模型处理长篇内容的方式。该论文核心是解决了长期以来一直困扰视频生成系统的基本“遗忘漂移困境”。通过实施一种创新的压缩技术,根据帧的重要性对帧进行优先级排序,无论视频时长如何,FramepackAI都能保持固定的转换器上下文长度。这一成就使AI系统能够在不增加计算要求的情况下处理更多的帧,使长视频生成不仅成为可能,而且实用...
2025-04-23 08:42:39 2168浏览 0点赞 0回复 0收藏
一、为啥要研究这个问题?现在的AI大模型(比如ChatGPT)虽然很厉害,但它们在做一些需要“打分”的任务时(比如判断哪个回答更好、更安全),还是得靠人类提前设定好规则。比如,告诉AI“答案要准确”、“不能有偏见”等等。但现实情况超级复杂,很多问题没法靠几条固定规则解决,比如怎么评价一篇作文的好坏,或者怎么判断一段对话有没有冒犯性。这时候,AI就需要自己学会“打分”——这就是奖励建模(RewardModeling)。不过...
2025-04-11 00:26:06 2923浏览 0点赞 0回复 0收藏
2025年,大模型驱动的智能体(Agent)技术已成为AI产业的核心战场。根据SuperCLUE最新测评报告,尽管国内大模型已逼近国际顶尖水平,但在复杂场景落地、长程任务处理等维度仍面临关键瓶颈。本文基于最新测评报告,输出符合个人、企业开发者所需的Agent大模型。一、Agent能力模型排行1.全球模型能力榜:国产模型非常优秀模型名称模型类型所属国家Agent得分(0100)备注GPT4.5Preview基础模型海外71.88国际第一hunyuanturbos基础...
2025-03-31 01:43:27 6604浏览 0点赞 0回复 0收藏
现在AIAgent开发需求激增,FastGPT、Dify和字节跳动旗下的Coze成为市面上比较流行的三大工具。我从技术架构、功能适配性、生态能力等维度进行对比分析,为自己整理的同时,给大家一些简单参考。一、核心功能与技术对比维度FastGPTDifyCoze公司环界云计算语灵科技字节跳动定位开源知识库问答系统开源LLM应用开发平台(BaaS+LLMOps)AI聊天机器人开发平台核心能力Flow工作流编排、多格式知识库多模型调度、可视化应用编排插件生态...
2025-03-19 00:15:03 6840浏览 0点赞 0回复 0收藏
简单来说,如果你没有足够的机器资源和时间,那么就跑到你预期的epoch,只需要保证验证集预期的准确率或其他指标满足要求即可。局部极小值和鞍点如果你想追求极致的loss下降,那么你需要了解两个知识点——局部极小值和鞍点。一般我们的loss降不了,是因为该位置的参数对损失的微分为零,导致梯度下降不再更新参数了,那么此时loss也就不会继续下降。那么提到梯度为零的时候,我们一般想象到的是局部极小值。其实也没错,因为出...
2025-03-06 10:16:46 2560浏览 0点赞 0回复 0收藏
什么是TFIDFTFIDF(termfrequency–inversedocumentfrequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,而且算法简单高效,常被工业用于最开始的文本数据清洗。TFIDF有两层意思,一层是"词频"(TermFrequency,缩写为TF),另一层是"逆文档频率"(InverseDocumentFrequency,缩写为IDF)。假设我们现在有一片长文叫做《量化系统架构设计》词频高在文章中往往是停用词,“的”,“是”,“了”等...
2025-02-08 14:17:31 2559浏览 0点赞 0回复 0收藏
Dropout现在这个操作在目前这个深度学习时代中是非常常见的一个操作。对于Dropout的好处我们也听过很多,降低过拟合,提高模型的鲁棒性,控制模型复杂度等blabla。。但我比较好奇的是,Dropout是怎么实现以上好处,经过一番了解,简单描述下。Dropout实际上我们可以先理解成给予Network结构中的一种噪音,但是我们这个噪音不是随便给,是有一定数学理论支撑,我们是选择无偏差地往网络结构中加入噪音。通常来说,训练的时候才需...
2025-01-24 10:50:38 2349浏览 0点赞 0回复 0收藏
总结在项目中,如果你没有任何参考,那么选择2次方(即64、128、256、512、1024等)可以会更加直接和易于管理,然后对上限来说,batchsize大小最好<数据集样本数0.1。梯度下降算法在更新模型参数时,我们一般会用到梯度下降算法。这个时候,我们就会有一个问题,每次拿多少训练样本进行更新参数呢?这个时候有两个极端情况,资源够,那我们把所有数据都丢进去,我们称之为批量梯度下降法(BatchGradientDescent,BGD)。另外一...
2025-01-15 12:56:14 2662浏览 0点赞 0回复 0收藏
概览该论文提出了一种名为CLIP(ContrastiveLanguageImagePreTraining)的多模态预训练模型,用于学习图像和文本之间的语义关系。该模型使用自然语言作为监督信号,通过对比预测正确的图像文本配对和错误的配对来学习特征表示。具体来说,CLIP首先将输入的图像和文本分别编码为高维向量,并在两个空间中计算它们之间的相似度。然后,CLIP使用一个对比损失函数来优化这些向量的表示,以最大化正确配对的相似度并最小化错误配对的...
2025-01-07 11:46:37 1.1w浏览 0点赞 0回复 0收藏
不知道大家有没有想过这个问题?我这两天对这个问题还深入思考了一下,思考的初衷是来源于现在这么多的开源大模型,而且挺多是多模态场景,而Embedding模型相对单模且英文语料居多,如果能复用大模型的outputlayer,是不是会加速手头上的实验进展。但思考后觉得效果应该是比不上原生的Embedding模型,有空再专门测试一下看看。可能主要有以下几点原因:像LLM模型都是预测nexttoken,那么针对nexttoken的预测,模型肯定更加关注...
2024-12-27 14:05:35 3059浏览 0点赞 0回复 0收藏
大家或多或少都已经默认了,batchsize一般都是2,8,36,64,128...因为基本上所有论文都是这么设置默认超参数,大家久而久之就习惯了,至少这样设置总不会错吧。其实我也有这么一个迷思,如果不设置为2的n次方会怎么样?效果变差?效率变低?还是...基本理论一般而言,选择batchsize为2的幂背后的主要思想来自于:内存对齐和浮点效率。内存对齐将batchsize选择为2的幂的主要论点之一是CPU和GPU内存架构是以2的幂组织的。有一个...
2024-12-19 12:08:56 4306浏览 0点赞 0回复 0收藏
主要是发现网上没有比较新的OpenAIAPI参数详情参考,自己到官网上看了最新内容,机翻后简单修正了下,作为备忘搜索用。主要参数messages(object):包含到目前为止的对话的消息列表。根据您使用的模型,支持不同的消息类型(模态),如文本、图像和音频。model(string):要使用的模型的ID。store(bool):是否存储此聊天完成请求的输出。frequencypenalty(float):介于2.0和2.0之间。正值会根据在文本中的现有频率对新tok...
2024-12-09 10:53:48 6782浏览 0点赞 0回复 0收藏
2018年是自然语言处理领域的转折点,一系列深度学习模型在从问答到情感分类的NLP任务上取得了最先进的成果。谷歌的BERT算法已经成为一种“一个模型来统治其他所有NLP模型”,基于其在各种各样的任务上的优异性能。这篇文章通过可视化输出,尝试使用BertViz进行交互式演示。https:github.comjessevigbertvizBERT建立在两个关键思想的基础上,这两个思想是NLP最近取得的许多进展的原因:Transformer架构;无监督预训练。T...
2024-11-22 12:16:54 3470浏览 0点赞 0回复 0收藏
近年来,机器学习的普及率急剧上升。机器学习从数据中创造价值的潜力使其对许多不同行业的企业都具有吸引力。大多数机器学习产品都是使用现成的机器学习算法设计和实现的,并进行了一些调整和微小的改动。机器学习算法种类繁多,可分为三大类:监督学习算法在给定一组观察值的情况下对特征(自变量)和标签(目标)之间的关系进行建模。然后该模型用于使用这些特征预测新观察的标签。根据目标变量的特性,它可以是分类(离散目...
2024-11-18 16:49:48 7093浏览 0点赞 0回复 0收藏
1.什么是BERT?在不断发展的自然语言处理(NLP)领域,一项名为BERT的突破性创新已经出现,改变了游戏规则。BERT代表BidirectionalEncoderRepresentationsfromTransformers,不仅仅是机器学习术语海洋中的另一个首字母缩略词。它代表了机器理解语言方式的转变,使它们能够理解使人类交流丰富而有意义的错综复杂的细微差别和上下文依赖关系。2.为什么BERT很重要?想象一句话:“她拉小提琴的时候很漂亮。传统的语言模型会从左到...
2024-11-11 17:10:11 3232浏览 0点赞 0回复 0收藏