丁师兄大模型
LV.1
前阿里算法专家,持续输出大模型面试干货~
声望 64
关注 0
粉丝 0
私信
主帖 4
回帖
想象一下,就像咱们家里的水管,正常来讲水应该哗哗地流,可要是这管子太窄了,水就只能滴滴答答,让人干着急!当下咱们面临的大模型服务吞吐率太小,不就类似于这窄窄的水管吗?当面试官问你有没有办法把大模型服务吞吐这个“管子”拓宽,让数据像奔腾的江河一样顺畅流淌,你准备怎么解决?1.面试官心理分析当面试官问你这个问题的时候,其实面试官主要是想考验你如下3个方面:第一,在实际业务中,你有没有做过大模型服务性能...
8天前 289浏览 0点赞 0回复 0收藏
​相信你只要了解过大模型,就听过token这个词儿,大家在用ChatGPT的API时,是按token计费的。例如,你提问消耗了100token,ChatGPT根据你的输入,回答了200token,那么一共消费的token数就是300。有时候看一些偏技术的文章,一些模型后面带着8k、32k,甚至100k,这也是指模型能处理的最大token长度。既然token在大模型领域这么高频出现,我们不禁要问:什么是token?它是怎么计算的?一个token是指一个字吗?中文和英文的token...
2025-01-09 12:29:35 265浏览 0点赞 0回复 0收藏
工作以后,对于做业务的同学,一个避免不了的话题就是“badcase”,在大模型时代,当然也是避免不了的问题。对于很多没接触过实际业务的同学可能认为大模型足够强,强到可以很好的fit用户的所有需求,就算fit不了,也可以微调模型来解决。但实际情况是怎样呢?其实不管是大模型,还是专有领域小模型,一定存会各式各样模型解决不了的badcase。具体原因很多,以智能客服系统为例,用户的咨询分布也符合二八原则,即用户80%的咨询...
2024-12-31 12:38:29 321浏览 0点赞 0回复 0收藏
​SFT可以说是LLM的基本操作了,如果只是想把SFT跑起来是非常简单的,只需要构造inputids和labels,然后就可以把训练跑起来。然而,这样的训练效率实际上非常低。所以在训练时,通常有两个加速方法:多轮合并packing无论是哪种方法,加速后都需要保证loss和原来是等价的。本文主要介绍这两种加速方法,以及loss计算时遇到的问题。1.多轮合并假设我们有一个对话,其中user和bot交互了3轮,我们可以构建三个样本:inputids就是对...
2024-12-11 10:48:39 653浏览 0点赞 0回复 0收藏
获得成就
已积累 475 人气
获得 0 个点赞
获得 0 次收藏