公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

丁师兄大模型

LV.1

前阿里算法专家，持续输出大模型面试干货~

帖子 8

声望 90

关注 0

粉丝 1

社区头条作者

私信

关注

主帖 8

回帖

DeepSeek为何要做MoE负载均衡？

DeepSeek是如何做专家的负载均衡的？如果你在面试时被问到这个问题，应该怎么回答呢？1.面试官心理分析从面试官的角度来看，你至少得答到下面这两个层面：第一层，为什么要做专家的负载均衡，动机是什么？第二层，DeepSeek是怎么做的，它具体有什么高明之处？好，那接下来我们就一起来分析拆解一下这道面试题目。2.面试题解析首先第一点，为什么要做专家的负载均衡？这里先给大家科普一下负载均衡的概念，它实际上是分布式服...

2025-06-12 00:24:35 797浏览 0点赞 0回复 0收藏

DeepSeek如何用MTP逆天改命？

DeepSeekV3的MultiTokenPrediction到底在做什么？这个问题在大模型面试中经常被问到，属于DeepSeek的高频面试题。所以这篇文章我们就来看看，如果你在面试现场被问到这个问题，应该如何作答？1.面试官心理分析首先老规矩，我们还是来分析一下面试官的心理，面试官问这个问题，它其实主要是想考察你3个方面：第一，为什么要做MTP？你是否知道这个算法背后的动机？第二，之前的工作MTP是怎么做的？DeepSeek肯定不是这个方法的首创...

2025-04-30 06:23:53 1712浏览 0点赞 0回复 0收藏

腾讯二面真题：DeepSeek对MoE架构做了哪些改进？

DeepSeek对MoE架构做了哪些改进？跟Mixtral的MoE有什么不同？这个是我的学员最近面试某个大模型独角兽遇到的一道面试题。1.面试官心理分析这篇文章，我们就从面试官的角度来分析一下，如果你在面试现场被问到这个题目，应该如何作答？面试官问这个问题，它其实是想考你什么？第一，Mixtral大模型采用的MoE架构长什么样？第二，就是DeepSeek的MoE做了哪些改进，这样改进的动机是什么？2.面试题解析要回答DeepSeek的MoE改进，我们...

2025-04-18 06:00:14 1576浏览 0点赞 0回复 0收藏

写给大模型新人的经验，刷到少走三年弯路！

大家好，我是丁师兄。这篇文章，我将结合自己在大模型领域的经验，给大家详细聊聊新人应该如何转行大模型赛道？比如大模型都有哪些方向？各方向的能力要求和岗位匹配？新手转行大模型常踩的坑和常见的误区？以及入行大模型最顺滑的路径？如果你是正打算入行大模型的校招社招同学，请一定看完，可能会让你在入行大模型的路上，少走很多弯路。1.大模型都有哪些方向？如果你在求职网站搜索"大模型"关键词，看一下招聘JD，基本可以...

2025-02-03 13:29:25 3568浏览 0点赞 0回复 0收藏

阿里面试惊现难题：大模型服务吞吐率太小咋整？

想象一下，就像咱们家里的水管，正常来讲水应该哗哗地流，可要是这管子太窄了，水就只能滴滴答答，让人干着急！当下咱们面临的大模型服务吞吐率太小，不就类似于这窄窄的水管吗？当面试官问你有没有办法把大模型服务吞吐这个“管子”拓宽，让数据像奔腾的江河一样顺畅流淌，你准备怎么解决？1.面试官心理分析当面试官问你这个问题的时候，其实面试官主要是想考验你如下3个方面：第一，在实际业务中，你有没有做过大模型服务性能...

2025-01-17 12:05:44 2173浏览 0点赞 0回复 0收藏

新来的妹子不懂大模型中的token！已劝退...

相信你只要了解过大模型，就听过token这个词儿，大家在用ChatGPT的API时，是按token计费的。例如，你提问消耗了100token，ChatGPT根据你的输入，回答了200token，那么一共消费的token数就是300。有时候看一些偏技术的文章，一些模型后面带着8k、32k，甚至100k，这也是指模型能处理的最大token长度。既然token在大模型领域这么高频出现，我们不禁要问：什么是token？它是怎么计算的？一个token是指一个字吗？中文和英文的token...

2025-01-09 12:29:35 5642浏览 0点赞 0回复 0收藏

这个大模型Badcase修复方案，我服！

工作以后，对于做业务的同学，一个避免不了的话题就是“badcase”，在大模型时代，当然也是避免不了的问题。对于很多没接触过实际业务的同学可能认为大模型足够强，强到可以很好的fit用户的所有需求，就算fit不了，也可以微调模型来解决。但实际情况是怎样呢？其实不管是大模型，还是专有领域小模型，一定存会各式各样模型解决不了的badcase。具体原因很多，以智能客服系统为例，用户的咨询分布也符合二八原则，即用户80%的咨询...

2024-12-31 12:38:29 2748浏览 0点赞 0回复 0收藏

SFT loss计算的那些坑，完美避开！！！

SFT可以说是LLM的基本操作了，如果只是想把SFT跑起来是非常简单的，只需要构造inputids和labels，然后就可以把训练跑起来。然而，这样的训练效率实际上非常低。所以在训练时，通常有两个加速方法：多轮合并packing无论是哪种方法，加速后都需要保证loss和原来是等价的。本文主要介绍这两种加速方法，以及loss计算时遇到的问题。1.多轮合并假设我们有一个对话，其中user和bot交互了3轮，我们可以构建三个样本：inputids就是对...

2024-12-11 10:48:39 3177浏览 0点赞 0回复 0收藏

获得成就

已积累 4838 人气

获得 0 个点赞

获得 0 次收藏