看看 AI 大牛日常如何使用大模型

发布于 2025-3-12 00:31

浏览

0收藏

1、目录

LLMs 的演变格局
超越文本：拥抱多模态
思考模型：何时让人工智能“思考”
工具使用：互联网搜索和深度研究
深度研究：通过集成搜索和推理生成全面报告
文件上传用于文档和多媒体
Python 解释器：动态代码执行和数据分析
自定义视觉和代码工具：Claude 工件和光标作曲器
音频交互和 NotebookLM 播客生成
视觉模态：图像输入/OCR、图像输出和视频处理
个性化：记忆、自定义指令和自定义 GPTs
初学者的经验教训：最大化你的 LLM 体验
结束语

2、LLMs 的演变格局

Karpathy 首先描绘了不断扩展的 LLMs 生态系统。虽然 ChatGPT 仍然是推动力量，但他还强调了 Gemini、Copilot、Claude、Grok 等新兴竞争对手，以及 DeepSeek 和 LeChat 等国际参与者。每个模型都提供独特的功能、定价层次和体验。

“ChatGPT 是对话式人工智能的原始黑帮，但生态系统已经发展成为一个多样化的实验和专业化的游乐场，”他解释道。

看看 AI 大牛日常如何使用大模型-AI.x社区

LLMs 的演变格局

在播客的过程中，Karpathy 还提供了一些链接，你可以在其中比较和分析这些模型的性能：

使用这 2 个链接，我们可以跟踪当前可公开利用的几种模型。

3、超越文本：拥抱多模态

让我们在下面详细探讨多模态。

¸文本生成

在生成文本方面，ChatGPT 等模型在创造性任务中表现出色，例如写诗歌、求职信、简历甚至电子邮件回复。正如 Karpathy 所说，我们与这些模型的互动以“聊天气泡”的形式出现，这些气泡包含了你与人工智能之间的动态对话。

看看 AI 大牛日常如何使用大模型-AI.x社区

文本生成

解密魔法：token 和上下文

每次你输入查询时，模型都会将你的文本分解为更小的单元块，称为 token。你可以使用 OpenAI 的 Tokenizer 或 Tiktokenizer 等工具探索此过程。这些 token 形成一个序列，通常称为 token 序列或上下文窗口，它充当人工智能的工作内存。

看看 AI 大牛日常如何使用大模型-AI.x社区

iktokenizer

看看 AI 大牛日常如何使用大模型-AI.x社区

chatgpt model

在幕后，输入和输出序列中还添加了额外的标记。这些技术包括词性标注和命名实体识别，类似于你在 Penn Treebank 中找到的内容。这些标签有助于模型更好地理解每个词的角色和身份。

token 化算法和特殊 token

现代语言模型通常使用字节对编码将单词拆分为子词。例如，单词 “university” 可能被分解为 “uni”、“vers” 和 “ity”。此过程确保即使是罕见或复杂的单词也能以模型可处理的方式表示。

看看 AI 大牛日常如何使用大模型-AI.x社区

token 化算法和特殊 token

一些重要的特殊 token 包括：

<|endoftext|>：token 序列的结束。
<|user|> 和 <|assistant|>：区分用户输入和人工智能的输出。

Karpathy 用一个图表生动地说明了这一点，显示了一个新的聊天如何从一个空的 token 流开始。一旦你输入查询，模型就会接管，附加自己的 token 流。这个连续的流，称为上下文窗口，代表了指导人工智能响应的工作内存。

人工智能训练的两大支柱：预训练和后训练

看看 AI 大牛日常如何使用大模型-AI.x社区

╱╲人工智能训练的两大支柱

“我喜欢把模型想象成一个 1 TB 的 zip 文件，它充满了来自互联网的压缩知识，但是人类在后训练中的触碰赋予了它灵魂，”他解释道。

Transformer 架构

LLMs 的核心是 Transformer 架构。关键元素包括：

自注意力机制：此机制允许模型衡量序列中不同 token 的重要性。它计算注意力得分，以便模型在生成响应时可以专注于输入的相关部分。
位置编码：由于 Transformer 缺乏固有的顺序信息，因此会向 token 添加位置编码以保留单词的顺序。
前馈网络和层归一化：这些组件帮助处理注意力输出并稳定训练。

要真正理解这些模型如何生成文本，了解其训练的如下两个主要阶段至关重要。

预训练：将互联网压缩成参数

在这个阶段，模型处理来自书籍、网站、代码存储库和学术论文的大量数据。把它看作将世界知识压缩到参数 “zip 文件” 中：

数据规模和来源：GPT-4 等模型处理的 token 数量相当于数百万本书或数十亿个网页。
Transformer 架构：这些网络通过顺序处理 token 来学习单词之间的关系。
参数压缩：知识存储在神经网络参数中，充当“有损 zip 文件”。这意味着虽然模型保留了一般知识，但一些细枝末节可能会被省略。
概率性质：由于模型根据可能性预测下一个 token ，因此有时会生成不完全准确的输出，通常称为幻觉。
成本和局限性：预训练非常昂贵，需要几个月的计算时间，成本高达数千万美元。此过程还导致知识截止，这意味着模型的信息仅限于其最后一次训练更新。

后训练：专门用于人类互动

预训练之后，模型经过后训练（或监督微调），学习与人类互动：

人类标记数据：对话通过精选示例进行微调，其中提示与理想响应配对。
角色扮演：模型学会扮演特定角色，无论是老师、助手还是客户支持代理，使其互动更加自然。除了记忆，用户还可以设置自定义指令来调整人工智能的语气、风格和正式程度。此功能在需要语言学习或内容创建的任务中特别有用，因为声音的一致性至关重要。
任务专业化：通过针对性训练，在问答、代码生成和创意写作等领域提高了性能。
减少幻觉：虽然不能完全消除，但后训练有助于加强事实准确性。

Karpathy 还指出，随着我们与这些模型的对话变得越来越长，重新开始新的聊天以切换主题通常是有益的。这将重置上下文窗口，确保模型的响应保持准确和高效。

模型选择：找到平衡点

选择模型时，必须在成本和性能之间进行权衡：

免费层：提供适合简单任务（如草拟电子邮件或创意写作）的基本功能。
付费层：提供高级功能，包括更广泛的知识、更快的推理和对互联网搜索和代码执行等工具的访问。例如，调试复杂代码的开发人员可能会选择 GPT-4，尽管成本较高，而总结教科书章节的学生可能会发现免费模型已经足够好用。

看看 AI 大牛日常如何使用大模型-AI.x社区

模型选择

一个有趣的个人技巧来自于实验多个模型。例如，当我问 Gemini 推荐一个酷城市时，我得到了 Zermatt 的答案，这是一个我觉得很有吸引力的建议。Gemini 的界面左上角有一个模型选择器，你可以通过它升级到更高级的层次以提高性能。Grok 也是如此：我更喜欢使用 Grok 3，因为它是最先进的版本。实际上，我经常为多个模型付费，并向它们询问同一个问题，将它们视为我的个人 “LLM 委员会”。这样，我可以比较响应并决定哪个模型最适合我的需求，无论我是在计划度假还是解决技术问题。

关键要点是，为你正在处理的特定挑战尝试不同的提供商和定价层次。通过这种方式，你可以找到最适合你工作流程的模型，甚至利用多个模型获得全面的视角。

解码和采样技术

在生成文本时，模型并不是每次都简单地选择可能性最高的 token 。相反，它使用各种解码策略：

核采样（Top-p 采样）：模型从累积概率达到阈值的 token 子集中进行选择。
Top-k 采样：将选择限制为可能性最高的前 k 个 token 。
束搜索：并行探索多个可能的 token 序列，以找到最连贯的输出。

通过外部工具增强功能

现代 LLMs 不仅仅是生成文本，它们还可以集成外部工具以提升其功能：

互联网搜索：获取最新信息以克服知识截止。

“当我阅读《国富论》时，模型通过总结章节和回答我的澄清问题来帮助我理解其中的微妙之处。这就像有一个知识渊博的学习伙伴，”他说。

Python 解释器：执行计算、数据分析和可视化。他展示了如何使用此功能绘制公司估值随时间变化的趋势，同时还提醒用户验证人工智能生成代码中的任何假设。

“当一个乘法问题变得太复杂而无法在脑海中解决时，模型只需编写一个 Python 脚本并运行它。这就像有一个初级数据分析师在手边，” Karpathy 解释道。

文件上传：允许处理 PDF 或电子表格等文档，从而生成详细的摘要和数据提取。

¸图像生成和视频集成

Karpathy 展示了 LLMs 正在超越文本。他展示了如何通过将字幕系统与专用图像生成模型（例如 ideogram.ai）结合，按需生成视觉效果。他指出，这种技术“缝合”了两个独立的模型，以便用户体验保持无缝，即使底层过程是独立的。

“图像输出并不是完全在模型中完成的。这是字幕和单独的图像生成器之间的一次美丽合作，”他说。

此外，Karpathy 还介绍了视频功能，其中模型可以通过摄像头“看到”。在一个演示中，他将摄像头对准日常物品：一本书的封面、一张详细的地图，模型正确识别并评论了每个物品。所有这些都将在后面详细解释。

¸语音和音频功能

语音交互是视频的一个重要亮点。Karpathy 解释说，在移动设备上，用户可以通过说话而不是打字来提问。除了简单的转录之外，高级模式还允许模型以各种“角色”生成音频响应，从 Yoda 的智慧语调到粗鲁的海盗口音。

“不要打字，用你的声音。这样很快，有时甚至更有趣，当人工智能用有个性的语气回答你时，” 他说。

他进一步区分了“假音频”（将语音转换为文本，然后再转换回来）和“真音频”，后者直接对音频进行标记。真音频处理通过消除中间步骤，使互动更加流畅和自然，代表了一次飞跃。所有这些都将在后面详细解释。

¸日常互动和实际问题解决

Karpathy 分享了几个实际示例，从计算饮料中的咖啡因含量到交互式代码故障排除。这些日常用例展示了无缝集成的人工智能工具如何在日常生活中提高生产力和决策能力。

“我曾经问过 ChatGPT 一杯美式咖啡中含有多少咖啡因。它迅速回忆起大约 63 毫克，这是一个简单但强大的日常人工智能辅助示例，” 他解释道。

¸高级数据分析和可视化

除了日常任务之外，Python 解释器的集成将人工智能变成了一名称职的数据分析师。无论是从财务数据生成趋势线，还是调试复杂代码，这些功能为专业人士和爱好者提供了巨大的价值。

“想象一下，有一个初级数据分析师不仅为你编写代码，还实时可视化数据趋势。这就是集成工具使用的力量，” Karpathy 断言。

4、思考模型：何时让人工智能“思考”

现代 LLMs 中最令人着迷的进步之一是“思考模型”的出现。这些模型旨在通过有效地“大声思考”来解决复杂问题，就像人类在解决难题时一样。

¸训练之旅：从预训练到强化学习

Karpathy 解释说，LLMs 的开发包括多个阶段：

预训练：模型从互联网上吸收大量数据，学习预测序列中的下一个 token 。
监督微调：人类策划的对话帮助塑造模型的响应，使其更具互动性和友好性。
强化学习（RL）：这就是事情变得有迷的地方。模型在一大堆问题上进行练习，这些问题从数学难题到编码挑战，类似于教科书练习。通过这种练习，它开始发现有效的“思考策略”。这些策略模仿内心独白，模型在其中探索不同的想法，回溯并重新审视其假设，以得出解决方案。

¸发现“思考”过程

强化学习阶段相对较新，仅在过去几年中出现，被视为一次突破。这是模型学习在给出答案之前“思考”的阶段。与其急于得出最终 token ，思考模型可能会生成一系列内部推理步骤，指导其得出更准确的解决方案。

DeepSeek 是第一个公开讨论这一概念的公司，他们发表了一篇关于通过强化学习激励 LLMs 推理能力的论文，我们在之前的视频中探讨过这篇论文。这一强化学习的突破使模型能够优化其内部推理，这是人类标注者以前难以通过硬编码实现的过程。

具体示例

以下是我个人经历的一个具体示例：

他曾经在优化多层感知器的梯度检查失败的编码问题上遇到困难。他复制并粘贴代码，然后寻求建议。起初，GPT-4.0（OpenAI 的旗舰最强大的模型）在没有思考的情况下做出了回应。它列出了几个潜在的问题和调试技巧，但没有一个建议能够准确指出核心问题。模型只是提供了一般性建议，而不是解决问题。

然后，他切换到 OpenAI 的一个思考模型，该模型可以通过下拉菜单获得，包括 O1、O3 Mini、O3 Mini High 和 O1 Pro（后者是高级订阅用户的最高级版本）。OpenAI 的思考模型通过强化学习进行了调整。当他问同一个问题时，思考模型花了一些时间，发出了一系列详细的内部推理步骤（其“思考过程”的总结）。大约一分钟后，它确定问题是由于参数不匹配引起的。这种额外的思考使其能够准确解决问题。这个模型花了一分钟生成了一个详细的内部思维链，最终确定我在打包和解包过程中参数不匹配。结果？在经过一系列反思步骤之后，得出了一个正确的解决方案。

¸LLM 委员会

他不依赖单一模型。他经常向多个模型询问同一个问题，将它们视为他的个人 “LLM 委员会”。例如，虽然一个模型可能会以标准响应迅速解决问题，但另一个更高级的思考模型可能会花费几分钟，但会提供一个高度准确且经过深思熟虑的答案。这种方法在解决复杂的数学问题或复杂的代码调试时特别有用。

我还尝试了其他模型：

Claude：当我向 Claude 提供相同的提示时，它正确识别并解决了问题，尽管其方法与其他模型不同。
Gemini：Gemini 也提供了正确的答案，有时甚至不需要任何额外的“思考”时间。
Grok 3：Grok 3 在经过一段时间的内部“思考”之后，也提供了一个坚实的解决方案。
Perplexity.ai (DeepSeek R1)：该模型甚至会显示其内部推理的片段（原始思想），如果你展开它们，可以了解其解决问题的过程。

看看 AI 大牛日常如何使用大模型-AI.x社区

Perplexity 的思考过程

对于日常查询（例如旅行建议），非思考模型可能因其速度而更受欢迎。然而，对于深入的技术或关键任务，切换到思考模型可以显著提高准确性和性能。

¸何时使用思考模型

思考模型在以下任务中最为有益：

复杂的数学问题：当简单的算术不够用时。
复杂的代码调试：对于可能隐藏在逻辑层中的微妙问题。
深度推理任务：需要一系列思考过程才能得出正确答案的问题。

对于日常查询，例如旅行建议或快速事实核查，标准的非思考模型可能因其更快的响应时间而更受欢迎。然而，如果准确性至关重要且问题本质上复杂，切换到思考模型是值得的。

5、工具使用：互联网搜索和深度研究

现代 LLMs 通过与外部工具集成，克服了静态知识的局限性：

¸互联网搜索：访问实时信息

到目前为止，我们与 LLMs 的互动仅限于文本，即预训练数据的 “zip 文件”，它提供了 token 。然而，现实世界的应用要求这些模型访问新鲜、最新的信息。这就是互联网搜索的用武之地。

虽然传统的 LLM 互动仅依赖预训练知识，即静态数据的 “zip 文件”，但互联网搜索的集成将这些模型转变为动态信息中心。模型不再需要手动筛选搜索结果并躲避分散注意力的广告，而是可以主动检索最新信息，将其集成到其工作内存中，并准确回答你的查询。

¸工作原理

触发搜索：当模型识别到你的查询涉及最新或不断发展的信息时，它会发出一个特殊的搜索 token 。这会指示应用程序暂停常规 token 生成并启动网络搜索。
执行搜索：模型生成的查询用于搜索互联网。系统访问多个网页，提取相关文本，并编译信息。
集成结果：检索到的内容随后被注入到模型的上下文窗口和工作内存中，以便人工智能可以提供一个丰富了最新数据和适当引用的答案。

看看 AI 大牛日常如何使用大模型-AI.x社区

token

例如，如果你问“《白莲花》第 3 季的新剧集什么时候播出？”模型会发现这些信息不在其预训练数据中。然后，它会搜索网络，将结果文章加载到上下文中，并为你提供最新的时间表以及验证链接。

¸特定于模型的行为

不同的模型具有不同程度的互联网搜索集成：

Claude：截至我最后一次更新（2024 年 4 月），Claude 不支持集成网络搜索。它仅依赖其知识截止到那时，因此它会直接说不知道。
Gemini：例如，Gemini 2.0 Pro Experimental 可能没有完全访问实时信息，而 Gemini 2.0 Flash 显示的来源和相关内容表明其具有内置搜索工具。
ChatGPT：在某些情况下，ChatGPT 会自动检测到需要搜索；在其他情况下，你可能需要显式选择“搜索网络”选项。
Perplexity.ai：以其强大的搜索集成而闻名，Perplexity 通常会检索并显示实时数据以及引用，使其成为类似于 Google 搜索的查询的热门选择。

¸现实世界的用例

我经常使用互联网搜索工具进行各种查询：

当前事件和趋势：例如，检查总统日市场是否开放 Perplexity 迅速确认其已关闭。
小众信息：例如，“《白莲花》第 3 季在哪里拍摄？”或 “Vercel 是否提供 PostgreSQL？”这些问题可以从最新的在线数据中受益。
动态更新：关于苹果发布、股票波动（例如，“为什么 Palantir 的股票在上涨？”）或甚至具体问题（例如，“Brian Johnson 使用哪种牙膏？”）的询问都非常适合搜索工具，因为这些细节可能会随着时间的推移而发生变化。
热门话题：当我在 Twitter 上看到关于 USAID 或最新旅行建议的嗡嗡声时，快速搜索可以为我提供当前上下文的摘要，而无需手动单击多个链接。

¸实用技巧

明确：有时，直接提示模型“搜索网络……”以确保其检索实时数据是有帮助的。
交叉验证：始终检查提供的引用以确认信息的准确性。
模型选择：并非每个模型都配备了互联网搜索。根据你的需求，选择支持实时数据的模型（例如，带搜索选项的 ChatGPT 或 Perplexity.ai），或者准备好在模型之间切换以获得全面的答案。

6、深度研究：通过集成搜索和推理生成全面报告

深度研究使 LLMs 能够超越表面答案，通过将广泛的互联网搜索与高级推理相结合，生成全面的报告。此过程允许模型从各种来源收集、处理和综合信息，几乎就像为任何主题生成自定义研究论文一样。

¸工作原理

当你激活深度研究（通常是高级订阅功能，例如每月 200 美元）时，模型会开始一个扩展的过程：

启动：你提供一个详细的提示。例如，考虑以下提示：“CAAKG 是 Brian Johnson 的长寿配方中每份 2.5 克的健康活性成分之一。你能研究一下 CAAKG 吗？告诉我它为什么可能在长寿混合物中找到，其在人类或动物模型中的可能效力，其潜在的作用机制以及任何安全性或毒性问题。”
澄清问题：在深入研究之前，模型可能会询问澄清问题，例如是否要专注于人类临床研究、动物模型或两者兼而有之，以细化其搜索策略。
多源查询：然后，模型会发出多个互联网搜索查询。它扫描学术论文、临床研究和可信网页，积累来自多个来源的文本。这些文档随后被插入到其上下文窗口中，这是一个巨大的工作内存，可以容纳数千个 token 。
综合：一旦研究阶段完成（对于复杂查询，可能需要约 10 分钟），模型会将收集到的数据综合成一个连贯的报告。它生成详细的摘要，包括引用以供验证，甚至突出显示关键点，例如在各种模型（蠕虫、果蝇、小鼠和正在进行的人类试验）中提出的建议作用机制、效力研究以及潜在的安全问题。

看看 AI 大牛日常如何使用大模型-AI.x社区

llm token

¸技术方面

迭代搜索：深度研究利用迭代互联网搜索和内部“思考”步骤。模型使用强化学习策略来决定哪些来源最相关以及如何将它们编织成一个结构化的响应。
上下文积累：随着模型检索信息，每个文档的内容都会添加到上下文窗口中。这个庞大的 token 存储库允许模型同时引用多个来源。
引用集成：最终报告附带引用，使你可以验证每个信息片段。这在模型的输出是概率性的并且有时可能包含幻觉或不准确之处时尤为重要。
链式思考处理：在整个过程中，模型可能会揭示其内部推理的片段（如果你展开它们），说明它如何将不同的数据片段连接起来得出结论。

¸实践中的示例

补充研究：在上述关于 CAAKG 的提示示例中，模型处理了数十篇研究论文、临床研究和综述文章。然后，它生成了一份详细报告，概述：

a.CAAKG 为什么可能包含在长寿混合物中。

b.其在人类和动物模型中的效力。

c.建议的作用机制。

d.任何潜在的安全性或毒性问题。

看看 AI 大牛日常如何使用大模型-AI.x社区

深度搜索

行业比较：他还使用深度研究来比较产品，例如研究小鼠的寿命延长。模型提供了一个广泛的概述，讨论了各种长寿实验，同时编译了来自多个来源的数据。
LLM 实验室分析：在另一个用例中，他要求一个表格，比较美国的 LLM 实验室，包括资金水平和公司规模。虽然生成的表格有一些遗漏（例如 XAI）和意外的包含（例如 Hugging Face），但它仍然为进一步调查提供了一个有价值的起点。

¸实用考虑

初稿，而非最终稿：始终将深度研究输出视为初稿。使用提供的引用作为进一步阅读和后续问题的指南。
不同的深度：不同平台提供的深度研究深度不同。例如，我的经验表明，Chachapiti 的提供目前是最全面的，而 Perplexity.ai 和 Grok 提供的摘要较短。
延长的处理时间：准备好长时间的处理时间（有时超过 10 分钟），因为模型收集和综合大量数据。

7、文件上传用于文档和多媒体

文件上传使 LLMs 能够通过将外部文档和多媒体文件直接集成到其工作内存中来扩展其上下文。例如，如果你对艺术学院最近发表的关于在 DNA 上训练的语言模型的论文感到好奇，你可以简单地将 PDF（甚至大小为 30 MB 的 PDF）拖放到模型的界面中。通常，模型会将文档转换为文本 token ，通常会丢弃非文本元素（如图像）。一旦在 token 窗口中，你可以请求摘要、提出详细问题或深入探讨文档的特定部分。这使得你可以与人工智能一起“阅读”论文，并以互动方式探索其内容。

“上传文档就像将你的个人图书馆交给人工智能。然后，它可以筛选信息并帮助你理解所需的细节，这正是你在处理复杂研究论文时所需要的，” Karpathy 在演讲中说。

看看 AI 大牛日常如何使用大模型-AI.x社区

文件上传用于文档和多媒体

¸现实世界的示例和用例

考虑一个场景，你正在审查基因组序列分析的突破性研究。通过直接将 PDF 上传到系统，你可以问模型“你能总结这项研究中使用的方法吗？”模型会将论文转换为 token ，处理关键部分，并为你提供一个连贯的摘要，附带引用。这种方法不仅限于学术论文；它还适用于产品手册、法律文件甚至长篇报告，例如血液测试结果。

例如，我最近上传了我的 20 页血液测试报告。模型转录了结果，使我能够问“这些胆固醇水平对我的健康意味着什么？”这种两步过程，首先验证转录准确性，然后提出详细问题，确保了所获得的见解尽可能可靠。

8、Python 解释器：动态代码执行和数据分析

现代 LLMs 现在集成了 Python 解释器，将它们转变为动态、互动式编码助手。此功能使模型能够生成、执行甚至调试 Python 代码，实时进行，就在你的对话中。

“Python 解释器集成是一个改变游戏规则的功能。你不再需要在聊天窗口和 IDE 之间切换，你可以在一个无缝体验中获得代码、其输出甚至是可视化图表，” Karpathy 在演示中解释道。

¸实践中的工作原理

当你遇到复杂问题，例如调试多层感知器的梯度检查失败时，模型可以自动生成 Python 代码来诊断问题。例如，你可能会问“你能帮我调试这个梯度检查失败吗？”模型生成模拟错误场景的代码，执行它，然后在聊天中直接返回详细输出，例如错误消息和变量状态。

在另一个案例中，我需要绘制 2023 年的销售趋势图。我只需请求“生成 2023 年销售数据的图表，”模型编写并执行必要的 Python 脚本。生成的图表随即显示，带有注释和趋势，节省了我手动编码的麻烦。

看看 AI 大牛日常如何使用大模型-AI.x社区

Python 解释器

¸扩展用例

数据可视化：除了基本图表之外，解释器还可以生成复杂的可视化效果，例如热图、散点图或时间序列图。这在快速数据分析中特别有用，而无需离开聊天界面。
算法测试：如果你正在尝试机器学习模型，你可以让解释器运行模拟并甚至比较不同模型的性能。
调试辅助：在处理复杂代码错误时，模型的逐步执行有助于找出在大型代码库中可能难以发现的问题。

9、自定义视觉和代码工具：Claude 工件和光标作曲器

现代 LLMs 已经不仅仅是文本生成器，它们还是创意工作室。使用 Claude 工件，你可以构建自定义小应用程序或生成交互式图表。例如，想象一下，你需要一个项目的流程图。通过几个明确的提示，Claude 工件可以生成一个图表，将你的想法以视觉方式组织起来。正如 Karpathy 所指出的那样，“Claude 工件不仅仅提供纯文本，它还提供交互式视觉效果，使你的概念栩栩如生。”

看看 AI 大牛日常如何使用大模型-AI.x社区

adam smith 闪卡

此外，Cursor: Composer 作为你的实时编码助手。无论你是在编写新代码还是调试错误，Cursor: Composer 都可以生成、编辑甚至可视化代码片段。例如，当我在原型设计一个新的 Web 应用程序时，我只需输入“生成一个响应式布局在 React，” 该工具不仅生成了代码，还突出显示了不同组件的交互方式。这种无缝集成加快了开发速度，同时帮助你逐步了解底层逻辑。

看看 AI 大牛日常如何使用大模型-AI.x社区

Cursor Composer

10、音频交互和 NotebookLM 播客生成

现代 LLMs 中的音频功能显著增强了用户互动。使用标准的音频输入/输出，你可以通过说话而不是打字来提问。例如，你可能会问“天为什么是蓝色的？”并获得文本和音频响应。Karpathy 指出，“语音输入让你感觉像是在与朋友交谈，而模型则专心听着。”

高级语音模式更进一步，通过直接对音频进行标记来处理音频。与其先将语音转换为文本，再转换回来，模型通过频谱直接对音频进行标记。这意味着它可以捕捉语调和语气中的微妙之处。想象一下，你问“用 Yoda 的声音讲个笑话，”然后听到“智慧的见解我将分享，嗯嗯，有趣，它是。”

补充这些功能的是 NotebookLM，它通过上传的文档生成自定义播客。例如，上传一篇关于基因组分析的 30 MB 研究论文后，你可能会问“你能生成一个总结这篇论文关键点的播客吗？”几分钟内，NotebookLM 综合内容并生成一个 30 分钟的音频摘要，你可以在通勤时收听。

看看 AI 大牛日常如何使用大模型-AI.x社区

音频交互和 NotebookLM 播客生成

11、视觉模态：图像输入/OCR、图像输出和视频处理

图像输入与 OCR 允许你将照片和屏幕截图转换为可搜索的文本。例如，当我上传了一种健康补充剂的营养标签时，我问“关键成分是什么，为什么包含它们？”模型成功提取了文本，并解释了每个组成部分，包括安全等级。

看看 AI 大牛日常如何使用大模型-AI.x社区

上下文窗口

看看 AI 大牛日常如何使用大模型-AI.x社区

图像输出

图像输出工具，例如 DALL-E 和 Ideogram，允许你生成自定义视觉效果。你可以提示模型，例如“生成一幅以赛博朋克风格描绘今日头条的艺术作品，”然后观看人工智能创建一个图像，以视觉方式概括新闻。Karpathy 指出，“看到今日头条的标题变成一幅令人惊叹的艺术作品是多么有趣。”

看看 AI 大牛日常如何使用大模型-AI.x社区

视频输入进一步推动了视觉处理。使用你的摄像头，你可以进行指点交谈。例如，如果你将手机对准一本书的封面，你可能会问“这本书的标题是什么？”模型会分析视觉快照并提供准确答案。同时，视频输出系统，例如 Sora 或 Veo 2，可以将文本描述转换为动态视频剪辑，从而生成引人入胜的视频摘要或教程。

12、个性化：记忆、自定义指令和自定义 GPTs

个性化是使与 LLMs 的互动真正属于你的关键。这些功能确保人工智能不仅响应你的查询，还适应你独特的风格和反复的需求。

¸记忆：跨对话保留上下文

LLMs 可以在记忆库中存储来自过去互动的关键细节，并将其附加到未来的上下文窗口中。这意味着随着时间的推移，模型会了解你的偏好和习惯。例如，如果你提到你喜欢的电影类型或特定的研究兴趣，未来的对话将自动反映这些知识。“这就像模型逐渐了解你，形成一个个性化的对话，随着互动的增加而不断发展，” Karpathy 观察到。

¸自定义指令：塑造人工智能行为

自定义指令允许你定义希望模型如何响应的确切方式。你可以指定语气、冗长度甚至特定任务的规则。无论你需要模型以简单的术语解释复杂主题，还是在翻译中采用特定风格，这些指令都会注入到每次对话中，确保一致性和个性化体验。

看看 AI 大牛日常如何使用大模型-AI.x社区

自定义指令

¸自定义 GPTs：构建特定任务的模型

自定义 GPTs 允许你为重复任务创建专门版本的模型。想象一下，拥有一个专门的助手来学习语言，它可以提取词汇并创建闪卡，或者一个编码助手，它可以始终生成准确的代码片段。通过提供几个示例，你可以通过少量提示构建一个自定义模型，节省时间并提供更精确的结果。“自定义 GPTs 就像拥有一个个性化的、特定任务的助手，它完全符合你的需求，” Karpathy 解释道。

看看 AI 大牛日常如何使用大模型-AI.x社区

示例

看看 AI 大牛日常如何使用大模型-AI.x社区

ocr 结果

13、初学者的经验教训：最大化你的 LLM 体验

对于那些刚刚起步的人，Karpathy 的见解为充分发挥 LLMs 潜力提供了明确的路径：

理解 token 化：了解你的输入如何分解为 token ，因为这是模型处理的基本构建块。
保持简洁：通过在切换主题时重新开始来管理你的上下文窗口；拥挤的上下文会削弱响应的效果。
实验不同的模型：使用免费层进行简单任务，并在需要更高准确性或额外功能时考虑升级到高级模型。
利用外部工具：不要犹豫集成互联网搜索、文件上传甚至 Python 解释器以扩展模型的功能。
保持更新：关注提供商更新，加入社区论坛，并尝试测试版功能，以跟上不断发展的生态系统。

14、结束语

Andrey Karpathy 的视频带我们深入了解了 LLMs 的内部工作原理，从 token 化和基于 Transformer 的架构的细微差别，到通过工具集成和多模态互动解锁的广泛功能。这些模型将大量知识压缩到数十亿甚至数万亿个参数中，使用复杂的训练技术来预测下一个 token 并生成类似人类的响应。通过结合预训练与针对性的后训练，并集成外部工具（如互联网搜索和 Python 解释器），现代 LLMs 正在演变成多才多艺、智能的合作伙伴，能够在日常生活中提供信息和灵感。

正如 Karpathy 简明扼要地总结的那样：

“从压缩的 token 到交互式聊天气泡，LLMs 的内部工作原理是优雅的数学原理和大规模数据压缩的结合。每一次新进展都使我们更接近一个人工智能成为日常生活中不可或缺的一部分的未来。”

这个全面的生态系统，从个性化功能到高级研究和多模态集成，为每个人提供了一个强大的平台，无论是初学者还是专家。

看看 AI 大牛日常如何使用大模型-AI.x社区 llm token

标签

大模型

LLM

51CTO

51CTO博客

51CTO学堂

看看 AI 大牛日常如何使用大模型

1、目录

2、LLMs 的演变格局

3、超越文本：拥抱多模态

¸文本生成

解密魔法：token 和上下文

token 化算法和特殊 token

人工智能训练的两大支柱：预训练和后训练

Transformer 架构

预训练：将互联网压缩成参数

后训练：专门用于人类互动

模型选择：找到平衡点

解码和采样技术

通过外部工具增强功能

¸图像生成和视频集成

¸语音和音频功能

¸日常互动和实际问题解决

¸高级数据分析和可视化

4、思考模型：何时让人工智能“思考”

¸训练之旅：从预训练到强化学习

¸发现“思考”过程

具体示例

¸LLM 委员会

¸何时使用思考模型

5、工具使用：互联网搜索和深度研究

¸互联网搜索：访问实时信息

¸工作原理

¸特定于模型的行为

¸现实世界的用例

¸实用技巧

6、深度研究：通过集成搜索和推理生成全面报告

¸工作原理

¸技术方面

¸实践中的示例

¸实用考虑

7、文件上传用于文档和多媒体

¸现实世界的示例和用例

8、Python 解释器：动态代码执行和数据分析

¸实践中的工作原理

¸扩展用例

9、自定义视觉和代码工具：Claude 工件和光标作曲器

10、音频交互和 NotebookLM 播客生成

11、视觉模态：图像输入/OCR、图像输出和视频处理

12、个性化：记忆、自定义指令和自定义 GPTs

¸记忆：跨对话保留上下文

¸自定义指令：塑造人工智能行为

¸自定义 GPTs：构建特定任务的模型

13、初学者的经验教训：最大化你的 LLM 体验

14、结束语

目录