美国七巨头,OpenAI、Claude、xAI后训练都找他要专家,时薪高达500刀! 原创

发布于 2025-9-26 14:01
浏览
0收藏

从 100 万美元到 5 亿美元营收仅用了 17 个月!

更厉害的是,他们从未有过客户流失,净收入留存率超过 1600%,年营收已经稳定在九位数的水平。

而这家公司的CEO兼联合创始人,Brendan Foody,更是美国的新一代的传奇人物。在 22 岁时,他也成为史上最年轻的美国独角兽创始人。

如果你没听过这家公司,不打紧,但你要是知道下面这个信息,相信你肯定会感兴趣:

Mercor 与“七巨头”中的 6 家,以及所有前五大 AI 实验室(OpenAI、Anthropic、xAI等)合作,帮助他们招聘专家来创建评测与训练数据,从而提升模型能力。

没错,这些顶尖的美国AI巨头,全部都从这家公司来招聘顶尖的后训练专家!

近日,Brendan 做客了 Lenny 的播客访谈,更是透露出大洋彼岸的AI最新进展。

在这场对话中,Brendan 解释了为什么 evals(评测)已经成为 AI 进展的关键瓶颈,他是如何发现这一巨大机会的,以及在 AI 驱动的经济中未来的工作可能会是什么样子。

在求职招聘方面,Brendan 特别提到:一定要关注有“需求弹性”的工作,即当生产力提高时,需求也会随之大幅增加的工作,比如:软件/设计/用户研究。

所以,从事coding的老铁们可以放心了,但需要注意的是:现在必须要使用AI来 VibeCoding 了。

此外,对于如此高增速的公司而言,作为CEO也提到了“996”高强度的工作。 不过最重要的是,can-do的价值观。“行动比想法重要!”

大模型已经进入Evals时代,未来3年,ASI(超级智能)为时尚早!这是他对美国硅谷各家顶尖大模型实验室的洞察。

“实现这一切的关键不在于‘再多10倍的预训练数据’,而在于更高效、更精心设计的后训练数据集。”

以下是整理的对话全文,原汁原味,各位自行收藏细读,enjoy:

主持人:今天的嘉宾是 Mercor 的 CEO 和联合创始人 Brendan Foodie。Mercor 是历史上增长最快的公司,从零到 5 亿美元营收只用了 17 个月,不到一年半。Brendan 也是史上最年轻的独角兽创始人。他们刚刚完成了一笔 1 亿美元融资,公司估值达到 20 亿美元。如果你还没听说过 Mercor,它的业务是帮助 AI 实验室和 AI 公司招聘专家,用 AI 协助训练他们的模型。他们从未有过客户流失,净收入留存率超过 1600%,年营收已经稳定在九位数的水平。

在今天的对话中,我们会聊到 evals(评测)的价值和重要性正在快速上升,像 Mercor 这样的 AI 训练公司在整个版图中的位置,以及它们为什么如此重要和有价值。我们会谈到 Brendan 是如何发现这个机会的,他对产品市场契合的洞见,他在组织内部建立的核心原则如何帮助他打造了史上增长最快的公司。我们还会讨论:为实验室撰写 evals 的人每天到底在做什么;在 AI 崛起的浪潮里,哪些技能和岗位能存续得更久;他为什么认为我们短期内不会看到 AGI 或超级智能;以及更多话题。这期节目非常精彩,你一定要听。

主持人:Brendan,非常感谢你今天能来。欢迎来到节目。

Brendan Foody:非常感谢邀请我,Lenny。我是你的超级粉丝,很期待这次对话。

主持人:我也很期待,能和你聊聊真是太棒了。我本人也是你的粉丝,希望有更多人了解你和你正在做的事情。

大模型进入evals时代

主持人:我想从你置顶在推特上的一条推文开始。内容是:我们现在已经与“七巨头”中的六家合作,和所有前五大 AI 实验室合作,以及大多数 AI 应用层公司。

主持人:有一个趋势在所有客户身上都很普遍:我们正进入 evals 时代。这让我特别注意,因为这是这个播客里反复被提到的主题。大家都在谈 evals 的价值,以及做好 evals 的重要性。但很多人其实还不太清楚我们在说什么,为什么这件事如此关键。你觉得人们还缺失了什么?他们需要知道哪些东西?evals 时代意味着什么?

Brendan Foody:如果说模型就是产品,那么 evals 就是产品需求文档(PRD)。研究人员的日常工作就是跑几十个实验,在 eval 数据集上做一些小的改进。

强化学习正在变得非常有效。一旦有了 eval,就能帮助模型“攀升”。比如你看奥赛数学(Olympiad math),一旦大家集中攻克,很快就饱和了;Sweebench 也是一样。所以某种意义上,把代理(agents)应用到整个经济、自动化所有工作流的真正瓶颈是:我们如何衡量成功?如何写 eval,如何写代理要做的一切事情的 PRD?而 Mercor 显然在这里扮演着核心角色。

如何做好evals?大家更关心实际能力

主持人:听到这,很多人可能会觉得,“好吧,我得认真关注 eval 了。”你有什么建议吗?比如怎么学会做好这件事?那些做得好的公司和其他公司有什么不同?

Brendan Foody:我觉得对企业来说,核心思路是:如何建立一个测试体系,系统化地衡量 AI 在自动化其核心价值链上的效果?比如一家建筑事务所,最终交付给客户的是建筑设计图,那他们怎么有效衡量 AI 在这方面的表现?每家公司都有自己独特的价值链,如果是多产品公司可能有几条。思考如何衡量这些价值链,是企业有效应用 AI 的前提。

主持人:我看到你在 No Priority 播客上和 Sarah、Elad 聊过这个话题。Sarah 还发推说“evals = 你的新营销”。这是什么意思?你怎么看?

Brendan Foody:是的,这和我刚才说的有联系。如果模型是产品,那么 evals 既是 PRD,也是销售资料。evals 不仅告诉研究人员应该构建什么,还能向外展示能力的效果。过去大家都引用学术评测,比如 GPQA、humanities last exam、奥赛数学。但现在,大家更关心实际能力,比如模型能否自动化搭建软件平台,能否自动化投行分析。我认为无论是实验室还是应用层公司,都将越来越依赖 evals 来展示他们的模型和产品能力。

帮大模型公司招聘专家,狂赚4亿刀,为什么?

主持人:好,那我们放大一点,聊聊你所在市场的格局。我在准备时注意到,历史上增长最快的公司大概分三类:一类是基础模型公司;一类是 vibe coding 应用(比如 Cursor、Lovable、Bolt、Replit 等 V0 公司);第三类就是数据标注公司,比如你们。之前我邀请过 Handshake 的 CEO,接下来会有 Scale 的 CEO,还有 Surge,再加上你们。能帮我们理清一下这整个版图吗?很多人其实并不清楚。

Brendan Foody:好的。我先讲一点起源故事,来解释这个格局。我们创始团队在 14 岁时就认识了,19 岁时一起创办公司。最初是在 2023 年 1 月,做国际招聘,把人匹配给朋友,并自动化整个招聘流程——就像人类会筛简历、面试、决定录用一样,我们用大模型自动化了这些环节。靠自筹资金做到百万美元营收跑速后,我们才退学创业。后来一系列事情发生了,我们遇到了 OpenAI。

当时,人类数据市场正经历巨大转变:早期 LLM 需要的是写一些语法勉强正确句子的低中技能人群。但现在,需求转向了“寻找并验证最优秀的专业人士”,比如资深软件工程师、投行人士、医生、律师,他们能帮助评估和解读模型能力。这时我们就开始和顶级 AI 实验室合作,在 16 个月内把公司从零做到 4 亿美元营收跑速。

Brendan Foody:这段旅程非常不可思议,也令人振奋。

主持人:天啊,这太疯狂了。我不确定大家是否意识到——我想这是你第一次公开这个数字。到我们播出的时候,你们可能已经宣布了:16 个月从 0 到 4 亿美元营收。

Brendan Foody:没错。这是历史上最快的增长记录,我们对此非常自豪。

主持人:好吧,说明确实有大事在发生。这为什么这么有价值?到底发生了什么?

主持人:让我来简单总结一下你们的业务:你们帮实验室招聘人来训练模型,不只是一般劳动力,而是有专业背景、能解决模型知识缺口的专家,对吗?

Brendan Foody:完全正确。这也回到你最初的问题:evals 时代。实验室提升模型能力的最大瓶颈就是:如何有效衡量成功?eval 既是他们对照进展的测试集,也是 RL 环境里的验证者,用来奖励模型、提升能力等等。而这种需求存在于所有领域,所有模型还不擅长的能力上。全球最有钱的公司愿意不惜代价来提升模型能力,而 Mercor 就在这个核心瓶颈上。

专家的日常工作揭秘:给大模型定红线,监督微调数据、强化学习任务

主持人:那么这些专家实际在做什么?能举个例子吗?比如他们一天到底在电脑前干嘛?

Brendan Foody:市场的边界就是:凡是人类能做而模型还不能做的,就是需求所在。具体点说,如果你有一个模型,要像律师一样修改合同条款(红线),但它出错很多,漏掉关键点。你可以请律师像教授设计评分标准一样,写一个 rubric(评分准则),定义模型该做到哪些点,并给出打分方式。这样我们就能衡量模型进步:是否达到了专业人士的标准。然后,这些 rubric 还能作为训练数据,用来奖励模型、强化其能力。

主持人:所以他们本质上就是在写 eval,对吗?

Brendan Foody:没错。其实大家常提 RL 环境和 evals,但正如 Andrej Karpathy 说过的,它们本质上只是不同的语义描述,本质上都是“如何衡量好坏”。evals 既能当作基准,也能当作“销售资料”,告诉别人“我们的模型为什么最好”,同时还能用于训练后阶段,奖励模型实现某些能力。

主持人:好,那回到刚才的律师例子。

主持人:律师会写出:什么样的合同修改才算优秀,并设计一个 rubric 来定义“优秀”。

主持人:那么,他们会不会还提供实际的合同修改示例?

Mercor:可能吧。所以从历史上看,数据格局主要包含两类数据。第一类是监督微调数据,就是输入输出。当人们想到传统意义上的微调时,说的就是这个。第二类是强化学习(RL)任务,模型会生成几个示例,我们选择哪个是最优的。现在大家普遍转向的是来自AI反馈的强化学习(RLAIF),而不是人类反馈。在这种方式下,人类定义某种成功标准、某种可衡量的方式。比如在代码场景里,可能是一个单元测试——我们能大规模衡量成功。在其他领域,可能是一个评分标准(rubric)。然后你用这个来激励模型能力的提升。这种方式更具可扩展性,也更高效。所以,这就是为什么整个市场的大趋势正朝着RLAIF发展,不仅是评估模型,也是提升模型能力。

主持人:我之前采访过Anthropic的一位联合创始人,他说的完全一样。他们在Anthropic所做的,就是转向AI驱动的强化学习。那我试着用外行人的角度帮观众理解:比如,一个律师会说,红线合同的正确修改应该长什么样。然后AI就像自己琢磨一样,“好,我要尝试改进它”,并根据给定的评估标准/评分表来判断自己是不是在正确的方向上。

Brendan Foody:没错。这就像是应用“好结果”的所有标准,类似于助教根据教授的标准来判定学生的回答是否符合某一条或几条标准,然后给多少分。

3年内不会出现超级智能,因为大模型的边界就在那

主持人:太棒了。那我们转向更大的劳动市场话题。这问题分两部分:第一部分是,我们需要做这种事情(AI评估与训练)多久?会不会有一天不再需要人类?你们的公司增长这么快,那会不会有个时点说:人类不再需要了,或者已经饱和了?我们先聊这个,再进入更大的问题。

Brendan Foody:关键问题是:在经济中会有多久存在那些AI做不到但人类能做的事情?

Brendan Foody:当然,有些人认为三年内会出现超级智能,那时人类将不再在经济中扮演任何角色——这是一个观点。但我们的看法完全不同。我们的观点是,这些模型非常厉害,正在快速自动化很多事情,但也有很多它们完全不行的。比如,它仍然不能帮我在日历上安排会议,不能帮我写邮件,不能用一些最基本的工具。我们需要对一切做评估——对工具使用的评估、对长周期推理的评估。想象一下10年后,我们希望模型能出去运行一家创业公司30天,那就需要对其进行评估来有效激励它。而且只要在经济中还存在人类能做但模型做不到的事情,这条改进之路就会一直持续,这也会成为未来工作的重要组成部分。所以我们的使命就是创造未来的工作形态。我认为这个行业非常令人兴奋,因为它为我们展示了未来发展的大方向。

未来求职:关注有需求弹性的岗位,软件、设计、用户研究这些岗位只会增加

主持人:我想问你转发过的一条推文。“如果你仔细想想,我们来到这个世界的意义就是为实验室创造强化学习训练数据。”你怎么看?这句话意味着什么?是不是说我们其实就是在帮模型训练?

Brendan Foody:这句话对应了我和很多顶尖实验室研究人员和高管的对话。他们认为整个经济高度可能会演变成一个RL环境机器。我们会构建各种各样的世界和场景,然后在其中加入评分标准或其他验证机制。这其实非常令人兴奋。类比到历史上的其他革命,比如工业革命时,大家都担心失业,但随之出现了一整类新工作:如何造机器、如何进行知识工作、如何创造新的事物。过去三年的AI叙事几乎全是关于“工作被取代”。当然,ChatGPT发展很快,大家都喜欢用它。但从经济层面上,讨论的更多是取代,很少有公司和人去讨论新工作类别正在被创造,以及这意味着什么,人们如何准备和提升自己。对我来说,最令人兴奋的就是:创造那个未来——人类如何融入经济,并且这一过程如何演变。

主持人:我经常遇到有人问我:我该学什么?我该提升哪些能力?正在读书的人也会问:未来到底什么才是有价值的?而你正处在人才需求的中心,你最清楚哪些岗位最受欢迎,招聘如何演变。我想直接问你:未来哪些岗位会保留?年轻人应该投资哪些技能?

Brendan Foody:关于岗位,我会从需求弹性很大的类别来回答。这些会非常令人兴奋。比如,当一个人生产力提高10倍时,我们就能开发10倍、甚至100倍的软件。产品经理在这种情况下就会非常有优势。至于技能,我认为关键是能利用AI完成自己日常工作的人。比如,我和一些老师聊过,他们想知道如何更好地评估学生。我们最早做过大量AI面试和评估,对此很有经验。我们的结论是:你不应该阻止学生用模型,就像计算器出现后,你不可能还让学生天天做算术作业。你应该告诉他们:“去用这些工具,让我们看看你能做到什么。”所以在我们的面试里,我们会说:“去用ChatGPT、Codex、ClaudeCode、Cursor等任何工具,在一个小时内搭建一个网站。”我们想看看最终你能产出什么产品。这个例子其实就说明了技能方向:关键不是对抗AI,而是如何借助它在自己所在行业做得更多。

主持人:你说的“需求弹性”,是指通才型人才吗?

Brendan Foody:不是,我指的是行业的需求容量。举几个例子:会计——全世界需要的会计数量是有限的,不太可能需要100倍的会计。但软件开发不一样。我们完全可以交付100倍的功能,迭代速度快100倍,构建更多新东西。这里的需求几乎无限。最近Marc(注:指硅谷投资人Marc Andreessen)也在推特上说过:软件是最具弹性的行业。当生产力提高时,需求也会随之大幅增加。这种特征在很多其他行业也存在。所以我会建议人们关注那些:当大家的生产力提升10倍,需求会随之增加,而不是减少的领域。

主持人:所以你的观点是“学习编程依然有用”。计算机科学还是值得学的。那么在弹性岗位类别里,工程和产品管理肯定在内。还有哪些?比如设计、用户研究?

Brendan Foody:是的,还有很多环节,整个公司构建的价值链里都有这样的变量。比如运营、咨询。想象一下如果我们能有10倍的麦肯锡咨询顾问,会产生多少研究和分析?但我认为能成功的公司和个人,都是那些拥抱丰裕思维的人,思考“如何做得更多”,而不是抵抗“如何避免被替代”。

主持人:说到这里,就让我想起你提到的第二类成功者——不是具体技能,而是会用AI,让自己更强的人。这让我想到马斯克和Neuralink,他说未来AGI或超级智能出现时,人类要想竞争,最好的办法就是把大脑接入超级智能。这有点像现在的AI:熟练使用AI工具的人,其实就像获得了超级能力。

Brendan Foody:没错,能学会如何利用并融入AI,将会至关重要。

主持人:对,这其实就回到一句现在听起来有点老套的话:AI不会取代你,会用AI的人会取代你。

Brendan Foody:我完全同意。在企业级别上我也确实看到了这种情况。有些公司害怕接触,不想评估,因为一旦评估就等于承认价值链正在被自动化。但也有一些公司——一些最知名、最复杂的财富500企业——正积极拥抱这种思维:如果我们能多做10倍、100倍,会意味着什么?未来10年会有那么多改变,而这些公司将会是最成功的。

未来招聘市场走向:AI修改简历泛滥,需要智能筛选机制

主持人:我们再聊回劳动市场。你们公司最初并不是要把人送去AI实验室,不是为了训练模型,而是帮助人找工作、帮助公司招聘。后来才发现了这个巨大的机会。所以你们对未来劳动市场和招聘的走向有很独特的看法,能谈谈吗?

Brendan Foody:是的。我还记得我们刚创业时(当时我19岁),只是有个直觉:劳动力市场过于低效和分散。什么意思呢?比如我们要在全球招聘,候选人会申请十几份工作。但作为一家湾区公司,我们只会考虑市场上极小一部分候选人。原因是匹配问题必须人工解决:人工筛简历、人工面试、人工决定雇谁。但如果这个匹配问题能用软件自动化解决,就能形成一个全球统一的劳动市场——所有候选人都申请到同一个市场,所有公司都从同一个市场招聘,信息流动更加顺畅。毫无疑问,这就是未来的方向。但我们后来意识到,工作的本质也在剧烈变化。而在未来10年的建设中,除了打造市场,我们还需要通过评估和RL环境数据集为客户创造未来的工作形态。

主持人:我看到的招聘趋势也印证了这一点。我跟合作伙伴Gnome一起做过研究:现在投简历变得太容易了,大家都能用AI快速改简历、写求职信,一口气投几百家公司。招聘经理这边就被简历海淹没了,所以不得不依赖AI来筛选。即使我们不想走到这一步,也被推着走:申请量和招聘量的暴增,迫使我们必须有更智能的过滤和选择机制。这正是你们这些年来一直在构建的。

Brendan Foody:没错。很多人会问:我们到底是劳动市场公司,还是数据公司?这个问题有意思,因为我们意识到实验室真正需要的其实是劳动市场。他们需要的是那些顶尖的专业人才。当然我们会附加一些项目管理和软件平台,但核心是:如何找到这些跨领域的高水平专家,来测评模型能力,并共同构建未来的工作形态。

人的质量,决定ChatGPT的质量

主持人:回到你们的业务。我和朋友聊过一件事:他脚踝扭伤,拍了X光片,然后把片子扔给ChatGPT,让它分析。结果它真的给出诊断了。他就问我:“这模型是怎么知道的?网上哪里有这样的训练数据?”我告诉他,不是这样,其实是有人在帮模型理解——当它不会时,人类会教它。所以模型的学习背后,是人类在不断提供帮助。

Brendan Foody:没错。其实运作的方式,至少大多数人的理解是这样的:模型的工作原理很复杂,预训练把大量知识灌进模型里,相当于让它见过世界上各种事物。然后后训练和强化学习,才是帮助模型区分哪些知识是准确的、哪些是不准确的,以及在特定时刻该如何优先取舍来做出决定。在这背后,其实就有放射科医生参与后训练数据集的标注,他们会设定一个参考点——比如诊断结果,并配上相应的奖励或惩罚机制。

Brendan Foody:最终,正是这些人的质量,决定了 ChatGPT 的决策和推荐的质量。

主持人:那我们继续展开一下,因为这真的很有意思,我觉得没多少人真正理解。我大概能理解。所以你们和这些专家做的工作,其实是“后训练”。这不是往模型预训练阶段去喂数据,而是说:我们已经有了 GPT-5 模型,然后要补上它缺失的东西,再加强它。对吧?

Brendan Foody:对。更准确地说,这是帮助模型从预训练里筛选正确的 token,强化正确的推理链,让模型能更通用、更好地推理。

主持人:有多少人规模在做这件事?是几千、几万人,还是几十万人?

Brendan Foody:通常是几万人同时在做,更广泛来说是几十万人。规模非常大。而且最令人兴奋的是它增长得非常快。你刚才提到竞争格局——过去主要是一些众包公司雇佣大量低技能劳动力,比如 Scale 和 Surge 这类公司算是行业的先驱。但现在过渡到高技能劳动后,人们发现只要找到更高水平的人才,即便数量少一些,价值也能远远更大。等到满足质量标准后,再逐步放大规模。我们的快速增长和营收成功,也吸引了一批后来者追随这个市场逻辑,这是合理的。

主持人:挺有意思。

主持人:其实一直有一些公司,比如 AlphaSites 和 GLG,在 AI 之前就做过类似的事:花钱把人和专家连线,问他们问题。现在事实证明这对模型也很有用,只不过不再需要“中间人”。

Brendan Foody:没错。

Brendan Foody:但核心区别在于:AlphaSites 通常只是“一次性电话咨询”,而我们更多是把人招进来做项目,需要他们长期投入。这也是为什么传统专家网络很难切入这一领域。另外,你还要考虑怎么长期留住这些人,以及建立起合理的激励机制。某种程度上,它更像 Uber 或 DoorDash 这样的劳动市场,只不过我们对接的是高技能人才,并且给予非常优厚的待遇。

主持人:我今天学到好多东西,所以我想多问几个问题。你们找的专家,到底是更多偏“硬知识”,还是偏“人格和软技能”?比如具体到:怎么做检查,怎么做 X 光?

Brendan Foody:要看不同实验室的需求,两者都有。以前可能更偏软技能,但现在很多实验室聚焦的是商业模式:哪些能力能直接带来收入,所以更倾向于专业领域的硬技能。不过创意类能力同样很重要。比如几个月前我们就把哈佛 Lampoon 喜剧社整队招了进来,让模型变得更幽默。我们也会请艾美奖编剧,或者各类创意人才,来提升模型的创造力。

24小时内交付专家,只需留住前10%的人,时薪最高达500美刀

主持人:这故事太酷了。我迫不及待想看到效果。这种改进见效要多久?几个月还是几年?

Brendan Foody:要看实验室。有些模型会迭代式更新,几周就悄悄改进一次;有些则会搞“大版本发布”。我们在所有这些实验室背后提供支持。我们动作很快,比如客户说要找获奖编剧,我们能在 24 小时内交付专家。还有个很有趣的现象:我们雇的 100 个人里,往往前 10% 的人贡献了大部分改进。就像一家公司,10% 的顶尖员工决定了大部分产出。这意味着只要我们能识别并留住那前 10% 的人,再把他们高效匹配到项目里,就能创造巨大的客户价值,也形成了竞争壁垒。这正是公司最初的核心逻辑:找到卓越人才,并持续把他们带给客户。

主持人:那具体来说,比如你们招了一个叫 Jane 的人,她很会写代码,她会不会就被 Anthropic 全职雇走?还是说主要是兼职、项目制?

Brendan Foody:都有。有时是全职,但多数是兼职。比如有些人在大厂工作,节奏慢,手里还有 20 小时富余时间,就会来做这类任务。当然我们也提供很多 40 小时全职岗位。

主持人:那收入呢?对 FAANG 工程师来说值得吗?

Brendan Foody:非常值得。我们平台的中位时薪是 95 美元,最高可以到 500 美元/小时,取决于专业深度。对比传统众包平台,他们一般平均只付 30 美元/小时,所以只能雇些本科生。而我们能吸引到高盛银行家、麦肯锡顾问、FAANG 工程师。最终还是要看实验室需要的能力,大多数需求还是落在后者这些高技能人群身上。

Claude代码为什么领先?评测!

主持人:我知道你不能说太多客户细节,但比如 Anthropic Claude 在写代码方面一直领先于其他模型,还能写得很好。我也用它做写作反馈。为什么他们能这么强?

Brendan Foody:我不能讲太细。但整体趋势就是:强化学习,以及认真定义正确的奖励机制,避免奖励黑客化,才让模型越来越好。这就是评测的威力。客户经常说:“模型的好坏取决于它的评测。”这句话一直成立。

主持人:我记得 Greg Brockman 发过一句话:“Evals are all you need。”确实如此。

抓住史上最大商机:领先指标、客户至上,强推PMF无意义

主持人:我们聊回Mercor 本身吧。你们可能是历史上增长最快的公司了。 

我想了解你们是怎么做到的。你认为 Mercor 成功的核心要素是什么?

Brendan Foody:最重要的是抓住快速变化市场里的领先指标。以前在风投圈,大家总说“为什么是现在(Why Now)”。我一开始理解为产品层面的时机,比如现在能自动化筛简历、做面试。但其实关键在于市场。你要找到那些变化飞快的新市场和新需求点——世界上最有钱的客户愿意为提升模型能力花任何代价。我们就要盯住这些领先信号,把一切资源优化到为头部客户提供最好的解决方案上。这是最有影响力的一点。

另一个核心是客户至上。在公司成立一年半里,我们没有销售团队,也没有市场团队,100% 的资源都放在打磨产品和体验。靠口碑传播,客户在别的公司工作时还想继续用我们。这就是我们花所有时间的地方。很多创业者容易过早纠结“怎么做好市场推广”,但真正重要的是:先把让客户爱上的“六星体验”做到。

主持人:我想回到你刚才说的,你们发现了一个可能是“史上最大商机”的口袋市场。你们是怎么第一次意识到的?

Brendan Foody:这背后有些疯狂的故事。我们在 2023 年 1 月成立公司,到 2023 年 8 月,我还在上大学。有客户把我们介绍给 xAI 的联合创始人,说我们有一批数学和编程很强的印度工程师。我们见面后强调他们的强项就是因为不用被人文学科分心,不用学历史英语这些,他们很喜欢。两天后,xAI 就请我们去 Tesla 办公室,见了整个联合创始团队(除了 Elon)。当时 xAI 刚成立,他们对我们“专家质量优先”的理念非常兴奋。虽然他们那时还在做预训练,不急着要人类数据,所以没有立刻合作,但我们已经意识到市场会彻底变革,我们必须走在前沿。

再往后几个月,一家众包公司来用我们的平台雇了上千人。结果我们收到大量工单,投诉他们没拿到钱。我们很愧疚,因为我们推荐的机会竟然没兑现。这让我们意识到:很多老牌公司在人才体验上完全停滞,人才被当作廉价消耗品。但其实可以直接和实验室合作,既保证专家尊严、又支付高薪,同时切掉中间环节。于是我们在2024 年 5 月开始直接对接实验室,后面的故事你就知道了。

主持人:哇。

主持人:这就带来了上亿美元的营收。所以总结一下,你们的思路是:先敏锐捕捉“需求拉力”,然后一旦确认市场有意义,就全力把客户体验做到极致。

Brendan Foody:对。如果给创业者一句建议,就是:别老想着“强推产品市场匹配”。当然,你需要坚持自己的世界观,认为世界会如何变化,但有时市场本身会告诉你“拉力”在哪。要找到那些非常容易成交的客户,因为那代表他们痛点极大、需求迫切。如果每个客户都得拼命去推销,那业务做不大。你需要找到“轻而易举就能成交的客户”,那才是增长的核心。所以既要对未来的假设保持执着,又要对市场的具体走向保持开放,随时调整。

主持人:这真是一个了不起的洞见。

主持人:在你刚刚描述的那些时刻里,感觉像是两个关键点叠加在一起:一个是和 xAI 的会面——你们意识到,“哇,他们真的、真的很想要我们手上这点东西,虽然我们做得还不够完美”;另一个就是平台上一千人的大规模招聘。

主持人:是不是就是这两个瞬间让你们觉得:“对,就是这样”?

Brendan Foody:没错。而且要注意,这些事发生的时候,我们还只是一个种子轮阶段的公司。第一个是在我们拿到任何种子轮融资之前,当时完全是自力更生。我们把公司做到了一百万美元的收入运行率,始终保持极高的资本效率,从没烧过钱,整体上一直是盈利的。然后我们在 9 月份拿到了 General Catalyst 的种子轮投资。第二个经验,就是在那之后我们真正看清了这个市场存在巨大的需求——我们看到了量,看到了老玩家其实对市场的变化和所需人才有点“睡过去”了。

老外也在996,持续成功的三个价值观:can-do、高标准、强度

主持人:看到机会并开始执行是一回事,但能在这样的规模下持续成功是另一回事。你们公司内部有一些非常具体的价值观,请谈谈这些。我感觉这也是你们成功的重要原因。

Brendan Foody:确实如此。我可以分享三个核心价值观,并且每个都讲个小故事。

第一个是“能做的态度(can-do attitude)”。大家总是拿这个说笑,但我们真的一直在设定看起来疯狂的目标,然后公司的轨迹竟然真的围绕着这些目标展开。我记得在 Benchmark 带领我们 A 轮融资之前,我们当时收入运行率是 150 万美元,我说我们年底会做到 5000 万,他们觉得我们疯了。结果前后两周的差距,我们真的做到了。而且今年我们早就远远超过了最初定的 5 亿美元运行率目标。所以,不管是营收规模还是人才体验,我们都会设定极度雄心勃勃的目标,而“能做的态度”是第一条。

第二个是高标准。不管是招聘还是日常期望,我们的门槛都非常高。我们雇了很多前创业者,背景非常优秀的人才。比如我们刚刚请来 Sandeep Jain 担任总裁,他之前是 Uber 的首席产品官和首席技术官。Uber 当然是全球最大的劳动市场,而他愿意加入我们这种相对还小的公司,就是为了帮我们把流程规模化。

第三个是强度(intensity)。看看 Meta 或 Google 的早期文化,都有那种极度强烈的“推山移海”的劲头。我们公司也是这种氛围——注重输出结果,而不是考核你具体坐多少小时。但大家都清楚,要建立一家传奇公司,就必须投入巨大的强度。

主持人:我能理解为什么这套能行。

“能做的态度 + 高标准 + 强度”,听起来就是成功组合。现在外界很多讨论 996、699 这种文化(每天 早9 点到晚 9 点,每周 6 天)。很多人觉得这很糟糕,为什么要这样压榨员工?但与此同时,我不断听到顶级 AI 公司都在说,这是成功的必然。机会太难得,速度太快,错过就没了。你怎么看?

Brendan Foody:我需要澄清一点:我们从来没有强制规定工时。这更多是自然而然的结果——大家都很在乎公司的发展轨迹。很多人会自愿留下来加班,但如果他们要早点走去陪孩子吃饭,或者周末要出行,那完全没问题。对我们来说,关键在于找到那些有强烈主人翁意识、真正认同公司使命的人,而不是盯着他们坐在办公室多少小时。只是现实往往是——最认同的人,通常也就是那些愿意和我们一起熬夜的人。

主持人:当你说“高标准”的时候,有没有什么具体的例子可以说明你们的要求到底有多高?

很多人觉得自己有高标准,但其实并没有。

Brendan Foody:如果你足够耐心,就能在招聘中把质量和速度之间的权衡做好。我记得我们前 10 个员工的招聘过程,就异常耐心和严格。比如我们在美国的第二个员工 Sid,之前是 Scale 的增长主管,他加入我们的时候我们还只是种子公司。还有 Daniel,他曾经把两个消费级应用做到 10 万以上用户。这些人背景都非常不凡。最初那 10 个员工的“人才密度”,极大地塑造了公司后续扩张时的文化和格局。

招人的快与慢

主持人:我知道你们还有个观点是:外界经常说“招人要慢”,但你认为这并不总是对的。能展开讲讲吗?

Brendan Foody:这确实是把双刃剑。一方面,我很高兴我们前 10 个员工都如此优秀,这对公司帮助巨大。但另一方面,公司到了一定规模,就必须快速招聘。有些工作就是需要大量人力来完成。你必须承认,快速招聘一定会带来一定差异性,但此时速度更重要。某种意义上,我们在团队扩张上其实走得有点慢了。好处是每个人都很强,我们保持了高门槛。但坏处就是,即使公司已经成长得很快了,其实我们本可以更快,如果我们在从 10 人扩张到 100 人这段时间里能更迅速些。

主持人:所以前 10 人要谨慎,之后 10 到 100 人要加快?

Brendan Foody:差不多吧,但我不会说一定是“10”这个数字。关键点是:一旦你清楚公司真的跑通了,市场需求远超你能承接的范围,那就是要“踩油门”的时候,速度比什么都重要。但在此之前,耐心和高标准依然最重要。

高速增长下CEO的两件事

主持人:你之前还创过几家公司,规模都比较小。现在作为一家超高速增长公司 CEO,最让你意外的是什么?很多人梦想当 CEO,但可能想象不到日常的重点。

Brendan Foody:其实没什么太意外的。最主要的两个方面依然是招聘和客户。第一是怎么找到、培养最强的团队;第二是怎么真正理解客户需要什么,以及我们如何支持他们。当然,还有很多临时出现的管理事务,比如组织架构、薪酬等级等等,这是随着公司规模化才会遇到的。但核心时间花在招聘和客户上,这和我之前的预期一致,也正好是我最喜欢做的事,这算是幸运吧。

从甜甜圈到AWS项目:行动比想法更重要

主持人:你过去创的那两家公司,能分享一下吗?我觉得挺有趣。它们又是如何帮助你在现在的角色里更成功的?

Brendan Foody:我之前搞过十几个项目,挑两个最喜欢的吧。一个是我八年级时开的 甜甜圈王国(Donut Dynasty)。当时发现 Safeway 卖一打甜甜圈才 5 美元,我觉得太划算了。于是我骑车去买,再拿回学校,一个卖 2 美元。卖得飞快。我后来请我妈开车送我去批量进货,一次买十打带回来卖。后来学校禁止我在校园卖食物,我就把摊子挪到校门口 50 英尺之外,说他们没权力管我。竞争对手也出现了,有人卖更高档的 Chuck’s Donuts,一只就要 1 美元。我于是把价格压到 1 美元两个,撑了两周把他们挤出市场(当时我还不知道这叫反竞争)。我还雇朋友帮卖,用甜甜圈支付他们的劳务,他们觉得值 2 美元一只。就是各种有趣的商业博弈。

另一个是我高中时期做的 AWS 相关业务,规模更大一些。但我从这些经历里得到的最大收获就是:行动比想法更重要。很多人都有点子,但很少人真正去做。只要你愿意开始做、去满足客户需求,并投入精力和野心,就能把事情做起来。这些练习让我明白,后来应该在更大规模上干同样的事。

主持人:哈哈,这个故事太棒了。

主持人:我最喜欢的是你给你妈 20 美元当“运费”。

Brendan Foody:对,她坚持说这不是白帮忙,得算她的时间成本。她还要求给她一个头衔,我们最后笑着把她封为“全球运营总监”。

主持人:希望她把这写进 LinkedIn。

Brendan Foody:还没,不过也许以后会加上。

主持人:你说自己开过十几家公司。

Brendan Foody:算是十几个项目吧,但真正做大的就是甜甜圈生意和 AWS 公司。

主持人:那“Mercor” 这个名字有什么故事?

Brendan Foody:“Mercor” 在拉丁语里是市场、买卖、交易的意思。我们想打造全球最大的市场,一个所有人找工作的市场。所以就取了这个名字。

写eval的专家,正在创造最高增速的公司

主持人:好的。最后一个问题吧。回到前面的话题:现在大家都说,过去是“数据驱动模型”,现在变成“专家驱动模型”。你觉得下一步是什么?会不会走向 AGI?

Brendan Foody:我不觉得是从“数据”转向“专家”,更准确地说是:实验室必须和专家密切合作,来设计好评测(evals),推动模型前沿。很清楚的一点是,只要我们还想提升模型,就需要专家来设计评测,提供后训练数据,让模型学到能力。当然,训练方式可能会变,比如不同的 RL 方法,但始终都需要评测来衡量在各个领域里什么才是成功。

三年内不会有超级智能

主持人:好,那在这个基础上,我想问一个现在常被提起的问题。规模定律以及模型智能的进展。很多人觉得,好像放缓了。按照这样的速度,我们可能真的无法达到超级智能。你的看法是什么?

Brendan Foody:我完全同意这种看法。虽然有些大实验室的高管说我们三年内会有超级智能,但我认为事实是,这条路会更长。这并不是贬低当前模型的能力——我认为在未来十年内,我们一定能自动化掉大多数知识型工作的任务。但这条漫长的道路,靠的将是各种评测(evals),帮助模型获得这些能力。实现这一切的关键不在于“再多10倍的预训练数据”,而在于更高效、更精心设计的后训练数据集,它们才会推动能力进化。

主持人:David Sachs 曾经发过一条推文,说我们现在的情况其实是最佳情境:AI 没有进入极速跃升到超级智能的状态;有很多竞争者彼此制衡;模型已经很有价值,而且越来越有价值;但并没有出现某个“赢家”型超级智能主宰世界的局面。

Brendan Foody:是的,我觉得这没错。我认为关于超级智能的恐慌有些被夸大了。但同时,很多人的框架是:即便只有 5%-10% 的概率会出现这种情况,我们也该保持谨慎——这听上去也合理。但我觉得未来十年对硅谷乃至全世界来说都会是非凡的,因为这项技术能够带来真正的丰裕——让每个人都能获得更好的医疗、更优质的法律咨询,以及前所未有的产品创造能力。

主持人:教育也正在被彻底改变。

主持人:完全正确,对吗?

Brendan Foody:是的,我自己这十年来也深有体会。比如我记得大学时,父母总批评我不去上课,但我当时就觉得,YouTube 上的课程讲得更好,为什么不直接在那里学?而且我可以想象,当模型的表达和教学能力远超最好的教授时,这意味着什么——获取各种知识的门槛大大降低,推动人类进步和全民技能提升。

AI产品漫谈:喜欢ChatGPT语音模式、AI玩宠、Codex

主持人:那我就借这个问题,进入今天的最后一个环节——AI 角落,这是我们播客的固定环节。你个人是怎么用 AI 来帮助工作或生活的?

Brendan Foody:我主要用它来写文档,这个很自然。另外,我也会和它对话,寻求建议。我觉得它就像一个思考伙伴,帮我理清思路。因为有时候,跟同事或身边的人不能把所有想法都说出来,但和 AI 聊,我就能更好地思考。

主持人:所以主要是用 ChatGPT 的语音模式?

Brendan Foody:是的,我很喜欢 ChatGPT 的语音模式,虽然还有改进空间,但我对语音的未来非常兴奋。

主持人:让我给你看看我做的一个小东西。我原本没打算提这个。有个叫 Eric Antoneau 的人,很多人推荐过他。他是个很有创造力的产品人,之前在 Facebook 待过。他做了一个叫 ParrotGPT 的项目,把 ChatGPT 塞进毛绒玩具里,可以对话。他做了一只智慧小猫头鹰,我现在没带过来。基本原理就是在玩具里缝一个小音箱,肩膀上贴一个磁铁,就能随时对话。

Brendan Foody:太棒了,兄弟。我爱死了,我一定要搞一个。我家里已经有一些语音助手,但我更想要一个 ChatGPT 语音助手。我真的很期待。我刚才还在想这个事。

主持人:是啊,为什么不能有一个 ChatGPT 语音助手,就随时在旁边听?而不是像手机那样休眠,你得喊它一声“嘿”。

Brendan Foody:没错,正是这样。

主持人:好吧,他还在做 Kickstarter,我们会把链接贴出来,大家可以去支持。Brendan,在进入最后的闪电问答环节之前,你还有什么想补充的吗?

Brendan Foody:呼应我们刚才谈到的“主动性”这个话题,我想鼓励大家:尤其在 AI 时代,构建产品和尝试的门槛已经低得多了,所以请迈出那一步,去做,去和用户交流,去尝试。因为我觉得,最大的障碍就是缺乏主动行动。只要我们能降低这一障碍,就会有更多创新。

主持人:对。现在太多人光是听播客、看文章,但就是不去实践。而如今,已经是史上最容易动手构建、动手尝试的时代了。所以,一定要记住:Just do it。就像你当年把甜甜圈摊往外挪了 50 英尺一样。好,Brendan,下面我们进入快问快答环节,我有五个问题准备好了。你准备好了吗?

Brendan Foody:准备好了。

主持人:第一个问题:你最常推荐给别人的两三本书?

Brendan Foody:《高效能管理》(High Output Management),这是一本关于如何运营公司的经典;第二本是《从零到一》(Zero to One),大家都知道;第三本是《鞋狗》(Shoe Dog),我觉得它特别励志。

主持人:最近你喜欢的一部电影或电视剧?

Brendan Foody:我很喜欢《奥本海默》。我最喜欢的电视剧是《金装律师》(Suits),虽然不是最近的。如果说近期的话,就是《奥本海默》。

主持人:很酷。最近你发现并喜欢上的一个产品?

Brendan Foody:我很喜欢新版 Codex,我觉得它进步巨大,非常惊艳。

主持人:你有没有一句人生格言?

Brendan Foody:就是我们刚才说的那句:You can just do stuff。勇敢迈出那一步。

主持人:我本以为你要说“Can do”,毕竟这是你 Twitter 签名。

Brendan Foody:也行,可以是“Can do”。

阅读障碍者如何管理公司

主持人:两句都不错。最后一个问题:你之前说过一个细节,还没对外分享过,就是你其实有阅读障碍(dyslexia)。

Brendan Foody:是的。

主持人:能和大家聊聊吗?毕竟你在这样的情况下,还建立了史上增长最快的公司。

Brendan Foody:我从不隐瞒,很多同事都知道。阅读障碍确实让处理大量邮件或文件很困难。但另一方面,它让我思考方式不同,更有创造力,能看到别人未必注意到的市场变化。从管理角度来说,它让我意识到:更应该发挥团队成员的长处,而不是执着去弥补短板。因为有些事我再怎么练也不会做到最好,但我可以在自己的强项上不断精进。

主持人:这是我们节目里经常出现的主题:专注优势,而不是过度纠结于弱点。Brendan,这期节目太精彩了,我学到很多。最后两个问题:第一,大家应该知道 Mercor 现在在做什么、招什么岗位?第二,听众怎么能帮到你们?

Brendan Foody:当然。我们正在大量招聘:运营团队的战略项目负责人、工程团队的软件工程师、研究员等等。大家可以直接去 Mercor.com 应聘。也欢迎推荐朋友,因为我们平台超过一半的人才都来自转介绍。我们很希望和优秀的人一起工作。这就是大家能帮到我们最大的方式。

主持人:太棒了。谢谢你来参加。

Brendan Foody:谢谢邀请。

主持人:好的,各位,再见!

好了今天的文章到这里就结束了。大模型已然走到了“evals”时代,更好的评估带来更高质量的模型和Agent,大家是否认同呢?欢迎评论区交流。

参考链接:​https://www.youtube.com/watch?v=ja6fWTDPQl4&t=8s

本文转载自​​51CTO技术栈​​,作者:云昭

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-9-26 14:30:47修改
收藏
回复
举报
回复
相关推荐