
AI 模拟消费者,预测购买意图准确率达 90%
市场调研每年花费企业数十亿美元,却始终受困于样本偏差和规模限制。有没有好且经济的办法呢?
来自 PyMC Labs 和高露洁棕榄的团队发现了一件有意思的事:让大语言模型扮演特定人群的消费者,给它看个产品,让它说说感受,再用另一个 AI 来评分,就能预测真实的购买意图,准确率高达 90%。他们测试了 57 个个人护理产品概念,收集了 9300 份真实消费者反馈。最令人意外的是,这种方法不需要任何训练数据就打败了传统机器学习。
直接让 AI 打分是个灾难
研究团队首先尝试了最直观的方法:问 AI "你有多想买这个产品,1 到 5 分?"
结果让人哭笑不得。GPT-4o 和 Gemini 都像不想得罪任何人的老好人,几乎总是给 3 分。而真实消费者呢?他们大多选择 4 分和 5 分,平均分高达 4.0。
这种"回归中值"的保守策略导致分布相似度只有 0.26,虽然相关性还有 80%,但这种扭曲的分布对产品决策毫无帮助。
有人调侃说"男人宁愿造核动力 LLM 也不愿意去和客户聊天"。确实,如果 AI 只会给 3 分,那还不如不用。
语义相似度:让 AI 自由表达
突破来自一个巧妙的改变:别强迫 AI 给数字,让它自由说话。
这就是语义相似度评分(SSR)方法。AI 可能会说:"我可能会买。使用方便,能随身携带,价格也不错。"然后通过嵌入向量,计算这段话与预设参考语句的相似度,最终映射成 1-5 分的概率分布。
比如上面那句话,可能 40% 概率对应 4 分,60% 概率对应 5 分。这种方法承认了人类表达的模糊性——同一句话确实可能有不同理解。
结果呢?分布相似度从 0.26 飙升到 0.88,同时保持了 90% 的相关性(相对于人类重测可靠性)。
人设决定一切,但也不是一切
另一个关键发现:必须给 AI 详细的人设(年龄、收入、地区等)。没有人设的 AI 会变成没有原则的乐观主义者,给所有产品都打高分。
有了人设后,AI 确实能模拟一些规律:
- 中年人(35-54岁)购买意愿最高,年轻人和老年人较低
- 收入越低,购买意愿越低(尤其是"预算紧张"的人设)
- 高端产品线获得更高评价
但也有翻车的地方。性别和地区的影响就没有被准确复制。有评论者一针见血:"人口统计能描述,但不能预测。"这提醒我们,AI 模拟的是相关性,不是因果关系。
意外收获:AI 比人类更认真
传统调研的开放题答案通常很敷衍:"挺好的""没什么特别的"。
AI 的回答却充满细节:
- "易用性和安全承诺很吸引人,但我想了解更多关于效果和潜在副作用的信息"
- "听起来有点装,而且我不太相信那些'微生物组'的说法。我还是用我熟悉的产品吧"
- "对我的需求和预算来说太高端了"
这些详细反馈对产品改进的价值可能超过单纯的数字。
打败传统机器学习
研究团队还用 LightGBM(一种梯度提升决策树)做了对比。即使在一半数据上训练,传统 ML 的相关性也只有 65%,远低于零样本 LLM 的 88%。
这说明大语言模型真的理解了产品描述的含义,而不只是在拟合统计规律。
质疑声不断
市场研究专家 Jordan S. Terry 在评论中提出尖锐批评:购买意图调研本身就有个老毛病——人们说的和做的经常不一样。AI 可能会放大这个问题。
还有人担心企业采购环节:"如果要产品化,AI 幻觉等问题会被挑出来。销售周期会很长,如果能成交的话。"
更深层的质疑是:这到底是 AI 的成就,还是李克特量表本身就不太行?
局限性很明显
- 领域依赖:个人护理产品之所以效果好,可能因为网上有大量相关讨论。换成小众品类,效果存疑。
- 文化差异:目前只在美国市场测试。不同文化背景下,AI 未必能准确把握。
- 动态因素:预算限制、营销活动、竞品动态等现实因素,静态模型很难考虑。
- 参考语句:不同的锚点设置会影响结果,需要仔细优化。
实际应用:聪明地使用
这项技术最合理的定位是增强而非替代:
- 快速筛选:从数百个想法中找出值得深入调研的
- 迭代优化:产品开发过程中频繁获取反馈
- 小企业福音:让预算有限的公司也能获得消费者洞察
- 探索新市场:快速测试不同地区的初步反应
有评论者说这可能成为"十亿美元的平台"。确实,如果成本接近零而准确率有 90%,市场调研行业将面临巨变。
小结
这样的思路,从某种角度是很低成本并具有可行性的方案。类似研究还有很多,有人甚至正在用 1000 多个 AI 智能体模拟整个社会的经济行为。
不过,需要指出的是再精确的模拟也代替不了与真人的对话,LLM更多还是人类的傀儡。对于一些新的,具有颠覆性的产品和方案,避免因为这样的技术进入另一个“茧房”
论文链接:https://arxiv.org/abs/2510.08338
代码:https://github.com/pymc-labs/semantic-similarity-rating
本文转载自AI工程化,作者:ully
