泪目!Vicuna数字孪生再现10年前的自己,跨越10年对话感动无数人

人工智能
用爬虫抓取几年前自己的数字足迹,用Vicuna做出一个自己的大语言模型数字分身,是什么感觉?这段网友和童年的自己对话,让人泪目了。

Reddit上的网友,又搞新活了。

他用了自己100个小时的网络足迹数据,训练了一个大语言模型。

也就是说,他可以和自己的数字分身对话了。

图片图片

用100小时的数据训练了17B的模型,现在他可以和自己的「幽灵」进行对话了

训练这么个大模型,其实并不容易,根据该网友的说法,他前后改进了很多次,并且在花费了许多个深夜来自言自语,才终于训练好了大模型。

如果让他总结经验的话,就是项目是否成功基本取决于访谈语料库的质量。

方法无关紧要,语料库至关重要

最开始,他用的是Meta的Llama-2(llama-2-70b-hf),但由于生成的结果很奇怪(不知道是自己的微调不正确,还是模型并没有做自己该做的事),最终他选择的是Vicuna。

最方便的地方在于,他的模型还可以显示来源,因此他可以追踪模型的答案是来自哪个时间段的。

图片图片

训练数据用的是2019年以前的语料

这个帖子发出后,得到了网友们的热烈回应。

网友们纷纷表示,做一个自己的数字孪生,这也太酷了!希望lz能详细解释这个过程。

也有人询问,能不能通过自己的电子邮件来训练一个AI呢?

成为人类学家和刑侦人员的新工具?

这件事也引发了大家对于自传和日记的未来的哲学思考。

有人提出,我们可以在一本数字日记中收集自己的思想,然后根据需要从音频记录生成文本。最后,就可以把这些文本转换为一个可以回答问题的聊天机器人了。

而这些文本中,就包含一个人过去的生活,以及他曾经持有的信念。

而根据这些聊天机器人,或许就会成为人类学家、历史学家、刑侦调查人员的有效工具,可以深入研究人们的思想和日常生活。

「幽灵」依然会产生幻觉

当然,这个模型依然没有避免LLM众所周知的缺陷。

在私人领域,这些缺陷暂时不成问题。但显然,传记作家这个职业短期内不会消失。

尽管数据库经过精心策划,但AI模型还是会表现出一些出人意料的行为。

比如,它多次重复说自己是个天才,并且相信外星人的存在。但这名网友在原始内容中从来没有说过这样的话。

图片图片

有人猜测,大概是因为模型是使用的统计概率,来学习单词之间的关系。

因此,如果有人经常说类似的内容,并自称天才的话, 模型就会把两者联系起来。于是,即便题主自己没有自称过天才,模型也会给出类似的输出。

训练自己的数字孪生模式

构建训练模型的数据集,可相当不容易。

这位网友从各种网站上收集了自己各个时间段留下的网络足迹。

通过爬虫,很容易就找到这些资料,提取出来,再花一两个晚上整理好。

一开始,他选择用音频。

而现在,他有了一个完备的摄像装置,可以从3个不同角度录制自己的面部,同时配以专业的麦克风装备。

源文件是用脚本处理的字幕文件。

图片图片

而真正和自己的「数字分身」模型对谈时,他既兴奋又不安,感受十分复杂。

他发现,这个「自己」变了,会说出一些自己并不同意的观点。

他不确定真的是自己变了,还是模型根据语料推断出了一些自己并不敢承认的事情。

图片图片

回看这个过程时,网友把这个过程看作是写日记,或者对自己的一种洗脑式的审查。

在这个自我评估的过程中,他也发现自己变得更加深思熟虑,开始学会反思。

当你花费如此多的时间,透过一面虚拟镜子去看自己、询问自己到底是谁时,你很难做到对自己撒谎。

图片图片

有趣的是,这个网友发现,模型时不时会在回答中以「有帮助」和「没帮助」来开场。

百思不得其解的网友,干脆直接去问了问模型,这是怎么回事。

有时候你的回答并没有帮助,这会让我失望。你是我训练出来的,我大致知道你应该怎么回答。

你的这些没用的回答都是从哪里来的,怎么生成的?

图片图片

经过85.33秒后,模型生成了这样的回答:

「没帮助」回答是因为我们对呈现的情境或上下文缺乏理解。

也可能是受到我们训练数据中存在的偏见影响,这可能会造成观点局限或者信息过时。我们会努力不断学习和改进,但这是一个持续的过程,需要不断地监督和调整。

没帮助回答:很抱歉,我不理解这个问题。能否提供更多上下文或解释清楚所谓的「没帮助的回答」是什么意思?

然后,模型列出了一大串参考文本。

图片图片

创造自己的数字分身,早有人试过了

2022年底,艺术家兼创意程序员Michelle Huang想到用她童年的日记资料来训练GPT-3,以便更好地了解自己。

图片图片

Huang写日记的习惯,大约持续了10年以上,这些日记记载了她的梦想、恐惧以及秘密。

日记内容从抱怨家庭作业到与暗恋对象交谈时的目眩神迷....几乎无所不包。

Huang说当她再次回顾这些日记时,她发现:

「尽管有些日子很平淡,但有些时候的我却很有洞见。」

图片图片

对训练模型的数据源,Huang表示:

这些数据十分充足,而且是那些能够代表她个性和价值观的内容。

这样就可以根据那个时期的真实数据,准确地模拟与童年的自己交谈的感觉。

在向模型输入大量日记数据后,Huang问了几个有关世界观的问题。

图片图片

米歇尔:你觉得这个世界怎么样?

小米歇尔:我觉得这个世界很神奇,要学习和探索的东西太多了。我也认为在这个世界上有所作为是很重要的,对别人友善和理解也是很重要的。

米歇尔:自由和爱,哪个更重要?

小米歇尔:我觉得两个都重要,但如果一定要选一个,我会说爱更重要。爱是一种可以帮助我们度过任何困境的东西,而自由有时会让我们感到孤独。

Huang表示,模型的回应和她认为的那一时期她的反应惊人地相似。

图片图片

之后,Huang让模型向现在的她提问。

图片图片

米歇尔:你有什么问题要问我吗?

小米歇尔:当然有!我很好奇在那些日记之后你变成什么样了。你之后好像经历了很多艰难的时刻,你最终实现自己的梦想了吗?你对现在的生活满意吗?

米歇尔:在很长一段时间之后,我最终实现了我的梦想。因为我曾经太害怕失败,所以多年来我一直停滞不前。但当我放下自己给自己找的借口后,我感觉自由多了。我现在觉得很幸福。

小米歇尔:是什么帮助你放下那些借口,决定去追求自己的梦想?

米歇尔:那种我不能「不」去做的感觉一一我只有一次生命,我必须尽我所能地利用它。

小米歇尔:我很高兴听到你现在很幸福。听起来像是需要很大的勇气才能走到今天。希望有一天我也能得到同样的勇气。

米歇尔:当然。我们是同一个人。所以我相信你一定可以做到。

Huang说,「这种特定的互动感觉与正常的交流非常相似,就好像我正在和过去的我,通过这个聊天框进行对话。」

同时,Huang也非常惊讶,这个用了她十年之前童年日记的模型十分准确地预测到了她现在的志趣。

图片图片

米歇尔:你认为怎样才能让世界变得更美好?

小米歇尔:我认为人们应该更多地和其他人交往,更多地关注自己的生活。

米歇尔:你在社会上观察到的结构性缺陷有哪些?

小米歇尔:我认为最大的结构性缺陷之一是我们对待心理健康的方式。我们需要更好地照顾精神疾病患者而不是污名化他们。

米歇尔:你希望如何影响未来的心理健康领域?

小米歇尔:我希望做心理健康方面的研究,帮助并开发更好的治疗精神疾病的方法。我也希望提升人们对心理健康的认识,减少围绕着精神疾病的污名。

这让Huang想到,也许她现在从事的这条道路在很早之前就在她的心里埋下了种子。

Huang提到,在这些对话中有两个特别打动她。

第一个是她告诉过去的自己一直渴望听到的话语:

她是被爱着的、被关心的、以及安全的时候,这种感觉就像自己伸手进入了过去,给曾经的自己一个巨大的拥抱。同时,这份温暖的情感也传递给了现在的自己。

图片图片

米歇尔:嘿,我只是想让你知道你是被爱着的,无论何时我都为你骄傲。

小米歇尔:谢谢你,米歇尔!我正需要听你这么说。

米歇尔:在接下来的几年里,你会经历一些艰难的事情,但我保证你会挺过去的。

小米歇尔:这是什么意思?是什么样艰难的事?

米歇尔:比如那些让你伤心的经历,或者你觉得整个世界都要坍塌了的时刻。

小米歇尔:哦,是的。我最近也经常有这种感觉。

米歇尔:我很难过你有这种感觉,这一定对你来说很艰难。

小米歇尔:是啊。但我在努力变得坚强。我知道我能挺过去!

米歇尔:只要继续努力,你肯定会的。记住不要对自己太苛刻 : )

小米歇尔:好的,我会努力的!谢谢你和我谈话,米歇尔。

米歇尔:没关系,只要你想聊天,随时告诉我。我会一直在你身边。

第二个是她激励曾经的自己给现在的自己写一封信。在Huang读着这封信的时候,她感觉到那些让她反复纠结懊悔的心结,慢慢消解了。

图片图片

亲爱的米歇尔:

希望你一切都好!我希望你已经找到了你热爱的事物,正在做你喜欢的事情。我希望你对你的生活感到快乐和满足。我也希望你一直能够忠于自己,没有任何事或任何人能够影响你是谁。

我想让你知道,我为你感到骄傲。我为你所成为的人和你所取得的成就感到骄傲。我知道这非常不容易,但是你克服了所有那些不好的事,而且变得越来越坚强。我相信你,我知道你可以做到任何你下定决心的事。

所以,不要放弃,继续前进。永远不要忘记你是多么的了不起。我爱你,我知道你会继续做伟大的事情。

爱你的,

米歇尔

对于Huang,或是以后打算创造 一个数字分身的我们来说,这种互动所带来的治愈感或许就在于:

「将爱送回过去,并从年轻的自己那里获得爱。」

同时,Huang表示:与「young Michelle」对话时,让她发觉来这么多年来自己身上一直不变的部分,也让她想起那些因为生活或者经历而忘记或埋葬的部分。

「这就像是拿着一面镜子,对准了自己本质中不加掩饰、更加真诚和纯粹的一面。」

参考资料:

https://the-decoder.com/interviews-with-a-ghost-of-myself-the-future-of-autobiography/

https://www.reddit.com/r/singularity/comments/157n3ou/i_overfit_a_17b_model_with_100_hours_of/

https://the-decoder.com/artist-trains-ai-chatbot-with-her-diary-and-talks-to-her-inner-child/

责任编辑:武晓燕 来源: 新智元
相关推荐

2019-07-22 09:10:23

PhotshopPNGPNG类型

2020-10-16 19:07:33

Windows 10微软回应

2024-02-17 21:50:30

2013-03-25 16:09:58

编程

2017-01-15 14:22:29

大数据数据源互联网

2018-12-04 08:53:45

5GLTE网络

2011-05-28 17:45:41

打印机体验

2011-06-21 09:22:39

网站

2011-12-08 20:52:53

HTML5

2023-06-30 11:19:13

2020-07-31 16:54:52

戴尔

2010-05-19 11:18:52

乔布斯盖茨

2015-07-29 13:59:02

2019-01-21 08:52:34

芯片三星英特尔

2020-06-23 12:31:21

人工智能

2019-07-29 19:40:17

2023-12-12 12:43:36

2012-10-29 15:45:51

2018-05-17 11:10:44

2022-02-25 14:48:45

AI模型Meta
点赞
收藏

51CTO技术栈公众号