AI大牛周明发布MChat:生成可控,参数规模可负担,顺便官宣了新融资

人工智能 新闻
我们会尊重大模型,把模型做到相当大,但同时快速考虑它的落地。

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

大模型赛道又有融资新动态:

语言大模型玩家澜舟科技,刚刚完成了Pre-A+轮融资。

本轮融资由北京中关村科学城公司领投,斯道资本和创新工场跟投。这是澜舟科技1年内收获的第2轮融资,2轮累计总额数亿元。

不止于此。和融资消息一同公布的还有澜舟科技推出的语言生成模型,孟子MChat可控大模型

它有类ChatGPT的能力,加上原来澜舟科技孟子大模型N个项目功能引擎,最终呈现出来的MChat,既有对话能力,又具备翻译、生成、信息搜索等能力。

关于MChat,澜舟科技创始人兼CEO周明还作了如下介绍:

  • 将陆续推出10B和100B参数级的大模型;
  • 具备聊天、问答、翻译、文本生成、信息抽取等多种能力;
  • 可融合搜索结果、领域数据和知识图谱;
  • 对功能、风格、人类认知等方面具可控性。

图片

孟子MChat可控大模型

本次融资是创新工场对澜舟科技的“继续跟投”。

创新工场董事长兼CEO李开复在3月14日的趋势分享会上谈到,AI已经来到从1.0迈入2.0的拐点。

顺着这个思路,MChat可以视为澜舟科技尝试从平台基础设施两个层面迈入AI 2.0时代的具体动作:

首先,发布迭代而来的孟子MChat可控大模型,视其为通用底座,提供语言预训练模型、多模态预训练模型、垂直领域预训练模型等能力。

其次,再在其上架构能力平台,提供知识图谱、辅助写作、机器翻译等模块化能力。

图片

据周明介绍,团队走访了100多家公司,发现市场需求迥异。这种情况下,澜舟科技认为在更垂类的赛道做定向优化显得尤为重要。

也因此延伸出孟子大模型技术体系的特点之一,更多样化

具体而言,就是孟子支持BERT(分析类)、GPT(生成类)和T5(翻译类)等架构,能够覆盖阅读理解、文本生成、机器翻译、对话等不同场景。

值得注意的是,MChat虽然具有ChatGPT同样的对话能力,但两者有所不同。

ChatGPT尽可能将多模态数据纳入训练库,数据量越大越好,不甄别数据好坏;

而MChat强调“可控性”

一是功能可控,即根据具体需求加减可调用的具体功能;二是结果可控,保证输出内容的健康、良性。

“未来我们是想继续探索从AI 1.0到2.0到AGI,”周明说,“不过AGI有点太远,但下一步已经确定,就是从单语言扩展到更多的语言。”

选择在这个时间点进军AI 2.0时代,澜舟科技似乎地利不足,放眼大模型创业领域,千帆竞赛;但好处是已有诸多铺垫,且孟子轻量化模型的能力已经经过验证

MChat背后依托的孟子大模型,是澜舟科技自研技术研发的大规模预训练语言模型,于2021年7月推出。

可处理多语言、多模态数据,同时支持多种文本理解和文本生成任务,快速满足不同领域、不同应用场景的需求。

与追求打造AGI不同,基于Transformer架构的孟子,行进路线是轻量化——仅包含10亿参数。

靠这10亿参数,孟子大模型在中文语言理解领域最具权威性的测评基准CLUE上屡次刷榜第一,四两拨千斤,击败其他公司百亿甚至千亿的模型。

图片

到具体的应用层面,同花顺、华夏基金为代表的金融领域,以及中文在线代表的文案写作领域,澜舟科技都以孟子大模型为底座提供了能力支撑。

NLP大牛周明

澜舟科技是以NLP技术为基础的认知智能公司,由AI大牛周明创办的公司,成立于2021年6月。

周明,当今NLP领域成就最高的华人之一,他不仅是中国第一个中英翻译系统的研制者,还在2019年成为AI语言领域最高级顶会ACL(国际计算语言协会)主席。

1991年在NLP重镇哈工大拿到博士学位后,周明进入清华任教;1999年被微软亚洲研究院创始院长李开复挖走,后来不久成为NLP研究组负责人。

2020年离开MSRA加盟创新工场担任首席科学家时,周明已担任MSRA副院长多年。

从工作21.5年的MSRA出走的原因,周明有些戏谑地解释:

“2020年年底,我隐隐约约感知到未来大模型要兴起,所以毅然决然离开微软,成立澜舟科技,专门从事大模型研究。”

据介绍,除了孟子大模型外,目前澜舟科技已经开源了近20个大模型

如果真如李开复所说,AI来到了从1.0过渡到2.0的拐点,这对NLP意味着什么?

周明一边提到,AI 2.0反映在NLP,能看到GPT这样的通用模型,一套模型解决很多问题,效率大幅提升;一边又提出了两个现象

一是AI 2.0时代的NLP能力足够强,在处理新任务时只需用一个提示词来代替它的能力;

二是模型大到一定程度时,会涌现新的能力,尤其是会迸发出一些从未见到过的能力。

他个人表示出对新能力涌现的格外关注,因为涌现这件事目前还是未解之谜,“唯一能启迪你的是在能力范围之内,尽量把模型做的比较大”。

ChatGPT身上的逻辑和思维能力,就是由GPT系列模型的大力出奇迹出品。既然如此,澜舟科技会不会也在模型参数上加码?

周明直截了当地回答,澜舟不会去追从千亿、万亿大模型

我们会尊重大模型,把模型做到相当大,但同时快速考虑它的落地。

图片


责任编辑:张燕妮 来源: 量子位
相关推荐

2021-10-20 16:06:28

AI 开源人工智能

2024-02-19 08:56:00

AI模型

2010-04-20 21:55:36

2016-12-09 08:51:18

GoogleDevelopers网站

2023-12-15 14:37:00

模型训练

2021-02-03 09:12:03

存储

2023-02-28 14:57:02

MetaAI

2024-01-10 18:13:52

生成式AI开源

2021-11-29 09:48:35

Redis 对象映射

2023-03-17 16:44:16

AI绘画

2024-02-07 17:08:42

2019-11-15 17:55:04

华为

2024-01-10 16:42:23

人工智能工业

2020-11-20 15:09:36

AI程序员宝可梦

2022-09-13 21:32:09

毫末

2024-02-05 13:34:16

模型训练
点赞
收藏

51CTO技术栈公众号