【WOTD】网易传媒VP刘彦东:当AI遇见信息流: 新时代的信息分发

原创
新闻
12月01日上午WOTD2017主会场,网易传媒技术VP刘彦东进行了主题为《当AI遇见信息流: 新时代的信息分发》的精彩演讲。以下是演讲实录,让我们先睹为快!

【51CTO.com原创稿件】2017年12月01-02日,由51CTO主办的WOTD 2017全球软件开发技术峰会在深圳中洲万豪酒店召开。秉承专注技术、服务技术人员的理念,自2012年以来,WOT品牌大会成功举办了十四届,积累了大量的技术专家资源,获得了广大IT从业者和技术爱好者的一致认可,成为了业界重要的技术分享交流平台以及人脉拓展平台。

本次会议分为10个技术主题,分别是:编程语言与框架,大数据系统架构设计、微服务与容器技术、前端开发实战、物联网(IOT)技术、软件性能优化、深度学习与智能应用开发、创新运维探索、技术架构遇到业务架构、CTO训练营。51CTO作为本次大会的主办方,将全程图文直播报道与后期视频展示这场盛宴。

12月01日上午WOTD2017主会场,网易传媒技术VP刘彦东进行了主题为《当AI遇见信息流: 新时代的信息分发》的精彩演讲。以下是演讲实录,让我们先睹为快!

刘颜东

我7月份回来,加入网易,之前在美国待了十年,后来去了雅虎研究院,很长时间都是做技术方面或者基于学习方面,很偏学术性研究。早在十年前我感觉机器学习不错,很有意思,现在我突然发现,全世界都在讨论AI。后来在大公司待了很多年,去了Uber。技术没有最好的,只有最适合的,这句话我非常认同。产品设计追求简单、追求便捷,在过能的场景很丰富,追求各种场景、各种很有意思的玩法,这可能和两边的技术的场景也很不一样。这是我回国以后最大的感触。

我们都知道现在是AI的时代,AI技术其实已经几十年了,大家都说的神经网络几十年前也就有。之前我们做研究都是谈论基于统计做机器学习的东西,虽然机器学习理论或者统计的东西都还在,但是今天大家讨论的都是深度学习。有几个原因,一是数据非常多,尤其是国内。我觉得在中国,国人对于手机或者移动互联网接受程度非常快,甚至大家跨过桌面互联网的时代。国内很长时间没有电脑,突然手机普及了,每个手机都可以上网,而且中国人非常擅于把生活场景搬到移动互联网。机器学习技术成熟很多年,深度学习方兴未艾。当然计算能力必不可少,同时还有场景,技术说了很多,还要落地,给用户服务,还要变现。

信息流,在座的来自各行各业或者来自不同的技术领域,对信息流不一定了解。信息流是否有明确定义呢?我不知道,这是我个人的体会。它以推荐为基础,将信息呈现在用户面前。过去大家找信息是被动的,我知道要什么。但是有信息流产品,你不知道你要什么,或者我们都不知道要什么,我们推荐一些东西给你,希望在你不断的反馈和用户的行为中探索你真正想要的,也许你不清楚,但是机器比你更清楚。内容丰富多彩,我们知道今天的信息流,广义上已经远超过新闻或者资讯的新闻,过去是要闻、新闻、大事件,今天泛娱乐和内容形式,你要看图片、新闻、音频、视频、笑话,什么都有,付费内容、知识问答。场景也是很丰富的,早上起来要看重要新闻,很自然的,甚至不需要打开手机都可以,紧急大事件我第一时间告诉你,最新的常委亮相告诉你,路况告诉你,天气告诉你,等车打开信息流,我告诉你,追星、追剧都是一站式服务。还有信息选取是被动的,你不告诉我要什么,我主动猜。本身定义人与信息的连接和关系。

信息流为何崛起?

为什么信息流会崛起?大数据+算法+计算力,但是要有场景,非常丰富和适合的场景,这个要以信息为AI驱动,好像我们说AI,AI可能沾边,贡献10%、20%,但是信息流产品是100%信息流定义,每个环节都是由AI驱动的,不光是你看到,最终你用的产品。包括内容生产、内容理解还有用户反馈,其实完全由AI决定。还有很多产品,它也许是机器学习或者深度学习驱动,比如无人车,它有硬件制造、路况和当地政府合作,其实很麻烦,门槛很高,但是信息流产品,它纯技术人员就可以完成。

信息流是这几年比较火,信息流之前我们怎么获取信息?我们再回顾一下,我们要看东西去搜索引擎搜,你明确知道要什么。比如美国总统是谁,我想知道去搜。要么是门户网站,编辑已经编辑好的页面,今天的要闻十条,我访问或者你访问。要么我知道这个网站,我很清楚,我去买东西去什么网站、看新闻去什么网站。它更多是主动的、直接的信息获取手段,而且效率很低。比如用搜索引擎,我们觉得搜索引擎很高,但是你发现要单点,你去一个地方要去一个网站,然后搜索。信息单一、效率低、千人一面。信息流的优势是理想化的AI场景应用,是+AI,不是AI+。因为有少部分人生产少量内容,到大部分人生产大量内容,实际上需要AI技术。算法永远可以复制,大家都会发Paper,甚至买云服务,但是数据是不合作的。很多公司是做云服务,卖给你技术,永远不卖给你数据。如果今天一款产品可以得到很多数据,这是最珍贵的地方,其他的东西都可以想办法解决。体量很大,一般都是几千万。同时商业变现,我觉得这也是很重要的一环,你的产品不能只叫好不叫做,很多用户在烧钱,没有意义。因为信息流对用户行为的丰富采集和对用户的深刻理解,可以做定向广告,让变现很容易,而且可以想像产品形式很容易插入最传统的展示广告。

信息流的截图,以网易新闻为例,你会看到信息流本身有这种频道,我们叫头条,其实是综合体,把各种信息的形式插入里面,我们有置顶新闻,还有很重要的新闻。还有一些热点新闻,全世界的热点新闻。然后下面还有我关心的内容,恰好是有我的,不一定是我的,也许是很多人都喜欢的,也许是我的,就会推出来。下面是广告。这个页面几乎覆盖了各个场景,它有热点,也有个性化,还有变现的方式,有图片和文字,因为受限,你往下拉还有视频。上面有分类,通过个性化,视频关心,把食品放在第二个,还有垂直频道,你是体育迷,就给你推体育。

信息流本身的体量是非常大的,也看到很多家大公司入场,但是每个产品几乎都有几千万的,排名头部的有数千万的用户。数千万的用户,如果每个用户的经营时长是几十分钟,这样就会产生大量的行为数据。生产端每天也有几十万的内容,这是各种各样的形式,首先有少量的原创,这是最独特的地方,很多地方没有原创的能力,只能去外面爬和收集信息,质量往往不能保证,同时还有海量的自媒体内容,你会发现智慧在民间,比如快手,几乎完全是民间创造,网易也是自媒体平台,大家会上传大量原创内容。还有很多其他形式,我们有社区,这是网易的特色,包括评论,还是很有意思的,里面本身有很多具体内容。还有直播和线下活动,以客户端为载体,把所有的信息、表现形式穿在一起。海量用户加海量时长就创造海量数据。

信息流产品本质

信息流的本质是什么?重新定义人和信息的关系,解决信息过载,今天信息太多,信息很多,搜索引擎太慢,其他的方式,如果自己找,也很累,就是信息流把海量的数据库把你最想要的东西展示到你面前。信息获取更加便捷,还有很多泛娱乐,帮你填补碎片时间。我们谈了信息流产品的本质,一个信息流产品怎么才是成功的呢?还是那句话,用算法以AI为驱动来预测你的需求,无非是何时何地,这里面有三个要素,你的人,就是你的用户加上你的地点和你的场景,我觉得场景包括时间和地点,来预测你的需求,过去是人找信息,过去是单点的需求,现在是全面个性化的需求,每个人的信息需求,每个人肯定不一样,每个人在不同的时间点、不同的地点也是不一样的。

信息流产品的关键步骤

信息流产品有这么几个步骤:

一是内容的生产、加工和过滤,你内容拿过来,不管是图文还是其他,要理解这个内容讲什么,质量的好坏,甚至说低俗程度怎么样,我才能更好的做推荐。你理解用户,并且把最想要、最合适的内容,在合适的时间推给你,即便你想要,时间不合适也不行。比如白天工作很忙,我给你推一个八卦信息,你也不会看。晚上我推给你,你可能觉得会看一看,这就是很典型的场景化的应用。收集用户反馈,改进模型,精准定向广告。我想强调的是,这个事情是非常综合、非常复杂的,很多人觉得信息流,它涉及内容的生产、消费,然后这种闭环,生态的建设,本身是很不容易的事情。这些环节,比如技术很好,你没有内容,这也不行,内容本身就是生态,是很长的过程,是难度很大的事情。

二是内容形式,我再具体的阐述一下,里面我个人是这么分类的,比如有文本、图片、音频,还有其他的拓展,就是知识图谱,这是内容本身。文本,有人物、标签、信息点,文章质量、文章热度。还有图片、视频,有清晰度,很多东西技术难点没有那么简单,清晰度,视频的比特率就可以,码率就可以,视频本身很不清晰,只是把不清晰用高清晰的形式表现出来,还是不清晰,这是算法的技巧。包括类别和语义,我们希望可以做到,但是不能完全做到,这个视频有谁,到底讲什么事情,有谁,这是很复杂的。否则我推就根据视频的标题,这可能不是很准确。包括用户体验,是不是有广告,是不是插入二维码。还有我们不知道的问题,转化为已知的问题解决。

三是内容处理,这个层面会提到一些,分析、处理、挖掘,这里面技术主要是用NLP、Computer Vision、知识图谱、Data Ming。用户本身我们需要了解他的用户需求和兴趣点,比如说这几个维度,有人习惯看图文、有人喜欢看视频、有人喜欢看短内容、有人喜欢看长内容,每个人的需求不一样,属性也不一样,有人喜欢看要闻、有人喜欢看娱乐、有人喜欢看八卦,其他的场景需求也是,我刚才强调了有天气、路况,如果你可以预测出,他这时候要出门,想看一下路况,或者给他发一条天气信息,他的关注度肯定很高。

四是用户画像,有这种行为画像、上下文画像、人口属性画像,有些我们可以采集到,有些要推测出来,用户行为,本身可以采集到,上下文有些自己的行为数据的积累,人口属性,也许你自己推测,也许通过第三方合作,毕竟今天的数据交换、数据共享的服务也有,你可能推算出来大体是30岁女性,城市白领,也可能不一定准确,可能别的公司也有这种很精准的服务。他们可能要求注册者必须提供这些,更精准的数据可以帮助你更好做推荐。

谈完内容、谈完用户,本质还是算法,算法是基于用户兴趣的推荐引擎。算法需要用户建模,我什么样的性别、什么样的年龄、什么样的收入,推什么内容,这是用户属性。其他的用户行为,通过阅读历史、兴趣点和时间推一些东西,还有上下文,甚至网络条件也很重要,4G和wifi和3G条件下,时好时坏推什么内容。这个时间他对高清视频推很大的,他不点,因为网络不支持,不是没有兴趣。

推荐系统架构,用户画像、检索、数据流、实验系统都要,你需要实时数据流,用户点击马上就应该更新你的模型,我这秒点这个新闻,你下一秒就应该给我反馈。我点体育赛事,你明天推,可能已经晚了,因为比赛已经结束。最后还有效果评估。

信息流生态培养

重点谈一下生态的培养,信息流不是纯信息流,需要生态的培养,来组织好用户和组织好内容,用户一方面是客户端用户,另一方面是自媒体号用户,就是网易号用户,现在都很重视生态的培养。内容是起点,用户是终点,形成闭环,互相促进。比如某个影视剧在某个时间段很火,鼓励生产者都做生成。这个是动态的,包括一些兴趣点可能是临时的,也有一些长期的,比如NBA之类的,可以放在池子里反复推荐,鼓励大家更好做这些事情。大量内容来自PGC/UGC,UGC是用户生产,看起来质量不那么高,但是有些个人观点很好,有很多量,能达到个性化、千人千面的效果。包括内容创作要审核、过滤,毕竟接口开放给大家会有各种各样的内容涌进来,泥沙俱下,要把这些好的内容挑出来,把糟粕过滤出去。希望完全机器做,如果风险很大,还需要加一道人工。最终用户看到的用户体验一定是最好的内容。人工标注来促进人工智能的发展,这个我们很熟悉,一开始数据不够,人工标,标一阵,数据可以了,反过来就不需要人的工作。

信息流未来发展趋势

再谈谈我对信息流未来的发展变化趋势判断,形式越来越多样,图文、视频、音频,今天看到音频不是很多,很多是第三方的,只做音频内容,信息流这种瀑布流的形式,我觉得内容是不拘一格的,音频一定会出现,知识问答也会有,知识问答今天很多公司已经在做了。实际上只要有用户、有流量、有兴趣点、有热点,为什么不做问答?一个是把内容形式变得更多样,另一方面社交属性,一旦做问答,可能就把用户的互动性建立起来,其实就是往社交方向引导,很多人想能不能做社交,黏性越来越强。当把所有生活场景覆盖掉以后,你发现离不开这个产品,这个产品也许变成你一站式的服务,也许将来不需要搜索引擎和第三方,通过这个就可以获得你想要的所有信息。

场景更加细分,刚才提到一些,要做个性化、做推荐,为达到更好的效果,肯定要把这些列出来。有些东西机器可以分别出来,有些需要在产品思考,要真正思考一下用户是怎么用这个产品。我大体罗列了一下,早上起来,我给你发一些东西和晚上起来发一些东西,东西不一样。晚上是一些沉淀的东西,可能是一些精读,体育赛事,如果有体育赛事,关心体育赛事,一定是第一时间push,明天看可能没有意义。有时候抱怨手机收到信息太多,但是你关心的体育比赛,推给你,你一定是放在重大新闻。还有追剧,电视上热播的剧,我们推给你,甚至精彩片断,相信你会点。打发时间,等车的时候拿出来,我们判断出你在车站,拿出来就是打发时间,我可能推一些泛读的东西给你,还有路况信息。

AI本身的角色会发挥更大的价值,这无需多说,我很看好AI在信息流的应用。随着内容形式复杂,必须通过AI。

AI的应用价值

刚才说AI很泛泛,机器学习和深度学习具体能干什么?我们知道视频、图像的分类,这个不多说。深度学习CNN、RNN、ETC很多,这方面进展很热,我自己也看。明星脸识别,看视频,如果视频关于明星,识别出来推荐给合适的人还是可以做到的。语音识别,音频拿过来转化为语音,这包括不同地区的语音。三俗、不适内容,这个很关键,其实很多内容,我觉得并不适合推给大家,或者不适合在很多场景下推给大家。很多很低俗的内容,今天看来,这个生态是其中一部分,今天很多人为了拿到流量,故意生产一些不太好的内容,或者比较低俗的内容,也许一部分人推给他不介意,但是很多人介意。如何挑这些内容出来,是很困难的。这种不适内容和低俗内容如何定义,还没有很好的定义。

还有比较传统的理论,迁移学习,今天你点很多图文,明天我突然上马视频项目或者音频项目,没有用户数据,如何快速的把你在其他领域的积累,马上被模型迁移到另外的领域,很关键,因为短视频很火爆,如果今天说推短视频场景,我花一年时间积累五百万用户数据做好的模型,已经来不及,必须把现有的信息扩展到新的。

智能写稿我觉得也是很好的方向,今天很多场景下,写稿需求很紧迫,比如体育赛事和重大新闻和重大自然灾害,大家比的是谁快、谁准确,如何能在已知的现有条件下,让机器人把稿件准确写出来,并且传播,这是我们的核心竞争力之一。有时候人可以盯着,但是人总有失误的时候,可能会慢一点,人写又很慢,如何用机器更精准的把信息真实表达出来,并且传播,我觉得是未来的方向之一。

以上就是我演讲的全部内容。谢谢大家!

————————

以上是51CTO.com记者从一线为您带来的精彩报道。后续我们还有更加精彩的独家报道,敬请关注。

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

责任编辑:张昂 来源: 51CTO
相关推荐

2017-11-30 09:59:14

2022-08-23 14:00:48

数据管治

2018-06-13 19:36:58

IBM、AI、人工智能

2023-10-18 07:09:31

AIGC浏览器

2022-11-10 08:48:20

开源数据湖Arctic

2014-08-18 13:44:22

易传媒

2017-04-13 12:01:54

数据监测信息流

2017-07-26 18:49:00

京东机器学习人工智能

2010-11-18 12:36:13

距离矢量协议路由交换

2017-12-01 12:35:57

信息无障碍

2010-07-07 12:14:01

路由选择协议

2017-07-07 16:11:40

2011-11-07 09:50:30

2017-08-06 19:43:31

2024-03-08 08:50:01

信息流系统缓存

2023-05-11 07:42:04

doop漏洞

2023-03-07 10:08:06

2012-03-13 13:45:32

元年软件

2014-11-27 11:17:39

神州信息昆山智慧教育
点赞
收藏

51CTO技术栈公众号