社区编辑申请
注册/登录
CTO训练营胡伟:百度大数据布局旅游、金融、医疗领域 原创
新闻
百度研究院大数据实验室数据科学家胡伟在由51CTO高招主办的“CTO训练营第四课百度技术专场”做了主题为“百度大数据在旅游、金融及医疗领域的应用”的分享。从技术角度深入地剖析了百度大数据在当今三大热门领域:旅游、金融、医疗的应用。

百度研究院大数据实验室数据科学家胡伟在由51CTO高招主办的“CTO训练营第四课百度技术专场”做了主题为“百度大数据在旅游、金融及医疗领域的应用”的分享。从技术角度深入地剖析了百度大数据在当今三大热门领域:旅游、金融、医疗的应用。

【讲师简介】

 

胡伟 百度研究院大数据实验室数据科学家

百度研究院大数据实验室数据科学家,分别于2005年和2011年获西安交通大学学士及博士学位,2009年至2011年在麻省理工学院认知科学实验室任访问学生。加入百度前,曾在微软亚洲互联网工程院从事搜索广告和机器翻译相关研发,拥有多年大规模机器学习和数据分析经验,研究兴趣包括自然语言处理,计算广告学,深度学习等。

百度作为全球***的中文搜索引擎,沉淀了其他传统数据平台无可比拟的海量数据。基于大数据分析技术,百度开放了大数据引擎,与政府、医疗、金融等传统机构率先展开合作,并逐渐向各个行业渗透、扩展。胡伟老师本次的演讲涵盖了百度大数据技术在旅游、金融及医疗领域的探索,以及深度学习技术在大数据分析中的应用。

百度大数据在旅游领域的应用

应用实例

2014年9月份某旅游景点出现游客爆满滞留,带来了很大的安全隐患,旅游人流量预测问题再一次引起了全民的关注。

旅游人流量预测一向是旅游行业的重大课题,尤其是对旅游管理机构以及目的地企业而言,对未来做到“心中有数”,无论对旅游行业宏观把握和调控,还是对目的地营销活动的引导,以及对旅游人流流向和流量的调整,都具有很大的现实意义。百度大数据对此问题有专业的工具来解决。

通过百度关键词搜索日志可以发现,事发前一个周末,这个景区有非常高的搜索量,并且搜索的用户都是周围的居民,这说明,这些用户去的可能性极大,进而可以预测到未来的一两个周末,这个景区的人流量会很大。这就是基于时间和空间的一个简单预测。

技术要点

百度大数据来源主要有两个方面:一是网民的广义搜索行为;二是百度的LBS数据,这些数据基本涵盖了游客旅游活动中和外界的信息交互行为,同时旅游业的信息密集、产品固定、移动消费等特点,无疑很大程度上契合了百度大数据的特点。

 

图1:时间序列预测的基本方法

除了季节性,天气、是否节假日等因素也影响着人流量,所有这些特征融合在一起就可以做出一个比较准确的预测。如下图所示。

 

图2:景区客流量预测

蓝线代表搜索日志量,包含用户搜门票、路线等信息,红线代表实际旅游人数。这是一个传统的模型,即用***个时间点预测第二个时间点,依此类推。

基本模型如ARMA,ETS等过于简化,使用范围有限,并且,由于时间序列的特殊性质,标准的机器学习模型难以直接应用。这就要求有更先进的模型来进行更精准的预测。即:动态空间模型State Space Model (SSM)。

 

 

图3:状态空间模型

简单地说,y是观测的人数,当我们要预测y时,影响y的有很多因素,即内部状态,如天气因素、搜索因素、GPS定位的人数等,此模型可以把这些因素都隐含进去,然后通过动态的方式来预测每个时间点上的人数。这里的时间序列,是一个动态的模型。

目前,百度已经有了成熟的产品上线:trends.baidu.com

 

图4:旅游预测与状态空间模型

百度大数据在金融领域的应用

首先,胡伟老师明确了一点:我们做的不是风控方面,而是投资方面。百度大数据在金融领域的应用主要基于两种形式:用户数据分析和高斯图模型关联挖掘。

用户数据分析

用户关注某个事物或者心里想什么,会在互联网上留下一些信息,比如搜索某个公司、新闻信息,或者直接搜索某支股票,这些都可以或多或少的反映出他的投资倾向。

 

图5:用户数据分析

这张图显示了一个很有意思的现象:哪个公司的搜索率高,往往这只股票就会跌。这是什么原因呢?用户其实不会平白无故的搜索一只股票,或者说每个公司的搜索量应该差不多,但是当出现一些负面新闻时,比如破产或者法人出现什么问题,就会有很多人搜索。这一搜索,其实已经相当于一个预警,这个公司的股价有可能会受到负面消息的影响。

金融工程中的数据分析多基于小数据(高频交易除外),模型评价主要以回测模拟实现,无法直接应用机器学习算法。百度金融大数据基于Query的等权重指数,可以很清晰地显示出这些变化特征。

高斯图模型关联挖掘

 

图6:高斯图模型关联挖掘

高斯图模型(Gaussian Graphical Model)

 

其中,S为样本协方差矩阵,X为所求的偏相关系数。基于高斯图模型挖掘出的股票联动图如图6所示。

具体来说,各个股票之间会有一种内在关联信息,比如说行业中上下游的关系,钢材、石油、化工这些都会有一定的关联。这种关系有的比较直观,有一些比较滞后,百度通过数据挖掘的方式找出了这种规律,进而对整个金融市场做了一个全新的版图。

百度大数据在医疗领域的应用

现状

艾瑞咨询2015的调查结果显示:有89%的用户生病***反应是进行互联网咨询,百度疾病、症状类的检索量是平均每天4亿。

医疗资源比较匮乏,挂号排队等是当今医疗行业的现状,百度内部很早就开始关注如何用新的技术手段改进这一现状,百度采用的方法是机器学习。

深度机器学习

传统的数据挖掘时一般用文本分类,即情感分析:当客户用一段话描述一个症状时,会被打上标签,根据这些标签,建议用户去哪些医院或者科室检查。这种传统方法的缺点主要有两个:一是BoW丢失了词序等重要信息,二是无法对复杂的非线性关系建模。Word Embedding的缺点是运算量大,embedding过程损失原始文本信息。

百度采用的是基于稀疏特征的CNN,具体来说,就是让机器自己找出数据内在规律,不对其做人工设置。并且,采用GPU加速,比CPU快了10倍以上。

 

图7:基于稀疏特征的CNN

通过搜索流量来获得用户疾病数据,通过人工智能有效地挖掘相关数据,百度的疾病诊断和科室诊断都达到了很高的准确率。

***,胡伟老师例举了一些上线产品:百度健康PC端、百度健康移动端、百度医疗助手DuNurse。

结语:

百度大数据建立在搜索的基础上,拥有庞大的用户群和很强的用户黏性,使用人工智能挖掘技术对数据深入剖析,把智能硬件资源整合,这些优势都驱动着百度一步步向各个行业渗透。

 

责任编辑:赵立京 来源: 51CTO
相关推荐

2022-05-11 15:08:52

驱动开发系统移植

2022-05-27 10:00:06

C++游戏引擎

2022-06-10 07:45:09

CentOS国产操作系统

2022-06-22 09:19:55

HDC鸿蒙ADB命令

2022-03-24 23:06:25

大数据技术应用

2022-06-16 15:42:16

攻击面管理ASM

2022-06-07 11:16:51

云原生人工智能运维

2022-05-26 15:04:46

大数据建筑能源管理

2022-06-28 09:34:24

可视化Python代码

2022-06-20 09:01:20

半导体芯片

2022-05-31 10:30:16

元宇宙数字人高清渲染

2022-05-24 15:29:48

人工智能大数据心理测量

2022-06-17 18:32:54

开源大数据数据调度

2022-06-24 10:16:59

Python精选库

2022-06-02 15:28:42

网络安全信息通信数据保护

2022-06-30 10:22:26

K8s可观测Prometheus

2022-06-08 13:25:51

数据

2022-05-19 15:36:57

大数据

2022-06-17 18:49:25

pythonexcel

2022-06-15 16:16:21

分布式数据库鸿蒙

同话题下的热门内容

月活 12.8 亿的微信,海量请求下是如何防止崩溃的?裁员真能拯救中国互联网?都怪二维码,造就了网友们的社死现场...李飞飞划重点的「具身智能」,走到哪一步了?新出生的机器狗,打滚1小时后自己掌握走路,吴恩达大弟子成果聊聊七个常见的智能汽车技术六月大事记:错过的干货全在这揭秘6G时代网络架构!六大设计理念,三体四层五面一文看懂

编辑推荐

斩获BAT技术专家Offer,他到底经历了什么?支付宝即将下线收款业务:2018年1月1日起正式执行,网友炸锅了!我活着从柬埔寨技术“魔窟”逃出来了…甲骨文云平台全面升级,助力客户稳步上云一文看懂Java收费 附可替换方案!
我收藏的内容
点赞
收藏

51CTO技术栈公众号