某CTO眼中的WOT2015大数据技术峰会:干货应接不暇

原创
系统 系统运维
11月28、29日,WOT 2015大数据技术峰会的主办方51CTO按照行业领域设置分享专场,我感觉这个做法的体验很好,讲师们的演讲水平真心不错。本文是我的分享笔记,内容主要是基于我本人已有的知识体系的信息增量部分,要么是大神们现场讲到,但没有写到PPT中的关键信息,要么是我认为非常精彩、信息量大的PPT截图。

上半部分文章推荐:资深粉丝眼中的WOT2015大数据技术峰会:干货应接不暇

9.《京东搜索和618实战》刘尚堃,京东商城推荐搜索部总监

  强烈推荐这场分享!现场的反馈非常好,分享结束后分享人刘尚堃被众多同学团团围住,被问各种问题。直到最后大会组织方需要分享人去拍采访视频,热情的同学们才离开。

  详细内容,大家自行下载PPT。

  10.《AB测试高效实现全数据驱动产品优化》王晔,北京吆喝科技有限公司CEO

  这场分享属于典型的技术科普,将AB测试娓娓道来。也顺便聊了一下他们的产品,集成了灰度上线、小流量、一键回滚、一键发布,支持定向试验。我个人感觉这是一款很不错的产品,一群专注的人,一起做一件专注的事。

  不过我也有一个问题:这款产品是否有能力发现流量中的高仿真爬虫流量。我之前在电商的经验,以及前一天京东刘尚堃也提到他们遇到的问题,总会有一些高仿真用户行为的爬虫出现在AB测试的结果中;如果不能排除,则会直接影响试验的结论。

11.《云计算企业服务创业感悟》王璞,数人科技创始人兼CEO

  做技术出身的王璞,现在创业做CEO,我这个同是技术出身,现初入创业大门的后来者真心佩服。几个关键点记下了:

  CEO要有很强的融资能力

  toB方向有几百位投资人,每位投资人各有各的秉性,各有各自的投资风格和手法。像拜访客户一样拜访投资人。

  A轮到B轮不用超过1年

  前期发展越快越好

12.《投资人眼中的技术创业者》王金山,IDG资本投资经理

  印象很深的几个点:

  常见减分项1:炫技术。技术是手段,而非目的。

  配图太形象了。

  杀个人有那么麻烦么?像这张图一样,把所有见过的武器都堆在一起。

[[158244]]

  还是上图一样,来直接的!

[[158245]]

  常见减分项2:完美主义:在正确的时间推出80分的产品。

  软技能:生动的“叻”字:能做也能说。

  销售能力:

[[158246]]

  #p#

13.《大数据挖掘下的在线教育创新价值》李明小,51CTO学院技术部总监

  这场分享我没有全程听到,后半程才到场。

  据我所知51CTO学院的业务做得非常好,无论学员规模还是讲师数量,都在高速增长。今年在51学院的平台上已经有年收入过百万的讲师了,不是讲师自己的年薪,而是讲师在学院平台上的收入哦!是不是有小伙伴磨拳霍霍了:)

  当有学员没有按时间参加活动的话,系统会自动感知到,相应信息会通知到辅导员,辅导员会跟上去交流沟通,了解到原因,再辅导学员学习,反馈给讲师改进教学质量。

  之前都是耳闻,这次听了李明小的分享,才不得不佩服51学院超强的运营能力。

14.《大数据时代的数据资产管理》程永新,新炬网络执行副总裁

  目前大客户都是国企

  有一张图,数据规划、开发、集成、运营、存档

  企业中,数据要有专人管起来。这一点,高度同意!

  数据资产-管理平台架构图

  增值:对内强化能力

  变现:对外呈现价值

  关于大数据应用的跨界场景

  数据价值:与传统行业的跨界合作。

  案例:航空、电信、保险、银行几家数据互通、脱敏,为主营业务合作。

  干货心得:区域化的数据跨界交换,找到三五个partner,比理想主义的全球化有用的多。

#p#

  15.《大数据点燃营销---百分点精准营销实践》苏海波,百分点数据挖掘部研发总监

  目前,业内真正应用大数据比较充分的应用是:推荐/营销/征信。

  百分点推出了营销管家,此处见营销管家的业务流程图。

  多用户触点打通,跨屏投放,整理企业一方的数据沉淀为用户群体,丰富的营销模型,应用微观层面的用户画像,形成用户建模后的数据闭环。

  目前百分点5000-6000千万的日活跃UV,3.5亿用户画像,1亿商品记录,分类体系比较准确,准确度达到95%。

  举了一个用户年龄的例子:

  通过填写真实年龄的用户数据,预测准确度达到85%后,再将所有用户均打上年龄标签。

  消费层级分为9层。之前尝试过3层,但发现聚类后,某一层如低价格区间的快消品会聚到很厚的一层。分为9层后,类间的差别比较明显。

  因为市面上的每个DSP能力各不相同,百分点搭建了一个自动对接所有DSP媒体的DSP,并在分钟级将数据报表拉回来。因为百分点之前在用户画像方面的积累,所以转作营销时,几个实际案例中都大幅地提升了投放效果。

  目前百分点正在与各大公司互相“聚合”数据,也算某种意义上的数据流通、数据互换。比如最近合作的公司就有华为这样的大体量公司。

  为传统公司收集第一份数据时,打磨出了一套数据整合工具。

  百分点不愧是行业内在大数据领域的先行者之一,从2011年拿到A轮融资,到2014年拿到D轮融资,并发布BDOS-大数据操作系统,发展很快。尤其在2014年趁着政企大推大数据的趋势,发展势头迅猛。

#p#

  16.《广告大数据核心技术剖析》卢亿雷,AdMaster副总裁

  广告系统的几个大数据运营难点:可靠性、可用性、扩展性、高性能、安全、性价比、监控维护。

  推荐关注Flink

  目前Spark的失败率高,如果是小时级的报表,推荐MR即可。

  ElasticSearch/Druid(pinot)

  也曾尝试过100台MongoDB,但最后去掉了。最终用SSD来解决复杂查询的问题。

  解决多值列问题,推荐Pinot/ES,用于区别用户画像在多个“行业”的场景数据。

  可以看看ADMaster的数据处理流程,应该是很有参考意义的。有一些近年来的改进,好在今年来改动不多。

  广告投放作弊金额,今年达到63亿美金!作弊流量中75%流量是机器人。

  目前ADMaster与在国内有业务的世界500强中的70%有合作,广告展示的监测。

  卢亿雷这位技术大神恐怕是在中国互联网圈内大数据技术分享频率最高的人之一,几乎所有大数据相关论坛都少不了他的身影,也是业内著名的交际花之一。

  我本人曾有一次与卢兄两个人在北京5号线地铁里聊技术、聊行业,聊了2个多小时,站的腿都酸了,都不忍离开。

  17.《大数据质量保障》钱承君,百度测试经理

  个人简介:500人的大搜团队中,100人是做质量保障。

  目前的各种开源技术,很难解决百度遇到的问题,比如几万-十几万机器在同一个机房,大数据量下的集群,很可能会跨机房。开源技术几乎不考虑跨机房的问题。

  几百台服务器有闲置资源,不算大事;但几十万台服务器,如果有闲置资源,就太可惜了。

#p#

  5分钟级别的反作弊体系。

  复杂系统的50%以上的代码是容错代码。

  比如有磁盘缺油了,在某个地方的磁道访问会变慢,这时会引起上层应用代码的问题。还需要在线下环境中,比如30分钟内复现问题,定位问题根源,解决问题,再上线。

  能定量地回放、可复现问题,在百度的大规模数据集群,各种低频事件一定会发生。

  Google的做法则是线上线下完全一样,物理上也完全一致。比如100台线上机器,100台线下机器。这样,大幅降低测试/线上环境不同带来的异常。

  Facebook也会遇到有状态回滚和无状态回滚。对于有状态的回滚,仍然是头疼的问题。曾经问过Facebook的技术大神,遇到这种问题怎么解决,大神思索了片刻的回答更加神:you need very very be careful !

  百度的做法是用多个面的测试代替一个体的测试。

  程序走岔路后,一定是唯一的log标识来表达路径的选择。

  数据质量保障:

  数据log规则细化:按比例,当有一天某个规则下的流量发生异常,监控报警。以及报警系统自动逐级升级,从负责的工程师,到经理。

  钱承君分享的精彩结尾:“我是做测试的,今天给各位开发的同学做技术分享,大家还都听的这么hi,我特别开心”。

  钱承君分享时语速很快、风格特别风趣,是整个周末我听到的所有分享中最有意思的。这场听下来,大涨眼界的同时,人也精神抖擞了很多。没想到听钱承君的分享,还有这个功效:)可惜的是他用他最快的语速,也只讲了PPT中的一半内容;更可惜的是他现场讲的东西,80%都不在PPT上,没听现场的同学很难从PPT倒推出他的分享干货了。

  18.《实时竞价(RTB)广告中的数据和算法》林招,品友互动数据部总监

  品友林招的本次分享是典型的RTB科普性分享,很多高技术含量的细节显然没法在45分钟之内展开,这场分享中我主要记录一些很有启发性的数据。

  QPS:30万次请求/每秒,2015年9月。每次请求处理时间100ms之内。

  200亿请求/每日 10亿网页 20万网站 60万主流APP

  Redis集群30T

  PC人群400亿,APP200亿

  至此,我们看到品友DSP的数据是不是有点“大”的味道了。这样的数据访问规模,每秒30万次访问、每日200亿次请求,显然已经远远超出了非广告领域的绝大多数企业接触到的数据量。而国内DSP的领先者再比较国内的广告领域领头羊百度大搜、百度网盟、360、腾讯广点通的数据量,恐怕又有较大的数据量和数据访问量上的差距。

  广告时间:基于品友DMP的CTR/CPA的效果大幅提升,本质依赖了品友获取了更多跨站的用户行为。

  #p#

算法包括:LR、logitboost、BPR(Bayesian Probit Regression) FTRL DL。

  算法这块基本没有展开,可惜了。毕竟CTR与用户标签是DSP最核心的技术。

  全局最优规则,DSP的流量不是自己的,所以跟百度情况不一样。

  遇到挑战:冷启动、脏数据

  后记

  在深圳的短暂周末很愉快,深圳天气也很好,痛苦的是周日晚上我回到了雾都北京,赶上了雾霾爆表,整个人都不好了。现在的天气还不错,12月1日晚的大风吹走北京的大雾,让几乎整个11月都没见到晴天的北京又见到了太阳。

  另外一个收获是我在本次WOT大会上与3位曾经的“黄金一代”成员再聚到了一起,微博推荐广告技术总监王传鹏、百分点技术总监苏海波、京东推荐搜索总监刘尚堃。你能想象到2010年左右这几位技术大咖在一支团队中写代码么?你能想象出那支曾经的“黄金一代”的团队战斗力么:)

  最后一张,娱乐一下:

  作者简介:

  傅强,2015年年中作为技术合伙人加入九枝兰,为企业提供在线营销的整合投放Saas服务。2006年-2015年任职当当,从工程师、架构师、高级总监到技术副总裁,从技术的维度,见证了中国电商时代的风起云涌。

责任编辑:火凤凰 来源: 51CTO.com
点赞
收藏

51CTO技术栈公众号