为什么基于机器学习的产品很难见到?

大数据
那些漫天飞的所谓大数据分析报告,不是数据挖掘,更不是机器学习。类似本文所配题图是不是经常出现在大部分机器学习的文章中?事实是,完成这样的工作,不需要机器学习,只需要简单计数器,青鸟集训几个月的分分钟搞定。

大数据甚嚣尘上了三四年,如今创业不讲机器学习和数据挖掘都不好意思跟投资人介绍。但现实情况是,你在市面上见过多少套已经产品化的基于机器学习的软件?凤毛麟角。恐怕很多满嘴术语的从业者都不明白,作不到预测的机器学习都是在忽悠。而能实现预测的产品,说难不难,可是门槛不低,能做出来的创业团队不多见。

机器学习

【本文中人称指代纯粹为修辞手法,部分文字有嘲讽含义,夸张更是必不可少,不喜勿入。】

那些漫天飞的所谓大数据分析报告,不是数据挖掘,更不是机器学习。类似本文所配题图是不是经常出现在大部分机器学习的文章中?事实是,完成这样的工作,不需要机器学习,只需要简单计数器,青鸟集训几个月的分分钟搞定。

你觉得深度学习很牛啊,连图片和声音识别都搞得很好了,搞些文本识别有啥意思。可很少有人坦白告诉你,到目前为止,深度学习尚未在自然语言处理中有突破进展,NLP比图像和语言识别实际上更难。图像和语音识别出来是啥?还是文本。现在企业里至少95%以上的重要数据还是文本,做产品的能不去覆盖?

现在做数据挖掘和机器学习的人员供不应求,BAT3四处高薪挖角,用过几个开源库的就号称是熟手,价码高得离谱。一提机器学习不就是聚类分类嘛。“聚类我懂啊,k-means天天用。”还不说让你改进算法,你真尝试过用它做个产品出来吗?拿个开源的模块攒出一个Demo,到客户那里实测。一个相同的测试数据集,产品跑三遍,聚类结果没有相同的。用户当时就蒙了,相同的数据还能有不同结果?你振振有词地解释:“k-means算法就这样啊,运算前要猜分类的个数,干脆就给个随机数,另外,也得给几个随机初始中心点,这样下来,每次跑聚类结果不一样太正常不过了。这是你不懂。我在哪哪哪就是这么用的!”用户合情合理的对产品常见的基本要求一下就被你归到无理那类去了。

互联网公司自己使用的机器学习引擎,都尚未产品化,甚至连产品化预期都没有。隔段时间修修补补,换一个训练和测试集,改两个算法细节,调三个参数,这些在产品研发里十分忌讳的行为司空见惯。反正系统也不会拿出去用,一般用户都只能接触到一点点运算结果,学术界也还在摸着石头过河,是不是有稳定结果也无所谓,财大气粗的deep learning随随便便搞上千个计算节点,只要召回率有改善就是极大的胜利。在这样氛围里工作的工程师出来自己创业能做出产品来吗?

那个知乎上得票第一的回复说,看完公开课的水平已经足够应付湾区的工作了。是,完全同意,如果你只想当一辈子底层码农,只想当大公司大项目里一颗可有可无的螺丝钉,不想有机会主持一个产品的设计和实现。要知道,那些大公司里也有很多研究统计和AI科班出身的。

想做机器学习的产品,不会调算法那是不可能的,基础的数学不过关根本理解不了算法还谈什么调整。很少有人能告诉你在某个特定场景下针对特定数据集用哪个算法更合适,这是个全新的领域,需要你自己去理解业务特征并选择试验不同算法以获得最优结果。如果想开发一个优秀的机器学习产品,你需要一个优秀的产品+设计+科研+工程师团队来解决各方面的细节问题:从机器学习理论、到系统构建、到专业领域知识、到宏观产品思路、到技术细节实现、到图形界面设计等等。

是,更多的数据胜过更好的算法。你要做网络行为异常分析用以侦测攻击,觉得采集了大数据就已经胜利在望。可是很不幸的,你手里的大数据基本全是正常行为,异常只是很少数。然后,你意识到正统的分类算法对类别平均分布的训练数据学习效果好,对这种不平衡的训练集很容易出现偏差(能意识到这点已经不容易了,常见的都是直接调开源库硬上)。这时候不懂理论怎么搞?还有,海量数据的特征维度太多,你到底应该选哪些特征用以计算?接下来让你构建一个分类器实时预测网络攻击,只能拿到一个时间窗口里的数据,这跟大数据有啥关联?到这里,你就会发现扎实的基本功是做机器学习产品的必要基础。

Gartner说数据分类是以数据为中心的安全的基础,最近拿了那么多融资的Digital Guardian也把数据分类一直挂在口头,可它做出来了基于机器学习的分类器吗?用户手里拿着上亿条数据使用的日志,完全不知道哪些才是关键数据,必须借助分类器才可以发现风险。根据实际的大客户案例,基于自然语言处理和机器学习的产品,才能真正有效实现数据分类。

其实还有很多可以写,限于篇幅,以后再聊。

 

责任编辑:李英杰 来源: DJ的札记
相关推荐

2021-03-23 10:08:02

编程互联网数据科学

2020-07-29 07:05:00

DevSecOps

2022-09-19 00:08:22

人工智能机器交通管制

2012-03-07 13:43:59

Objective-C

2016-12-16 12:54:44

数据挖掘大数据

2016-12-13 19:47:31

大数据

2010-08-06 10:29:56

苹果

2023-05-15 14:02:24

2021-04-25 10:26:34

Python机器学习人工智能

2017-05-25 12:04:58

云计算安全云数据

2021-07-26 14:50:03

人工智能算法云计算

2014-07-14 09:58:18

Objective-CiOS学习

2021-03-08 11:11:00

机器学习人工智能AI

2022-06-09 16:48:10

TensorFlow机器学习

2019-07-19 19:16:51

物联网人工智能传感器

2017-04-05 13:30:16

机器学习开源行业发展

2019-08-28 11:51:12

云计算人工智能机器学习

2021-12-15 16:35:59

数字化转型IT技术

2021-04-12 10:28:51

机器学习人工智能AI

2020-07-29 08:34:30

机器学习安全工具
点赞
收藏

51CTO技术栈公众号