2020年,四步突破数据科学

大数据 新闻
如果打算今年进入数据科学领域,这是个很棒的决定。该领域广受认可,而且好找工作,工资也不错,就连管理部门也慢慢意识到数据科学是不可或缺的。说了这么多,来探索必备技能以及满足你上手操作的技能。

这没什么问题,但你很可能列出一张事无巨细、耗时费力、近乎难以实现的目标清单,让你应接不暇,而且很有可能失去动力,因为实在是有太多任务了。

如果打算今年进入数据科学领域,这是个很棒的决定。该领域广受认可,而且好找工作,工资也不错,就连管理部门也慢慢意识到数据科学是不可或缺的。

不过在开始之前,请允许我说些打击的话(有必要说):用一年的时间去学数据科学的所有内容是不够的。

别误会,一年的时间足够你找到第一份工作,但不可能一步登天,从零成为数据科学团队的领头人(如果做到了,请在评论区分享你的故事)。

说了这么多,来探索必备技能以及满足你上手操作的技能。

[[313950]]

1. 数据库?

我们分析的数据很可能出自某个数据库,这是不同于书籍或课程的典型情况——不会获得格式正确的CSV文件。通常,你需要具备专业知识(或认识懂这方面知识的人),对SQL也要有一定的了解。

如果用Python或R语言分析,那就不要用太多时间来学SQL分析函数、PLSQL/T-SQL和所有那些高难度东西。在这种情况下,SQL的任务很大程度上依靠的是结合几组表格,在上面进行分析。

这个过程要花的时间取决于使用方式以及先验知识,但新手在这里花的时间不会超过一个月。

2. 现在来谈谈数据科学

如果按照上面的每一步来,还没有先验知识,此时可能是2020年的8月或9月。时间已经过去很多了,但你已经具备寻求第一份工作的所有先决条件。

不是所有都要刚刚好。

要找一份数据科学的工作,目前也只提了先决条件。后面这两个月,建议对一些基础的数据分析和可视化库有所了解,如:

  • Numpy
  • Pandas
  • Matplotlib
  • Scipy
  • Statsmodels

这是在你不懂的情况下(如果不知道为何需要这些知识的话学起来会感到无聊)。

不要走马观花式看课程,到网站上下载数据集然后完整地分析。再到网上看其他人对于同一数据集是如何处理的,看自己怎么改进。

同样,在这两个月时间内,应该熟悉一些机器学习的算法,如:

  • 线性回归(Linear Regression)
  • 逻辑回归(Logistic Regression)
  • 分类与回归树(Classification and Regression Trees)
  • KNN(k-NearestNeighbor,K最近邻分类算法)
  • 朴素贝叶斯分类(Naive Bayes)
  • SVM(Support Vector Machine,支持向量机)

也许实际操作中不会用到这些,但它们是日后学习更多高级算法XGBoost和神经网络(Neural networks)的基础。有了分析数据库,记得不要只顾着跟教程,而要自己完成高质量的任务。如果你喜欢,尝试用Numpy从零开始运用算法,不过并不强制大家。

3. 编程呢?

没错,数据科学离不开编程技能。如果找到一份工作,但不会写代码,你很可能知道自己该做什么却不知从何下手,也有可能会经历SOCPS(一种不知道怎么写代码就从Stack Overfow网站上复制粘贴的综合症),甚至不看问题和答案。

在网上搜索更好的解决方案是可以的,但应该知道怎么自己写出一套基本方案。

之前从没写过的话,可以从小入手,读读有关Python或R的书籍及其在数据科学中的角色,先有个全面的了解,再深入学习语法。不用担心要记所有的内容,能确保在遇到困难时该朝哪个方向看就行。

要是已经读过相关书籍或上过讲编程的课也了解语法,就是不知道怎么解决问题,那就花些时间学学算法和数据结构。同时看一些常规的编码问题采访,这些会让你“文思泉涌”。

对自己的编程技能很满意对吗?那可太棒了!现在腾点时间给分析库——Numpy和Pandas库。

每个人在编码上花的时间也不同。新手小白和仅需了解库的知识的人就不一样。可以说完全不懂的人3-4个月的时间足矣,如果是只需学习库的知识的人,大概1个月的时间就可以。

4. 提高数学技能

你一定听说过数据科学首先要求优秀的数学能力。要了解的数学知识因工作岗位而异,至于入门需要掌握多少,笔者给出的回答是:没你想得多。

且听我一一叙述。初学者会试图掌握任何相关领域的知识,比如说计算、线性代数、概率计算或统计学,但必须见好就收。

可别误会了,倘若你有的是时间,那就成为上述领域的专家,否则就不要浪费时间。作为刚步入该领域的初级数据科学家,不仅要了解数学知识,更多是在直观层面。要知道特定的场合进行什么操作,这就是直觉发挥作用的时刻,但无需花太多时间着手解决复杂的数学问题。

只要悟性强,明白怎么编码,就足够了。找到工作后你将有大把的时间钻研数学,所以没必要提前学所有的东西。

如果没有高数基础,不建议花2-3个月的时间提升数学技能。

[[313951]]

接下来呢?

2020年剩下几个月的时间里,创建个GitHub账户(a),放上最好的分析报告或机器学习算法,提供给潜在的雇主看。同时准备一份漂亮的简历和求职信。

倘若真的喜欢,发表一篇有关学习历程的博客。网上的呈现只会在职业发展中对你有帮助,前提是别发无用的信息,但我相信你的判断力。

就是这样了,赶紧给理想的公司投简历吧。

责任编辑:赵宁宁 来源: 读芯术
相关推荐

2022-11-02 13:16:58

数据分析

2021-07-26 09:35:26

SQL数据库优化

2022-12-14 15:14:52

数据驱动体验度量

2023-06-01 12:50:48

2010-11-19 15:44:04

IT跳槽

2011-07-07 13:09:04

编程

2017-04-17 12:31:45

SDN网络虚拟化

2010-04-20 10:12:05

2010-06-02 17:29:02

svnserve服务

2019-12-24 09:15:16

机器学习技术人工智能

2010-04-28 12:02:37

Forefront网络优化

2010-06-13 14:19:40

学习UML

2010-09-14 17:35:52

2010-09-06 11:58:39

ppp拨号Linux

2010-06-12 13:49:16

学习UML

2021-11-23 23:43:16

MySQL数据库Docker

2009-07-09 15:41:15

JDBC连接MySQL

2014-02-27 09:27:57

2010-06-02 18:22:43

SVN本地设置

2011-07-11 09:54:48

centos内核
点赞
收藏

51CTO技术栈公众号