3个用于数据科学的顶级Python库

开发 后端
用这些库把Python变成一个科学数据分析和建模工具。Python许多吸引人的特点如效率、代码可读性和速度使它成为数据科学爱好者的首选编程语言。对于希望提升应用程序功能的数据科学家和机器学习专家来说,Python通常是首选。

 Python许多吸引人的特点如效率、代码可读性和速度使它成为数据科学爱好者的首选编程语言。对于希望提升应用程序功能的数据科学家和机器学习专家来说,Python通常是首选。(例如,Andrey Bulezyuk使用Python编程语言创建了一个令人惊叹的机器学习应用程序。)

由于Python的广泛使用,它有大量的库,使数据科学家可以更容易地完成复杂的任务,而不需要应付太多麻烦的编码。以下是用于数据科学的3个顶级Python库; 如果你想在这个领域开始你的职业生涯,看看他们吧。

1. NumPy

NumPy是顶级库之一,它提供了有用的资源,帮助数据科学家将Python转变为强大的科学分析和建模工具。这个流行的开源库可以在BSD许可下获得。它是执行基本科学计算任务的Python库。此外NumPy是一个更大的基于python的开放源码工具生态系统(称为SciPy)的一部分。

该库为Python提供了大量的数据结构,以便轻松地执行与多维数组和矩阵相关的计算。除了用于解线性代数方程和进行其他数学计算之外,NumPy还被用作不同类型的数据的通用多维容器。

此外,它完美地集成了其他编程语言,如C/C++和Fortran。NumPy库的多功能性使它能够轻松、快速地与其它数据库和工具结合在一起。例如,让我们看看NumPy(缩写为np)如何用于两个矩阵的乘法计算。

让我们从导入库开始。

 

  1. import numpy as np 

接下来,让我们使用eye()函数生成具有指定维数的单位矩阵。

 

  1. matrix_one = np.eye(3) 
  2. matrix_one 

以下是输出:

 

  1. array([[1., 0., 0.], 
  2.        [0., 1., 0.], 
  3.        [0., 0., 1.]]) 

我们来生成另一个3x3矩阵。

我们将使用arange([starting number],[stopping number])函数来生成数据。注意,函数中的第一个参数是要列出的初始数字,最后一个数字不包括在生成的结果中。

此外,还应用reshape()函数将原始生成的矩阵的维度修改为所需的维度。要使矩阵“可乘”,它们的维数应该相同。

 

  1. matrix_two = np.arange(1,10).reshape(3,3) 
  2. matrix_two 

以下是输出:

 

  1. array([[1, 2, 3], 
  2.        [4, 5, 6], 
  3.        [7, 8, 9]]) 

让我们使用dot()函数来将两个矩阵相乘。

 

  1. matrix_multiply = np.dot(matrix_one, matrix_two) 
  2. matrix_multiply 

以下是输出:

 

  1. array([[1., 2., 3.], 
  2.        [4., 5., 6.], 
  3.        [7., 8., 9.]]) 

太棒了!

我们设法在不使用普通Python的情况下将两个矩阵相乘。

下面是这个例子的全部代码:

 

  1. import numpy as np 
  2. #generating a 3 by 3 identity matrix 
  3. matrix_one = np.eye(3) 
  4. matrix_one 
  5. #generating another 3 by 3 matrix for multiplication 
  6. matrix_two = np.arange(1,10).reshape(3,3) 
  7. matrix_two 
  8. #multiplying the two arrays 
  9. matrix_multiply = np.dot(matrix_one, matrix_two) 
  10. matrix_multiply 

2. Pandas

Pandas是另一个可以增强您的数据科学Python技能的优秀库。就像NumPy一样,它属于SciPy开源软件家族,可以在BSD自由软件许可下使用。

Pandas提供了多种功能强大的工具,用于分析数据结构和执行通用的数据分析。该库可以很好地处理不完整的、非结构化的和无序的真实数据,并提供了用于形成、聚合、分析和可视化数据集的工具。

在这个库中有三种类型的数据结构:

  • Series: 单维齐次数组
  • DataFrame: 具有不同类型列的二维数据
  • Panel: 三维,大小可变的数组

例如,让我们看看如何使用Panda Python库(缩写为pd)执行一些统计计算。

让我们从导入库开始。

 

  1. import pandas as pd 

让我们创建一个Series的字典。

 

  1. d = {'Name':pd.Series(['Alfrick','Michael','Wendy','Paul','Dusan','George','Andreas'
  2.    'Irene','Sagar','Simon','James','Rose']), 
  3.    'Years of Experience':pd.Series([5,9,1,4,3,4,7,9,6,8,3,1]), 
  4.    'Programming Language':pd.Series(['Python','JavaScript','PHP','C++','Java','Scala','React','Ruby','Angular','PHP','Python','JavaScript']) 
  5.     } 

让我们创建一个DataFrame。

 

  1. df = pd.DataFrame(d) 

这是一个很好的输出表:

 

  1.       Name Programming Language  Years of Experience 
  2. 0   Alfrick               Python                    5 
  3. 1   Michael           JavaScript                    9 
  4. 2     Wendy                  PHP                    1 
  5. 3      Paul                  C++                    4 
  6. 4     Dusan                 Java                    3 
  7. 5    George                Scala                    4 
  8. 6   Andreas                React                    7 
  9. 7     Irene                 Ruby                    9 
  10. 8     Sagar              Angular                    6 
  11. 9     Simon                  PHP                    8 
  12. 10    James               Python                    3 
  13. 11     Rose           JavaScript                    1 

下面是这个例子的全部代码:

 

  1. import pandas as pd 
  2. #creating a dictionary of series 
  3. d = {'Name':pd.Series(['Alfrick','Michael','Wendy','Paul','Dusan','George','Andreas'
  4.    'Irene','Sagar','Simon','James','Rose']), 
  5.    'Years of Experience':pd.Series([5,9,1,4,3,4,7,9,6,8,3,1]), 
  6.    'Programming Language':pd.Series(['Python','JavaScript','PHP','C++','Java','Scala','React','Ruby','Angular','PHP','Python','JavaScript']) 
  7.     } 
  8. ​ 
  9. #Create a DataFrame 
  10. df = pd.DataFrame(d) 
  11. print(df) 

3. Matplotlib

Matplotlib也是SciPy核心包的一部分,并在BSD许可下提供。它是一个流行的Python科学库,用于生成简单而强大的图表。您可以使用该Python框架进行数据科学研究,以生成有创意的图形、图表、直方图和其他形状的图形—而无需编写很多行代码。例如,让我们看看如何使用Matplotlib库创建一个简单的条形图。

让我们从导入库开始。

 

  1. from matplotlib import pyplot as plt 

让我们生成x轴和y轴的值。

 

  1. x = [2, 4, 6, 8, 10] 
  2. y = [10, 11, 6, 7, 4] 

让我们调用绘制柱状图的函数。

 

  1. plt.bar(x,y) 

让我们来看看绘图。

 

  1. plt.show() 

这是柱状图:

 

3个用于数据科学的<span><span><span><i style=顶级Python库" src="http://p1.pstatp.com/large/pgc-image/82db3249297a4341bc0db37acb841bed" width="372" height="252">

 

下面是这个例子的全部代码:

 

  1. #importing Matplotlib Python library 
  2. from matplotlib import pyplot as plt 
  3. #same as import matplotlib.pyplot as plt 
  4.   
  5. #generating values for x-axis 
  6. x = [2, 4, 6, 8, 10] 
  7.   
  8. #generating vaues for y-axis 
  9. y = [10, 11, 6, 7, 4] 
  10.   
  11. #calling function for plotting the bar chart 
  12. plt.bar(x,y) 
  13.   
  14. #showing the plot 
  15. plt.show() 

结语

Python编程语言在数据处理和分析方面一直做得很好,但在复杂的科学数据分析和建模方面就不那么好了。顶级的Python框架data science有助于填补这一空白,允许您执行复杂的数学计算并创建复杂的模型来理解您的数据。

责任编辑:华轩 来源: 今日头条
相关推荐

2018-09-18 23:25:49

Python数据科学

2019-04-15 13:25:29

数据科学机器学习Gartner

2018-06-27 10:45:12

数据Python程序

2023-01-28 10:09:00

Pandas数据分析Python

2020-05-25 10:07:32

Python数据工具

2022-09-01 23:17:07

Python编程语言开发

2021-08-02 10:00:34

数据科学PythonSQL

2023-10-07 11:36:15

2018-10-15 09:10:09

Python编程语言数据科学

2021-05-27 05:25:59

Python数据处理数学运算

2018-08-06 13:46:07

编程语言Python数据科学库

2018-12-10 19:30:45

2021-07-29 09:00:00

Python工具机器学习

2024-01-04 16:43:42

Python前端

2022-08-26 14:41:47

Python数据科学开源

2016-12-14 14:08:23

移动APP开发JavaScript

2017-05-22 09:48:04

数据科学Python深度学习

2019-03-19 09:00:14

Python 开发编程语言

2017-05-19 14:31:41

Python数据

2019-11-05 10:07:26

数据科学Python
点赞
收藏

51CTO技术栈公众号