Pandas做数据可视化具体操作,快来看看吧

大数据 数据可视化
在本文我们可以学到用pandas做,导入数据、绘制最简单的图plot()、多个y的绘制图、折线图、条形图、饼形图和散点图绘制、统计信息绘图、箱型图、轴坐标刻度、plot()更多精细化参数、可视化结果输出保存等。

常见的数据可视化库有:

  • matplotlib 是最常见的2维库,可以算作可视化的必备技能库,由于matplotlib是比较底层的库,api很多,代码学起来不太容易。
  • seaborn 是建构于matplotlib基础上,能满足绝大多数可视化需求。更特殊的需求还是需要学习matplotlib
  • pyecharts 上面的两个库都是静态的可视化库,而pyecharts有很好的web兼容性,可以做到可视化的动态效果。

但是在数据科学中,几乎都离不开pandas数据分析库,而pandas可以做

  • 数据采集 如何批量采集网页表格数据?
  • 数据读取 pd.read_csv/pd.read_excel
  • 数据清洗(预处理) 理解pandas中的apply和map的作用和异同
  • 可视化,兼容matplotlib语法(今天重点)

在本文我们可以学到用pandas做

  • 导入数据
  • 绘制最简单的图plot()
  • 多个y的绘制图
  • 折线图、条形图、饼形图和散点图绘制
  • 统计信息绘图
  • 箱型图
  • 轴坐标刻度
  • plot()更多精细化参数
  • 可视化结果输出保存

准备工作

如果你之前没有学过pandas和matpltolib,我们先安装好这几个库

  1. !pip3 install numpy!pip3 install pandas!pip3 install matplotlib 

已经安装好,现在我们导入这几个要用到的库。使用的是伦敦天气数据,一开始我们只有12个月的小数据作为例子

  1. #jupyter notebook中需要加这行代码%matplotlib inlineimport  
  2. matplotlib.pyplot as pltimport numpy as npimport pandas as pd#读取天 
  3. 气数据df = pd.read_csv('data/london2018.csv')df  
pandas做数据可视化具体操作,快来看看吧

plot最简单的图

选择Month作为横坐标,Tmax作为纵坐标,绘图。

大家注意下面两种写法

  1. #写法1df.plot(x='Month', y='Tmax')plt.show()  
pandas做数据可视化具体操作,快来看看吧
  • 横坐标轴参数x传入的是df中的列名Month
  • 纵坐标轴参数y传入的是df中的列名Tmax
  • 折线图

上面的图就是折线图,折线图语法有三种 

  1. df.plot(x='Month', y='Tmax' 
  2. df.plot(x='Month', y='Tmax', kind='line' 
  3. df.plot.line(x='Month', y='Tmax'
  1. df.plot.line(x='Month', y='Tmax')plt.show()  
pandas做数据可视化具体操作,快来看看吧

 

  1. #grid绘制格线df.plot(x='Month', y='Tmax', kind='line',  
  2. grid=True)plt.show()  
pandas做数据可视化具体操作,快来看看吧

多个y值

上面的折线图中只有一条线, 如何将多个y绘制到一个图中

比如Tmax, Tmin

  1. df.plot(x='Month', y=['Tmax''Tmin'])plt.show()  
pandas做数据可视化具体操作,快来看看吧

条形图

  1. df.plot(x='Month',        y='Rain',        kind='bar')#同样还可以这样 
  2. 画#df.plot.bar(x='Month', y='Rain')plt.show()  
pandas做数据可视化具体操作,快来看看吧

水平条形图

bar环卫barh,就可以将条形图变为水平条形图

  1. df.plot(x='Month',        y='Rain',        kind='barh')#同样还可以这 
  2. 样画#df.plot.bar(x='Month', y='Rain')plt.show()  
pandas做数据可视化具体操作,快来看看吧

多个变量的条形图

  1. df.plot(kind='bar', x = 'Month', y=['Tmax''Tmin'])plt.show()  
pandas做数据可视化具体操作,快来看看吧

散点图

  1. df.plot(kind='scatter', x = 'Month', y = 'Sun')plt.show()  
pandas做数据可视化具体操作,快来看看吧

饼形图

  1. df.plot(kind='pie', y='Sun')plt.show()  
pandas做数据可视化具体操作,快来看看吧

上图绘制有两个小问题:

  1. legend图例不应该显示
  2. 月份的显示用数字不太正规
  1. df.index =  
  2. ['Jan','Feb','Mar','Apr','May','Jun','Jul','Aug','Sep','Oct','Nov','D 
  3. ec']df.plot(kind='pie', y = 'Sun', legend=False)plt.show()  
pandas做数据可视化具体操作,快来看看吧

更多数据

一开头的数据只有12条记录(12个月)的数据,现在我们用更大的伦敦天气数据

  1. import pandas as pddf2 = pd.read_csv('data/londonweather.csv')df2.head()  
pandas做数据可视化具体操作,快来看看吧

 

  1. df2.Rain.describe() 
  2.  
  3. count    748.000000mean      50.408957std       29.721493min     
  4.     0.30000025%       27.80000050%       46.10000075%        
  5. 68.800000max      174.800000Name: Rain, dtype: float64 

上面一共有748条记录, 即62年的记录。

箱型图

  1. df2.plot.box(y='Rain')#df2.plot(y='Rain', kind='box')plt.show()  
pandas做数据可视化具体操作,快来看看吧

直方图

  1. df2.plot(y='Rain', kind='hist')#df2.plot.hist(y='Rain')plt.show()  
pandas做数据可视化具体操作,快来看看吧

纵坐标的刻度可以通过bins设置

  1. df2.plot(y='Rain', kind='hist', bins=[0,25,50,75,100,125,150,175,  
  2. 200])#df2.plot.hist(y='Rain')plt.show()  
pandas做数据可视化具体操作,快来看看吧

多图并存

  1. df.plot(kind='line',         y=['Tmax''Tmin''Rain''Sun'], #4个 
  2. 变量可视化         subplots=True,   #多子图并存         layout=(2,  
  3. 2),   #子图排列2行2列         figsize=(20, 10)) #图布的尺寸plt.show()  
pandas做数据可视化具体操作,快来看看吧

 

  1. df.plot(kind='bar',         y=['Tmax''Tmin''Rain''Sun'], #4个变 
  2. 量可视化         subplots=True,   #多子图并存         layout=(2, 2), 
  3.    #子图排列2行2列         figsize=(20, 10)) #图布的尺寸plt.show()  
pandas做数据可视化具体操作,快来看看吧

加标题

给可视化起个标题

  1. df.plot(kind='bar',         y=['Tmax''Tmin'], #2个变量可视化     
  2.      subplots=True,   #多子图并存         layout=(1, 2),   #子图排列1 
  3. 行2列         figsize=(20, 5),#图布的尺寸         title='The Weather  
  4. of London')  #标题plt.show()  
pandas做数据可视化具体操作,快来看看吧

保存结果

可视化的结果可以存储为图片文件

  1. df.plot(kind='pie', y='Rain', legend=False, figsize=(10, 5), title='Pie of Weather in London')plt.savefig('img/pie.png')plt.show()  
pandas做数据可视化具体操作,快来看看吧

df.plot更多参数

df.plot(x, y, kind, figsize, title, grid, legend, style)

  • x 只有dataframe对象时,x可用。横坐标
  • y 同上,纵坐标变量
  • kind 可视化图的种类,如line,hist, bar, barh, pie, kde, scatter
  • figsize 画布尺寸
  • title 标题
  • grid 是否显示格子线条
  • legend 是否显示图例
  • style 图的风格
  • 查看plot参数可以使用help
  1. import pandas as pdhelp(pd.DataFrame.plot)  
pandas做数据可视化具体操作,快来看看吧

 

 

责任编辑:未丽燕 来源: 今日头条
相关推荐

2018-03-12 10:35:01

LinuxBash快捷键

2021-04-19 09:23:26

数字化

2017-11-24 08:00:55

前端JSCSS

2020-11-04 08:40:23

C++多元组Tuple

2020-09-27 11:15:37

可视化PandasPython

2018-03-06 09:54:48

数据库备份恢复

2020-03-11 14:39:26

数据可视化地图可视化地理信息

2018-01-19 10:37:00

2011-03-17 09:06:58

iptables映射端口

2023-02-15 08:24:12

数据分析数据可视化

2009-12-30 15:47:40

Silverlight

2018-01-30 17:54:37

数据库MySQLSQL Server

2017-10-14 13:54:26

数据可视化数据信息可视化

2009-12-31 15:36:13

SilverLight

2010-08-02 12:34:09

ADSL代理设置

2009-12-28 17:26:17

WPF可视化

2010-02-24 17:41:05

WCF集合反序列化

2020-04-16 09:35:53

数据科学机器学习数据分析

2018-04-18 17:08:45

2009-12-31 15:36:13

SilverLight
点赞
收藏

51CTO技术栈公众号