Python中实现“一行拆多行“和“多行并一行“,你会吗?

开发 后端
今天粉丝提了下面这样一个问题,其中一个是"一行拆多行",另外一个是"多行并一行",貌似群友用power query已经解决了。但是基于Python怎么做呢?接着往下看。

[[339021]]

 粉丝提问

今天粉丝提了下面这样一个问题,其中一个是"一行拆多行",另外一个是"多行并一行",貌似群友用power query已经解决了。但是基于Python怎么做呢?接着往下看。

 

一行拆多行

上面这个问题我会提供两个思路,供大家选择,当然肯定是越简单得越好。每种方法中都有一些好用的技巧,希望大家能够好好学习。

1)方法一

下方代码中有很多重要的知识点,需要我们下去好好学习一下,我只提供解题思路,关于每个知识点怎么用,希望大家下去自行研究学习。

  • Pandas.melt()函数的用法;
  • Series.str.split("/",expand=True)中,expand=True参数的用法;
  • Series.sort_values()对文本进行排序;
  • Python中enumerate()函数的用法;

 

  1. import pandas as pd 
  2. # 读取数据 
  3. df = pd.read_excel("test1.xlsx",sheet_name="Sheet1"
  4. # 将一列炸裂成多列 
  5. df[["类型1","类型2","类型3"]] = df["电影类型"].str.split("/",expand=True
  6. # 选取想要的列 
  7. df_final = df[["电影名","类型1","类型2","类型3"]] 
  8. # 将行转列 
  9. df_final = df_final.melt(id_vars=["电影名"],value_name="类型"
  10. # 对“电影名”字段进行排序 
  11. df_final = df_final[["电影名","类型"]] 
  12. df_final.sort_values(by="电影名",inplace=True
  13. # 删除“类型==None”的行 
  14. for index,value in enumerate(df_final["类型"]): 
  15.     if value == None: 
  16.         df_final.drop(df_final.index[index],inplace=True
  17. df_final 

结果如下:

 

2)方法二

上述方法确实复杂,由于我的Pandas版本是0.23.4,因此无法使用explode()方法,进行炸裂操作。在pandas0.25版本的时候,DataFrame中才新增了一个explode()方法,专门用来将一行变多行。

  • Pandas.explode()函数的用法;

 

  1. import pandas as pd 
  2. # 读取数据 
  3. df = pd.read_excel("test1.xlsx",sheet_name="Sheet1"
  4. # 将一行拆分成列表形式,注意:这里不需要使用expand=True参数 
  5. df["type"] = df["电影类型"].str.split("/"
  6. # 直接炸裂指定列 
  7. df.explode("type"

结果如下:

 

 

 

 

多行并一行这里没有使用什么特别的知识,好好的理解Pandas中分组聚合应用某个函数,即可轻松解决这个问题。

 

  1. import pandas as pd 
  2. # 读取数据 
  3. df = pd.read_excel("test1.xlsx",sheet_name="Sheet2"
  4. # 分组聚合,应用某个函数 
  5. def func(df): 
  6.     return ','.join(df.values
  7. df = df.groupby(by='电影名').agg(func).reset_index() 
  8. df 

结果如下:

 

 

责任编辑:华轩 来源: 数据分析与统计学之美
相关推荐

2022-04-09 09:11:33

Python

2016-12-02 08:53:18

Python一行代码

2015-07-20 17:17:41

SQL Server

2020-08-19 10:30:25

代码Python多线程

2011-08-25 09:17:31

Java调用存储过程返回一行或多行结果集

2017-04-13 19:20:18

Python代码并行任务

2021-11-02 16:25:41

Python代码技巧

2022-02-23 14:37:48

代码Pythonbug

2014-02-12 13:43:50

代码并行任务

2017-04-05 11:10:23

Javascript代码前端

2021-05-28 07:39:17

SQL代码操作

2020-08-12 14:54:00

Python代码开发

2021-04-22 11:27:24

Python命令水印

2020-09-28 12:34:38

Python代码开发

2022-05-13 09:36:06

Python水印命令

2021-10-19 17:52:16

Git命令算数

2021-08-31 09:49:37

CPU执行语言

2017-10-26 13:40:11

Python一行代码

2020-09-09 16:00:22

Linux进程

2018-01-02 09:26:28

Ubuntuzzupdate版本升级
点赞
收藏

51CTO技术栈公众号