社区编辑申请
注册/登录
Pandas 实用技能,数据筛选 query 函数详细介绍
开发 后端
在数据处理过程中,咱们经常会用到数据筛选,Pandas 中提供了数据筛选的多种方法,这里,来给大家分享下 在Pandas中应用 query 函数来进行数据筛选。

Pandas 可以说是 在Python数据科学领域应用最为广泛的工具之一。Pandas是一种高效的数据处理库,它以 dataframeseries 为基本数据类型,呈现出类似excel的二维数据。在数据处理过程中,咱们经常会用到数据筛选,Pandas 中提供了数据筛选的多种方法,这里,来给大家分享下 在Pandas中应用 query 函数来进行数据筛选。query 函数的一般用法如下:

df.query('expression')

文中的代码是在 Jupyter Notebook 中运行的(也可以是其他IDE),本次使用的 Pandas 版本是 1.3.0 版,如下:

import pandas as pd
print(f'pandas version: {pd.__version__}')
# pandas version: 1.3.0rc1

在开始之前,先创建一份数据,供后续使用:

data = {
'brand':['Python数据之道','价值前瞻','菜鸟数据之道','Python','Java'],
'A':[10,2,5,20,16],
'B':[4,6,8,12,10],
'C':[8,12,18,8,2],
'D':[6,18,14,6,12],
'till years':[4,1,1,30,30]
}

df = pd.DataFrame(data=data)
df

数据如下:

图片

常用方法

筛选 "brand" 列中值为 "Python数据之道" 的行,如下:

df.query('brand == "Python数据之道"')

结果如下:

图片

说明一下,上面代码中的单引号和双引号是可以互换的,下面的写法,其结果也是一样的:

df.query(" brand == 'Python数据之道' ")

上面用 query 函数筛选数据,用下面的方法也是可以实现的:

df[df['brand']=="Python数据之道"]

图片

上面是筛选字符串的值,也可以是筛选数字,如下:

图片

通过数学表达式筛选

除了直接通过等于某个值来筛选, query 函数还支持通过数学表达式来进行数据筛选,包括 ​​>​​、 ​​<​​、 ​​+​​、 ​​-​​、 ​​*​​、 ​​/​​ 等。

示例如下:

图片

图片图片

通过变量筛选

在程序比较长的时候,经常会使用变量来作为筛选条件, query 函数在使用变量作为判断标准时,通过在变量前面添加 ​​@​​ 符号来实现,示例如下:

# 通过变量来筛选数据,在变量前使用 @ 符号即可
name = 'Python数据之道'
df.query('brand == @name')

图片

列表数据筛选

当需要在某列中筛选多个符合要求的值的时候,可以通过列表(list)来实现,示例如下:

# 需要注意下 双引号 和 单引号的分开使用
df.query('brand in ["Python数据之道","价值前瞻"]')
# df.query("brand in ['Python数据之道','价值前瞻']")

图片

多条件筛选

有很多情况下,咱们需要通过多个条件来筛选数据,query 函数支持多种条件的组合,

  • 两者都需要满足的并列条件使用符号 &,或 单词 and
  • 只需要满足其中之一的条件使用符号 |,或 单词 or

示例如下:

图片图片图片图片

图片

列名称有空格的情况

当 dataframe 的列名称中有空格或其他特殊符号的时候,需要使用 ​​反引号(backtick mark)​​,即键盘ESC键下面的按键(就是键盘上第二排第一个按键,有‘~’这个符号的按键) 来将列名包裹起来,示例如下:

df.query("`till years` < 5")

图片

注意,如果使用单引号,将会报错,如下:

图片

筛选后选取数据列

在数据筛选后,还可以选择需要的数据列,如下:

图片

图片

小结

以上就是关于 Pandas 中 query 函数的主要内容介绍,应用 query函数进行数据筛选,其语言还是比较简洁的,尤其是当条件比较多的时候,会显得更优雅。

比如下面的对比,假设都是三个筛选条件(假设数据量较多,符合的结果也较多):

没有使用query函数时​

df[(df['brand']=="Python数据之道") & (df['A'] >2) & (df['C'] >4)]

图片

可以看出上面的表达式是比较长的,略显繁琐。

使用query函数时​

df.query(" brand == 'Python数据之道' & A>2 & C>4 ")

图片

相对来说,使用query 函数会显得更加简洁,如果觉得这个功能不错,就赶紧用起来吧~~

责任编辑:庞桂玉 来源: AI科技大本营
相关推荐

2022-07-26 00:25:57

PandasQuery索引器

2022-05-24 12:50:58

Pandas索引代码

2020-10-29 08:35:06

Pandas函数Python

2022-05-10 09:33:50

Pandas技巧代码

2020-08-16 10:58:20

Pandaspython开发

2021-07-13 10:02:52

2021-08-25 07:47:53

2020-08-14 10:57:49

开发技能代码

2020-08-23 09:18:30

2017-09-01 09:52:20

2020-04-01 14:16:05

Pandastips数据分析

2020-06-05 14:29:07

PythonPandas数据分析

2019-10-31 10:16:06

数据Python开发

2020-06-04 10:49:53

Pandas字符串技巧

2020-11-19 15:26:36

同话题下的热门内容

太强了!Python 开发桌面小工具,让代码替我们干重复的工作!Python轻量级Web框架:Bottle库!Python居然被用来开发游戏了?盘点你想不到的Python开发场景用了那么久的Lombok,你知道它的原理么?实战 | 如何用 Python 自动化监控文件夹完成服务部署!Fury:一个基于JIT动态编译的高性能多语言原生序列化框架细思恐极,插上U盘就开始执行Python代码太全了!用Python操作MySQL的使用教程集锦!

编辑推荐

使用Kotlin做开发一个月后的感想面试官问你什么是消息队列?把这篇甩给他!五大自动化测试的Python框架图文详解两种算法:深度优先遍历(DFS)和广度优先遍历(BFS)2018年最流行的十大编程语言,其中包括你用的语言吗?
我收藏的内容
点赞
收藏

51CTO技术栈公众号