Pandas筛选操作详解

内容目录
1. 字典式 get 访问
2. 属性访问
3. 切片操作
4. 通过数字筛选行和列
5. 通过名称筛选行和列
6. 布尔索引
7. isin 筛选
8. 通过Callable筛选
9. 加深加强

更多:Pandas

在数据处理过程中,经常会遇到要筛选不同要求的数据,通过 Pandas 可以轻松时间,这一篇我们来看下如何使用 Pandas 来完成数据筛选吧。

# 导入相关库
import numpy as np
import pandas as pd

Pandas 中除了支持 Python 和 Numpy 的索引运算符[]和属性运算符.来访问数据之外,还有很多其他的方式来访问数据,我们一起来看看吧。

index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name="name")

data = {
    "age": [18, 30, np.nan, 40, np.nan, 30],
    "city": ["Bei Jing ", "Shang Hai ", "Guang Zhou", "Shen Zhen", np.nan, " "],
    "sex": [None, "male", "female", "male", np.nan, "unknown"],
    "birth": ["2000-02-10", "1988-10-17", None, "1978-08-08", np.nan, "1988-10-17"]
}

user_info = pd.DataFrame(data=data, index=index)

# 将出生日期转为时间戳
user_info["birth"] = pd.to_datetime(user_info.birth)
user_info

agebirthcitysex
name



Tom18.02000-02-10Bei JingNone
Bob30.01988-10-17Shang Haimale
MaryNaNNaTGuang Zhoufemale
James40.01978-08-08Shen Zhenmale
AndyNaNNaTNaNNaN
Alice30.01988-10-17
unknown

字典式 get 访问

我们都知道,Python 中的字典要获取 value 时可以通过 get 方法来获取,对于 Series 和 DataFrame 也一样,他们一样可以通过 get 方法来获取。

# 获取得到所有年龄相关的这一列的信息,结果为一个 Series
user_info.get("age")
name
Tom      18.0
Bob      30.0
Mary      NaN
James    40.0
Andy      NaN
Alice    30.0
Name: age, dtype: float64
# 从包含所有的年龄信息的 Series 中得到 Tom 的年龄
user_info.get("age").get("Tom")
18.0

属性访问

除了可以通过 get 方法来获取数据之外,还可以通过属性的方式来访问,同样完成上面的功能,来看下如何通过属性访问的方式来实现。

# 获取得到所有年龄相关的这一列的信息,结果为一个 Series
user_info.age
name
Tom      18.0
Bob      30.0
Mary      NaN
James    40.0
Andy      NaN
Alice    30.0
Name: age, dtype: float64
# 从包含所有的年龄信息的 Series 中得到 Tom 的年龄
user_info.age.Tom
18.0

切片操作

在学习 Python 时,会发现列表的切片操作非常地方便,Series 和 DataFrame 同样也有切片操作。

对于 Series 来说,通过切片可以完成选择指定的行,对于 Series 来说,通过切片可以完成选择指定的行或者列,来看看怎么玩吧。

# 获取年龄的前两行
user_info.age[:2]
name
Tom    18.0
Bob    30.0
Name: age, dtype: float64
# 获取所有信息的前两行
user_info[:2]

agebirthcitysex
name



Tom18.02000-02-10Bei JingNone
Bob30.01988-10-17Shang Haimale
# 所有信息每两行选择一次数据user_info[::2]

agebirthcitysex
name



Tom18.02000-02-10Bei JingNone
MaryNaNNaTGuang Zhoufemale
AndyNaNNaTNaNNaN
# 对所有信息进行反转user_info[::-1]

agebirthcitysex
name



Alice30.01988-10-17
unknown
AndyNaNNaTNaNNaN
James40.01978-08-08Shen Zhenmale
MaryNaNNaTGuang Zhoufemale
Bob30.01988-10-17Shang Haimale
Tom18.02000-02-10Bei JingNone

上面都是筛选行,如何筛选 DataFrame 中的列呢?

只需要将列名传入切片即可完成筛选。

user_info["age"]
name
Tom      18.0
Bob      30.0
Mary      NaN
James    40.0
Andy      NaN
Alice    30.0
Name: age, dtype: float64

如何筛选出多列的数据呢?只需要将对应的列名传入组成一个列表,传入切片中即可。

user_info[["city", "age"]]

cityage
name

TomBei Jing18.0
BobShang Hai30.0
MaryGuang ZhouNaN
JamesShen Zhen40.0
AndyNaNNaN
Alice
30.0

可以看到,列表中的列名的顺序会影响最后的结果。

通过数字筛选行和列

通过切片操作可以完成筛选行或者列,如何同时筛选出行和列呢?

通过 iloc 即可实现, iloc 支持传入行和列的筛选器,并用 , 隔开。无论是行或者里筛选器,都可以为以下几种情况:

  • 一个整数,如 2
  • 一个整数列表,如 [2, 1, 4]
  • 一个整数切片对象,如 2:4
  • 一个布尔数组
  • 一个callable

先来看下前3种的用法。

# 筛选出第一行数据
user_info.iloc[0]
age                       18
birth    2000-02-10 00:00:00
city               Bei Jing 
sex                     None
Name: Tom, dtype: object
# 筛选出第二行第一列的数据
user_info.iloc[1, 0]
30.0
# 筛选出第二行、第一行、第三行对应的第一列的数据
user_info.iloc[[1, 0, 2], 0]
name
Bob     30.0
Tom     18.0
Mary     NaN
Name: age, dtype: float64
# 筛选出第一行至第三行以及第一列至第二列的数据
user_info.iloc[0:3, 0:2]

agebirth
name

Tom18.02000-02-10
Bob30.01988-10-17
MaryNaNNaT
# 筛选出第一列至第二列的数据
user_info.iloc[:, 0:2]

agebirth
name

Tom18.02000-02-10
Bob30.01988-10-17
MaryNaNNaT
James40.01978-08-08
AndyNaNNaT
Alice30.01988-10-17

通过名称筛选行和列

虽然通过 iloc 可以实现同时筛选出行和列,但是它接收的是输入,非常不直观, 通过 loc 可实现传入名称来筛选数据,loc 支持传入行和列的筛选器,并用 , 隔开。无论是行或者里筛选器,都可以为以下几种情况:

  • 一个索引的名称,如:”Tom”
  • 一个索引的列表,如:[“Bob”, “Tom”]
  • 一个标签范围,如:”Tom”: “Mary”
  • 一个布尔数组
  • 一个callable

先来看下前3种的用法。

# 筛选出名称为 Tom 的数据一行数据
user_info.loc["Tom"]
age                       18
birth    2000-02-10 00:00:00
city               Bei Jing 
sex                     None
Name: Tom, dtype: object
# 筛选出名称为 Tom 的年龄
user_info.loc["Tom", "age"]
18.0
# 筛选出名称在 ["Bob", "Tom"] 中的两行数据
user_info.loc[["Bob", "Tom"]]

agebirthcitysex
name



Bob30.01988-10-17Shang Haimale
Tom18.02000-02-10Bei JingNone
# 筛选出索引名称在 Tom 到 Mary 之间的数据
user_info.loc["Tom": "Mary"]

agebirthcitysex
name



Tom18.02000-02-10Bei JingNone
Bob30.01988-10-17Shang Haimale
MaryNaNNaTGuang Zhoufemale
# 筛选出年龄这一列数据
user_info.loc[:, ["age"]]

age
name
Tom18.0
Bob30.0
MaryNaN
James40.0
AndyNaN
Alice30.0
# 筛选出所有 age 到 birth 之间的这几列数据
user_info.loc[:, "age": "birth"]

agebirth
name

Tom18.02000-02-10
Bob30.01988-10-17
MaryNaNNaT
James40.01978-08-08
AndyNaNNaT
Alice30.01988-10-17

你可能已经发现了,通过名称来筛选时,传入的切片是左右都包含的。

布尔索引

通过布尔操作我们一样可以进行筛选操作,布尔操作时,& 对应 and| 对应 or~ 对应 not

当有多个布尔表达式时,需要通过小括号来进行分组。

user_info[user_info.age > 20]

agebirthcitysex
name



Bob30.01988-10-17Shang Haimale
James40.01978-08-08Shen Zhenmale
Alice30.01988-10-17
unknown
# 筛选出年龄在20岁以上,并且性别为男性的数据user_info[(user_info.age > 20) & (user_info.sex == "male")]

agebirthcitysex
name



Bob30.01988-10-17Shang Haimale
James40.01978-08-08Shen Zhenmale
# 筛选出性别不为 unknown 的数据
user_info[~(user_info.sex == "unknown")]

agebirthcitysex
name



Tom18.02000-02-10Bei JingNone
Bob30.01988-10-17Shang Haimale
MaryNaNNaTGuang Zhoufemale
James40.01978-08-08Shen Zhenmale
AndyNaNNaTNaNNaN

除了切片操作可以实现之外, loc 一样可以实现。

user_info.loc[user_info.age > 20, ["age"]]

age
name
Bob30.0
James40.0
Alice30.0

isin 筛选

Series 包含了 isin 方法,它能够返回一个布尔向量,用于筛选数据。

# 筛选出性别属于 male 和 female的数据user_info[user_info.sex.isin(["male", "female"])]

agebirthcitysex
name



Bob30.01988-10-17Shang Haimale
MaryNaNNaTGuang Zhoufemale
James40.01978-08-08Shen Zhenmale

对于索引来说,一样可以使用 isin 方法来筛选。

user_info[user_info.index.isin(["Bob"])]

agebirthcitysex
name



Bob30.01988-10-17Shang Haimale

通过Callable筛选

lociloc、切片操作都支持接收一个 callable 函数,callable必须是带有一个参数(调用Series,DataFrame)的函数,并且返回用于索引的有效输出。

user_info[lambda df: df["age"] > 20]

agebirthcitysex
name



Bob30.01988-10-17Shang Haimale
James40.01978-08-08Shen Zhenmale
Alice30.01988-10-17
unknown
user_info.loc[lambda df: df.age > 20, lambda df: ["age"]]

age
name
Bob30.0
James40.0
Alice30.0
user_info.iloc[lambda df: [0, 5], lambda df: [0]]

age
name
Tom18.0
Alice30.0

发表评论

电子邮件地址不会被公开。 必填项已用*标注