如何根據 Pandas 中的日期過濾 DataFrame 行
- 使用布林掩碼選擇兩個日期之間的行
-
pandas.DataFrame.query()
選擇兩個日期之間的 DataFrame 行 -
pandas.DataFrame.isin()
選擇兩個日期之間的 DataFrame 行 -
pandas.Series.between()
選擇兩個日期之間的 DataFrame 行
我們可以使用帶有 loc
方法和 DataFrame 索引的布林掩碼,根據 Pandas 中的日期過濾 DataFrame
行。我們也可以對 DataFrame 物件使用 query,isin 和 between 方法來基於 Pandas 中的日期選擇行。
使用布林掩碼選擇兩個日期之間的行
要使用布林掩碼基於 Pandas 中的日期過濾 DataFrame 行,我們首先使用以下語法建立布林掩碼:
mask = (df['col'] > start_date) & (df['col'] <= end_date)
其中 start_date
和 end_date
均為 datetime
格式,它們表示必須從中過濾資料的範圍的開始和結束。然後,我們使用 df.loc()
方法選擇位於範圍內的 DataFrame 部分。
import pandas as pd
import numpy as np
import datetime
list_of_dates = ['2019-11-20', '2020-01-02', '2020-02-05','2020-03-10','2020-04-16','2020-05-01']
employees=['Hisila', 'Shristi','Zeppy','Alina','Jerry','Kevin']
df = pd.DataFrame({'Joined date': pd.to_datetime(list_of_dates)},index=employees)
mask = (df['Joined date'] > '2019-06-1') & (df['Joined date'] <= '2020-02-05')
filtered_df=df.loc[mask]
print(filtered_df)
輸出:
Joined date
Hisila 2019-11-20
Shristi 2020-01-02
Zeppy 2020-02-05
通過將 date
列設定為索引列,我們可以使用整合的 df.loc[start_date:end_date]
方法簡化上述過程。
import pandas as pd
import numpy as np
import datetime
list_of_dates = ['2019-11-20', '2020-01-02', '2020-02-05','2020-03-10','2020-04-16','2020-05-01']
employees=['Hisila', 'Shristi','Zeppy','Alina','Jerry','Kevin']
salary=[200,400,300,500,600,300]
df = pd.DataFrame({"Name":employees,'Joined date': pd.to_datetime(list_of_dates),"Salary":salary})
df = df.set_index(['Joined date'])
filtered_df=df.loc['2019-06-1':'2020-02-05']
print(filtered_df)
輸出:
Name Salary
Joined date
2019-11-20 Hisila 200
2020-01-02 Shristi 400
2020-02-05 Zeppy 300
pandas.DataFrame.query()
選擇兩個日期之間的 DataFrame 行
我們也可以使用 pandas.DataFrame.query()
方法在 Pandas 中基於日期過濾 DataFrame 行。該方法返回從提供的查詢表示式得到的 DataFrame。
import pandas as pd
import numpy as np
import datetime
list_of_dates = ['2019-11-20', '2020-01-02', '2020-02-05','2020-03-10','2020-04-16','2020-05-01']
employees=['Hisila', 'Shristi','Zeppy','Alina','Jerry','Kevin']
salary=[200,400,300,500,600,300]
df = pd.DataFrame({"Name":employees,'Joined_date': pd.to_datetime(list_of_dates),"Salary":salary})
filtered_df=df.query("Joined_date >= '2019-06-1' and Joined_date <='2020-02-05'")
print(filtered_df)
輸出:
Name Joined_date Salary
0 Hisila 2019-11-20 200
1 Shristi 2020-01-02 400
2 Zeppy 2020-02-05 300
pandas.DataFrame.isin()
選擇兩個日期之間的 DataFrame 行
pandas.DataFrame.isin()
返回表示元素是否為布林值的 DataFrame
是否在指定範圍內。我們可以使用此方法根據 Pandas 中的日期過濾 DataFrame 行。
import pandas as pd
import numpy as np
import datetime
list_of_dates = ['2019-11-20', '2020-01-02', '2020-02-05','2020-03-10','2020-04-16','2020-05-01']
employees=['Hisila', 'Shristi','Zeppy','Alina','Jerry','Kevin']
salary=[200,400,300,500,600,300]
df = pd.DataFrame({"Name":employees,'Joined_date': pd.to_datetime(list_of_dates),"Salary":salary})
filtered_df = df[df["Joined_date"].isin(pd.date_range('2019-06-1', '2020-02-05'))]
print(filtered_df)
輸出:
Name Joined_date Salary
0 Hisila 2019-11-20 200
1 Shristi 2020-01-02 400
2 Zeppy 2020-02-05 300
pandas.date_range()
返回固定的 DateTimeIndex
。它的第一個引數是開始日期,第二個引數是結束日期。
pandas.Series.between()
選擇兩個日期之間的 DataFrame 行
我們還可以使用 pandas.Series.between()
根據日期過濾 DataFrame 該方法返回一個布林向量,表示系列元素是否在指定範圍內。因此,我們將布林向量傳遞給 loc()
方法以提取 DataFrame。
import pandas as pd
import numpy as np
import datetime
list_of_dates = ['2019-11-20', '2020-01-02', '2020-02-05','2020-03-10','2020-04-16','2020-05-01']
employees=['Hisila', 'Shristi','Zeppy','Alina','Jerry','Kevin']
salary=[200,400,300,500,600,300]
df = pd.DataFrame({"Name":employees,'Joined_date': pd.to_datetime(list_of_dates),"Salary":salary})
filtered_df =df.loc[df["Joined_date"].between('2019-06-1', '2020-02-05')]
print(filtered_df)
輸出:
Name Joined_date Salary
0 Hisila 2019-11-20 200
1 Shristi 2020-01-02 400
2 Zeppy 2020-02-05 300
Suraj Joshi is a backend software engineer at Matrice.ai.
LinkedIn