如何計算 Pandas Dataframe 列中的 NaN 出現的次數
Asad Riaz
2023年1月30日
2020年3月28日
-
isna()
方法來計算一列或多列中的 NaN -
從總長度中減去
non-NaN
的計數以計算NaN
的出現次數 -
df.isnull().sum()
方法來計算NaN
的出現次數 -
計算整個 Pandas DataFrame 中
NaN
的出現
我們將介紹在 Pandas DataFrame 的一列中計算 NaN 出現次數的方法。我們有很多選擇,包括針對一列或多列的 isna()
方法,通過從 NaN
出現次數中減去總長度,使用 value_counts
方法,以及使用 df.isnull().sum()
方法。
我們還將介紹計算整個 Pandas DataFrame 中 NaN
出現總數的方法。
isna()
方法來計算一列或多列中的 NaN
我們可以使用 insna()
方法(Pandas 版本> 0.21.0),然後求和以計算 NaN
的出現。對於一列,我們將執行以下操作:
import pandas as pd
s = pd.Series([
1,2,3, np.nan, np.nan])
s.isna().sum()
# or s.isnull().sum() for older pandas versions
輸出:
2
對於幾列,它也適用:
import pandas as pd
df = pd.DataFrame({
'a':[1,2,np.nan],
'b':[np.nan,1,np.nan]})
df.isna().sum()
輸出:
a 1
b 2
dtype: int64
從總長度中減去 non-NaN
的計數以計算 NaN
的出現次數
我們可以通過從 dataframe 的長度中減去非 NaN
出現的次數來獲得每一列中 NaN
出現的次數:
import pandas as pd
df = pd.DataFrame([
(1,2,None),
(None,4,None),
(5,None,7),
(5,None,None)],
columns=['a','b','d'],
index = ['A', 'B','C','D'])
print(df)
print(len(df)-df.count())
輸出:
a b d
A 1.0 2.0 NaN
B NaN 4.0 NaN
C 5.0 NaN 7.0
D 5.0 NaN NaN
a 1
b 2
d 3
dtype: int64
df.isnull().sum()
方法來計算 NaN
的出現次數
我們可以使用 df.isnull().sum()
方法獲得每一列中 NaN
出現的次數。如果我們在 sum
方法中傳遞了 axis=0
,它將給出每列中出現 NaN
的次數。如果需要在每行中出現 NaN
次,我們需要設定 axis=1
。
考慮以下程式碼:
import pandas as pd
df = pd.DataFrame(
[(1,2,None),
(None,4,None),
(5,None,7),
(5,None,None)],
columns=['a','b','d'],
index = ['A', 'B','C','D'])
print('NaN occurrences in Columns:')
print(df.isnull().sum(axis = 0))
print('NaN occurrences in Rows:')
print(df.isnull().sum(axis = 1))
輸出:
NaN occurrences in Columns:
a 1
b 2
d 3
dtype: int64
NaN occurrences in Rows:
A 1
B 2
C 1
D 2
dtype: int64
計算整個 Pandas DataFrame 中 NaN
的出現
為了獲得在 DataFrame
中所有 NaN
出現的總數,我們將兩個 .sum()
方法連結在一起:
import pandas as pd
df = pd.DataFrame(
[(1,2,None),
(None,4,None),
(5,None,7),
(5,None,None)],
columns=['a','b','d'],
index = ['A', 'B','C','D'])
print('NaN occurrences in DataFrame:')
print(df.isnull().sum().sum())
輸出:
NaN occurrences in DataFrame:
6