Pandas DataFrame.describe()函式

Minahil Noor 2023年1月30日 2021年1月22日
  1. pandas.DataFrame.describe() 語法
  2. 示例程式碼:DataFrame.describe() 方法查詢 DataFrame 統計
  3. 示例程式碼: DataFrame.describe() 方法查詢各列統計資料
  4. 示例程式碼:DataFrame.describe() 方法查詢數值列統計
Pandas DataFrame.describe()函式

Python Pandas DataFrame.describe() 函式返回一個 DataFrame 的統計資料。

pandas.DataFrame.describe() 語法

DataFrame.describe(percentiles=None,
                   include=None,
                   exclude=None,
                   datetime_is_numeric=False)

引數

percentiles 這個引數告訴了輸出中要包含的百分位數,所有的值都應該在 0 和 1 之間。預設值是 [.25, .5, .75],返回第 25、50 和 75 個百分位數。
include 輸出中要包含的資料型別。它有三個選項。
all:輸入的所有列都將被包含在輸出中。
類似列表的資料型別:將結果限制在提供的資料型別中。
None:結果將包括所有數字列。
exclude 要從輸出中排除的資料型別。它有兩個選項。
類似於資料型別的列表:從結果中排除所提供的資料型別。
None。結果將不包括任何東西。
datetime_is_numeric 布林引數。它指定我們是否將資料時間型別作為數字型別處理。

返回

它返回所傳遞的 Series 或 DataFrame 的統計摘要。

示例程式碼:DataFrame.describe() 方法查詢 DataFrame 統計

import pandas as pd

dataframe=pd.DataFrame({'Attendance': {0: 60, 1: 100, 2: 80,3: 78,4: 95},
                        'Name': {0: 'Olivia', 1: 'John', 2: 'Laura',3: 'Ben',4: 'Kevin'},
                        'Obtained Marks': {0: 90, 1: 75, 2: 82, 3: 64, 4: 45}})

print("The Original Data frame is: \n")
print(dataframe)

dataframe1 = dataframe.describe()
print("Statistics are: \n")
print(dataframe1)

輸出:

The Original Data frame is: 

   Attendance    Name  Obtained Marks
0          60  Olivia              90
1         100    John              75
2          80   Laura              82
3          78     Ben              64
4          95   Kevin              45
Statistics are: 

       Attendance  Obtained Marks
count    5.000000        5.000000
mean    82.600000       71.200000
std     15.773395       17.484279
min     60.000000       45.000000
25%     78.000000       64.000000
50%     80.000000       75.000000
75%     95.000000       82.000000
max    100.000000       90.000000

該函式返回了 DataFrame 的統計摘要。我們沒有傳遞任何引數,所以,函式使用了所有的預設值。

示例程式碼: DataFrame.describe() 方法查詢各列統計資料

我們將使用 include 引數查詢所有列的統計資料。

import pandas as pd
dataframe=pd.DataFrame({'Attendance': {0: 60, 1: 100, 2: 80,3: 78,4: 95},
                        'Name': {0: 'Olivia', 1: 'John', 2: 'Laura',3: 'Ben',4: 'Kevin'},
                        'Obtained Marks': {0: 90, 1: 75, 2: 82, 3: 64, 4: 45}})
print("The Original Data frame is: \n")
print(dataframe)

dataframe1 = dataframe.describe(include='all')
print("Statistics are: \n")
print(dataframe1)

輸出:

The Original Data frame is: 

   Attendance    Name  Obtained Marks
0          60  Olivia              90
1         100    John              75
2          80   Laura              82
3          78     Ben              64
4          95   Kevin              45
Statistics are: 

        Attendance   Name  Obtained Marks
count     5.000000      5        5.000000
unique         NaN      5             NaN
top            NaN  Kevin             NaN
freq           NaN      1             NaN
mean     82.600000    NaN       71.200000
std      15.773395    NaN       17.484279
min      60.000000    NaN       45.000000
25%      78.000000    NaN       64.000000
50%      80.000000    NaN       75.000000
75%      95.000000    NaN       82.000000
max     100.000000    NaN       90.000000

該函式返回了 DataFrame 中所有列的統計彙總。

示例程式碼:DataFrame.describe() 方法查詢數值列統計

現在我們將使用 exclude 引數只查詢數值列的統計。

import pandas as pd

dataframe=pd.DataFrame({'Attendance': {0: 60, 1: 100, 2: 80,3: 78,4: 95},
                        'Name': {0: 'Olivia', 1: 'John', 2: 'Laura',3: 'Ben',4: 'Kevin'},
                        'Obtained Marks': {0: 90, 1: 75, 2: 82, 3: 64, 4: 45}})
print("The Original Data frame is: \n")
print(dataframe)

dataframe1 = dataframe.describe(exclude=[object])
print("Statistics are: \n")
print(dataframe1)

輸出:

The Original Data frame is: 

   Attendance    Name  Obtained Marks
0          60  Olivia              90
1         100    John              75
2          80   Laura              82
3          78     Ben              64
4          95   Kevin              45
Statistics are: 

       Attendance  Obtained Marks
count    5.000000        5.000000
mean    82.600000       71.200000
std     15.773395       17.484279
min     60.000000       45.000000
25%     78.000000       64.000000
50%     80.000000       75.000000
75%     95.000000       82.000000
max    100.000000       90.000000

我們已經排除了資料型別 object

相關文章 - Pandas DataFrame