Matplotlib 生成 CDF 圖

Suraj Joshi 2021年2月28日 2020年12月31日
Matplotlib 生成 CDF 圖

本教程解釋瞭如何使用 Python 中的 Matplotlib 生成一個 CDF 圖。CDF 是一個函式,它的 y 值代表一個隨機變數取值小於或等於相應 x 值的概率。

在 Python 中使用 Matplotlib 繪製 CDF

CDF 是對連續概率分佈和離散概率分佈的定義。在連續概率分佈中,隨機變數可以從指定的範圍內取任何值,但在離散概率分佈中,我們只能有一組指定的值。

使用 Python 中的 Matplotlib 繪製離散分佈的 CDF

import numpy as np
import matplotlib.pyplot as plt 

x=np.arange(1,7)
y=[0.2,0.1,0.1,0.2,0.1,0.3]
cdf=np.cumsum(y)

plt.plot(x,y, marker="o",label="PMF")
plt.plot(x,cdf,marker="o",label="CDF")
plt.xlim(0,7)
plt.ylim(0,1.5)
plt.xlabel("X")
plt.ylabel("Probability Values")
plt.title("CDF for discrete distribution")
plt.legend()
plt.show()

輸出:

使用 Python 中的 Matplotlib 繪製離散分佈的 CDF

它繪製給定分佈的 PMFCDF。為了計算 CDF 的 y 值,我們使用 numpy.cumsum() 方法計算一個陣列的累計和。

如果給定的是頻率計數,我們必須對 y-值進行歸一化,使其代表 PDF

import numpy as np
import matplotlib.pyplot as plt 

x=np.arange(1,7)
frequency=np.array([3,8,4,5,3,6])
pdf=frequency/np.sum(frequency)
cdf=np.cumsum(pdf)

plt.plot(x,pdf, marker="o",label="PMF")
plt.plot(x,cdf,marker="o",label="CDF")
plt.xlim(0,7)
plt.ylim(0,1.5)
plt.xlabel("X")
plt.ylabel("Probability Values")
plt.title("CDF for discrete distribution")
plt.legend()
plt.show()

輸出:

使用 Python 中的 Matplotlib 繪製歸一化後的離散分佈的 CDF

這裡,我們得到每個 X 值的頻率值。我們將頻率值轉換為 pdf 值,方法是將 pdf 陣列的每個元素除以頻率之和。然後,我們使用 pdf 計算 CDF 值,繪製給定資料的 CDF

我們也可以使用直方圖來檢視 CDFPDF 圖,這對於離散資料來說會更加直觀。

import numpy as np
import matplotlib.pyplot as plt

data = [3,4,2,3,4,5,4,7,8,5,4,6,2,1,0,9,7,6,6,5,4]
plt.hist(data,bins=9,density=True)
plt.hist(data,bins=9, density=True, cumulative=True, label='CDF', histtype='step')
plt.xlabel("X")
plt.ylabel("Probability")
plt.xticks(np.arange(0,10))
plt.title("CDF using Histogram Plot")
plt.show()

輸出:

使用直方圖繪製離散分佈的 CDF

它使用 hist() 方法繪製給定資料的 CDFPDF。為了繪製 CDF,我們設定 cumulative=True 和設定 density=True,以得到一個代表概率值相加為 1 的直方圖。

在 Python 中使用 Matplotlib 繪製連續分佈的 CDF

import numpy as np
import matplotlib.pyplot as plt 

dx = 0.005
x  = np.arange(-10, 10, dx)
y  = 0.25*np.exp((-x ** 2)/8)

y=y/ (np.sum(dx * y))
cdf = np.cumsum(y * dx)

plt.plot(x,y,label="pdf")
plt.plot(x,cdf,label="cdf")
plt.xlabel("X")
plt.ylabel("Probability Values")
plt.title("CDF for continuous distribution")
plt.legend()
plt.show()

輸出:

使用 Python 中的 Matplotlib 繪製連續分佈的 CDF

它繪製給定連續分佈的 PMFCDF。為了計算 CDF 的 y 值,我們使用 numpy.cumsum() 方法計算一個陣列的累積和。

我們將 y 除以陣列 y 的總和乘以 dx,以使 CDF 值的範圍從 0 到 1。

Author: Suraj Joshi
Suraj Joshi avatar Suraj Joshi avatar

Suraj Joshi is a backend software engineer at Matrice.ai.

LinkedIn