variability被稱作變異性或者可變性,它描述了數(shù)據(jù)點彼此之間以及距分布中心的距離。
可變性有時也稱為擴散或者分散。 因為它告訴你點是傾向于聚集在中心周圍還是更廣泛地分散。
低變異性是理想的,因為這意味著可以根據(jù)樣本數(shù)據(jù)更好地預(yù)測有關(guān)總體的信息。 高可變性意味著值的一致性較低,因此更難做出預(yù)測。在統(tǒng)計學(xué)中,我們的目標是測量一組特定數(shù)據(jù)或一個分布的變異性。簡單來說,如果一個分布中的數(shù)據(jù)值是相同的,那么它沒有變異性。

上圖中盡管數(shù)據(jù)服從正態(tài)分布,但每個樣本都有不同的分布。 樣品 A 的變異性最大,而樣品 C 的變異性最小。
可以使用多種不同的方式對變異度進行度量
極差(Range)

極差,又稱全距,可以顯示數(shù)據(jù)從分布中的最低值到最高值的分布。
例如,考慮以下數(shù)字:1、3、4、5、5、6、7、11。對于這組數(shù)字,極差是 11-1 或 10。

極差的度量僅使用了 2 個數(shù)字因此受異常值影響很大,并且不會提供有關(guān)值分布的任何信息。 所以它最好與其他方法結(jié)合使用。
四分位距(Interquartile range)

四分位距又被稱作四分差,可以提供數(shù)據(jù)分布中間的分布。
對于從低到高排序的任何分布,四分位距包含數(shù)據(jù)中一半的值。 第一個四分位數(shù) (Q1) 包含前 25% 的值,而第四個四分位數(shù) (Q4) 包含最后 25% 的值。
它衡量數(shù)據(jù)如何圍繞均值分布。 基本公式為:IQR = Q3 – Q1
就像極差一樣,四分位距在其計算中僅使用 2 個值。 但是IQR受異常值的影響較小:這2個值來自數(shù)據(jù)集的中間一半,所以不太可能是極端分數(shù)。

小知識:每個分布都可以使用五個數(shù)字摘要進行組織:
- 最低值
- Q1:第 25 個百分位
- Q2:中位數(shù)
- Q3:第 75 個百分位
- 最高值 (Q4)

方差(Variance)

方差表示數(shù)據(jù)集的分布范圍,但它是一個抽象數(shù)字。它反映了數(shù)據(jù)集中的分散程度。 數(shù)據(jù)越分散,方差與均值的關(guān)系就越大。

- 小方差 – 數(shù)據(jù)點往往非常接近均值且彼此非常接近
- 高方差 – 數(shù)據(jù)點與均值和彼此之間非常分散
- 零方差——所有數(shù)據(jù)值都相同
標準差(Standard Deviation)
標準偏差是數(shù)據(jù)集中的平均變異量。 它平均表示每個數(shù)據(jù)點與平均值相差多遠。標準差越大,數(shù)據(jù)集的可變性越大。

為什么使用 n – 1 作為樣本標準差?
當擁有總體數(shù)據(jù)時可以獲得總體標準差的準確值。 可以從每個總體成員收集數(shù)據(jù),因此標準差反映了分布(總體)中的精確變異量。
但當無法獲得所有數(shù)據(jù)時,就可以對整體數(shù)據(jù)進行抽樣(抽樣方式這就不詳細介紹)。抽樣的結(jié)果就被稱作樣本,樣本的作用是對總體的數(shù)據(jù)進行統(tǒng)計推斷的。當使用樣本數(shù)據(jù)時,樣本標準差始終用作總體標準差的估計值。 在這個公式中使用 n 往往會給你一個有偏差的估計,它總會低估可變性。
將樣本 n 減少到 n – 1 會使標準偏差人為地變大,從而提供對變異性的保守估計。雖然這不是無偏估計,但它是對標準差的偏少估計:高估而不是低估樣本的可變性更好。

標準差低 – 數(shù)據(jù)點往往接近平均值 標準差高 – 數(shù)據(jù)點分布在大極差的值上
什么是變異性的最佳衡量標準?
可變性的最佳衡量標準取決于不同衡量標準和分布水平。
對于在序數(shù)水平上測量的數(shù)據(jù),極差和四分位距是唯一合適的變異性度量。
對于更復(fù)雜的區(qū)間和比率的數(shù)據(jù),標準差和方差也適用。
對于正態(tài)分布,可以使用所有度量。 但標準差和方差是首選,因為它們考慮了整個數(shù)據(jù)集,但這也意味著它們很容易受到異常值的影響。
對于偏態(tài)分布或具有異常值的數(shù)據(jù)集,四分位距是最好的度量。 它受極值影響最小,因為它側(cè)重于數(shù)據(jù)集中間的部分。
作者;Ashish Kumar Singh