variability被稱作變異性或者可變性,它描述了數(shù)據(jù)點(diǎn)彼此之間以及距分布中心的距離。
可變性有時(shí)也稱為擴(kuò)散或者分散。 因?yàn)樗嬖V你點(diǎn)是傾向于聚集在中心周圍還是更廣泛地分散。
低變異性是理想的,因?yàn)檫@意味著可以根據(jù)樣本數(shù)據(jù)更好地預(yù)測(cè)有關(guān)總體的信息。 高可變性意味著值的一致性較低,因此更難做出預(yù)測(cè)。在統(tǒng)計(jì)學(xué)中,我們的目標(biāo)是測(cè)量一組特定數(shù)據(jù)或一個(gè)分布的變異性。簡(jiǎn)單來說,如果一個(gè)分布中的數(shù)據(jù)值是相同的,那么它沒有變異性。

上圖中盡管數(shù)據(jù)服從正態(tài)分布,但每個(gè)樣本都有不同的分布。 樣品 A 的變異性最大,而樣品 C 的變異性最小。
可以使用多種不同的方式對(duì)變異度進(jìn)行度量
極差(Range)

極差,又稱全距,可以顯示數(shù)據(jù)從分布中的最低值到最高值的分布。
例如,考慮以下數(shù)字:1、3、4、5、5、6、7、11。對(duì)于這組數(shù)字,極差是 11-1 或 10。

極差的度量?jī)H使用了 2 個(gè)數(shù)字因此受異常值影響很大,并且不會(huì)提供有關(guān)值分布的任何信息。 所以它最好與其他方法結(jié)合使用。
四分位距(Interquartile range)

四分位距又被稱作四分差,可以提供數(shù)據(jù)分布中間的分布。
對(duì)于從低到高排序的任何分布,四分位距包含數(shù)據(jù)中一半的值。 第一個(gè)四分位數(shù) (Q1) 包含前 25% 的值,而第四個(gè)四分位數(shù) (Q4) 包含最后 25% 的值。
它衡量數(shù)據(jù)如何圍繞均值分布。 基本公式為:IQR = Q3 – Q1
就像極差一樣,四分位距在其計(jì)算中僅使用 2 個(gè)值。 但是IQR受異常值的影響較?。哼@2個(gè)值來自數(shù)據(jù)集的中間一半,所以不太可能是極端分?jǐn)?shù)。

小知識(shí):每個(gè)分布都可以使用五個(gè)數(shù)字摘要進(jìn)行組織:
- 最低值
- Q1:第 25 個(gè)百分位
- Q2:中位數(shù)
- Q3:第 75 個(gè)百分位
- 最高值 (Q4)

方差(Variance)

方差表示數(shù)據(jù)集的分布范圍,但它是一個(gè)抽象數(shù)字。它反映了數(shù)據(jù)集中的分散程度。 數(shù)據(jù)越分散,方差與均值的關(guān)系就越大。

- 小方差 – 數(shù)據(jù)點(diǎn)往往非常接近均值且彼此非常接近
- 高方差 – 數(shù)據(jù)點(diǎn)與均值和彼此之間非常分散
- 零方差——所有數(shù)據(jù)值都相同
標(biāo)準(zhǔn)差(Standard Deviation)
標(biāo)準(zhǔn)偏差是數(shù)據(jù)集中的平均變異量。 它平均表示每個(gè)數(shù)據(jù)點(diǎn)與平均值相差多遠(yuǎn)。標(biāo)準(zhǔn)差越大,數(shù)據(jù)集的可變性越大。

為什么使用 n – 1 作為樣本標(biāo)準(zhǔn)差?
當(dāng)擁有總體數(shù)據(jù)時(shí)可以獲得總體標(biāo)準(zhǔn)差的準(zhǔn)確值。 可以從每個(gè)總體成員收集數(shù)據(jù),因此標(biāo)準(zhǔn)差反映了分布(總體)中的精確變異量。
但當(dāng)無法獲得所有數(shù)據(jù)時(shí),就可以對(duì)整體數(shù)據(jù)進(jìn)行抽樣(抽樣方式這就不詳細(xì)介紹)。抽樣的結(jié)果就被稱作樣本,樣本的作用是對(duì)總體的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)推斷的。當(dāng)使用樣本數(shù)據(jù)時(shí),樣本標(biāo)準(zhǔn)差始終用作總體標(biāo)準(zhǔn)差的估計(jì)值。 在這個(gè)公式中使用 n 往往會(huì)給你一個(gè)有偏差的估計(jì),它總會(huì)低估可變性。
將樣本 n 減少到 n – 1 會(huì)使標(biāo)準(zhǔn)偏差人為地變大,從而提供對(duì)變異性的保守估計(jì)。雖然這不是無偏估計(jì),但它是對(duì)標(biāo)準(zhǔn)差的偏少估計(jì):高估而不是低估樣本的可變性更好。

標(biāo)準(zhǔn)差低 – 數(shù)據(jù)點(diǎn)往往接近平均值 標(biāo)準(zhǔn)差高 – 數(shù)據(jù)點(diǎn)分布在大極差的值上
什么是變異性的最佳衡量標(biāo)準(zhǔn)?
可變性的最佳衡量標(biāo)準(zhǔn)取決于不同衡量標(biāo)準(zhǔn)和分布水平。
對(duì)于在序數(shù)水平上測(cè)量的數(shù)據(jù),極差和四分位距是唯一合適的變異性度量。
對(duì)于更復(fù)雜的區(qū)間和比率的數(shù)據(jù),標(biāo)準(zhǔn)差和方差也適用。
對(duì)于正態(tài)分布,可以使用所有度量。 但標(biāo)準(zhǔn)差和方差是首選,因?yàn)樗鼈兛紤]了整個(gè)數(shù)據(jù)集,但這也意味著它們很容易受到異常值的影響。
對(duì)于偏態(tài)分布或具有異常值的數(shù)據(jù)集,四分位距是最好的度量。 它受極值影響最小,因?yàn)樗鼈?cè)重于數(shù)據(jù)集中間的部分。
作者;Ashish Kumar Singh