卫生学电子教材-第七章计量资料的统计方法:第一节计量资料的统计描述

来源：南华大学资源网精品课程网

卫生学电子教材第七章计量资料的统计方法:第一节计量资料的统计描述:◎<一、计量资料的频数表>◎<二、平均指标>◎<三、变异指标>一、计量资料的频数表设X为观察单位的变量（定量指标)，n个观察单位的变量值为：X1，X2，…，Xn。如果n较大，可通过资料整理，编制频数分布（frequency distribution)表，简称频数表，用以描述变量值的分布情况，观察分布规律。为了使变量值的分布规律形象直观，还可绘制频数分布图。例7·1某地区130名www.med12

◎<一、计量资料的频数表>	◎<二、平均指标>	◎<三、变异指标>

一、计量资料的频数表

设X为观察单位的变量（定量指标)，n个观察单位的变量值为：X₁，X₂，…，X_n。如果n较大，可通过资料整理，编制频数分布（frequency distribution)表，简称频数表，用以描述变量值的分布情况，观察分布规律。为了使变量值的分布规律形象直观，还可绘制频数分布图。

例7·1某地区130名www.med126.com/yishi/正常成年男子的红细胞数如表7－1，编制频数表和绘制频数分布图。

1.找全距一群变量值的最大值和最小值之差称为全距（range)，亦称极差。本例从表7－1找出最大值为5.88，最小值为3.79，故全距为5.88-3.79=2.09（10¹²/L)。

2.定组距一般把n个变量值分为10～15组。若n较小，组数可相应少些；n较大，组数可酌情多些，以能揭示变量值的分布规律为宜。各组段的组距可相等，也可不等，根据该群变量值的实际情况而定，一般用等距。本例拟分10组左右，等组距。将全距除以拟分的组数2.09/10=0.209，得组距的约数，再将约数酌情调整到较方便的数作为组距，本例取0.20为组距。

3.写组段每个组段的起点称组下限，终点称组上限。第1组段应包括变量最小值，故其下限取小于最小值的方便数，本例取小于3.79的3.70作为第1组段的下限。本例变量为连续变量，组段应写为上限开口型：3.70～，3.90～，4.10～，……。第2组段的下限3.90为第1组段的上限，第3组段的下限4.10为第2组段的上限，余此类推。最后1个组段应包括变量最大值，一般写为上限闭口型，本例最大值为5.88，最后1个组段写为5.70～5.90。如表7－2第(1)栏，本例共分11组，写成11个组段。

对于离散变量，如年龄（岁)取值为0，1，2，……，则既可上限开口型，如0～，5～，10～，……；也可写成上限闭口型0～4，5～9，10～14，……。

4.划记如表7－2第(2)栏，将表7－1的130个变量值划记归入相应的组段。表7－2第(3)栏为每个组段的合计变量值个数，称频数。表7－2的第(1)栏和第(3)栏即构成频数表。

以变量为横轴，频数为纵轴，本例据表7－2的频数分布表绘制出图7－1的频数分布图。绘制频数分布图必须以相等组距的频数值作纵坐标值。如果绝大多数组距相等（记为i)，以该组距的频数值作纵坐标值，若有某个组距（记为X·i)和该组距（i)不相等，则其频数值除以X作纵坐标值。

频数表和频数分布图用以描述变量值的分布特征和揭示变量值的分布规律。变量值的分布有2个重要特征：集中趋势（central tendency)和离散趋势（tendency ofdispersion)。集中趋势是指变量值的集中位置所在；离散趋势是指变量值围绕集中位置的

分布情况。根据变量值的分布规律，可把变量值分布分为对称分布和不对称分布。对称分布指集中位置在正中，左右两侧的频数分布大体对称（指样本变量值分布，理论上的总体变量值分布为完全对称)，最常见的对称分布为正态分布（见本章第二节)。不对称分布则是一种偏态分布，是指集中位置偏向一侧，左右两侧频数分布不对称。偏态分布又可分为正偏态分布和负偏态分布。如果集中位置偏向变量值小的一侧，称为正偏态分布；如果集中位置偏向变量值大的一侧，称为负偏态分布。医学指标的偏态分布多为正偏态分布。本例观察表7－2和图7－1，可见正常成年男子的红细胞数的分布为对称分布。对称分布是正态分布的必要条件。

用频数表还便于发现特大或特小的可疑变量值。有时在频数表的两端出现连续几个组段的频数为0后，又出现1个或几个特大值或特小值，使人怀疑这1个或几个变量值是否正确。如果检查出可疑值是错误的，能改正则改正，否则剔除。

对于计量资料，不同类型的分布所采用的描述统计指标和统计分析方法有所不同。

返回顶部

二、平均指标

变量值分布的集中趋势和离散趋势这2个特征，可用相应的统计指标描述，成为数量特征或特征量。知道了变量值分布的各种特征量，对变量值分布就有了总的概括性的了解，而不必罗列所有变量值，这就是计算统计指标的意义。

描述变量值分布的集中趋势用平均指标，常称平均数（average)。平均数反映一群变量值的平均水平或集中位置，是统计中最重要和应用最广泛的统计指标。对规定的同质个体构成的群体计算平均数才有意义，如分性别和分年龄计算儿童的平均身高有意义，而不分性别和不分年龄计算儿童的平均身高无意义。

常用的平均数有均数（mean)、几何均数（geometric mean)和中位数（median)，据变量值的不同分布类型选用不同的平均数。一般来说，对称分布资料选用均数；偏态分布资料选用几何均数和中位数。实际研究某个医学定量指标时，通常是先凭理论或经验（包括查文献)来判断该指标符合什么总体分布，至于用频数表和频数分布图来判断一个指标符合什么总体分布，需要大样本。

1.均数均数是算术平均数的简称，是最重要的平均数。均数最适用于对称分布资料，特别是正态分布资料。总体均数用μ表示，样本均数作表示。

(1)直接法：由样本n个变量值X₁，X₂…，X_n求均数的公式为

式中Σ是求和的符号，n是样本含量。本书在不会引起误解的情况下简写成

例7·2某地抽样得10名7岁男孩体重（kg)为17.3，18.0，19.4，20.6，21.2，21.8，22.5，23.2，24.0，25.5。求均数。

该地10名7岁男孩的体重均数（或平均体重)为21.4kg。

(2)加权法：当相同变量值的个数较多时，可用加权法计算均数。如n个变量值已编制成频数表，则可用加权法计算均数。设分为k组，每组的频数为f_i，f_i个变量值的均数用其组中值X_i＝（本组段下限+下组段下限)/2代替，则频数f_i为X_i的权（weight)，加权法计算均数的公式为

例 7·3求例7·1的130名正常成年男子红细胞数的均数。

据表7－2得表7－3，表中第(5)栏是为后面计算标准差用。

该地区130名正常成年男子红细胞数的均数为4.794×10¹²/L。

要说明的是，对于偏态分布资料，均数虽不能较好地反映变量值的平均水平或集中位置，但据（7·1)式有n =ΣX，均数可间接反映n个变量值的总体数量水平（∑x)。

2.几何均数几何均数用于下述情况的偏态分布资料：变量值的变化呈倍数关系，特别是当变量值取对数后服从正态分布，即对数正态分布资料。几何均数用G表示。

(1)直接法：由样本n个变量值X₁，X₂，…，X_n求几何均数G的公式为

或用对数计算

例7·4设有5人的血清抗体效价为1：10，1：100，1：1000，1：10000，1：100000。求平均血清抗体效价。

以血清抗体效价的倒数作变量值，本例若求均数，则得 =22222，5个变量值比小的有4个，比大的只有1个，因此不能表示这5个变量值的平均水平或集中位置。本例应求几何均数。

5人的平均血清抗体效价为1：1000。

(2)加权法：当相同变量值的个数较多时，如对于频数表资料，则用加权法计算几何均数，例7·5 某地23名儿童接种麻疹疫苗后血清血凝抑制抗体滴度的频数分布如表7-4的第(1)、(2)栏，求平均抗体滴度。

该地23名儿童血清血凝抑制的平均抗体滴度为1∶12.35。

3.中位数和百分位数把n个变量值从小到大排列，位于中间位置的变量值称为中位数，用M表示。中位数只是一个特定的百分位数（percentile)。把n个变量值从小到大排列，和第x百分位次对应的变量值称为第x百分位数，用Px表示。全部变量值比Px小有x%的变量值，比Px大有（100-x)%的变量值。显然中位数M即第50百分位数P₅₀。关于中位数以外其他百分位数的用途见后述内容。

中位数一般用于不宜或不能用几何均数的偏态分布资料：如变量值分布规律不清www.med126.com/rencai/楚、有少数的特小或特大值；又如变量值分布一端或两端无确定数值，只是小于或大于某个数值（求不出均数或几何均数)。另外当资料分布不明时，即判断不出资料是否服从正态分布或对数正态分布时，也只好用中位数。

中位数一定在变量值分布的中心位置。对于正态分布总体，均数等于中位数；对于对数正态分布总体，几何均数等于中位数。但对于正态分布资料和对数正态分布资料，若用样本中位数比用样本均数和样本几何均数会降低推断总体均数和总体几何均数的灵敏度。

(1)用原始变量值直接计算中位数：把n个变量值从小到大排列后记为X_i，即有X₁≤X₂≤…≤X_n，则中位数为

例7·6 某病患者5人的潜伏期（天)从小到大排列为2，3，6，8，20。求中位数。

5人的平均潜伏期为6天。

例7·7 某病患者8人的潜伏期（天)从小到大排列为5，6，8，9，11，11，13，＞16。求平均潜伏期。

8人的平均潜伏期为10天。

(2)用频数表计算中位数和百分位数：条件是样本含量（n)大。按所分组段，由小到大计算累计频数和累计频率。先从累计频率找出P_x所在组段，然后按下述公式计算中位数M（P₅₀)和其他百分位数P_x：

式中f_x为P_x所在组段的频数，i为该组段的组距，L为其下限，∑f_L为小于L的各组段累计频数。

例7·8 238名正常人的发汞值如表7-5的第(1)、(2)栏，求中位数和百分位数P₂₅、P₇₅。

由表7-5的第(4)、(1)栏可见，M（P₅₀)在1.1～组段。现L=1.1，i=0.4，fx=60，∑f_L=86，代入（7·8)式得

同样可得

238名正常人发汞值的中位数为1.32μg/g，P₂₅和P₇₅为0.94μg/g和1.77μg/g。

返回顶部

三、变异指标

描述变量值分布的离散趋势用变异指标。变异指标反映一群变量值的变异程度或离散程度。常用的变异指标有全距、标准差（standard deviation)、四分位数间距（interquar-tile)和变异系数（coefficient of variation)，其中最常用的变异指标是标准差。不同变异指标的用途不同。全距对变量值的各种分布类型资料都适用；标准差和均数配套，变异系数作为辅助变异指标，适用于对称分布资料，特别是正态分布资料；四分位数间距和中位数配套，一般用于不对称的偏态分布资料。

变异指标和平均指标是彼此独立的。一群变量值的变异指标值越大，说明该群变量值的变异程度或离散程度越大，这是和平均指标值的大小无关的。平均指标和变异指标相结合，就可对一群变量值，特别是正态分布资料的一群变量值，作很好的描述。

1.全距全距表示一群变量值的最大值与最小值之差，用R表示。全距反映样本变量值的变异范围，简单明了，各种分布类型的资料都可采用。但不足之处是全距只考虑了最大值与最小值的差别，而未考虑其他变量值的差别。例如设甲组变量值为16，19，20，21，24；乙组变量值为16，17，20，23，24。甲组和乙组的全距都为24-16=8。但甲组其他3个变量值19，20，21比乙组其他3个变量值17，20，23的差别小，也就是说全距不能准确反映样本所有变量值的变异程度。另外，最大值和最小值是样本的2个极端值，随样本不同而变化大。故全距只能作为参考变异指标，不能作为主要变异指标。由于全距的意义明显，可只表示为极小值～极大值，如表7-1资料的全距表示为3.79～5.88。

2.标准差标准差考虑了一群变量值中所有变量值的差别，用于对称分布资料，特别是正态分布资料，是最为恰当的。总体标准差用σ表示，样本标准差用s表示。

设为有限总体，变量值的个数为N，总体均数为μ，则总体标准差的定义公式为

总体均数μ一般是未知的，若用变量值个数为n的样本均数估计，则样本标准差的定义公式为

为什么（7·10)式的分母用n-1而不用n？这是因为据数理统计理论，若用n，则样本标准差s平均说来是总体标准差σ的偏低估计；而用n-1，则s能很好的估计σ。据此引入了统计中的常用术语——自由度（degree of freedom)，用γ表示。现γ=n-1，可以这样理解：∑（X- )²是n个变量值的离均差平方和，由于又是通过n个X值求出来的，于是受了1个条件限制，只有n—1个离均差平方是独立的。一般说来，变量值若求离均差平方和，则自由度等于离均差平方的个数减去限制条件个数。

标准差的单位是原变量的单位。标准差的平方σ²和s²叫做方差（variance)，其单位是原变量单位的平方。也可用方差代替标准差作变异指标。

(1)直接法：由样本n个变量值X₁，X₂，……，X_n求标准差s的公式为

（7·11)式和（7·10)式是等价的。

例7·9 求例7·2中10名7岁男孩体重的标准差。

17.3+18.0+…+25.5=213.5

17.3²+18.0²+…+25.5²=4619.43

该地10名7岁男孩体重的标准差为2.6kg。

(2)加权法：当相同变量值的个数较多时，和加权法计算均数的（7·2)式配套，加权法计算标准差的公式为

例7·10 求例7·1中的130名正常成年男子红细胞数的标准差。在例7·3中的表7-3已算得∑fX=623.20，∑fX²=3009.12，故

该地区130名正常成年男子的红细胞数的标准差为0.409×10¹²/L。

3.四分位数间距四分位数为特定的百分位数，用Q表示。下四分位数Q_L=P₂₅，上四分位数Q_U=P₇₅，四分位数间距即Q_U-Q_L。全部变量值比Q_L小有1/4的变量值，比Q_U大有1/4的变量值。四分位数间距内包含全部变量值的1/2，可看作中间1/2变量值的全距。四分位数间距越大，变量值的变异程度或离散程度越大。也可用其他百分位数间距和中位数配套作变异指标，如P₈₀-P₂₀，P₉₀-P₁₀，P₉₅-P₅等。但四分位数间距较为常用，因为越靠近两端的百分位数越不稳定。