第六章 标准误与可信区间
第一节 抽样误差与标准误
一、抽样误差的意义
在第一章第二节曾提到过样本与总体以及抽样误差的概念,那里谈到,由于存在人与人之间的个体差异,即使从同一总体用同样方法随机抽取例数相同的一些样本,各样本算得的某种指标,如平均数(或率),通常也参差不齐存在一定的差异。样本指标与相应的总体指标之间有或多或少的相差,这一点是不难理解的。如某医生从某地抽了120名12岁男孩,测量其身高,计算出均数为143.10cm,若再从该地抽120名12岁男孩,其平均身高未必仍等于143.10cm,也不一定恰好等于某市12岁男孩身高的总体均数,这种差异,即由于抽样而带来的样本与总体间的误差,统计上叫抽样波动或抽样误差。
抽样误差和系统误差不一样,关系系统误差,当人们一旦发现它之后,是可能找到产生原因而采取一定措施加以纠正的,抽样误差则无法避免。因为客观上既然存在个体差异,那么刚巧这一样本中多抽到几例数值大些的,所求样本均数就会稍大,另一样本多抽到几例数值小些,该样本均数就会稍小,这是不言而喻的。
抽样误差既是样本指标与总体指标之间的误差,那么抽样误差小就表示从样本算得的平均数或率与总体的较接近,有样本代表总体说明其特征的可靠性亦大。但是,通常总体均数或总体率我们并不知道,所以抽样误差的数量大小,不能直观地加以说明,只能通过抽样实验来了解抽样误差的规律性。
二、标准误及其计算
为了表示个体差异的大小,或者说表示某一变量变异程度的大小,可计算标准差等变异指标来说明,现在我们要表示抽样误差的大小,如要问,从同一总体抽取类似的许多样本,各样本均数(或各率)之间的变异程度如何?也可用变异指标来说明。这种指标是:
(一)均数的标准误 为了表示均数的抽样误差大小如何,用的一种指标称为均数的标准误。我们以样本均数为变量,求出它们的标准差即可表示其变异程度,所以将样本均数这“标准差”定名为均数的标准误,简称标准误,以区别于通常所说的标准差。标准差表示个体值的散布情形,而标准误则说明样本均数的参差情况,两者不能混淆。下面用抽样实验进一步说明之。
将100名正常人的红细胞数(万/mm3)写在100颗大小均匀的豌豆上。这些红细胞数见表6.1,其均数为500,标准差为43。把这些豌豆放在一个口袋里,彻底混匀后取出一颗,记下红细胞数,放回袋内,混匀后再取出一颗,记下数字后再放回去,如此继续下去,这是一个取不完的总体,这样每取10个数字作为一个样本,共抽取了一百个样本,并计算每一样本的均数与标准差,例见表6.2。
表6.1 红细胞数抽样实验用的正态总体
μ=500 σ=43(单位:万/立方厘米)
| 383 | 410 | 422 | 429 | 430 | 431 | 435 | 442 | 442 | 444 |
| 445 | 449 | 450 | 452 | 455 | 456 | 459 | 461 | 462 | 463 |
| 465 | 466 | 468 | 469 | 470 | 471 | 472 | 473 | 476 | 477 |
| 478 | 479 | 480 | 481 | 482 | 484 | 485 | 486 | 487 | 488 |
| 489 | 491 | 492 | 493 | 494 | 495 | 496 | 497 | 498 | 499 |
| 500 | 501 | 502 | 503 | 504 | 505 | 506 | 507 | 508 | 509 |
| 511 | 512 | 513 | 514 | 515 | 516 | 518 | 519 | 520 | 521 |
| 522 | 523 | 524 | 527 | 528 | 529 | 530 | 531 | 532 | 534 |
| 535 | 537 | 538 | 539 | 541 | 544 | 545 | 548 | 550 | 551 |
| 555 | 556 | 558 | 565 | 569 | 578 | 590 | 599 | 600 | 617 |
表6.2 红细胞数抽样实验中的样本举例
| 样本号 | 红细胞数(万/立方毫米),X | X | S | |||||||||
| 1 | 383 | 599 | 534 | 442 | 435 | 486 | 478 | 476 | 509 | 544 | 488.6 | 61.65 |
| 2 | 503 | 506 | 520 | 503 | 489 | 410 | 528 | 488 | 509 | 527 | 498.3 | 33.97 |
| 3 | 478 | 463 | 617 | 544 | 498 | 485 | 496 | 462 | 482 | 569 | 509.4 | 50.96 |
| 4 | 529 | 465 | 535 | 473 | 531 | 532 | 556 | 521 | 459 | 383 | 498.4 | 52.63 |
| 5 | 442 | 493 | 462 | 527 | 520 | 519 | 521 | 512 | 482 | 471 | 494.9 | 29.51 |
| ┇ | ┇ | ┇ | ┇ | ┇ | ┇ | ┇ | ┇ | ┇ | ┇ | ┇ | ┇ | ┇ |
第一号样本均数与标准差的计算:
X=4.886/10=488.6

将一百个样本均数加总,得到的数值为50,096.7,又这一百个样本均数平方之和为25,114,830.91,于是代入标准差的计算公式,求得一百个样本均数的标准差又称标准误为
