二、队列研究

　　（一）概说

　　大多数慢性病都是历时多年的一个过程所形成。在此期间发生的许多事件都可能起致病作用。对一群人在某种病尚未明显发生前，对某个（或某些）可能起病因作用或保护作用的事件的后果进行随访监测，是一种从“困”观“果”的研究方法。

　　队列研究（又译为定群研究、群组研究）（cohort study）就是这样研究病因的一种流行病学方法。研究对象是加入研究时未患所研究疾病的一群人，根据是否暴露于所研究的病因（或保护因子）或暴露程度而划分为不同组别，然后在一定期间内随访观察不同组别的该病（或多种疾病）的发病率或死亡率。如果暴露组（或大剂量组）的率显著高于未暴露组（或小剂量组）的率，则可认为这种暴露与疾病存在联系，并在符合一些条件时有可能是因果联系（图4-2）。

图4-2 队列研究示意图

　　各组除了暴露有无或程度不同之外，其他可能影响患病或死亡的重要因素应具有可比性（均衡性）。但并不要求除暴露状况外一切方面都可比，这在观察性研究中实际上是做不到的。有些因素可在数据分析中得到控制。

　　队列研究所观察的结局是可疑病因引起的效应（发病或死亡），除了所研究的一种病，还可能与其他多种疾病也有联系，这样就可观察一个因素的多种效应，而这正是队列法不可取代的用途。

　　根据作为观察终点的事件在研究开始时是否已经发生，可把队列研究分为前瞻性与回顾性两类。

　　另有一种双向型的队列研究，适于研究对人体兼有短期与长期效应的因素，可用回顾性队列法研究前者而用前瞻性队列法研究后者。

　　还有一种把病例对照法与前瞻法结合起来的设计。其特点是用队列法建起队列（研究对象）并随访发现其中发生的病例，然后用病例对照法调查病例及队列中适于作对照的一部分人的暴露史。这里，病例与对照都来自一个界定明确、有基线资料记录的队列，暴露史的质量较高，还可以有病例尚未发病时的实验室检验记录，而且可以省去对占绝对多数的未发病成员的暴露史调查。

　　队列研究从方法上来说并不比病例对照法复杂，但实际进行起来却问题较多，因为观察人数多、期限长，组织工作复杂，开支庞大。但是，队列法是一种重要的医学观察方法，已经为解决现代医学的一些迫切问题（例如癌症和心血管病）做出重要贡献，所以作为临床医生也应该对其原理有所了解，而且这对于科学思维能力和批判地阅读能力的培养，也是大有裨益的。

　　（二）前瞻性队列研究

　　前瞻性队列研究首先根据研究对象在加入研究时的暴露情况分组，以后通过直接观察或其他信息渠道确定其中在某段时间内（对慢性病通常为10年至二三十年）发生的病例或死亡，最后比较各组的发病率或死亡率。

　　1.研究队列的选择

　　（1）特别暴露组：因为队列研究通常用于验证经过病例对照研究建立起来的假设，已有关于可疑病因的足够知识供选择暴露组之用。可选择超额暴露于可疑病因或生活习惯或职业可能与所研究疾病有关的人，建立暴露组。另外设一个未暴露组（对照组），用于估计暴露组倘未暴露于该因素时可能的发病或死亡水平。有时可不设对照组，而是把暴露组的率与全人群的率作比较，因为对特殊暴露（例如职业、医药）而言，暴露者在人群内总是少数或极少数，所以可把全人群的率视作未暴露者的率。

　　（2）某人群的一个样本：某个人群（例如工厂）内的成员对可疑病因的暴露状况不同时，可分作不同的组并互相比较（又称内部比较）。

　　不论哪种队列，都应选择暴露情况易查明，便于随访又较稳定的人群。如果从全人群（例如某地）抽取样本建立队列，应限于从暴露者比例高的范围内（例如某年龄段）或严重暴露者（即高危人群）之中抽样，这样可使所需样本较小，随访期较短。

　　样本含量的估计见附录五（三）。

　　2.基线资料的收集　首先，暴露必须有明确定义。其次，根据资料或特别检查结果，评定队列成员的暴露状况，剔除其中已患或疑似已患所研究疾病的人和对之不易感的人。原则是只能以受危者，即有可能患这种病但并未患这种病的人，作为观察对象。除所研究的暴露之外，还要收集与患病危险度有关系的其他暴露的资料。资料来源有医疗记录、劳动记录、劳保资料、访问、医疗检查、环境测定等。

　　职业暴露的测定是个复杂问题。最好有实测个人暴露量数据。如没有，可以工种（工作岗位或车间）作为暴露指标，再加暴露时间（工龄），作为暴露剂量的间接粗略估计。暴露剂量的测定为研究剂量反应关系所必需。剂量反应关系在此是指暴露剂量和一个人群中发生某一标准反应（如发病、死亡等）的人数的关系。

　　有的因子除职业环境暴露外，还有来自家庭环境、局部环境和区域环境的暴露，评价个人或人群暴露量时都应包括在内。

　　与个人生活习惯或性格有关的因子，如吸烟、膳食、体力活动等，须通过访问调查和填表加以定量测定。

　　研究因子属于生理、生化指标的，须检查测定。

　　3.随访　应进行尽可能完全的随访，以确定各成员的结局。所谓结局是预定的观察终点，通常是死亡或发病。如以其他健康效应作为终点，则其确定更复杂。

　　随访的方法有直接的，如函调、面谈、定期体检，有间接的如医院病历，死亡登记、疾病报告卡、人事档案、劳保资料、保险档案等，须根据结局的性质选用。

　　随访的目的主要有二：①确定哪些人尚在观察之中，哪些已死亡，哪些已无法追踪，即弄清楚率的分母的信息；②确定终点事件的发生，即确定关于率的分子的信息。关于分子的信息，必须尽可能地正确；关于分母的信息，如果无法掌握每一成员的动态，则不得已时也可用抽样、用寿命表法计算预期数等方法估计。

　　失访及其处理：由于随访对象多、时间长，不可避免会有中途不知下落的成员，也可能有拒绝继续受观察的人，这就产生了失访。如果暴露组与未暴露组的失访率相似，失访者与未失访者的结局发生率也相似，则失访将不会产生偏倚。所以应尽可能取得失访者结局的信息，或从失访者中抽取样本调查其结局。如果有健全的生命统计制度和完善的的社会福利制度，要检索队列中某一成员的死亡日期和死因，可以利用多种便利的信息来源，所以即使对失访者也有可能知道其结局。比较现实可行的方法是把失访者与未失访者的基线资料中的一些特征加以比较，如差别不大，则可假定结局发生率的差别可能也不大。否则，对选择偏倚可能产生的影响应有充分估计。因为失访产生的问题不易圆满解决，所以一方面要尽可能减少失访，另一方面要认识可能由此产生的偏倚并设法估计其影响。随访率可作为衡量研究质量的一个标准。如无把握保持近于完全的随访率，则不应贸然进行队列研究。失访问题主要是在封闭队列（固定人群）发生的问题。

　　4.偏倚　队列一般是全人群的一个有高度选择性的亚群，所以队列研究的结论不能无条件地推及全人群，但这并不影响其真实性。如果随访工作做得好，一般不会发生选择偏倚。疾病或死亡信息（即终点的判定）的收集，要保证各组间信息质量的可比性，而且不受研究对象暴露状态的影响，以免发生信息偏倚。回忆导致的信息偏倚是影响病例对照研究真实性的一大问题，但对队列研究影响不大。混淆因素最普通的是年龄与吸烟，其他混淆因素视暴露种类而异，应收集资料，以便在分析时控制其作用。

　　5.结果分析　队列研究是发生率的研究，包括疾病发生率与死亡发生率。以死亡作终点的队列研究比以发病作终点的为多，这是因为死亡的确定比发病的确定容易。

　　队列研究的结果，可以用来计算所研究疾病在随访期间的发病率或死亡率及各种专率。通过对暴露组与非暴露组的率或不同剂量的暴露组的率的比较，或暴露组的率与全人群的率比较，便可检验病因假设；对可疑病因的暴露与疾病（死亡）是否存在联系；联系强度如何；是否是因果联系。

　　（1）率的计算

　　1）累积发病率（cumulative incidence rate，CI）：某一固定人群在一定时期内某病新发生例数（D）与时期开始总人数（N）之比（表4-7，公式4-7）。也就是一般所说的发病率。随访期越长，则病例发生越多，所以CI表示发病率的累积影响。CI又是平均危险度的一个指标，也就是一个人在特定时期内发生该病的概率。

CI＝C／N

（式4-7）

　　2）发病密度（incidence density，ID）：当队列是一个动态人群时，观察人数变动较大（因失访、迁移、死于他病、中途加入等），应该用发病密度来测量发病情况（表4-8，公式4-8）。发病密度是一定时期内的平均发病率。其分子仍是一个人群在期内新发生的例数（D），分母则是该人群的每一成员所提供的人时的总和。所谓人时（person-time，PT）是观察人数乘以随访单位时间的积。发病密度即说明了该人群发生的新病例数，又说明该人群的大小和发生这些例数所经历的时间。时间单位常用年，故又称人年数（person-years）。一定的人时（人年）数可来自不同的人数与不同的观察时间，例如100人年可来自100人观察一年，或50人观察2年，或200人观察0.5年。

表4-7 累积发病率的计算

级别发病数未发病数发病率暴露组 α b α/（α＋b）非暴露组 c d c/ c＋d）合计 α＋c（=D）　 D/（α＋b＋c＋d）

表4-8 发病密度的计算

组别

发病数

人年数

发病密度

暴露组

PT₁

α/PT₁

非暴露组

PT₀

c/PT₀

合计

a＋c（=D）

D/PT

　ID=D/PT

（式4-8）

　　人年数的算法：①固定人群，即封闭人群，人年数是每一个成员的具体观察年数的总和。每一成员的观察年数是从观察开始算起到终点事件出现或研究结束时经过的年数（月数、周数、以至日数均可折算为年数）；②动态人群，如果不知道每一成员进入与退出的具体时间，就不能直接计算人年数。但如随访期间人数与年龄基本保持稳定，则可用平均人数采以观察年数得到总人年数。平均人数取得相邻两时段人数之平均数或年中人数，例如表4-9（节录Doll与Hill关于吸烟与肺癌关系的队列研究第2报）。

表4-9 人年数的计算实例

年龄（岁）

观察人数

人年数

1951.11.01

1952.11.01

1953.11.01

1954.11.01

1955.11.01

1956.04.01

35～

8886

9149

9287

9414

9710

9796

41211

45～

7117

7257

7381

7351

7215

7191

32156

55～64

4049

4212

4375

4601

5057

5243

19909

合计

20097

20618

21043

21366

21982

22230

93276

　　例如，表4-9中“35～”岁组的人年数=（8886＋9149）÷2＋（9149＋9287）÷2＋（9287＋9414）÷2＋（9414＋9710）÷2＋（9710＋9796）÷2×5/12=41211；③各人随访年数不同，可先算出各人随访人年数，再计算总人年数；而且因为随访期内各人的年龄在增长，到一定日期（某岁生日）年龄超过原属年龄组上限时，应计入下一年龄组的人数。所以可以算出各年龄组的总人年数以及不同年份（日历年calendar year）的总人年数，结合同年龄组或同年份发生的病例数，即可算出各年龄组或年份的发病率（发病密度）。确切算法要根据每一成员的出生年、月、日和开始与终止观察日期而动态地计算，可借助计算机。实际上还可用近似法：开始与终止观察年份各算0.5年，同一年开始与终止的算0.25年，开始与终止年份之间，每年算1年。

(责任编辑：泉水)

搜索

热门标签:

二、队列研究