累积概率(cumulative probability)的作图方法与理解
在数据分析中,累积概率分布(Cumulative Distribution Function, CDF)是一种重要的工具,用于描述随机变量小于或等于某个值的概率。以下是构建累积概率图的步骤及其应用价值。
1. 构建频率直方图
首先,针对感兴趣的参数(如事件间隔时间、振幅、上升时间等),创建标准直方图。例如,对于事件间隔时间(IEI),将观测值范围(如0-1000毫秒)划分为若干等宽区间(如每5毫秒一个区间)。然后,统计每个区间内事件出现的次数。例如,对于泊松过程的事件间隔,直方图呈指数衰减;对于神经肌肉接头的微小终板电位(mEPSC)振幅,直方图近似高斯分布(但在中枢突触中通常呈偏态分布)。这种直方图称为“频率直方图”,因为它反映了特定事件出现的频率。
2. 归一化为概率分布
将每个区间的计数值除以所有区间的总计数,使得直方图的总面积为1。此时,每个区间的高度近似为该类事件出现的概率,得到“概率分布”。
3. 计算累积概率分布
使用相同的区间划分,但每个新区间的高度等于步骤2中所有小于等于当前区间的概率之和。这样,每个新区间的高度表示观测到事件值小于等于当前区间上限的概率。该分布从0开始,呈S形曲线上升,并渐近趋近于1(即所有事件都被包含后,概率为1)。
累积概率分布的优势
- 平滑性:累积求和过程类似于移动平均,能平滑原始分布中的波动,使得不同CDF曲线更容易比较。
- 对称性判断:通过CDF的形状可直观判断原始分布是否对称或偏斜。
- 参数读取:可直接从图中读取关键参数,如中位数(CDF=0.5对应的x值)、第95百分位数(CDF=0.95对应的x值)等。
应用实例:最接近共同祖先时间(TMRCA)的累积概率图
在群体遗传学中,TMRCA计算常以累积概率图呈现。该曲线表示时间小于等于给定世代数的概率,即纵轴值P(TMRCA < T)为累积概率。例如,假设采用逐步突变模型(绿色曲线),T=400代时,从曲线读取概率为44%。反之,若设定概率为80%,可反推出对应世代数(如无限等位基因模型下为48代)。
通过累积概率图,研究者可以直观地评估不同时间点的概率,并比较不同模型下的结果。