生存分析(英语:Survival analysis)是指根据试验或调查得到的数据对生物或人的生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度大小的方法,也称生存率分析或存活率分析,例如生物有机体的死亡和机械系统的故障。 该主题工程学中称为可靠性理论或可靠性分析,在经济学中称为持续时间分析或持续时间建模,社会学中称为事件历史分析。 生存分析试图回答某些问题,例如能够存活超过一定时间的人口比例是多少? 在那些幸存下来的人中,他们死亡或失败的概率是多少? 是否可以考虑死亡或失败的多种原因? 特定环境或特征如何增加或减少生存概率?
要回答这样的问题,有必要对“寿命”进行定义。 就生物生存而言,死亡是明确的,但对于机械可靠性而言,故障可能没有明确定义,因为很可能存在部分机械系统,故障是部分的,程度问题,或者不是及时定位的。 即使在生物学问题中,某些事件(例如心脏病发作或其他器官衰竭)也可能具有相同的模糊性。 下面概述的理论假设在特定时间发生明确定义的事件; 其他情况可能可以通过明确解释模糊事件的模型得到更好的处理。
生存分析涉及有关疾病的愈合、死亡,或者器官的生长发育等时效性指标。
某些研究虽然与生存无关,但由于研究中随访资料常因失访等原因造成某些数据观察不完全,要用专门方法进行统计处理,这类方法起源于对寿命资料的统计分析,故也称为生存分析。
一般公式
关于生存函数(英语:survival function):
S(t) = Pr (T>t)
t表示某个时间,T表示生存的时间(寿命),Pr表示表示概率。生存函数就是寿命T大于t的概率。举例来说,人群中寿命超过50(t)岁的人在所有人中的概率是多少,就是生存函数要描述的。假定t=0时,也就是寿命超过0的概率为1;t趋近于无穷大,生存概率为0,没有人有永恒的生命。如果不符合这些前提假定,则不适应Survival analysis,而使用其他的方法。 由上可以推导:生存函数是一个单调非增函数。t越大,S(t)值越小。
寿命分布函数和事件密度
相关量根据生存函数定义。
衍生函数: Lifetime distribution function F(t) = 1-S(t) = Pr(T <= t)
概率密度函数: f(t) = d(F(t))/dt 又叫event density,单位时间事件event(可以是死亡或者机器失效)的概率,是生存函数的导数。
f(t) 的性质: f(t) 总是非负的(没有人可以再生)。函数曲线下方面积(从0到无穷大积分)为1。 s(t) = d(S(t))/dt = -f(t)
危险函数和累积危险函数
危险函数(Hazard function) λ(t) = f(t)/S(t) 危险函数引入分母S(t)。其物理意义是,如果t=50岁,λ(t)就是事件概率(死亡)除以50岁时的生存函数。因为年龄t越大,分母生存函数S(t)越小,假定死亡概率密度f(t)对任何年龄一样(这个不是survival analysis的假设),那么危险函数λ(t)值越大,预期存活时间短。综合很多因素,卖人身保险的对年龄大的收费越来越高。婴儿的死亡概率密度相对高一些,虽然分母生存函数S(t)大,λ(t)值还是略微偏高,交的人身保险费也略偏高。