读书摘要生物医学研究的统计方法常见疑

生物医学研究的统计方法

本书是生物医学研究生使用的经典统计教材,内容易懂经典,无需多少数学基础都能看懂。本书每个章节后面都有常见疑问,现汇总以供大家学习。

--------------------------------------------------------------------------------------

(1)如何确定研究总体与样本?

总体的定义告诉了我们,总体是根据研究目的确定的同质研究对象的全体,也就是说确定什么样的总体与下列因素有关:

①研究的目的是什么;

②研究对象是否同质(即使非处理因素尽可能相同);

③是否为研究对象的全体。

样本是从总体中抽取的部分研究对象,确定样本应该注意:

①样本是总体中的部分研究个体;

②样本是能代表总体的样本。

相对样本而言,总体应该是“无限总体”或相对的“无限总体”(比如,在样本含量足够的前提下,样本个体数小于总体个体数的),这是统计学推断的理论基础;如果总体不大,为“有限总体”,则数据分析的主要方法是统计描述;如要进行统计推断,则应对有关指标进行校正。

(2)何为连续变量与离散变量?

可以在某一区间取任何值的变量就是连续变量,当测量精确度很高时,理论上数据之间无“缝隙”。数据之间存在“缝隙”的变量就是离散变量,如家庭人口数、脉搏跳动次数(次/min)、红细胞计数等,离散变量只能取有限的几个值。定量变量之中,有的属于连续变量,有的属于离散变量;但定性变量只能是离散变量。

(3)不同的编码方式,所得结论相同吗?

以上提到可将“文化程度”中的文盲、小学、中学、大学(假定为有序变量)及以上分别编码为1,2.3,4,或按读书年数编码为0,6,12,16。无论哪种编码,所得统计学分析的结论(如假设检验所得概率值)应该是一致的,但获得的某些统计量(如回归系数、优势比等)有可能不相同。

(4)用恰当指标对定量资料进行统计描述,需要了解变量的分布形式。在实际工作中,是怎样明确变量的分布形式的?

变量的分布形式,常可以通过查阅文献得到。例如,文献报道中学生的体重、肺活量服从对称分布,其发硒含量则为正偏峰分布,那么,我们就可以沿用文献的做法。特别当参考文献中的研究是基于大样本时,一般认为变量的分布形式可以直接参照。

如果在相关文献中未查到某医学指标的分布规律,而该指标又是我们感兴趣的变量,那么就可以在大样本基础上,借助SPSS等统计分析软件对资料分布形式作统计检验。

(5)呈现事物的发展变化速度时,为什么要用半对数线图,而不能用普通线图?

在用普通线图表示事物随时间变化而变动的情形时,线条纵向波动的位置仅反映了被研究指标在相应时间点上取值的大小。例如指标取值发生“10→→0”的变化时,给读者的提示是,第一阶段增加幅度为90,第二阶段增加幅度为,第二阶段的增加幅度大于第一阶段。但是,有时研究者欲传达事物演变的变化倍数,例如前述指标在第一阶段发生了“增大到原来的10倍”的变化,而第二阶段也发生了“增大到原来的10倍”的变化,两个阶段变化的倍数相同。普通线图可以直观反映变化的“增量”,却不能描述变化的“倍数”。

这时需借助半对数线图,将纵轴的尺度进行对数变换,使得“10→→0”的变化成为“1→2→3”,两个阶段的变化幅度均为1,准确地传达了“变化的倍数均为10”这一信息。

(6)如何判定一组数据是否符合正态分布?

判定一组数据是否符合正态分布,通常有如下几种方法:

①根据文献报道。例如,文献报道中学生的体重、肺活量服从正态分布,那么我们可以沿用文献的做法。

②根据经验或专业知识判断。例如,根据专业知识,同性别健康成人的红细胞数、血红蛋白含量、脉搏数等都近似服从正态分布,而正常成人的血铅含量近似对数正态分布,经对数转换后应近似服从正态分布。

③可以借助统计软件对资料作正态性检验或拟合优度检验。

(7)对称分布在“X士1.96S”的范围内,也包括95%的观察值吗?

不一定。“均数士1.96标准差”范围内包含95%的变量值是正态分布的分布规律,不是对称分布的分布规律。对称分布不一定是正态分布。

(8)如何判定一组资料是否符合Poisson分布?

Poisson分布是离散型分布,变量的取值为非负整数,它是描述单位时间(面积、空间)内某罕见事件发生数的概率分布。实际应用中,如果某罕见事件的发生数满足Poisson分布的应用条件,如水中细菌数、单位空间中的粉尘数、单位时间内放射性物质的脉冲数等,都可认为服从Poisson分布。另外,还可以对资料进行Poisson分布的拟合优度检验。

(9)何谓置信区间的准确度与精确度

置信区间有准确度(accuracy)精确度(precision)两个要素。

准确度由置信度(1-α)的大小确定,即由“此区间包含总体参数”这句话可信程度(1-α)的大小来反映,从准确度的角度看,置信度愈接近于1愈好,如置信度99%比95%好;精确度是置信区间宽度的一半,意指置信区间的两端点值离样本统量的距离。从精确度的角度.看,置信区间宽度愈窄愈好。

在抽样误差确定的情况下,两者是相互矛后的。若提高了置信度.即α减小。则检验统计量界值增大,置信区间变宽.从而导致精确度下降;反之,降低置信度,即降低准确度,可适当增加置信区间的精确度。为了同时兼顾置信区间的准确度与精确度,可适当增加样本含量;在置信度确定的情况下,增加样本含量可降低抽样误差,从而缩小置信区间范围,提高参数估计的精确度。

(10)置信区间与参考值范围有什么区别?

总体均数的置信区间与个体值的参考值范围无论在含义、用途还是计算上均不相同。实际应用时,不能将两者混淆,详见表1

表1,置信区间与参考值范围的区别

(11)标准差与标准误有什么区别与联系?

标准差反映个体观察值围绕均数的散布程度,即反映个体值彼此之间的差异。标准误反映样本统计量(如样本均数)围绕总体参数(如总体均数)散布的程度。

根据公式,标准误小于标准差;样本含量越大,标准误越小;但标准差不随样本含量的改变而有明显方向性改变,随着样本含量的增大,标准差有可能增加,也有可能减少。如果需要反映个体的变异程度大小,应采用标准差;如果需要反映由样本统计量估计总体参数的精确程度,应采用标准误或95%置信区间。其区别与联系可小结为表2。

表2标准差与标准误的区别与联系

(12)如果样本来自有限总体,如何作统计推断?

统计学推断建立在无限总体的基础之上,如果样本所来自的总体为有限总体(如样本含量n大于5%倍的总体含量N),则前面的标准误计算公式应作适当修改,如样本均数的标准误计算公式应改为

样本均数的标准误计算公式

样本频率的标准误计算公式应改为

样本频率的标准误计算公式

其中N为总体中个体的含量,(N-n)/(N-1)称为有限总体校正因子。当样本含量n接近有限总体含量N时,(N-n)l(N-1)接近于0,相应的标准误也接近于0。在绝大多数情况下,目标总体是有限总体,如果总体含量N相对样本含量n很大,此时有限总体校正因子十分接近于1,因此通常情况下可忽略此项。仅当样本含量n大于5%倍的总体含量N情况下,才采用上述公式进行计算。

(13)假设检验中α与P有何不同?

α为决策者事先规定的“小概率值”(各种科研杂志习惯上采用0.05或0.01)。在零假设成立的情况下,如果检验统计量取当前值以及取值更不利于H0的概率小于或等于α,则可以认为:在零假设成立的情况下,不大可能在某一次抽样研究中出现当前的事件;但当前的事件居然发生了,我们不禁怀疑零假设是否真的成立,从而拒绝H0推断H1成立。

所谓P值是指在H0成立的前提下,出现目前样本数据对应的统计量(如Z、t、F值等)数值乃至比它更极端数值的概率。P值也是一个随机变量,即不同的样本可得到不同的P值。

(14)通过假设检验得到Pα.能否说明接受H0时犯错误的可能性很小?

不能,因为假设检验时,只是确定犯I类错误的概率a,可以按小概率事件拒绝H0,而不知道犯Ⅱ类错误的概率β,所以不能说明接受H0时犯错误的可能性很小

(15)通过假设检验得到P值很小,能否说明比较的总体均数相差很大?

所谓P值,是指在H0成立的前提下,出现目前样本数据对应的统计量(如Z、t、F值等)数值乃至比它更极端数值的概率。它不但与均数实际值的差距有关,还与抽样误差的大小有关,所以不能单从P值的大小判断总体均数差距的大小。

(16)进行两样本均数比较的t检验时,假设检验结果P值越小,则说明两个总体均数相差越大吗?

假设检验中,P是指H0成立时出现目前样本情形的概率最多是多大,P值越小,说明如果H0为真,则“不大可能”出现目前的情况,即有理由怀疑H0为真的无效假设,因而拒绝H0,接受H1,即两总体均数间存在着差值。所以,P值越小越有理由认为两个总体间存在着相差,但并不能反映两个总体均数相差的数值大小。

(17)单侧检验较双侧检验更易检验出差别,是否应在假设检验中尽量选用单侧检验?

当自由度和检验水准一定时,单侧界值小于双侧界值,所以更容易得出差异性的结论,但并不能因此就选用单侧检验。单双侧的选择要结合专业知识:如果研究者关心的是甲乙两组所属总体均数(或者总体率)有无差别,即甲可能高于乙,乙也有可能高于甲时,一般选双侧;若根据专业知识,甲不会低于乙时,或者研究者仅关心其中一种可能时,可选用单侧。一般来讲,双侧检验较为稳妥。

(18)既然秩和检验对资料没有严格的要求,是否在进行两组间均数比较时可直接采用秩和检验?

这样做不能认为是错的,但不是最好的分析策略。秩和检验对资料没有严格的要求,但满足正态分布条件时其检验功效比t检验的检验功效低一些,所以通常只用来对偏峰分布资料进行假设检验。

(19)t检验能否用于多组间均数的比较?

t检验主要用于两组间均数的比较,多组间均数的比较若采用t检验,会增大犯I类错误的概率。所以,多组间均数进行比较时应首先考虑方差分析及SNK,LSD等多个样本均数的两两比较技术(详见方差分析)。

(20)如何理解假设检验中的大样本和小样本?为什么样本量较大时不必进行正态性检验?

在假设检验中,大样本和小样本只是相对于资料的偏峰程度而言的,偏峰程度越大,要求样本量就越大,但一般情况下,当样本量大于50时,可以理解为样本量较大。此时,即便原始变量X有些偏离正态,其样本均数也会近似正态分布。因此,对大样本资料可以不必进行正态性检验。

(21)在成组t检验中,当P0.05并且时,为什么就能推断?

在成组t检验中,当P0.05并且,则可以证明的95置信区间的下限大于0,由此在95%置信度的前提下,推断;同理,当P0.05并且时,则可以证明:的95%置信区间的上限小于0。,由此在95%置信度的前提下,推断。

(22)为什么不宜直接对多组定量资料进行方差分析?

进行方差分析的数据应满足两个前提:

①各样本是相互独立的随机样本,均服从正态分布;

②各样本的总体方差相等,即方差齐性(homogeneityofvariance)。

因此,对多组定量资料进行方差分析首先要进行方差齐性及各样本的正态性检验,符合方差分析的条件再行方差分析及必要时进一步的两两比较。否则,若不满足方差分析条件,则需作数据变换,使其满足方差分析的条件,或选Kruskal-Wallis秩和检验。

(23)若三个样本均数的比较经ANOVA分析有统计学意义,在多重比较中出现了“不拒绝μ1≠μ2,也不拒绝μ1≠μ3,但拒绝μ2=μ3”的结果,该结果应如何解释?为什么?

按假设检验的基本原理,该结果可解释为:有理由认为μ2≠μ3,但还没理由认为μ1≠μ2及μ1≠μ3。因为统计结论在一定概率意义下成立,不能按确定性数学方式递推。该结果既不能解释为:μ1介于μ2和μ3之间;也不能递推为:μ2=μ1,同时μ1=μ3,那么μ2=μ3。

(24)是否一定要经ANOVA发现有统计学意义后,再作均数间的两两比较?

一般地说,经ANOVA发现有统计学意义后,再作均数间的两两比较,但不是绝对的。实际上,这种ANOVA发现有统计学意义后,再作均数间的两两比较属于事后未计划的比较。均数间两两比较的方法很多,有十余种之多。并且也不很成熟。有些统计学专家提出某些多重比较可不依赖方差分析的结果。另外,在分析资料时有时会出现ANOVA有统计学意义而两两比较均无统计学意义,或ANOVA无统计学意义而两两比较某些均数间有统计学意义的现象,这两种现象往往发生于算得的P值在规定的检验水准α附近,下结论时需特别谨慎。

(25)多重比较的方法很多,可否各种方法都用一用,哪个方法给出的P值好,就报告哪个方法的结果?

多重比较的方法很多,多重比较时甚至会出现某些方法间(如Bonferroni法与LSD法)统计结果不一致现象,这实际上涉及多样本均数两两比较方法选择的问题。要根据研究的目的选择两两比较的方法。当在设计阶段就根据研究目的或专业知识而计划好某些均数间的两两比较、用于探索性研究时,可选用LSD法,即选用LSD法结果。LSD法灵敏度比较高,但Ⅰ类错误可能会增大,适用于组数g较小且仅对某些特定的组间比较感兴趣时;当在研究设计阶段未预先考虑或预料到,经假设检验得出多个均数不等的提示后,才决定多个均数的两两比较时可选用Bonferroni。Bonferroni法比较简单,广泛应用于不同场合的两两比较,但结论比较保守,可用于证实性研究。因此,多重比较各种方法都用一用选P值的做法是不妥的。

(26)当例数较少或理论频数较小时,为什么要用校正χ2检验或Fisher精确检验

因为χ2检验统计量的抽样分布是矩形分布,χ2分布为连续性分布。利用χ2检验统计量进行列联表差异性检验时是通过用χ2分布作为χ2统计量分布的近似方法进行的。χ2统计量计算结果往往较大,特别是在自由度较小、样本量较少情况下。因此Yetes提出了校正的方法。

在实际应用中,当样本含量大于40,理论频数都大于5时,χ2统计量近似性较好,可以不进行校正;但是当存在理论频数小于5时,近似性较差,需进行校正;当例数小于40或存在理论频数小于1时,近似性更差,因此主张改用更合适的Fisher精确检验代替χ2检验。

(27)对于多组二分类资料和无序多分类资料,能否通过转化为多个四格表资料分别进行检验?

对于多组二分类资料和无序多分类资料,若转化为多个四格表资料分别进行检验,割裂了原来的设计,更重要的是会增加犯Ⅰ类错误的概率。例如对于3X3列联表,检验水准取0.05,若转化为多个四格表资料分别进行检验,应进行9次检验,这样犯Ⅰ类错误的概率将达到1-((1-0.05)9=0.37,远远大于0.05。

因此,对于多组二分类资料和无序多分类资料,不能通过转化为多个四格表资料分别进行检验。当多组二分类资料和无序多分类资料检验结果拒绝假设H0时,可以进一步作两两比较,但α水平需要按α/比较次数来校正。

(28)对于有序多分类资料,用无序多分类资料方法进行差异性检验会出现什么问题?

因为列联表χ2检验的χ2统计量只能处理频数分布的差异性检验,没有处理有序信息的能力,不能利用数据所提供的有序信息进行分析。因此,若使用无序多分类资料分析方法进行有序多分类资料的差异性检验,将会降低统计检验效能。

(29)是否所有资料皆可作相关分析?

只要输入数据,电脑就可以进行相关系数的计算,但这不表明任何资料皆可进行相关分析。相关分析要求两变量皆为随机变量,如果X是人为取值,则不宜计算相关系数。计算Pearson相关系数还要求资料为双变量正态分布。同时应注意,资料类型不同,所采用的刻画相关或关联的方法也不同。

(30)程序中自动给出了相关系数值和假设检验结果,为什么还要作散点图呢?

的确,有不少研究不作散点图就给出相关系数值和假设检验的结果,但这样做可能会出现两变量间实际没有线性关系而作出线性相关的决定,也可能不容易发现资料有异常值或有分层的情况等。因此,相关分析必须先作散点图,确认有线性关系时才计算相关系数,并对其进行检验。

(31)若两组比较某指标的均数不同,是否可以说明该指标与分组因素相关?

要注意“相关”是一个专业用语,有特定的含义。仅均数不同不能认为相关,若各组均数差别有统计学意义,可以认为不同组间总体水平不同。通常所说的“某指标的均数与分组有关”和统计学所说“某指标与分组变量间线性相关”是两个不同的概念。线性相关的结论必须通过相关分析或关联分析才可得到,而分组因素常人为划定,非随机变量,不可作相关分析或关联分析,即便作了计算,也不能得出相关的结论。

(32)经统计检验得出总体相关系数不为0,且P值很小,是否可以认为变量间关系很大?

统计检验的P值是指总体相关系数为0时,得到等于或大于目前这个样本相关系数的概率大小。若P值小,说明总体相关系数为0时,不大可能得到目前这个样本相关系数,从而怀疑总体相关系数是否为0。不论P值多么小,结论只能是总体相关系数不为0而已。样本量小时,样本相关系数值很大也可能得出没有统计学意义的结果;反过来,样本量大时,很小的样本相关系数值也可以拒绝零假设。如样本量大于50时,r=0.就可以得到P0.05的结果,而样本量为5时,即使r=0.时仍得到P0.05的结果。

(33)既然Spearman等级相关对资料性质没有要求,是否所有资料皆可用等级相关?

文献确有把Spearman等级相关当成万能相关方法。不管什么样的资料都可用Spearman等级相关方法,但这样做的结果会损失信息,降低功效。因此,应根据资料类型和适用条件选用相关强度指标。当两变量为连续型随机变量时,通常采用积矩相关系数。

(34)计算Spearman等级相关系数时,怎么有人采用公式?

实际上,无相同秩次时,此公式与利用秩次采用Pearson相关系数的公式计算时完全等价,但有相同秩次时一般不宜用此公式。此公式为过去计算机不甚普及时推算出的无相同秩次的简便计算公式,有相同秩次时需要校正。

(35)多组比较的RX2表或RXC表和本章的RXC表在设计上有区别吗?

多组比较的Rx2表或RXC表,属于完全随机设计资料。多组资料比较的设计是,首先设定组别(如三种国籍人群),各组例数的调整不受其他组别的影响,然后调查各组的频率分布(血型分布)情况,分析各组(三种国籍)的频率分布(血型分布)是否不同。本章的RXC表资料是一次调查的结果,可看作是总体中的一份样本,其样本含量2例)是固定的,某属性之一(如国籍中美国人)的例数变动必使该属性其他分类(如国籍中中国人和挪威人等)的例数反向变动,统计时按两种属性(国籍和血型)交叉分类统计频数,得到两种属性是否独立的结果。

(36)如何识别与处理异常点?

在实践中,科研工作者鉴别数据中的异常点是进行统计分析前首先要完成的一项工作,否则会导致错误而前功尽弃,得不偿失。有些“统计谎言”正是由于分析者疏忽异常点的存在,夸大或弱化实际效应而造成的,如图10-10,虚线代表受异常点影响而偏离的回归线。异常数据的识别可以通过简单、直观、有效的散点图发现,也可以通过相关统计量(如广义平方距离)获得。通过散点图可直观地反映哪些数据是可能的异常数据。

一旦发现可能的异常数据,不宜草率地删除,应该仔细审查这些可能异常数据的获得过程。若是由实验获得的,如有可能应该重新在该点重复作几次实验进行验证。只有当异常数据是由于实验失误、记录错误等人为因素造成的,才考虑删除或以重新测量的正确数据来替代。如果通过仔细审核发现数据的异常值是因数据本身性质造成的,对这样的数据应该引起足够的重视,对它进行另外的研究有可能获得意外的发现。

(37)两变量不是线性关系时怎么办?

在复杂的生物医学现象中,很多情况是两个变量间的关系呈非线性变化趋势,如血药浓度与时间效应曲线、生长曲线、剂量反应关系等。对于非线性的问题,如果仍一味采用简单的线性回归分析,其直接后果是歪曲实际的变化规律。实际工作中,采用曲线拟合的方法,常用的曲线类型有:

1)指数曲线又称指数生长曲线,双变量资料中,当自变量X增加时,因变量Y随之增加(或减少)得更快,这时可采用指数曲线方程来分析两变量之间的关系。

2)多项式曲线多项式曲线方程为抛物线性,当为一次时则为简单线性模型,模型中加人b2X3、b3X3项,则为二次、三次多项式曲线。多项式适合于标准曲线的绘制。

3)Logistic曲线又称Pearl-Reed曲线,呈拉长的“S“形曲线,多用于发育、动态率、剂量反应关系以及人口等方面的研究,在后面章节中讲到的logistic模型即属于此。

4)双曲线与指数曲线相类似,但适用于弯曲程度更大的资料,如肌肉张力、神经生理方面强度一时间数据的分析。

SPSS软件可以实现更多的曲线拟合,方便科研工作者应用。实际工作中,应根据散点图尝试拟合多种曲线。如何确定最终的曲线类型,要掌握以下原则:

①R2越大,拟合效果越好。但不必过度地追求好的拟合优度,如拟合多项式模型时,虽幂次越高,R2越大,但会给解释上带来麻烦。②要考虑曲线类型是否符合专业解释。

③在拟合优度相近的情况下,一般选择容易解释、易于表达的曲线类型。,

(38)两批数据能合并后拟合线性回归方程吗?

实际工作中,常有X与Y变量来自于两批数据,不能轻易将两批数据合并后进行回归分析,所分析样本应保证来自一个总体(即保证同质)。如果两批数据来自两个不同的子群,可能得出不符合实际的结论。如图10-11所示,实点与虚点分别代表两批数据,图10-11a中实际不存在的回归关系,合并后被误认为有回归关系;图10-11b有可能存在回归关系,合并后会被误为无回归关系。在此,两个子群成为影响回归关系的混淆因素。

电脑实验(实验10-4)中对盲目合并数据误导专业结论的情形进行了数据模拟分析。对这类数据需要进行分组分析或在多重线性回归分析中引入交互项的办法来分析处理,分析方法参见第11章。

(39)如果反应变量是有序的或分类的变量,应该怎么办?

多重线性回归分析要求在固定自变量的情况下,反应变量Y是服从正态分布的连续型随机变量(也就是残差服从正态分布),如血压值、身高、体重等。但是,在医学研究中,一些反应变量往往是分类变量。例如,心功能的分级就是一个有序分类变量,虽然各级之间有程度上的差别,但是1级(体力活动不受限制)和2级(体力活动轻度受限)之间的差别并不等同于3级(体力活动明显受限)和4级(不能从事任何体力活动,休息时亦有症状)之间的差别。也即这里的数字1,2,3,4仅仅代表不同的等级,并不代表实际的数量大小。另外,无序的分类变量在医学研究中也很常见,例如治疗的结局分为治愈和死亡。当反应变量是有序或无序的分类变量时,不能采用多重线性回归对资料进行多因素分析,可以考虑采用logistic回归等其他多因素分析方法。

(40)自变量存在缺失数据时怎么办?

进行多因素分析时,如何处理缺失数据是一个常见的问题。所谓缺失数据,常指观察对象在某些变量上的数值缺失,例如缺少年龄、性别或者血压值等方面的信息。缺失的原因可能是偶然的、随机的,如调查时由于疏忽漏填了;也有可能是系统性的,如由于疾病恶化而没有提供信息。对于有缺失数据的观察对象,不能简单地删除。人们针对缺失数据常见的处理方法是:

1)尽量了解缺失的原因,尽量弥补缺失的数据。

2)对每个自变量考察缺失数据的多少。

3)如果有一两个自变量的缺失数据较多,考虑删除该自变量。无论自变量在专业上意义如何重大,如果存在大量的缺失数据,则结果极可能存在偏倚。

4)如果极少的观测有缺失数据,可以在分析前删除这些观测。

5)如果大量观测有缺失数据,应该分析有缺失数据的观测和没有缺失数据的观测之间的差别,也即考察缺失的原因是随机的还是非随机的。如果有缺失数据的观测组成的样本的基本情况与没有缺失数据的观测组成的样本的基本情况无差别,则称数据的缺失是随机的,反之,为非随机缺失。如果数据的缺失是随机的,可以采用完全数据的均数填补缺失数据。如果数据的缺失是非随机的,应分别分析有缺失数据的观测组成的样本和没有缺失数据的观测组成的样本资料,且下结论需慎重,以防止偏倚。

(41)自变量筛选是必须要做的吗?

前面介绍了多重线性回归分析中自变量筛选的统计学标准和筛选策略,那么在实际应用中自变量的筛选是必须要做的吗?有时并不是必须要做的,有时又是必须要做的。是否进行变量的筛选取决于专业的理论、经验以及资料的实际情况。最后得到的模型不仅要符合统计学的要求,更重要的是从专业上得到合理的解释。

(42)如何判断是否存在多重共线性

一种简单的方法是计算所有自变量的相关系数矩阵。如果两个自变量之间的相关系数超过0.9,则会带来共线性的问题;如果相关系数在0.8以下,一般不大会出现问题。另外,统计学家还提出了两个帮助判断是否存在多重共线性问题的统计量,它们分别是方差膨胀因子(varianceinflationfactor,VIF)和容忍度(tolerance)。

下面简单介绍VIF的原理和计算方法。假定有p个自变量,依次把每一个自变量当作反应变量与余下的p-1个自变量进行多重线性回归分析。表示当第j个自变量被当作反应变量时多重线性回归方程的确定系数,j=1,2,…,p。针对每个多重线性回归方程,VIF定义为:

如果第j个自变量与余下的p-1个自变量相关密切,则接近于1,VIFj会较大。研究结果提示,当VIF4时,可能存在共线性问题;如果VIF10,则共线性问题严重。

容忍度是VIF的倒数,因此如果容忍度小于0.25,则可能存在共线性问题,如果容忍度小于0.10,则提示共线性问题严重。

(43)如果实验条件满足配对设计要求,研究者却采用了成组设计,这将意味着什么?如果实验条件不满足配对设计要求,研究者却一定要套用配对设计,又将意味着什么?

如果实验条件满足配对设计要求,即能够找到对观测结果有影响的重要非实验因素,而且受试对象可以按此非实验因素进行配对,此时研究者却采用了成组设计,这将意味着人为增大了实验误差,易导致假阴性结果的出现;如果实验条件不满足配对设计要求,即无法找到对观测结果有影响的重要非实验因素,此时研究者却一定要套用配对设计,实际上各对受试对象除处理因素取不同水平外,在其他方面相差悬殊,若按配对设计方法处理实验数据,将意味着人为降低了实验误差,易导致假阳性结果的出现。

(44)单因素设计简便易行,可以通过随机化方法平衡其他因素对单因素各水平组中观测结果的影响,是否可以不考虑任何多因素实验设计方法?

在进行实验设计时,通常涉及两类因素。其一,研究者关心的实验因素;其二,研究者不关心但客观上会影响观测结果取值的因素,比如区组因素。当某实验仅涉及多个实验因素,且实验因素的数目大于等于2时,若在实验设计时将其他实验因素控制在各自特定的水平上,每批实验只允许一个实验因素取不同水平,即采用单因素设计取代多因素设计的作法是不够妥当的。若希望通过实验研究,弄清多个实验因素之间的相互关系,通常情况下以选用析因设计为宜。

(45)在实验设计中,对照组的设立十分重要,一般来说,应设立几个对照组合适?

在实验设计中,应设立几个对照组不便一概而论,主要取决于实验研究的目的和涉及的实验因素的个数。

①如果是标准的单因素多水平设计,通常只需要设立一个对照组即可。例如,希望考察某药物取小、中、大三个剂量所产生的疗效之间的差别是否具有统计学意义,当对此药物的疗效一概不知时,需要设立一个空白对照组,即采用单因素4水平设计;当已知该药开始起效的最低剂量时,可以不设立空白对照组,该药物的小、中、大三个剂量组互为对照,即采用单因素3水平设计即可。

②在某些实际问题中,有人常设立多个对照组,如正常(或空白)对照组、模型对照组、阳性药对照组,其他是研究者所研究的新药取几个不同剂量的实验组。

③如果是标准的多因素实验设计,所有组都有其特定含义,往往是同一个实验因素各水平组之间相互对照,如多因素析因设计。

(46)在实验设计中,如何根据情况选用合适的实验设计类型?

这是一个比较复杂的问题,只能概括地讲一下选用的基本原则。如果在实验中研究者关心的实验因素只有一个,来自受试对象的各种重要的非实验因素的影响可以通过完全随机化方法使之在实验因素各水平组之间达到均衡一致,则可以选用单因素k水平设计((k=2时为成组设计,k=3时为单因素多水平设计);如果在实验中研究者关心的实验因素只有一个,但来自受试对象的各种重要的非实验因素的影响无法通过完全随机化方法使之在实验因素各水平组之间达到均衡一致,则应考虑选用随机区组设计或交叉设计;如果在实验中研究者关心的实验因素的个数大于等于2,来自受试对象的各种重要的非实验因素的影响可以通过完全随机化方法使之在实验因素各水平组合之间达到均衡一致,则可以选用析因设计。析因设计需要的实验次数较多,如果实验经费、时间和人力等都很难达到要求,可考虑选用其他多因素实验的设计方法,请参阅实验设计专著。

(47)在进行新药临床试验时。无论从形式还是从内容上,都严格按我国《新药注册管理办法》中明文规定的要求去做,是否是最正确的?

由于相当多的研究者对Ⅱ、Ⅱ期临床试验的本质理解不够深入,又由于国家审评部门对新药临床研究的要求过于简单和格式化,导致绝大部分临床试验都照搬《新药注册管理办法》的基本要求,试验方法和类型千篇一律,无法妥善处置可能遇到的特殊问题。应该采取实事求是的态度,在原则问题上严格按国家有关规定办理,而对于各种情况下遇到的具体细节问题,应从多种处置方案中选择最优者。

(48)在进行新药临床试验时,可否直接按我国《新药注册管理办法》中明文规定的样本含量的最低要求来确定样本含量?

多数临床试验没有进行样本含量估算,而仅仅按照《新药注册管理办法》对病例数的最低要求来做,致使一部分研究不能得到有说服力的结论。应根据预试验或借鉴他人经验信息,获得有关本试验研究所需要的基本信息,选用合适的估计样本含量的公式或专业软件估计出样本含量N。当估计出的N大于《新药注册管理办法》对病例数的最低要求时,就以N为样本含量;反之,应按《新药注册管理办法》对病例数的最低要求确定样本含量。

(49)在进行新药临床试验时,如何正确选择评价指标?

评价指标的选择是临床试验的核心问题,应当在清晰确定临床试验目的的基础上,根据临床医学专业知识,选择最恰当的评价指标。应当充分重视终点指标和实验室替代指标,慎重使用综合指标和难以定量的指标(主观性指标),切忌试验目的不明确,以多指标为主要评价指标的大撒网式研究。

(50)在进行与中药有关的新药临床试验时,应着重考虑的问题是什么?

中药作为中国创新药品的重要源泉,其临床试验在评价指标选择和评价方法上存在很多争议,致使中药临床试验结论很难与西医或国外进行沟通。因此,应着重考虑的问题是评价指标的选择和评价方法的确定,即评价对象和评价工具保持一致,才有可能相互比较、沟通和理解。

(51)在进行新药临床试验时,数据管理至关重要,应在哪些方面把好质量关?

目前在中国的临床试验中,数据管理的三个要点(准确、及时和安全)难以高品质地实现。在这方面,应进一步提高认识,建立健全操作规程,严格按操作规程进行质量监督和检查。

(52)临床试验质量控制非常重要,它包括哪些方面呢?

通常,临床试验质量控制包括检查、稽查、视察、研究者控制、数据管理和统计分析控制,在这些方面,我国的临床试验质量控制水平尚没有达到国际要求,存在着试验数据有可能失真的隐患。

(53)在调查研究中,如何控制和保证调查质量?

在调查研究中,主要从以下几个方面进行质量控制,以保证调查结果的可靠性:

1)现场调查工作阶段的质量控制。

2)资料整理、表达与统计分析阶段的质量控制。

3)偏倚的控制。

(54)在调查敏感性问题时,如何能获得比较真实的答案?

在调查研究中,有时需要了解一些隐私问题(包括心理、行为、与“性”有关的问题等)。当询问此类问题时,调查对象往往不愿意回答或给出的答案是不真实的,这类问题统称为敏感性问题。

在调查敏感性问题时,要想获得比较真实的答案,需要打消调查对象的思想顾虑。首先,调查表或问卷上应当是无记名的;最好调查者不在现场,在一个未安装监视器的大厅内(室内外无其他人),调查对象将填好后的调查表投人加锁的投票箱内;更让调查对象放心的方法是他们回答的是敏感问题还是非敏感问题,调查者一概不知,更不用说他们对敏感问题作出的是肯定还是否定的回答了,实现后者的调查技术需要较深的概率论知识。

(55)希望说明一种新药物或新疗法是否优于常规药物或疗法,请问:我应当采用多大的样本?

这是相当多的研究者在进行科研工作之前经常提出的问题,但又是无法回答的问题。因为估计样本含量需要很多信息,第一,要知道所作的研究属于何种研究类型,实验设计、临床试验设计和调查设计所用的样本含量计算公式是不完全相同的;第二,即使是实验设计,还涉及拟解决问题的复杂程度;第三,需要给定与拟解决问题对应的一些基本信息。凭空估算样本含量是没有科学依据的,因而也是无意义的。

(56)样本较小时结论不可信,是否样本特别大时结论就一定可信?

不一定!要看拟解决的问题的复杂程度和对重要非实验因素的控制质量。若实验研究涉及多因素多水平设计问题,即使总样本含量特别大,但分到每个小组中去的受试对象的个数却很小时,其结论仍是不可信的;若实验研究涉及单因素多水平设计问题,但由于许多重要的非实验因素对实验因素各水平组的影响很不均衡,即使各组样本含量均较大,其结论也是值得怀疑的,甚至是错误的。

(57)是否有办法使一项科研工作的结论同时犯假阳性错误和假阴性错误的概率都很小?

比较好的办法是:提高统计研究设计的质量和研究过程的质量控制水平,同时,使各小组具有足够的样本含量,组间具有很好的均衡性。

(58)我不想论证两种药物疗效之间的差别,而是想说明两种药物效果差不多,从而一种较便宜的药物便可以取代另一种较昂贵的药物,这时,样本量该怎么考虑?

此时,研究的目的叫作“等效性检验”,应根据此类检验对应的样本含量估计公式进行估计,请参阅有关专著。

(59)对于一个随机区组设计资料,我们既用单因素方差分析,也用两因素方差分析,发现假设检验的结论一致,难道用单因素方差分析不可以吗?并且计算简单。

不可以。对于随机区组设计资料,尽管用两种方法分析的检验结论可能多数情况一致,但两因素方差分析可从总变异中分解出处理因素和区组因素导致的变异,单因素方差分析只从总变异中分解出一个因素所致的变异,因此与单因素方差分析的组内变异相比,两因素方差分析的误差变异减少了其他因素对随机误差的影响,更接近真正的“随机误差”,因此据此计算F统计量并推断更准确合理;另外,单因素方差分析检验效能较低。

(60)当经方差分析认为析因设计资料中某因素的主效应有统计学意义,而交互效应无统计学意义时,欲知哪个水平最好,应如何分析?如何选择最佳的实验组合?

当该因素水平数超过2时,可以对该因素不同水平间的主效应作多重比较,比较的方法可参见《医学统计学》(余松林主编,人民卫生出版社,)第页。选择最优实验组合时,当因素间交互效应差异无统计学意义,而各因素均有统计学意义时,则各因素最佳实验水平的组合即为最优实验组合;如果某因素无统计学意义,则从中选择经济、简便、无(低)痛苦、无(低)不良反应的实验水平。

(61)析因设计资料经方差分析后某两因素的交互效应有统计学意义,如何选择实验条件?

可通过对各种实验组合的多重比较选择实验条件,比较的方法可参见《医学统计学))(余松林主编,人民卫生出版社,)第页。当两种组合间比较差异有统计学意义时,选择实验效果更佳的实验条件;若差异无统计学意义,则选择经济、简便、无(低)痛苦、无(低)不良反应的实验组合。

(62)交互效应与交互作用有何不同?如何判断实验因素间有无医学上常说的拮抗作用和协同作用?

交互效应是指在方差分析中描述交互作用项的参数,对于多因素的实验性研究中,研究因素的各个水平是有序的,代表了每种干预的强度,如果两个因素主效应均大于0,则其交互效应0,说明两种干预的叠加效应大于两种单独干预的效应之和,故称为协同作用;反之,如果两个因素主效应均大于0,而其交互效应0,说明两种干预的叠加效应小于两种单独干预的效应之和,故称为拮抗作用。

(63)在重复测量设计的方差分析中,处理效应是什么?

在同样的其他条件下,不同处理所对应的观察变量的总体均数差异,在例17-1中的处理效应是试验药与对照药治疗慢性乙型肝炎的ALT总体均数差异。

(64)在重复测量设计的方差分析中,时间效应是什么?

时间效应是指在同样的处理和其他条件下,观察变量的总体均数随着时间变化所对应的差异。在例17-1中的在同为试验药或对照药治疗慢性乙型肝炎的情况下,ALT总体均数随着时间变化所对应的差异。

(65)在重复测量设计的方差分析中,处理效应与时间效应的交互作用是什么?

如果不同处理所对应的总体均数之间的差异随着观察时间变化而变化,则称为处理效应与时间效应有交互作用;反之,如果随着观察时间的变化,不同处理所对应的总体均数之间的差异是个常数(即不随观察时间变化而变化),则称处理效应与时间效应无交互作用。在例17-1中,统计推断的结论为:两组所对应的ALT总体均数之差不随观察时间变化而变化,故该例的处理效应与时间效应无交互作用。

(66)在重复测量设计的方差分析中,能否用治疗前后观察值的改变量作为评价指标?

用治疗后观察值作为评价指标是描述受试者在治疗后的症状水平。治疗前后的观察值改变量作为评价指标是描述治疗后症状改变的程度。在许多情况下,两者均可以作为评价指标,并且治疗前后的改变量往往有时更能体现药物疗效功能,但当治疗后的受试者处于治愈或恢复到正常状况时,用治疗前后的观察值改变量作为评价指标就存在一些问题了。例如:评价感冒药的疗效,观察指标为感冒的各种症状总分,当感冒治愈时,各种症状总分为0,这时治疗前后的观察值改变量一治疗前的各种症状总分一0分=治疗前的各种症状总分,因此,治疗前后的观察值改变量作为评价指标就成为治疗前的症状总分评价,这时治疗前后的症状总分改变量不能反映疗效的问题了。在例17-1中,几乎所有的受试者在第36周的ALT测量值都属于正常范围,因此ALT观察值在正常范围内的波动属于个体变异,与药物的疗效关系不太大。因此,用治疗前后的ALT改变量作为评价指标就不能较好地反映临床治疗效果,如果两组的治疗前的观察值平均水平是无统计学意义的,则用各个时点的ALT观察值反映药物治疗能使受试者的ALT达到何种水平和范围就有较好的临床意义。

(67)连续型定量变量如何引入回归模型?

连续型定量变量若直接以定量变量形式引入方程,对于定量变量与logitπ呈线性的情况下,可以减少信息损失,减少方程增设哑变量个数,增大检验效能,但当该变量与logitπ没有近似线性关系时,反而导致参数估计误差加大,甚至结果无法解释。所以,对于这种情况,一般采用离散化的方法,以哑变量形式引入模型。离散化类别的个数一方面要依据专业知识,另一方面要根据样本量及拟纳入方程分析的自变量个数确定。

(68)如何建立好的回归模型?

研究者通过统计软件,采用逐步前进法或后退法,逐个入选或剔除自变量,建立logistic回归模型。这种作法从统计学意义上无可厚非,但是统计回归模型的生命力在于解决实际问题,回归模型必须要“工作”。从应用角度看,完全依赖统计软件筛选自变量,建立回归模型的作法有片面性。要将专业经验与统计学原理、方法相结合,认真筛选进人方程的自变量,以建立好的统计回归模型。当采用统计学与专业知识结合的方法,筛选进人方程的自变量还不满意时,可以考虑对常用logistic回归方程进行必要的修改,如方程中增加变量的二次项或相关自变量的交互项等,使拟合方程更加符合客观实际。

(69)如何计算有交互效应时的优势比?

以只有两个自变量的logistic方程为例。没有交互效应的模型(即主效应模型)为logitπ=β0+β1X1+β2X2。如果考虑X1,,X2。间存在一阶交互效应,模型表达式为logitπ=β0+β1X1+β2X2+β3X1X2,当因素X1增加一个单位,即=X1+1,其他条件不变时的优势比为。一般要讨论不同的X2取值,检验β1+β3X2=0的问题。如X2=0,则OR1=exp(β1),检验H0:β1=0;如X2=1,则OR1=exp(β1+β3),检验H0:β1+β3=0。

因此,有交互效应时X1的优势比不是一个常数,它还取决于另一因素的状况(自变量X2取值)。




转载请注明:http://www.aierlanlan.com/rzdk/1775.html