本书是生物医学研究生使用的经典统计教材,内容易懂经典,无需多少数学基础都能看懂。本书每个章节后面都有知识小结,现汇总以供大家学习。
--------------------------------------------------------------------------------------
(1)统计学是关于设计与数据的学问,是从特定环境中获取数据并从数据中提取信息、知识的一门科学与艺术,包括研究设计、数据搜集、数据整理、数据分析和结果报告等步骤。
(2)根据结果(效应)变量的类型、分析目的和资料具备的前提条件等,选择不同的统计学分析方法。变量可分为定量变量与定性变量两大类。定性变量也叫分类变量,根据类别之间有无大小顺序,可将定性变量分为有序(等级)分类变量和无序(名义)分类变量。定量变量有离散和连续之分,定性变量只能是离散变量。
(3)统计工作贯穿于医学研究的全过程,包括研究设计、数据搜集、数据整理、数据分析和结果报告等,切不可将统计工作仅仅局限于“数据分析”。
(4)根据一定研究目的搜集到的资料蕴涵着丰富的信息,统计描述的目的就是用恰当的手段(编制统计表、绘制统计图或计算统计指标)概括地呈现出主要信息。
(5)明确资料的类型,采用不同指标进行统计描述。
1)定量资料;描述平均水平可以依据分布特点选用算术均数、几何均数、中位数、众数或调和均数,描述变异程度可以选用全距、标准差、方差、四分位数间距或变异系数(表1)
表1定量资料统计描述常用的统计指标及其适用场合
表2定性资料统计描述常用的统计指标及其适用场合
表3常用统计图的适用资料及实施方法
(6)正态分布是一种重要的连续型分布。若连续随机变量X的概率密度函数为
则称X服从总体均数为μ,总体标准差为σ,的正态分布,记作X~N(μ,σ2)。正态分布N(μ,σ2)关于x=μ对称。μ决定正态曲线在横轴上的位置,μ增大,则曲线沿X轴向右移动;反之,μ减小,曲线沿X轴向左移动。σ决定曲线的形状,当μ固定时,σ愈大,表示数据愈分散,曲线愈“矮胖”;σ愈小,数据集中在μ附近,曲线愈“瘦高”。服从正态分布N(μ,σ2)的随机变量在某个区间内取值的概率即为其概率密度曲线下的面积。X取值落在区间μ士1.64σ,μ士1.96σ,μ士2.58σ的概率分别是90%,95,99%,或者说在理论上μ士1.64σ,μ士1.96σ,μ士2.58σ。三个范围内的观察数分别占总观察数的90%、95%、99%。
总体均数为σ,总体标准差为1的正态分布称为标准正态分布,记作N(0,1)。服从任意正态分布N(μ,σ2),的变量X都可以通过标准正态变换转化为标准正态分布,从而使正态分布的概率计算问题转化为标准正态分布,进而利用标准正态分布表解决。
(7)二项分布是一种重要的离散型分布,用于描述两分类资料(结果只能出现两种情况)的n次独立重复试验中发生某种阳性结果为X次的概率分布。若随机变量X的概率函数为
则称X服从参数为n、π的二项分布,记为X~B(n,π)
二项分布B(n,π)的总体均数μ=nπ,总体标准差。
(8)Poisson分布也是一种重要的离散型分布,用于描述单位时间或空间内某稀有事件发生数的概率分布。若随机变量X的概率函数为
则称X服从参数为产的Poisson分布,记为X~Π(μ)
Poisson分布Π(μ)的总体均数和总体方差相等,即μ=σ2。
(9)从同一总体中,随机抽取相同含量的样本,由重复抽取的每一份样本均可计算获得一个样本统计量,样本统计量的分布就是抽样分布。
(10)样本统计量所对应的标准差统计学上习惯地称为标准误,标准误反映抽样误差的大小,即反映总体特征被估计的精确程度。
(11)标准误与样本含量的平方根成反比,样本含量越大,抽样误差越小。
(12)统计推断是根据抽样分布规律,采用样本统计量对相应总体参数所作的非确定性的推断,主要包括参数估计和假设检验两种。参数估计有点估计和区间估计两种。区间估计是按事先给定的置信度((1-α),估计可能包含未知总体参数的一个范围,该范围称为总体参数的((1-α)置信区间。
(13)假设检验是依据样本提供的有限信息、对总体作推断的逻辑推断过程,是对研究总体的两种对立的假设作出选择。
假设检验的步骤为:建立假设→计算统计量→确定P值→作出推断结论。假设检验的基本逻辑是根据小概率的思想,认为“小概率事件在一次抽样中不太可能出现”。假设检验存在Ⅰ类错误和Ⅱ类错误。根据假设检验的推断结果下结论时不能绝对化,并要注意结合专业知识。
(14)两样本定量资料假设检验的流程
对于完全随机设计的两样本定量资料的假设检验,是采用t检验还是秩和检验要看资料是否符合各自的条件。t检验要求资料满足正态性和方差齐性。对于配对设计资料的假设检验,首先看差值是否符合正态分布,如果差值满足正态分布,可以采用配对t检验,否则,采用变量变换使之满足正态性要求或采用配对资料的符号秩和检验。
(15)三个或三个以上均数间的比较可以采用方差分析,以检验多个平均值是否来自相同总体,其实也可用于两个均数间的双侧假设检验,此时结果与t检验完全等价。本章介绍了方差分析中最简单的单因素方差分析,可以用于完全随机设计的实验性研究和多总体随机抽样的观察性研究。
(16)方差分析的基本思想即将处理间平均变异与误差平均变异比较。就完全随机设计的资料而言,将全部观测值总的离均差平方和及其自由度分解为组间变异和组内变异两个部分,两者分别由处理因素和随机误差的作用加以解释。通过比较不同变异来源的均方,借助F分布作出统计推断,从而推论处理因素对实验结果有无影响。
(17)多组定量资料比较的思路首先进行方差齐性及各样本的正态性检验。若方差齐性,且各样本均服从正态分布,选单因素方差分析。对于明显偏离正态性和方差齐性条件的资料,通常有两种处理方式:一是通过某种形式的数据变换以改善其假定条件,二是改用非参数统计方法Kruskal-Wallis秩和检验。若方差分析或秩和检验结果有统计学意义,则需选择合适的方法(如Bonferonni,LSD法等)进行两两比较。
(18)对于定性资料,我们经常将它整理成列联表的形式。
(19)最简单的列联表是2X2表,即通常所说的四格表。按照设计类型,将资料整理成相应的四格表格式,统计分析时选用相应的统计分析方法。
(20)在选用χ2检验时,一定要考虑其对总例数和理论频数的要求。
(21)当多个独立样本频率或频率分布比较的χ2检验,结论为拒绝检验假设时,只能认为各总体频率或频率分布之间不全相同,若想了解其差别的具体情况,需要进行多个样本频率或频率分布的两两比较。
(22)列联表资料统计分析的χ2检验不是万能的。例如,对于有序分类资料,最好选用秩和检验。对于高维列联表资料,相应地有对数线性模型和logistic回归模型等。
(23)相关是测量变量间的相互关联或联系的指标。相关研究的两个变量其关系是平等的,均为随机变量。
(24)在分析相关时必须先作散点图,以核实其是否具有线性关系及是否有异常点或应分层等情况,推荐在报告结果时也提供散点图并说明散点图的特征。
(25)两连续变量间的相关分析方法主要有Pearson积矩相关和Spearman秩相关。前者要求两个变量皆为随机变量,呈双变量正态分布,样本间独立,变量间有线性趋势;当资料不满足正态分布条件或为等级资料时,采用Spearman秩相关方法。两者的计算思想是一致的,但秩相关不使用原始数据而使用秩次进行计算。计算出相关系数后,还应进行假设检验,甚至计算相关系数的置信区间。
(26)分类资料的关联分析可区分为二分类和多分类的情形,检验都采用χ2检验。分类资料的关联性检验应与率的比较检验相区别。若检验结果拒绝两变量独立的假设,则可计算关联系数。
(27)相关和关联是两变量间相互关联或联系数量上的关系,不能据此推论两变量有生物学的联系,或有因果关系。相关有可能只是伴随关系。
(28)简单线性回归分析的基本步骤①绘制散点图,考察两变量是否有线性趋势及可疑的异常点;②估计回归系数与截距;③对总体回归系数或回归方程进行假设检验;④列出回归方程,绘制回归直线;⑤统计应用。
(29)简单线性回归是指只包含一个自变量,且呈线性变化趋势的线性回归模型,用于描述因变量的总体均数与自变量之间的线性关系,亦称两变量间的依存变化关系。在实际应用中,两变量间的关系应有实际意义,不要把毫无关联的两种现象作回归分析。
(30)简单线性回归方程包括截距与回归系数两个参数,通常采用最小二乘估计。
(31)通过对Y的总变异分解有助于理解简单线性回归分析的基本思想,即Y的离均差平方和(SS总)分解为回归平方和(SS回归)与残差平方和(SS残差)。
(32)线性回归分析的主要用途为预测与控制。在实际应用中,要注意回归方程避免外延,即简单线性回归方程的适用范围一般以自变量的取值范围为限,除非有充分理由证明在此范围外仍然有效,否则预测或控制不宜超出此限。
(33)当两变量变化趋势为非线性时,可考虑拟合非线性回归方程,常用的曲线类型包括指数曲线、多项式曲线、双曲线和logistic曲线等。
(34)多重线性回归是简单线性回归的拓展,用于研究一个反应变量与多个自变量之间的线性依存关系。多重线性回归在医学研究中常常用于筛选危险因素、控制混杂因素、分析交互效应、预测与控制等。
(35)多重线性回归分析的假定条件是线性、独立、正态及方差齐性。常常采用残差分析考察资料是否满足这四个前提条件。如果不满足前提条件,可以尝试对变量进行变换,引入交互作用项或者更换回归方程。
(36)多重线性回归分析中常常采用最小二乘法估计模型参数。多重线性回归分析中偏回归系数的含义是当其他自变量的取值固定时,自变量每改变一个单位,反应变量平均改变的单位数。标准化偏回归系数常用于比较自变量对反应变量的贡献大小。确定系数和调整的确定系数常用于评价模型拟合效果的好坏。对整个回归模型的假设检验一般采用方差分析,对各总体偏回归系数是否为零的假设检验常采用t检验。
(37)多重线性回归分析中筛选自变量的方法有前进法、后退法、逐步回归法和最优子集法等。用于筛选自变量的指标有残差平方和、残差均方、确定系数、调整的确定系数、Cp,统计量等。
(38)当自变量间存在较强的相关时,多重线性回归模型会出现多重共线性现象,使得模型参数估计值不稳定或不易解释。
(39)多重回归分析的一般步骤:①单因素方程分析;②逐步筛选变量,建立多因素方程;③综合单因素和多因素模型的结果,当两者矛盾时,结合专业知识分析原因。另外,要注意因素之间是否存在交互作用。
(40)实验设计主要有以下三点作用:合理安排各种实验因素和区组因素,以提高实验效率;控制和减少实验误差,以提高研究质量;通过较少的实验次数获取尽可能丰富的信息,以便由样本信息去准确地推论总体的规律性。
(41)为了保证实验的可靠性和可重复性,在实验设计中所用的随机化方法、随机数及产生随机数的程序、种子数等均应有记录。
(42)单因素设计和统计分析都比较简单,但实验效率较低,只能考察一个因素对观测结果的影响情况。各组实验单位数可以相等或不等,但不应相差悬殊。当两处理组比较时常用t检验或秩和检验,多个处理组比较时常采用相应设计定量资料的方差分析或秩和检验。
(43)配对设计能有效地降低来自个体差异对观测结果的影响,从而减小实验误差,提高实验效率。但采用配对设计时,要防止偏性,尽可能保持每对受试对象的均衡和齐同。配对的条件应当是本实验研究中对观测结果有重要影响的所有非实验因素的组合结果,而绝对不能随便选取一个非实验因素作为配对条件,那样只能是在表面上缩小了实验误差,其结果是容易增大结论犯假阳性错误的概率。
(44)随机区组设计是在单因素设计的基础上,多考虑一个区组因素。这个区组因素的不同水平反映了受试对象在重要的条件上的差异,若不将其排除,必然会影响对实验因素各水平之间差别大小的正确评价,即造成了两个因素效应的混杂。
(45)交叉设计平衡了实验顺序对结果的影响,并且能将处理间的差别与阶段间的差别有效区分开来,每个个体接受两种处理,节约了样本含量;但本设计不适用于具有自愈倾向或病程短的研究,每个个体在接受两种处理之间应有足够长的洗脱期。
(46)析因设计是一种比较常见的多因素实验设计。在实验研究中应用得比较频繁。一般来说,如果在实验设计中涉及的实验因素不超过5个,在专业上有必要考察因素之间的各级交互作用,每个因素的水平数比较少且每次实验花费较少、费时较短时,可以考虑使用析因设计。
(47)重复测量设计的主要优点是可以减少样本含量,能够有效地考察指标随时间推移的动态变化趋势。重复测量是在同一受试者身上进行的,因此,在不同时间点上观测指标的取值之间一般是不独立的,后一次测量结果可能受到前面各次测量结果的影响。因此,对同一个体在不同时间点上的测量值之间就可能存在相关关系,就需要用特殊的统计分析方法进行分析。
(48)调查研究是一种没有采取任何干预措施的研究工作,它主要是对客观存在的现象进行询问和观察,故调查研究又称为观察性研究,它被广泛地应用于生物医学、社会学及教育学等多个领域。
(49)调查研究的目的主要有描述、分析、检验假设、评价、预测。
(50)调查研究的步骤主要分三步:首先是设计阶段或准备阶段,包括发现和提出问题、复习文献、立题、调查设计;其次是现场调查工作阶段,包括预调查、收集数据资料;最后是资料整理、表达及分析阶段,包括整理分析资料、解释和交流研究结果。
(51)调查设计是对整个调查研究作出科学完整的计划,其目的是以较少的人力、物力和财力获取较丰富而可靠的资料,同时将各种误差降到最低限度,它主要包括:确定调查目的与指标,确定调查对象和观察单位,确定调查方法、调查设计类型、抽样方法和资料收集方式,设计调查表,估计样本含量以及调查的组织实施与质量控制。调查设计是调查研究中的第一道工序和重要环节,它的好坏直接影响到研究工作的质量。
(52)调查表是调查工作中收集资料的最主要的测量工具,它主要是由一系列与研究目标有关的问题组成的问卷。调查表的构成有标题、调查项目(背景资料、研究项目变量、核查项目)、编码和填表说明。
(53)问卷调查表的评价方法主要有效度评价和信度评价,其中效度评价又包括表面效度、内容效度和结构效度,信度评价包括重测信度、内部信度(克朗巴赫a系数和分半信度)和测评者之间信度。
(54)常用的调查研究方法有:横断面调查,它又可分为普查和抽样调查(如单纯随机抽样、系统随机抽样、分层随机抽样、整群抽样和多阶段抽样);病例一对照研究;队列研究。
(55)常用的调查设计类型有:横断面调查研究设计、病例对照研究(回顾性调查)设计和队列研究(前瞻性调查)设计。
(56)调查研究中应注意的问题有:明确调查目的,制定周密的调查设计及问卷,考虑并规范调查所涉及的伦理道德问题,选择适当的调查方法、调查设计类型和抽样方法,重视预调查,加强调查研究全过程的质量控制。
(57)分析数值型变量的方法很多,读者应先确定研究的设计类型,据此选择合适的分析方法中常见的错误为:误将随机区组设计资料和析因设计资料用单因素方差分析或t检验方法分析分析过程随机区组设计资料
(58)析因设计资料很容易与完全随机设计资料混淆,读者应仔细辨别。与单因素方差分析相比,随机区组设计资料的方差分析可根据设计进一步分解变异,控制其他非处理因素对实验效应的影响。
(59)随机区组设计资料的方差分析不能分析因素间的交互效应,而析因设计资料则既可以分析因素的主效应,也可以分析其单独效应和交互效应。
(60)分析随机区组设计资料和析因设计资料时应注意资料是否满足方差分析的条件,若资料不满足方差分析的条件,可经变量变换使之满足条件,然后再用方差分析的方法分析之,或用非参数检验的方法分析之。
(61)当球形检验的P小于0.1时,重复测量的各个时间观察点资料之间的方差齐性或不同组别的方差齐性不满足,只能用SPSS的重复测量专用模块,并且选用校正自由度的Greenhouse-Geisser检验统计量及其对应的P值作统计推断。
(62)在重复测量资料的统计分析中,当存在交互作用时,可以推断对于不同重复测量时间点的两组所对应的两个总体均数之差是不全相同的,但进一步作两两比较的统计分析比较复杂,建议请专业的统计工作者帮助进行统计分析。
(63)如果在重复测量资料的统计分析中,交互作用项没有统计学意义,可以在方差分析中仅引入主效应项,可以增大检验效能,并且还可以使各个时间点的两两比较简单化,但即使没有交互作用时,对于多组情况下的组间两两比较仍要谨慎。所以,许多研究者当统计结果显示存在交互作用时,一般采用作图作趋势分析,得到大致的统计推断。
(64)在两阶段的交叉设计研究中,不存在延滞效应与处理效应的交互作用,但在多阶段的交叉设计研究中(如三阶段交叉设计研究等),要考虑延滞效应与处理效应的交互作用,否则可能导致效应估计偏倚。
(65)Logistic回归适合因变量为分类变量的研究问题,自变量可以是定量变量、有序或无序分类变量。对于定量变量,如果与因变量logitπ呈线性关系,以定量变量形式引入方程分析最佳,否则,应离散化并以哑变量形式引入方程分析;有序多分类自变量,可以先以哑变量形式进行分析,如果相邻等级间优势比近似恒定常数,则可对有序分类变量适当赋值,以离散型定量变量引入方程分析;对无序多分类变量,必须以哑变量形式引入方程,并且在变量筛选中整体进/出方程。
(66)按照回顾性病例对照资料建立的logistic回归方程以及条件logistic回归方程,因不能估计事件概率,或因变量预测值不是概率值,不宜应用Hosmer-Lemeshow检验判断方程拟合效果。
(67)似然比检验是logistic回归分析中非常有用的一种检验方法,主要用途有三:
①用于回归方程整体拟合优度检验:通过与常数项方程比较,以判断所建立回归方程有无统计学意义,似然比检验统计量的自由度等于回归方程中自变量的个数-1;
②用于检验单个变量回归系数βi是否等于0:在已有的回归方程中剔除某自变量Xi,并据此计算相应似然比检验统计量,判断总体回归系数是否为0,似然比检验统计量自由度等于1;
③用于回归方程优选:对于两个不同的回归方程,如果一个方程所有自变量包含在另一个方程中,这时可以用似然比检验,以判断何者拟合效果更优,其似然比检验统计量的自由度等于两个方程自变量个数的差值。似然比检验特别适用于无序分类或按无序分类处理的自变量的logstic回归方程。如果两个比较的方程自变量没有嵌套关系,自然就不能使用该方法。
(68)极大似然估计要求个体的结局事件发生与否独立、同分布,所以,对于传染性较强的疾病,不能采用logistic回归方程研究其发病与否的危险因素,或是用于发病概率的预测。
——以上资料来源:方积乾《生物医学研究的统计方法》,如有侵权,请联系作者及时删除