对大量的数据进行必要的统计学分析,并将统计的结果展现在论文中用于论证文章的观点和理论。这是一篇医学论文中统计学应用最常见的情况。那么,关于医学论文统计学处理与方法的选择,我们应该注意哪些内容?
关于统计学处理
在进行统计学处理时,首先要明白研究资料是计数资料还是计量资料,尽管是一个常识性的问题,但仍有不少作者搞混了。先分类再计数的资料叫计数资料,如A组30例,B组32例,可根据研究目的计算出阳性率、治愈率等。测定某项具体数值的资料叫计量资料,如身高、体重、脉搏、血压等许多物理诊断和化验结果。
在医学科研论文中,计数资料最常用的统计学方法是检验,计量资料最常用的是t检验。在研究设计时,就应根据研究资料的特点,决定假设检验的方法。在处理资料时,因均数和标准差是用来描述正态分布资料集中和离散趋势的指标,可否采用均数±标准差描述研究资料的分布特征,首先要看资料是否是正态分布,如果资料不是正态分布或者方差不齐时,应对资料进行转换处理,使其符合正态分布,方差齐性后采用t检验或方差分析,达不到上述要求,用秩和检验。
有的研究资料数据庞大,只能在表格描述中用阿.拉伯数字或特殊符号表示与比较对象的P值,如P>0.05,P<0.05,P<0.01,无法一一给出具体的P值。但有的作者既不交代使用的统计学方法,也不给出具体的P值,直接列出P<0.05或P>0.05,认为差异有统计学意义或无统计学意义,使读者对无法判断结果的可靠性。
关于统计学方法的选择
一、两组或多组计量数据的比较
1.两组数据:
1)大样本数据或服从正态分布的小样本数据
(1)若方差齐性,则作成组t检验
(2)若方差不齐,则作t’检验或用成组的Wilcoxon秩和检验
2)小样本偏态分布数据,则用成组的Wilcoxon秩和检验
2. 多组数据:
1)若大样本数据或服从正态分布,并且方差齐性,则作完全随机的方差分析。如果方差分析的统计检验为有统计学意义,则进一步选择合适的方法(如:LSD检验,Bonferroni检验等)进行两两比较。
2)如果小样本的偏态分布数据或方差不齐,则作Kruskal Wallis的统计检验。如果Kruskal Wallis的统计检验为有统计学意义,则进一步选择合适的方法(如:用成组的Wilcoxon秩和检验,但用Bonferroni方法校正P值等)进行两两比较。
二、分类数据的统计分析
1.单样本数据与总体比较
1)二分类数据:
(1)小样本时:用二项分布进行确切概率法检验;
(2)大样本时:用U检验。
2)多分类数据:用Pearson c2检验(又称拟合优度检验)。
2. 四格表数据
1)n>40并且所以理论数大于5,则用Pearson c2
2)n>40并且所以理论数大于1并且至少存在一个理论数<5,则用校正 c2或用Fisher’s 确切概率法检验
3)n£40或存在理论数<1,则用Fisher’s 检验
3. 2×C表数据的统计分析
1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则行评分的CMH c2或成组的Wilcoxon秩和检验
2)列变量为效应指标并且为二分类,列变量为有序多分类变量,则用趋势c2检验
3)行变量和列变量均为无序分类变量
(1)n>40并且理论数小于5的格子数<行列表中格子总数的25%,则用Pearson c2
(2)n£40或理论数小于5的格子数>行列表中格子总数的25%,则用Fisher’s 确切概率法检验
4. R×C表数据的统计分析
1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则CMH c2或Kruskal Wallis的秩和检验
2)列变量为效应指标,并且为无序多分类变量,行变量为有序多分类变量,作none zero correlation analysis的CMH c2
3)列变量和行变量均为有序多分类变量,可以作Spearman相关分析
4)列变量和行变量均为无序多分类变量,
(1)n>40并且理论数小于5的格子数<行列表中格子总数的25%,则用Pearson c2
(2)n£40或理论数小于5的格子数>行列表中格子总数的25%,则用Fisher’s 确切概率法检验
三、两组或多组计量数据的比较
1.两组数据:
1)大样本数据或配对差值服从正态分布的小样本数据,作配对t检验
2)小样本并且差值呈偏态分布数据,则用Wilcoxon的符号配对秩检验
2.多组数据:
1)若大样本数据或残差服从正态分布,并且方差齐性,则作随机区组的方差分析。如果方差分析的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:LSD检验,Bonferroni检验等)进行两两比较。
2)如果小样本时,差值呈偏态分布数据或方差不齐,则作Fredman的统计检验。如果Fredman的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:用Wilcoxon的符号配对秩检验,但用Bonferroni方法校正P值等)进行两两比较。
四、回归分析
1.直线回归:如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,则直线回归(单个自变量的线性回归,称为简单回归),否则应作适当的变换,使其满足上述条件。
2.多重线性回归:应变量(Y)为连续型变量(即计量数据),自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,可以作多重线性回归。
1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素
2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用
3.二分类的Logistic回归:应变量为二分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
1)非配对的情况:用非条件Logistic回归
(1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素
(2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用
2)配对的情况:用条件Logistic回归
(1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素
(2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用