下面是小编为大家推荐的公卫医师医学统计学辅导:相对数(共含10篇),欢迎大家分享。同时,但愿您也能像本文投稿人“杨郁文”一样,积极向本站投稿分享好文章。
调查或实验搜集来的原始资料,经过汇总之后得到的小计或总计数值称为绝对数(即总量指标)。如发病人次数、医院收容人数、治愈人数等。总量指标反映一定条件下某种事物的规模或水平,是计划或总结工作的依据,同时,又是计算相对数与平均数的基础,但是绝对数往往不便于比较,因此在实际工作中还必须计算相对数与平均数。 相对数
一、相对数及其意义来源:相对数是两个有关的绝对数之比,通常用百分比、千分比或万分比等表示,是医学研究中最常用的统计指标之一。计算相对数的意义是把基数化做相等,便于相互比较。如:每千人中的发病数,每百名某病患者的死亡人数等。例如:某时期内,甲部队患感冒者17人,乙部队10人,我们不能因为17人多于10人,而得出甲部队感冒发病率高的结论,如果甲部队有534人,乙部队为313人,那么甲乙部队感冒率分别为:甲部队:17/534×1000‰=31.8‰乙部队:10/313×1000‰=31.9‰根据这两个感冒发病率可以看出,两个部队感冒的发病强度是一样的,即每千人中发病32人。二、几种常用的相对数来源:(一)强度相对数(率)表示在一定范围内,某现象的发生数与可能发生某现象的总数之比,说明某现象出现的强度或频度(即频繁的程度)。计算公式为:强度相对数=某现象的发生数/可能发生某现象的总数×100℅(或1000‰) (3.1)例如:某部队某年发生菌痢136人次,该部队同年平均人数为14,080人。求该部队的痢疾发病率。痢疾发病率=136/14080×10000‰=9.66‰即平均每千人中有9.7人发病。来源:在医学上常用的强度相对数有患病率、发病率、感染率、病死率、死亡率及人口自然增长率等。计算公式如下:某病患病率=某病患病人数/调查人数×100%来源:某病发病率=某期间内某病新病例数/同期间内平均人口数×100%某病感染率=带有某种病原体人数/检查人数×100%某病病死率=死于某病人数/某病患病人数×1000‰来源:某病死亡率=某年某地某病死亡人数/同年该地平均人口数×100%出生率=某地某年活产数/该地同年年平均人口数×1000‰死亡率=某地某年死亡率/该地同年年平均人口数×1000‰自然增长率=某地某年活产数-死亡数/该地同年年平均人口数×1000‰=出生率-死亡率表示每年每1000人口增加的人数。来源:(二)结构相对数(比)表示某部分在全部分中所占比重,以100作为基数,计算公式为:结构相对数=某一构成部分的例数/各构成部分例数之和×100 (3.2)全体内各组结构相对数的总和应为100%。统计表与统计图是整理、表达和分析数字资料的重要工具。运用统计表可避免冗长的方案叙述。能把有关的数字列在一起,既便于计算比较,又易于发现错误和遗漏。绘制统计图可使数字资料形象化、通俗易懂,并能把资料的变化趋势和各种现象间的关系明确地表示再现,使读者在短时间内获得明晰的印象。统计图只能表示概数,要想了解准确的数字,仍需看统计表。
统计表统计表可从广义或狭义上看。广义的统计表包括调查表、登记表、过渡表及表达最后结果的统计表在内。狭义的统计表是指表达统计结果的统计表。下面简述狭义统计表的结构和编制。一、统计表的构成从统计表的外形看,可分为标题、标目、线条和数字等;从表的内容上看,又可分为主辞和宾辞两部分。统计表中被说明的事物称为表的主辞,用来说明主辞的统计指标称为表的宾辞,统计表的基本格式如下:表号标题(包括何时、何地、何事)备注:例如:表2.1是某医院用五种检查方法,对上消化道恶性肿瘤的检出率。其中五种检查方法是统计表的主辞,放在表的左侧横标目位置:而检查数、检出数和检出率是统计指标,为宾辞,放在表的右侧,即纵标目位置。一张设计比较好的统计表, 将主辞和宾辞结合起来,可读成一句完整而通顺的话。如:胃镜检查48例,检出44例,检出率为91.7%等。医学统计学是运用概率论与数理统计的原理及方法,结合医学实际,研究数字资料的搜集、整理分析与推断的一门学科。 医学研究的对象主要是人体以及与人的健康有关的各种因素。生物现象的一个重要特点就是普遍存在着变异。所谓变异(个体差异),系指相同条件下同类个体之间某一方面发展的不平衡性,系偶然因素起作用的结果。例如同地区、同性别、同年龄的健康人,他们的身长、体重、血压、脉搏、体温、红细胞、白细胞等数值都会有所不同。又如在同样条件下,用同一种药物来治疗某病,有的病人被治愈,有的疗效不显著,有的可能无效甚至死亡。引起客观现象差异的原因是多种多样的,归纳起来,一类原因是普遍的、共同起作用的主要因素,另一类原因则是偶然的、随机起作用的次要因素。这两类原因总是错综复杂地交织在一起,并以某种偶然性的形式表现出来。科学的任务就在于,要从看起来是错综复杂的偶然性中揭露出潜在的必然性,即事物的客观规律性。这种客观规律性是在大量现象中发现的,比如临床要观察某种疗法对某病的疗效时,如果观察的病人很少,便不易正确判断该疗法对某病是否有效;但当观察病人的数量足够多时,就可以得出该疗法在一定程度上有效或无效的结论。所以,医学统计学是医学科学研究的重要工具。
医学统计学在本世纪二十年代以后才逐渐形成为一门学科。解放前,我国学者即致力于把统计方法应用到医学中去,但人力有限、范围较窄。解放后,随着医学科研工作的发展,本学科得到迅速普及与提高。通过大量实践,在不少方面积累了自己的经验,丰富了医学统计学的内容。而电子计算机的作用,更促进了多变量分析等统计方法在医学研究中的应用。医学统计学的内容包括:①统计研究设计。我们制订调查计划或实验设计时,除专业问题外,还必须从医学统计学的角度考虑,使调查或实验结果能够科学地回答所研究的问题。一个好的设计可以用较少的人力、物力和时间取得更多的较可靠的资料。②总体指标的估计。医学研究中实际观测或调查的部分个体称为样本,研究对象的全体称为总体。人们除用均数、率等统计指标对调查或实验结果进行描述外,更重要的是通过样本的信息,来估计总体中相应的统计指标,即参数估计。③假设检验。就是依据资料性质和所需解决的问题,先建立适当的假设,然后采用适当的检验方法,根据样本是否支持所作的假设,来决定对假设的接受或拒绝。④联系、分类、鉴别与鉴测等研究。在疾病的防治工作中,经常要探讨各种现象数量间的联系,寻找与某病关系最密切的因素;要进行多种检查结果的综合评定、探讨疾病的分型分类:计量诊断,选择治疗方案;要对某些疾病进行预测预报、流行病学监督,对药品制造、临床化验工作等作质量控制,以及医学人口学研究等。医学统计学,特别是其中的多变量分析,为解决这些问题提供了必要的方法和手段。本讲义介绍了医学统计的基本内容,此外,本讲义中还包括军医必须了解或掌握的我军部队、医院、战时的各种登记和统计表,常用统计指标的计算和分析等内容。作为医学科学工作者,学习和掌握一定的统计学知识是十分必要的。第一,在阅读医学书刊中,经常会遇到一些统计学方面的名词概念,有了这方面的知识,有助于正确理解文章的涵义;第二,军医在实际工作中,经常要做登记工作,要填写各种报表,只有懂得了原始登记与统计结果的密切关系,并掌握了收集、整理与分析资料的基本知识与技能,才能自觉地、认真地把登记工作做好,积累有科学价值的资料;第三,参加科研工作时,从开始设计到数据整理分析与统计结果的表达,每一步骤都需要统计学知识;第四,在制订计划、检查工作、总结经验时,都离不开统计数字,尤其在撰写科研论文时,有了统计学知识,才能使数据与观点密切结合,作出正确的结论。医务工作者学习统计学,首先必须明确:我们应该掌握的关键不是数学原理,而是怎样合理地、恰当地把数理统计的方法应用到医学科研工作中去,并结合专业知识,提高分析问题与解决问题的能力。其次在学习过程中,要理论联系实际,重视实习与练习。作业中要遵守数学上的规则与习惯,如小数点及各个位数应上下对齐,一个多位数的数值不能分写成两行,等号不能写在一行的末了而应写在第二行的开头等等。再次,各种统计符号必须写正确,汉字、阿拉伯字与外文字母必须写清楚,不能写成模棱两可,只有在学习时养成良好的习惯,将来工作中才能少出差错。最后我们着重指出:统计工作最根本的一条就是实事求是,如实反映情况。因此,无论日常工作或科学研究中,必须养成严肃认真的作风和反复核对的习惯,同一切弄虚作假的现象进行坚决的斗争,尽最大努力获得正确数据,使分析结论建立在可靠的基础上。一、相关系数的意义 相关分析是用相关系数(r)来表示两个变量间相互的直线关系,并判断其密切程度的统计方法。相关系数r没有单位。在-1~+1范围内变动,其绝对值愈接近1,两个变量间的直线相关愈密切,愈接近0,相关愈不密切。相关系数若为正,说明一变量随另一变量增减而增减,方向相同;若为负,表示一变量增加、另一变量减少,即方向相反,但它不能表达直线以外(如各种曲线)的关系。
为判断两事物数量间有无相关,可先将两组变量中一对对数值在普通方格纸上作散点图,如图9.1~9.8所示。图中点子的分布可出现以下几种情况:正相关——见图9.1,各点分布呈椭圆形,y随x的增加而增加,x亦随y的增加而增加,此时1>r>0。椭圆范围内各点的排列愈接近其长轴,相关愈密切,当所有点子都在长轴上时,r=1(见图9.2),称为完全正相关。负相关——见图9.3,各点分布亦呈椭圆形,y随x的增加而减少,x也随y的增加而减少,此时0>r>-1。各点排列愈接近其长轴,相关愈密切,当所有点子都在长轴上时,r=1(见图9.4),称为完全负相关。在生物现象中,完全正相关或完全负相关甚为少见。无相关——见图9.5、图9.6和图9.7,x不论增加或减少,y的大小不受其影响;反之亦然。此时r=0。另外,须注意有时虽然各点密集于一条直线,但该直线与x轴或y轴平行,即x与y的消长互不影响,这种情况仍为无相关。非线性相关——见图9.8,图中各点的排列不呈直线趋势,却呈某种曲线形状,此时r≈0,类似这种情况称为非线性相关。图9.1—9.8 不同相关系数的散点示意图二、相关系数的计算及假设检验(一)相关系数计算法计算相关系数的基本公式为:(9.1)式(9.1)中r为相关系数,∑(x-x)2为x的离均差平方和,∑(y-y)2为y的离均差平方和,∑(x-x)(y-y)为x与y的离均差乘积之和,简称离均差积之和,此值可正可负。以此式为基础计算相关系数的方法称积差法,在实际应用时式(9.1)中各离均差平方和(简称差方和)与积之和可化为(9.2)现举例说明计算相关系数的一般步骤:例9.1 测定15名健康成人血液的一般凝血酶浓度(单位/毫升)及血液的凝固时间(秒),测定结果记录于表9.1第(2)、(3)栏,问血凝时间与凝血酶浓度间有无相关?1.绘图,将表9.1第(2)、(3)栏各对数据绘成散点图,见图9.9。2.求出∑x、∑y、∑x2、∑y2、∑xy,见表9.1下方。3,代入公式,求出r值。从数理统计的理论上讲,并且上节的实例也已说明,在总体均数为μ,总体标准差为σ的正态总体中随机抽取n相等的许多样本,分别算出样本均数,这些样本均数呈正态分布。而当样本含量n不太小时,即使总体不呈正态分布,样本均数的分布也接近正态。在下式中, 来源:
由于μ与(样本均数的标准差)都是常量,又呈正态分布,所以u也呈正态分布。但实际上总体标准差往往是不知道的,上式分母中的σ要由s替代,成为,那么由于样本标准差有抽样波动,sx也有抽样波动,于是,在用s代替σ后上式等号右边的变量便不呈正态分布而呈t分布,其定义公式是 来源:(6.5)t分布也是左右对称,但在总体均数附近的面积较正态分布的少些,两端尾部的面积则比正态分布的多些。t分布曲线随自由度而不同(如图6.1)。随着自由度的增大,t分布逐渐接近正态分布,当自由度为无限大时,t分布成为正态分布。 来源:图6.1 t分布(实线)与正态分布(虚线) 来源:与正态分布相似,我们把t分布左右两端尾部面积之和α=0.05(即每侧尾部面积为0.025)相应的t值称为5%界,符号为t0.05,,,这里ν是自由度。把左右两端尾部面积之和α为0.01相应的t值称为1%界,符号为t0.01,,。t的5%界与1%界可查附表3,t值表。例如当自由度为10-1=9时,t0.05,9=2.262,t0.01,9=3.250。一、变异指标的意义及种类
设有甲乙两人,对同一名患者采耳垂血,检查红细胞数(万/mm3),每人数五个计数盘,得结果为q=68.12-65.23=2.89 cm有50%的7岁男童,坐高在65.23~68.12cm之间,其四分位数间距为2.89cm。 来源:3.均差 四分位数间距虽比极差稳定,但仍只是两点之间的距离,没有利用每个变量值的信息。于是有人计算每个变量值与均数(或中位数)差的绝对值之和,然后平均称为均差(或平均直线差)作为变异指标之一。来源:(4.13)例4.8 试计算4.3中,心重的均差。由例4.3知x=293.75g,代入式(4.13)得4.方差 式式(4.13)中用变量值与均数之差的绝对值之和∑∣x-x∣,而不用离均差之和∑(x- x)是因为∑(x- x)=0,不能说明变异情况,故取绝对值以去掉负号。亦有人用平方的办法,即用离均差平方和∑(x-x )2,既去掉了负号,又提高了指标的灵敏性。因为数值愈大,平方后增大的愈多,所以离均差稍有变化,就能从指标上反映出来。例如有甲乙两组数据如下: 式(4.14)中的n-1是自由度。n个变量值本有n个自由度,但计算标准差时用了样本均数x,因此就受到了一个条件即∑x= nx的限制。例如有4个数据,它们的均数为5。由于受到均数为5的限制,4个数据中只有3个可以任意指定。如果任意指定的是4、3、6,那么第4个数据只能是7,否则均数就不是5了。所以标准差的自由度为n-1。 来源:2.标准差的计算(1)按基本公式(4.14)计算来源:例4.9 用例4.3资料计算心重的标准差。 来源:已算得x=293.75g,代入式(4.14)得(2)递推法 当用电子计算机进行计算,希望每输入一个数据,都能得到x与s,则将式(4.8)与式(4.5)配合计算。(4.15)这里sn表示n个数据的标准差,sn-1表示n-1个数据的标准差。xn是第n个数据,xn-1是n-1个数据的均数。例4.10 仍用例4.3资料,已算得前19例心重的x19=292.37,s19=38.71。 x20=320,代入式(4.15)得 来源:(3)直接法 不需先计算均数,直接用变量值代入式(4.16)或式(1.17)计算。(4.16)或 (4.17)式(4.16)的分子是由式(4.14)的分子简化而得来的,证明如下。例4.11 用elisa(酶联免疫吸附测定)法检测vero-e6,细胞培养上清正常标本10份的结果(100xod490值)为2,3,3,4,4,5,5,5,6,8,求标准差。正态分布及其性质 一群变量值可能用平均数描述集中的位置,用变异指标描述离散情况,而频数表则把变量值的分布描绘得更具体。为了直观还可把频数表画成直方图。如第四章中曾将7岁男童坐高的频数分布绘成图4.1。从图中可看出数据集中均数周围,左右基本对称,离均数愈近数据愈多,离均数愈远数据愈少的特点。医学科研中如健康人的红细胞数、血红蛋白量、血清总胆固醇,同年龄同性别儿童的身高、体重等,虽然数据各异,但画出的直方图图形是类似的。可以设想,这种类型的资料,如果调查例数无限增多,所用组距又无限的小,那么直方顶端就连成了一条光滑的曲线。这条曲线,典型地反映了这类资料的分布情况,数学上称为正态曲线,其方程为来源:
式中n为总频数,x为变量值,μ为均数,σ为标准差,y为纵高,e=2.71828……,π=3.14158……。在一个总体中n、μ、σ、e、π都是常数,只有x在变,所以y=f(x)。来源:式(5.1)亦可写成:由上式可看出曲线的性质:1.曲线左右对称。x-μ无论是正或负,只要绝对值就相等,y值就相等。所以只要x与μ的距离相等,y就相等。y值以x=μ为对称轴。来源:2.中位数、均数、众数重合。正态曲线在横轴上方。当x=μ时,e0=1,y为极大,所以均数与众数密合。由于曲线左右对称,所以均数亦即中位数。e的指数愈大,y愈小,但不会得负值,所以y>0,曲线在横轴上方。3.随着(x-μ/σ)的绝对值的增加,曲线由平均数所在点向左右两方迅速下降。来源:4.离平均数左右1σ处为曲线拐点。在μ±σ以内曲线向下弯曲,以外则向上弯曲。这种类型的资料,数据值虽各不相同,但都有其均数与标准差,如果横轴上各以其均数为原点,标准差为单位,并令x=x-μ,那么(x-μ)/σ可写成x/σ,称为正态离差u,(5.2)再令总频数为1。 这时曲线以μ为原点,以σ为单位,称为标准正态曲线,其公式为(5.3)以μ为均数,σ2为方差的正态分布可记为n(μ,σ2),因此标准正态分布可记为n(0,1)。 来源:图5.2 标准正态曲线 来源:一、直线回归方程的意义 计算出相关系数后,如果r显著,且又需要进一步了解两变量中一个变量依另一个变量而变动的规律时,则可进行回归分析。
“回归”是个借用已久因而相沿成习的名称。若某一变量(y)随另一变量(x)的变动而变动,则称x为自变量,y为应变量。这种关系在数学上被称为y是x的函数,但在医学领域里,自变量与应变量的关系和数学上的函数关系有所不同。例如成年人年龄和血压的关系,通过大量调查,看出平均收缩压随年龄的增长而增高,并且呈直线趋,但各点并非恰好都在直线上。为强调这一区别,统计上称这是血压在年龄上的回归。直线回归分析的任务就是建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。按这个要求计算回归方程的方法称为最小平方法或最小二乘法。所建立的方程是一个二元一次方程式,其标准形式是:=a+bx(9.5)式(9.4) 为由x推算得来的y值,即y的估计值:a称为截距,它是当x=0时的 值,即回归直线与纵轴的交点:b称为 回归系数,它是回归直线的斜率,其含意是当x每增加一个单位时, 相应增(或减)b个单位。当a与b求得后,直线回归方程就确定了。二、直线回归方程的计算法仍以表9.1资料为例,根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(x)推算凝血时间(y)的回归方程。求直线回归方程的步骤如下:1.列回归计算表(见表9.1),计算∑x、∑y、∑x2、∑y2、∑xy。2.计算x、y、∑(x-x)2、∑(x-x)(y-y)x=∑x/n=15.1/15=1.01y=∑y/n=222/15=14.80∑(x-x)2=∑x2-(∑x)2/n=0.2093∑(x-x)(y-y)=∑xy-∑x·∑y/n=-1.78003.计算回归系数b和截距a。b和a两值计算公式均是根据最小二乘法的原理推算出来的,其公式如下:(9.5)a=y-bx (9.6)本例b=-1.7800/0.2093=-8.5045a=14.80-(-8.5045)(1.01)=23.38954.列出回归方程,绘制回归直线,将求得的b和a的值代入到式(9.4),即得所求的回归方程:=23.3895-8.504x在凝血酶浓度的实测范围内,即x=0.8到x=1.2之间,任选两个x值(一般选相距较远且直角坐标系上容易读出者),代入此回归方程,即得相应的两个 值。例如:取 x1=0.8,则 1=23.3895-8.5045×0.8=16.59,x2=1.2 则 2=23.3895-8.5045×1.2=13.18。连接(0.8、16.59)和(1.2 、13.18)两点所得直线,即为由凝血酶浓度推算凝血时间的回归直线( 见图9.9)。须注意回归直线必通过(χ,y )点,并穿过观察点群,直线上下各有一些点散布着,否则计算有误。三、直线回归方程的假设检验(一)样本回归系数的假设检验根据例9.1资料求得的是样本回归系数b,有抽样误差的,需作假设检验,检验其是否是从回归系数为0的假设总体(即β=0)中随机抽得的,也就是检验b与0的差别有无显著性。如果差别有显著性,可认为x与y间有直线回归存在。样本回归系数的假设检验亦用t检验。h0:β=0 即y的变化与x无关;h1:β≠0。计算公式为:(9.7)分母sb是样本回归系数b的标准误,计算公式为:(9.8)分子sy.x为各观察值y距回归线的标准差,即当x的影响被扣去以后y方面的变异,可按下式计算:(9.9)直方图是以直方的面积表示数量的。直方顶端连成曲线后,整个曲线下面积就表示总频数,用1或100%表示。一定区间曲线下面积就是出现在此区间的频数与总频数之比,或出现在该区间的各个变量的概率之和。例如以7岁男童102人为100%,则若要知道坐高在66至68cm间的人数占总人数的百分比,只要知道曲线下横坐标为66至68cm区间内的面积就可以了。因此求出曲线下面积有其实用意义。 曲线下某区间的面积,可根据曲线方程用积分求得,但若每次应用时都要用积分计算,那是很麻烦的。前人已将标准正态曲线下0至各u值的面积计算出来的了。由于各书列的方式不完全相同,所以使用时要注意表上的图示或说明,仍用7岁男童坐高资料为例说明正态曲线下面积表(附表2)的使用方法。该表左侧及上端为u值,表中数字为横轴自0至u曲线下的面积。
例5.1 根据表4.3的资料计算得坐高的x=66.72,s=2.08,试估计总体中坐高在(1)66.72-68.80cm间。(2)66~68cm间及(3)68~70cm间的人数各占总人数的百分比。(1)求坐高在66.72~68.80cm 之间曲线下面积。①求u(u=(x-μ)/σ,这里分别以x、s作为μ与σ的估计值)(66.72-66.72)/2.08=0(66.80-66.72)/2.80=1标准正态曲线下面积见图5.3(a)。②查附表2,u自0至1的面积,即查u=1.00,得α/2=0.3413。坐高在此区间内的人数占总人数的34.13%。(2)求坐高在66~68cm之间曲线下面积。①求u(66-66.72)/2.08=-0.346(68-66.72)/2.08=0.615标准正态曲线下面积见图5.3(b)②查附表2 u=0.346,得α/2=0.1353(经内插法求得,下同)u=0.615,得α/2=0.23080.1353+0.2308=0.3661坐高在此区间内的人数占总人数的36.61%,即102×0.3661=37.3人,与实际观察所得38人相近。一、估计样本含量的意义及条件
我们在第一节里曾提到重复的原则。所谓重复,是指各处理组(对照在实验研究中也被看作是一种处理,而且是必不可少的)的受试对象都应有一定的数量,例数不能太少,所以在抽样调查、临床观察或实验研究中,首先总要考虑样本含量(或叫样本大小)问题。样本太小,使应有的差别不能显示出来,难以获得正确的研究结果,结论也缺乏充分的依据;但样本太大,会增加实际工作中的困难,对实验条件的严格控制也不易做到,并且造成不必要的浪费。所以这里所说的样本含量估计,系指在保证研究结论具有一定可靠性的条件下,确定最少的观察或实验例数。来源:但是,样本含量又是个比较复杂的问题。要讲清在各种情况下估计样本含量的方法和原理,那是很繁杂的。而且,不同的参考书上介绍的计算公式和工具表往往不一样,以致同一问题所得的结果也可能有出入。所以,不论按哪种公式或工具表求得的结果,也只能是个近似的估计数。估计样本含量,必须事先明确一些条件与要求:(一)根据研究目的与资料性质,要先知道一些数据。例如要比较几组计数资料,先要知道百分数或率;要比较几组计量资料,先要知道平均数及标准差。这些数据可从以往的实践,预备试验的结果、兄弟单位的经验或文献资料里得来。来源:(二)确定容许误差。由于抽样误差的影响,用样本指标估计总体指标常有一定的误差,因而要确定一个样本指标与总体指标相差所容许的限度。此值要求越小,所需例数就越多。(三)确定把握度(1—β)。β是第二型错误的概率;而1—β的意思是:如果两组确有差别,则在每100次实验中平均能发现出差别来的概率。把握度可用小数(或百分数)表示,一般取0.99、0.95、0.90、0.80、0.50。要求把握度越高,则所需例数直多。(四)确定显著性水平,即第一型错误的概率(α)。这就是希望在α=0.05的水准上发现差别,还是希望在α=0.01的水准上发现差别。α越少,所需例数越多。此外,估计样本含量时还应当根据专业知识确定用单侧检验或双侧检验。同一实验,若既可用单侧检验又可用双侧检验,则前者所需例数要少些。二、用计算法估计样本含量来源:我们运用前面学过的某些假设检验公式,就可以进行样本含量的计算。下面仅举两例略作介绍。这里的公式仅适用于α=0.05,1—β=0.50。而且都是双侧检验。(一)两个率比较时样本含量的计算 令n为每组所需例数,p1、p2为已知的两个率(用小数表示),p为合并的率,当设两组例数相等时,即p=(p1+p2)/2。q=1=p,则(11.1)例11.5 据某院初步观察,用甲、乙两种药物治疗慢性气管炎患者,近控率甲药为45%,乙药为25%。现拟进一步试验,问每组需观察多少例,才可能在α=0.05的水准上发现两种疗法近控率有显著相差?本例p1=0.45,p2=0.25,p=(0.45+0.25)÷2=0.25,q=1-0.35=0.65,代入式11.1每组需观察46人,两组共观察92人,注意:例数问题不同于一般数学计算中的四舍五入,凡是有小数的值,应一律取稍大于它的正整数,如本例45.5取46,若为45.1也应取46。(二)个别比较t检验样本含量的计算 令n为所需样本数,s为差数的标准差,x为差数的均数,t0.05o为t值表上相当于p=0.05的t值,4为n足够大时t20.05=1.962的数,则大样本 (11.2)小样本 (11.3)例11.6 用某药治疗胃及十二指肠溃疡病人,服药四周后胃镜复查时,患者溃疡面平均缩小0.2cm2,标准差为0.4cm2,假定该药确能使溃疡面缩小或愈合,问需多少病人作疗效观察才能在α=0.05的水准上发出用药前后相差显著?★ 基本公卫整改报告
★ 公卫人员工作职责