1.简述总体和样本的定义,并且举例说明。
总体是研究目的确定的所有同质观察单位的全体。样品是从研究总体中抽取部分有代表性的观察单位。
2.简述参数和统计量的定义,并且举例说明。
描述总体特征的指标称为参数,描述样本特征的指标称为统计量。3.变量的类型有哪几种?举例说明各种类型变量有什么特点。
①定量数据:计量资料;定量的观测值是定量的,其特点是能够用数值的大小衡量其水平的高低。
②定性数据:计数资料;变量的观测值是定性的,表现为互不相容的类别或属性。
③有序数据:半定量数据/等级资料;变量的观测值是定性的,但各类别(属性)有程度或顺序上的差异。
4.请举例说明一种类型的变量如何变换为另一种类型的变量。定量数据>有序数据>定性数据 --------------->5.请简述什么是小概率事件?
概率是描述事件发生可能性大小的度量,P≤0.05事件称为小概率事件。6.举例说明什么是配对设计。
配对设计是将受试对象按某些重要特征相近的原则配成对子,每对中的两个个体随机地给予两种处理。①同源配对:同一受试对象或同一标本的两个部分,随机分配接受两种不同处理;②异源配对:为消除混杂因素的影响,将两个同质受试对象配对分别接受两种处理。
7.非参数假设检验适合什么类型数据进行分析?
①总体分布类型未知或非正态分布数据;②定量或半定量数据;③数据两端无确定的数值。
8.简述P25 P50 P75的统计学意义。(条件:明显偏态且不能转化为正态或近似对称;一端或两端无确定数值;分布情况未知)
用来描述资料的观测值序列在某百分位置的水平,四分位数间距可以作为说明个体差异的指标(说明个体在不同位置的变异情况)。
9.直条图、直方图、圆饼图的使用条件是什么?
直条图:各自的统计指标的数值大小和他们之间的对比;直方图:连续变量频数分布情况;圆饼图:全体中各部分所占的比例。
10.统计分析包括哪两个方面的内容?为什么要进行统计推断?统计描述和统计分析;
统计描述用来描述及总结一组数据的重要特征,其目的是使实验或观察得到的数据表达清楚并便于分析。
统计推断指由样本数据的特征推断总体特征的方法,包括参数估计(点估计和区间估计)和假设检验(判断随机波动引起差别的概率大小)。
统计推断是通过样本推断总体的统计方法/根据样本提供的信息和抽样分布的规律,以一定的概率推断总体的特征。总体是通过总体分布的数量特征即参数 (如方差) 来反映的。很多时候并不知道总体的参数,只能由样本统计量推断获得。
11.定量数据如何进行统计描述?请举例说明。通过具体数值反应高低水平。12.定性数据如何进行统计描述?请举例说明。根据类别或属性的不同分类。13.简述均数的抽样误差及率的抽样误差。
由抽样造成的样本统计量与总体参数的差异称为抽样误差,样本均数X不等于总体均数μ,总体率参数π不等于样本率p。
14.简述正态分布和标准正态分布的关系。
𝑧=
𝑋‒𝜇
𝜎(μ=0,𝜎
=1)关系:标准正态分布是正态分布的一种,具有正态分布的所有特征。所
有正态分布都可以通过Z分数公式转换成标准正态分布。
区别:正态分布的平均数为μ,标准差为σ;不同的正态分布可能有不同的μ值和d值,正态分布曲线形态因此不同。标准正态分布平均数μ=0,标准差σ=1,μ和σ都是固定值;标准正态分布曲线形态固定。
f(𝑋)=𝜎
1
12𝜋𝑒‒2(1𝑋‒𝜇2
)𝜎
(‒∞𝑋𝜎2𝜋∫‒∞𝑒(𝑋)F=
‒2(
1𝑋‒𝜇2
)𝜎
概率密度函数概率分布函数
𝑑𝑥(‒∞15简述正态分布的特点。1.正态分布是单峰分布,以X=𝜇为中心,左右完全对称,正态曲线以X轴为渐近线,两端与X轴不相交。
2𝜋;X越远离𝜇,f(𝑋)值越小,在X=𝜇±𝜎处有拐2.正态曲线在X=μ处有最大值,其值为
点,呈现为钟形。
3.正态分布完全由两个参数𝜇和𝜎决定, 𝜇是位置参数,描述正态分布的平均水平,决定着正态曲线在x轴上的位置;𝜎是形状参数,描述正态分布的变异程度,决定着正态曲线的分布形状。若𝜎固定而改变𝜇,曲线沿着X轴平行移动,其形状不变,改变的只是位置;若𝜇固定而改变𝜎,𝜎越大曲线越“矮胖”,表示数据越分散即变异越大,𝜎越小曲线越“瘦高”,表示数据越集中即变异越小。因此,不同的𝜇与不同的𝜎对应不同的正态分布。
4.正态曲线下的面积分布有一定的规律。①曲线下的面积即为概率,服从正态分布的随机变量在某区间上的曲线下面积与该随机变量在同区间上的概率相等;②曲线下的总面积为1,以𝜇为中心左右两侧面积各占50%,越靠近μ处曲线下面积越大,两边逐渐减少;③所有正态曲线,在μ左右的任意个标准差范围内面积相同:区间𝜇±𝜎范围内的面积约为68.27%,区间𝜇±1.𝜎范围内的面积约为
90.00%,区间𝜇±1.96𝜎范围内的面积约为95.00%,区间𝜇±2.58𝜎范围内的面积约为积约为99.00%16.什么是医学参考值范围。医学参考值范围的作用。满足正态分布的双侧医学参考值范围怎么计算。
医学参考值范围是指“正常”人的解剖、生理、生化指标等数据大多数个体值的波动范围。确切含义是:从选择的参考总体中获得的所有个体观察值,用统计学方法建立百分位数界限,由此得到个体观察值的波动区间。
作用:①基于临床实践,从个体角度,作为临床上判定正常与异常的参考标准,用于划分界限或分类;②基于预防医学实践,从人群角度,可用来评价儿童发育水平。
步骤:1.确定参考值范围百分比;2.查表得到Z值;3.x∈(𝜇‒𝑧𝜎,𝜇+𝑧𝜎)。
17.总体均数的95%可信区间的计算方法及其意义。意义:该区间包括总体均数𝜇的概率为95%
𝑋‒𝜇𝑋‒𝜇
f(𝜇)=𝜎
1
‒z<
①𝜎已知:z分布:
𝜎𝑋<𝑧⇒‒z<
𝑧𝜎𝑛𝜎𝑛<𝑧⇒
𝜇∈(𝑋‒,𝑋+
𝑧𝜎𝑛) 1.96
𝑋‒𝜇𝑆𝑋‒t𝛼<
②𝜎未知,n较小(<=50):自由度为v=n-1的t分布:
2
,𝑣
2
2,𝑣𝑋‒𝜇‒t𝛼<𝑆,𝑣,𝑣2𝑛2
(t𝛼𝑆
,𝑣t𝛼𝑆,𝑋+
𝑋‒𝜇
S
𝑛2
,𝑣
𝑛𝑛)‒z<
③𝜎未知,n较大(n>50):z分布:
𝑋‒𝜇S𝑋<𝑧⇒‒z<
<𝑧⇒
𝜇∈(𝑋‒
𝑧S𝑛,𝑋+
𝑧S𝑛)18.三种t检验的适用条件。
1.单样本t检验:适用于样本均数X与已知总体均数𝜇0的比较,目的是检验样本均数X所代表的总体均数μ是否与已知总体均数𝜇0有差别。
2.配对样本t检验:适用于配对设计计量资料均数的比较,目的是检验两相关样本均数所代表的未知总体均数是否有差别。
3.两样本t检验:适用于完全随机设计的两样本均数的比较,目的是检验两样本所来自总体的均数是否相等。
19.完全随机设计的方差分析适用条件。
是一种将实验对象随机分配到不同处理组的单因素设计方法。正态性,性(样本总体间相互),方差齐性。20.三种卡方检验的适用条件。
2
1.四表格资料的𝜒检验:两样本的两个分类个体数排列成四表格资料,目的是推断两个或多个总体率或构成比之间有无差别。
2
2.配对四表格资料的𝜒检验:常用于两种检测方法、两种诊断方法或两种细菌培养方法的比较,适用于样本量不是很大的资料,特点是对样本中个观察单位分别用两种方法检测或处理,然后按两分类变量计数结果。
3.R×C列联表资料的𝜒检验:用于多个样本率或多个构成比的比较。
21.线性相关系数r的意义。
是说明具有直线相关关系的两个数值变量间相关的密切程度和相关方向的统计量。
相关系数r没有度量衡单位,其取值范围为‒1≤r≤1。r>0表示正相关,r<0表示负相关,r=0表示无相关,即无直线关系,当|r|=1时为完全相关。相关系数的绝对值意接近1,相关愈密切;相关系数愈接近0,相关愈不密切。22.t分布的特点。
①t分布是以0为中心,左右两侧对称的单峰分布;
②t分布曲线是一簇曲线,其形态变化与自由度v的大小有关。自由度v越小,则t值越分散,曲线越低平;自由度v逐渐增大时,t分布逐渐逼近标准正态分布。当v=∞时,t分布就完全成为标准正态分布了。
23.卡方检验的基本思想。
2
该检验的基本思想是:首先假设H0成立,基于此前提计算出𝜒值,它表示观察值与理论值之间的
2
偏离程度。根据𝜒分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。如果当前统计量大于P值,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有显著差异;否则就不能拒绝无效假设,尚不能认为样本所代表的实际情况和理论假设有差别。
主要是比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析。建立检验假设并确定检验水准;计算统计检验量;确定P值,做出推断结论。24.假设检验的基本思想。
目的是比较总体参数之间有无差别。
假设检验的基本思想是小概率反证法思想。
小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为不假设成立。
具体作法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。
25.简述一类错误、二类错误。
当Ho为真时,假设检验结论拒绝Ho,接受H,这类错误称为I类错误, 在医学中亦称假阳性错误。检验水准a是预先规定的允许犯I类错误的概率,当a=0.05时,表示在Ho为真的条件下重复100次
2
试验,理论上会有5次拒绝Ho。
当真实情况为Ho不成立时,假设检验结论不拒绝Ho,这类错误称为II类错误,在医学中亦称假阴性错误。其概率大小用B表示。B只取单侧,其值的大小一般未知,对于计量资料必须在知道两总体的标准差、均数的实际差值和样本含量时才能算出。