总体均数估计-SAS论文数据分析代做


SAS数据分析服务:

Eprime工作室专注于数据分析服务。
为科研人员提供SAS技术支持, 订单式, 先服务后收费, 不满意不收费。
关于我们的简介可以访问这里

QQ: 3597392976

Email: Eprime[at]163.com

总体均数估计:

总体均数的估计有点估计和区间估计。点估计是用样本均数来估计总体均数; 区间估计是求出总体均数的可能范围,方法随总体标准差是否已知而异: 总体标准差未知时按t分布原理计算; 总体标准差已知时按正态分布原理计算。此外,亦可用平方根纸图解求总体均数的可信区间。

总体均数的可信区间

(1)总体标准差未知时,一般按式(1)或式(2)计算可信区间。当样本含量n较大时,比如n>50,亦可按式(3)作近似计算,n越大,近似程度越好。因为根据统计量t的抽样分布原理:

式中μ为总体均数,为样本均数, s为样本标准差,n为样本含量。t的抽样分布曲线表明: 在界值-tα,v和tα,v以外的面积为α,如t≤-t0.05,v和t≥t0.05,v的概率为 α=0.05; 而在此两界值以内的面积为1-α,如-t0.05,v<t<t0.05,v的概率为1-0.05=0.95,即

于是得可信度为1-α 时计算总体均数的可信区间的通式为

或写成

式中tα,v是按自由度v=n-1由t界值表查得,如95%可信区间最为常用,即取α=0.05。

当v为无限大时,t分布呈正态分布,实用上当样本含量足够大时,式(2)可近似地用式(3)来代替,即

式中uα。为可信度是1-α的标准正态(离)差,可由u界值表查得。如计算95%可信区间,u0.05 =1.96;计算99%可信区间,u0.01 =2.58。

(2)总体标准差已知时,按式(4)计算可信区间。由于实际工作中,总体标准差常为未知,故本法少用。

若从正态总体作随机抽样,当总体标准差σ已知时,统为标准正态分布,故总体均数的1-α可信区间为

式中uα的意义同式(3)。式(4)和式(3)的区别仅在式(4)中用σ,式(3)中用s。

例1 某矿对11名无矽肺矿工测血清铜蓝蛋白含量(活性单位/dl),算得均数为6.5,标准差为1.36,试估计无矽肺矿工血清铜蓝蛋白的总体均数。

本例n=11, =6.5, s=1.36,自由度v=11-1=10。若取95%可信区间,则α=0.05,查t界值表t0.05,10=2.228,按式(2):

故无矽肺矿工血清铜蓝蛋白的点估计为6.5活性单位/dl,其95%可信区间为5.59~7.41活性单位/dl。

例2 某地500名健康成人末梢血液白细胞均数为7291个/mm3,标准差为1695个/mm3,试估计该地健康成人白细胞均数。

本例n=500, =7291,s=1695,若取95%可信区间, u0.05=1.96,按式(3):

故该地健康成人末梢血液白细胞均数的点估计为7291个/mm3,其95%可信区间为7142~7440个/mm3

两总体均数差值的可信区间 经假设检验,已知两样本均数X12有差别,而两样本方差s21与s22的差别无显著性时,须进一步估计两总体均数差值的大小。则以两样本均数之差|1-2|作为点估计。 用式(5)作区间估计。

式中n1、n2分别为两样本含量,s1、s2分别为两样本标准差,s1-2为两样本均数之差的标准误。

例3 分别用甲、乙两药治疗某病患者,甲药治40人,乙药治38人。测得患者某指标的均数与标准差s, 甲药1=4.0,s1=0.6;乙药2=5.4, s2=0.8。 试估计两总体均数的差值。本例 n1=40, n2=38; 1=4.0, 2=5.4; s1=0.6,s2 =0.8。

查t界值表,t0.05,76=1.99,

(1.4-1.99×0.16,1.4+1.99×0.16)=(1.1,1.7)。

两总体均数差值的点估计为1.4,95%可信区间为1.1~1.7。

SAS相关概念

  • 总体均数估计: 总体均数的估计有点估计和区间估计。点估计是用样本均数来估计总体均数; 区间估计是求出总体均数的可能范围,方法随总体标准差是否已知而异: 总体标准差未知时按t分布原理计算; 总体标准差已知时按正态分布原理计算。此外,亦可用平方根纸图解求总体均数的可信区间。…
  • 第三节 数值变量数据的统计推断: 一、 均数的抽样误差与标准误(SE)在多数情况下,研究者并不知道总体的参数, 而是在总体中随机抽取一定数量观察值作为样本进行抽样研究, 然后, 通过样本指标来说明总体特征,这种从样本获取有关总体信息的过程称为统计推断。例如,欲了解某地区2002年小学五年级学生智商(IQ…
  • 样本含量: 亦称样本量、样本例数。营养流行病学调查中抽取样本所包含的观察单位数。抽样调查必须合理地估计样本大小。样本过大,会增加实际工作的困难,造成不必要的浪费,有时不易取得精密、迅速的结果;样本太小,所得指标不稳定,抽样误差大,代表性差,而且难以得出有显著差别的结果。以参…
  • 变异指标: 变异指标又称离散指标,用以描述一组计量资料观察值之间参差不齐的程度,即离散度或变异度。设有以下二组数据,各包含五个观察值,均数都是10,但它们的离散度不同: A组较小,B组较大。…
  • 双变量正态分布: 当两个随机变量之间有直线相关关系,且这两个变量各自均服从正态分布,就形成双变量正态分布,它的图形称双变量正态曲面或正态相关曲面。正态相关曲面的图形和方程 相关表(如下表)是X、Y两变量结合起来分组的复合表。在相关…
  • 样本含量估计: 抽样研究中,每个样本所包含的调查或受试对象数称为样本含量。在统计研究的抽样设计中要考虑样本含量问题。样本含量过少,所得指标不够稳定,结论也缺乏充分的根据;样本含量过多,会增加实际工作中的困难,对条件的严格控制也不易做到,并且造成不必要的浪费。样本含量估计是在保证…
  • 可信区间: 按预先给定的概率,确定未知参数值的可能范围,这个范围称为被估计参数的可信区间,或称置信区间,符号为CI。预先给定的概率称为可信度或置信度、可信水平或置信水平、可信系数或置信系数,符号为1-α,常取95%或99%,按此确定的可信区间分别称之为95%或99%可信区间。比如95%可信区…
  • 总体方差估计: 正态分布总体方差的估计有点估计和区间估计。点估计: 由正态总体随机抽取含量为n,观察值为X的一个样本,当总体均数μ已知时,∑(X-μ)2/n是总体方差σ2的无偏、有效和一致的最理想估计量。但通常μ是未知的, 因此用样本方差∑(X-à…