假设检验
分布的总结
首先让我们把以前的一些关于分布的知识总结一下,用思维导图。
先区分一下离散型随机变量和连续型随机变量。离散型随机变量的特征是只能取有限个值,或虽则在理论上讲能取无限个值,但这些值可以毫无遗漏地一个接一个排列出来,也就是是可列集(如果一个集合与正整数集合之间存在一一对应,则这个集合称为可列集(或可数集); 也就是说, 存在一个从该集合到正整数集合的双射(也称可逆映射)。整数有理数都是可列集,实数不是)。无限个值的例子很多,比如说一月内某交通路口的车祸数,它理论上可以取全体正整数,但是从实用观点出发,这个变量也是取有限个值,例如,可以肯定它不超过一充分大的整数N,N可以取10^10。但是由于它没有一个明确的界线,N也只是上界,上确界是很难以确定的,不如把它视为能取无穷个值,理论上会带来方便。
连续性随机变量的全部取值不仅是无穷多的,并且还不能无遗漏地逐一排列(不可列),而是充满一个区间,例如,称量一物体重量的误差,由于我们难以明确指出误差的可能范围,不妨取为(-∞,+∞),更方便,电视机的寿命可以取为(0,+∞),也是一种抽象。
不过,其实,连续说到底只是数学上的抽象,任何量都有一定单位,都只能在该单位下量到一定的精度,故必然为离散的,这说的是受限于测量仪器的结果。单位极小时。其可能值会在某一范围内很密集,不如视为连续量在数学上更易处理。而回到物理量本身,某个电压是多少,有精确值吗?也许有,可能是一个无理数,但是我们只能通过测量知道,至于测量,受到存储限制,而且有测不准原理。而不说测量,就是物理量也会有一个最小单位,比如元电荷量,能量量子化,至于这些物理规律对不对,这个我们回答不了,至少目前认为是对的。说了这么多,也就是说测量的虽然是离散的,但是间隔非常小,在数学上视为连续量更好处理。
连续随机变量的处理一般都要用几何概型了,而平面中的一个点和线是没有面积的,概率也就是0。那么你说这个就不会发生吗?比如今天的温度是30度就不会发生吗?说实话,还真有可能不会发生,因为我们不确定温度是否有一个最小的单位,而最小单位又恰好不整除30怎么办。我们人类看到的世界是通过观测得到的,光线进入你的视网膜,你的视网膜产生观测信号再传输到大脑,其中就可能会有差错,听觉也差不多。而抛开传输过程中的错误不谈,人眼本身就对于蓝光更易感,所以我们看到的世界就是真实的世界吗?未必。这似乎有点哲学了。我们回到数学上来。
总结一下目前的一些分布。
假设检验
区间估计是用一个除了待估计参数外,其他都已知或可以通过样本统计得到的分布来得到待估计参数的一个区间,根据奈曼的准则,我们要先保证这个区间在负∞到+∞区间上占的概率足够大,一般取95%或者99%,我觉得取95%可能是因为5%的概率的随机事件一般认为是不可能事件。然后要保证区间的长度足够短。区间的长度是可以调整的,因为并不一定两区间外边分配同样的不可能概率,比如α=5%,左右不一定均分2.5%。这个分配纯属是自己决定的,分配方式的不同就会导致区间长度的不同,其中肯定会有一个或者几个最小的。
假设检验的思路和区间估计就不同,虽然利用的统计分布都是一样的,假设检验要求分布里面除了检验统计量之外,其他的参数都要在零假设或者对立假设之中,所以当检验统计量和区间估计使用的统计量一样时,利用的分布其实是同一个。只不过假设检验最后要根据检验水平得到一个统计量的范围,这和区间估计得到待估计参数范围是不一样的。
假设检验我们是要间接通过检验统计量来检验零假设中参数选取范围是否有足够的道理。当零假设中假设期望时,一般选择样本均值作为检验统计量,当零假设中给出方差范围且期望已知,一般选择
作为检验统计量。而如果期望不知道,用
。这些都是参数的优良点估计。
假设分为简单假设和复合假设,简单假设中参数只取一个值,像x=2就是简单的,而x=2就是复合的。零假设的对立假设可以是零假设的补,也可以是补的子集,比如H0:x=4,则H1可以是x=3或者x=5,当然也可以是x≠4。对立假设又叫做备择假设。在决定一个假设是简单还是复合,需要考虑分布的所有参数,比如说正态分布假设中虽然指定期望的值,但是没有考虑方差,它就是一个关于方差的一族假设,是复合假设,这种不在假设中未知参数叫做赘余参数。这种叫法区间估计中也有,估计期望时,方差不知道,那么方差就是赘余参数。
使得原假设被接受的那些样本形成的区域叫做接受域,反之,叫做拒绝域。指定一个检验方法,就等价于指定了接受域和拒绝域。
这个C就叫做临界值。
功效函数是假设检验中重要的概念之一。同一个假设可以又很多检验法,因为检验统计量的选取不唯一,这是因为无偏点估计并不唯一。既然又很多检验的方法,那么优劣如何比较呢?这就需要看功效函数。原假设被接受与否取决于样本在接受域还是拒绝域中,而样本是随机选取的,原假设被否定的概率可以用拒绝域中的概率密度积分计算,当然选取合适的分布是很重要的一步。
举一个例子,假如要对元件的平均寿命进行假设检验。假设寿命服从指数分布。
一旦确定了C,这个值可以通过查表得到。由于PDF的单调递增,随着λ的增加,原假设被拒绝的概率变大,这是符合理论的。
同时容易明白,当某一组参数是原假设成立,我们希望假设被拒绝的概率小,也就是固定λ,想办法让其他值变小。而如果某一组参数让对立假设成立,被拒绝的概率应该足够大。这其实是有矛盾的,就像区间估计中可靠性和区间长度的矛盾。这个矛盾再次根据优先确保原假设被拒绝的概率足够小,然后再尽量保证对立假设成立时被接受的概率足够大。所以其实假设检验的结果会稍微有利于原假设。一个是让功效函数足够小,一个是足够大,是有一定的矛盾。
实际操作时选择一个检验水平α,一般取0.05或者0.01,选这个值我认为还是5%以下的概率事件不可能发生,这其实也是正态分布3σ定理的道理。我们要求只要功效函数在原假设成立的参数范围内都小于等于α即可,然后再前者成立的条件下,尽量保证功效函数在对立假设参数范围内的值尽量大。如果某一种检验在满足检验水平要求时,功效函数在对立假设参数范围都内的值比任何其它检验方法要大,那么这种检验称之为一致最优检验。假设检验的主要理论都是有奈曼和皮尔逊提出来的,也叫做奈曼-皮尔逊理论。费舍尔也做出过贡献。
参数检验经常使用的是构造检验,也就是利用点估计和参数构造出一个分布函数。就像前面指数分布就利用统计量构造出了卡方分布。下面介绍几种重要的参数检验。
首先是正态总体的期望的检验。一般有三种假设方式:
现在假设方差已知,先来看第一种假设检验:
那么根据PDF的单调递增,期望越大,功效函数越小。要想在原假设范围内功效函数都小于α,那么只需要最小的期望对应的功效函数小于等于α,为了让功效函数在H1范围上足够大,那么最好让β(μ0)=α。事实上,根据奈-皮基本引理,可以证明这个是一致最优检验。然后可以计算出临界值C。
u_α是上α上分位
观察这个功效函数,当μμ0时,σ越大,功效函数越小,也就是被接受的概率越小,而这时候对立假设理应被接受,反之,功效函数越大,这也是不对的,也就是误差(μ-μ0)的方差越大,则期望的差别就被淹没在随机性中了,不易被检测出,容易犯错。继续观察最后的结果,只要当样本均值大于等于比μ0小一点的数就认为满足原假设,这是因为就像上面说的,这一套理论是把原假设的接受率高作为第一原则,是有利于原假设的,举个例子,可能根据以往的经验,一个学生考试总是拿很高的名次,我们就认为她是一个好学生,这会成为我们的默认原假设,她如果某次发挥失常一点,名次落后一点,我们会想,哦,是她这次发挥失常了吧或者运气不好,我们会归结于一些随机因素导致的,而不会去想这个学生变坏了,只有当她落后太多名次的时候,我们才会感觉,她会不会谈恋爱了,影响学习了等,所以说原假设的选取是很重要的。
假设我们要求功效函数在H1范围内也要大于β,一般来说功效函数对于第一类假设是单调递减的,那么β肯定是要大于α的,因为α一般都取的很小,我们不希望对立假设被接受的概率太小,那肯定希望β大一些。α=0.05时,β怎么不得取一个0.1,这才让H1被接受的概率大于等于10%,很小的一个概率了,但是这都满足不了,因为很明显在μ趋近于μ0时,功效函数趋近于α。也就是在μ0的一个小邻域内,功效函数根本不可能大于等于β。那么我们降低条件,使得功效函数对于一个特定的μ1μ0,此处大于等于β。这是可以实现的,这个时候对立假设就变为H1:μ=μ1这个简单假设了。
由此可以解出对样本容量n的限制条件。
μ1的选择要看实际情况了。如果n满足这个条件,那么原假设和对立假设都不会被轻易否定,犯错的概率也就小,犯错无非是本来原假设对,但是拒绝了,和本来对立假设对,但是拒绝了。犯错的概率小也就说明可以把期望分开,可以识别出不同的期望值,如果分母越小,也就是期望分辨率越高,就需要更多的样本来使得随机性不会影响判断,如果方差越大,那么也需要更多的样本来减小随机性。
第二种假设检验在检验水平α下的结果是
也就是说除非一个平时成绩不好的学生名次进步很多,我们不会认为她的水平进步了,我们会以为是运气好的等偶然因素造成的。
如果样本均值在这个范围内,那么第一类和第二类都会接受原假设,因为这个波动并不大,并不足以撼动固有思维或者说成见。
对于第三类检验问题,一般认为原假设的接受域为:
这样做是均分了,也可以选择:
不过这样就有两个参数需要确定了,不是很方便。
上面第一类和第二类假设得到的都是一致最优假设,这可以根据奈-皮基本引理得到,这可以解释,因为它们都是单侧的,但是第三类问题的一致最优检验是不存在的,因为它是双侧的,也就是对立假设分别占据原假设接受域的两边,它迫使检验法则采取一种折衷的形态,综合考虑两边的情况,难免顾此失彼。事实上,还按照上面的例子,第三类的功效函数为:
它和μ没有关系,是一个常值函数,所以说其实让这个常值为α就是一个一致最优检验了,虽然我不是很明白为什么要说它不存在。此时:
当方差未知时,和区间估计时一样,采用t分布。t分布比较特殊的地方就是它需要检验水平α=0.5才会对于第一类第二类问题有一致最优检验。
我们看一个例子:
结论是甲厂不符合而乙厂没有足够证据证明不符合。
虽然甲厂都和120相差很小,乙厂除了一件外,都比120低很多。但是甲厂的方差=0.4,和乙厂的6.105比较,甲厂的产品质量稳定。而正因为甲厂质量为稳定,所以和120的很小差异都会被检测出来,不得不承认,甲厂的期望很可能小于120。虽然样本均值119.5比120小了一点,但是毕竟还是小,而因为方差又小,稳定,这样的差异就不能用随机性糊弄过去了。
乙厂的样本均值为114,和120差很远,但是方差太大了,所以并不能确定这差异不是因为随机性带来的,因为方差太大会让期望的差被掩盖,我们不确定是哪个原因,不能简单否定。注意我们这里要检验的是期望,乙厂现有的产品均值确实不如甲厂接近120,但是它比甲厂更有可能,因为它的方差大。
这就像如果一个人的名次都在100名左右浮动不是很大,整个高三都是,另一个人时好时坏,好可能在80名,坏可能在200名,谁更有潜力呢?显然是后者。前者会让你觉得她到了极限了,而后者可能时某些知识点掌握得不好,如果加强一下,高考运气再好一点,那可能成为黑马。
还有就是两个正态总体期望差的检验。这个和区间估计一样,还是用t分布,过程和上面并无明显差别。但是有一个前提,就是方差要差不多一样,这是t分布的一个条件。而且不是完全一样的话,t分布的检验水平其实就不准确了。
一般假设检验也可以看做是显著性检验,也就是α取的越小,原假设的成立越显著,如果没有显著的证据说明原假设错误,则接受原假设。
正态方差的检验
期望未知时,来检验方差,仍会有三类假设。这个时候用卡方分布即可,详细过程不再推导。
还可以检验方差的比值,这个时候用F分布。
指数分布参数检验
指数分布是单参数分布,可以用卡方分布对三类假设进行检验,在检验产品寿命是会用到。但是直接抽样,一直等到所有样本全部寿命结束有点不实际。因此一般会取两种方式:
第一种,定数截尾法:取n个样本,定下一个rn,试验进行到有r个元件失效的时候就停止,全部n个元件的工作时间加起来记为T。
Y_i为第i个样本的寿命。
显然T越大,产品寿命越长。这里利用:
这个我就不证明了。
第二种:定时截尾法,给定一个时刻T0,拿n个样本做实验,直到时刻T0为止,把n个样本的工作时间加起来。这个东西近似有:
u是已失效样本个数。
这种定时截尾是不替换失效元件,而还可以替换失效元件,失效一个立马替换一个样本。记X为到T0时刻失效元件总数,X服从nT0λ的泊松分布,这个时候就转化成了泊松分布的检验。
二项分布p的检验
前面都是连续型分布,这里是离散的。二项分布的检验统计量是试验成功次数。
离散分布的麻烦就是检验水平是α的时候,对应的值不一定都是整数。这个时候怎么取值就很麻烦,有一种方法是随机化检验。举一个例子:
那么选C=2的话,产品的接受率太低,工厂不愿意,C=3,商店不愿意。
那么就采取随机化试验:
如果X=2,接受产品,因为这个时候已经比0.05还要高了,X=4是拒收,因为这样肯定达不到检验水平,而X=3时,有(0.95-0.884)/(0.97-0.884)的概率接受,这也是叫做随机化试验的原因,这样可以用计算机模拟或者盒中抓球来决定是否接受。总是设计一个随机试验即可,计算机模拟虽然大多产生为赝随机数,但是也差不多可以用。
产品验收中要求当废品率超过p1时,被接受的概率不超过β。也就是废品率超过p1的,至多有β的概率通过。这个时候一般不用功效函数,而时用操作特征函数或OC函数。
这个OC函数就表示原假设被接受的概率。OC函数显然关于p递减。
为了实现要求,往往先选择一个n,然后选出临界值C,先满足p0,也就是OC函数p0处的值确定为1-α,取等号时为了向一致最优检验靠近。再代入p1的OC函数看看是否满足,如果不满足,则n太小,样本容量太小,随机因素太强,让原本通不过的都通过了,增大样本数,减小随机性,可以让结果更加可靠,废品率高的不易通过。一般的应用中,都可以直接查表,不需要自己计算。
如果每批产品数不多,就得用超几何分布。另外还有复式抽样方法,序贯抽样法等,这些以后可以介绍。
符号检验
假设有甲乙两种牌号的同一种产品。为了了解大众的反映如何,挑选了n个人,每一个人给以甲乙两种牌号的产品各一份,请他们使用后进行评定,规定,若甲优于乙,则给一个+,若认为乙优于甲,则给-号,必须做出选择,不能认为平局。则p记认为甲比乙优的人在整个大众中的比例(不局限于挑出的n个人),这个p反映的是大众的品味,每个人的品味肯定不太一样,但是总会有一个综合的结果,其实也就相当于每种品味的人的选择进行加权。
那么记n个人中回答+的人数为X,这就是一个二项分布检验问题。
那么可能有些时候,调查人员不仅要求选择最后的结果,还要对产品按照百分制或者十分制打分。那么我们就有了更多的信息,假设给甲产品的打分为X_i,乙产品为Y_i。这时候可以考虑使用t检验,把X_i和Y_i看作从正态总体中抽出来的样本,并且假设方差差不多。可以用t检验对于两个正态总体的期望差进行检验,零假设可以是差为0。这两个正态总体反映的都是大众对于产品的喜好。还可以把Z_i=X_i-Y_i,这也是一个正态分布,反映了大众对于甲产品喜好高于乙的程度。这样可以不做两样本检验,使用一样本t检验。和两样本t检验相比,一样本t检验就没有方差的要求了,但是也丢失了一些信息,而符号检验丢失的信息更多,所以有理由相信,t检验可能比符号检验有更高的分辨率。符号检验其实不需要对总体的分布做出假设,也就是X_i和Y_i做出假设,而最后的二项分布其实是相当自然的,顺理成章的。无论什么问题,只要是二选一,最后肯定可以用二项分布来解释。p可以看作大众的倾向。这种符号检验就叫做非参数检验,它可能牺牲了一些信息,这可能导致分辨率的下降,但是也降低了先验知识的要求,可以不知道打分总体的分布。这种符号检验在美国总统的民意测验也有应用。事实上,民意测验往往和最后的结果吻合。这可以解释,根据前面对于二项分布的区间估计,取α=0.05,则
是区间,取n=2500,也就是对2500名受访者进行测验,美国的人口比这个大多了。
此时:
也就是误差不超过±2%,如果全国的支持率差别超过了5%,那么在95%置信水平下民意测验的结果可能就是最后的结果,不过样本的抽取也得有点随机性,不能有指向性,你如果都调查支持川普的人,那还说个毛。
泊松分布的检验
泊松分布也只有一个参数。最后在确定临界值的时候,需要使用一个技巧:
这个式子的证明需要对λ0求导。
右侧积分求导结果也是这个,说明两者相差一个与λ0无关的常数。令λ0趋于0,两边都等于1,右边可利用Γ函数得到,左边可以直接得到,所以直接相等,或者λ0趋于∞时,两边都等于0,左边有限个无穷小的极限还是0。右边直接就是0。
然后:
于是
右边还是根据上分位来确定。如何确定C0呢?还是只能试探,先选一个C0,然后查表得到一个上分位,如果这个值小于2λ0,那么C0取得太小,H0成立时被接受的概率太小。
卡方分布自由度越大,同样的上分位越右移,因为左边的概率密度越小。
从检验统计量来说,对于第一类假设,显然临界值越大,原假设被接受的概率越大,越符合原假设。当然也可以在0.95(这个表其实有问题,上面应该表示置信水平,也就是1-α)这列往下看。假如2λ0=2x1.752=3.504,那么n应该介于9和10之间。那么C0在3.5-4。但是C0不可以取得太大,因为这样对于一致最优检验太差,当原假设不成立时被接受的概率太高。
这个时候稍微偏向了一点对立假设:我们要找的C0满足:
也就是在原假设被接受的概率上做出了一点让步,让它更容易被拒绝。这可能和实际操作有关,也可能为了削弱本来就偏向原假设的趋势。
所以上面的C0应该取3而不是4。不过也可以采取随机化,这样就公平了,不过比较麻烦,还得计算出上面左右两边的值。
大样本检验
区间估计有大样本,假设检验也有大样本。其实大样本方法并不取决于样本容量多大,而是取决于是否有近似。就拿贝伦斯-费歇尔问题来说,对于期望差的检验和区间估计还都是得用样本方差替代方差以获得近似的正态分布。这种近似就会使得检验水平和实际的水平有差距,而且差多少很难估计。这是一个例子,再一个例子就是二项分布的计算比较麻烦(好吧,其实离散的都不好整),所以就想着拿近似的正态分布来计算。
贝叶斯方法
贝叶斯方法还是要根据后验分布函数。这个时候直接计算后验分布函数下原假设和对立假设的累计概率,谁大接受谁,没有功效函数的麻烦,也没有检验水平。不过先验对于最后的结果是有影响的,结果会偏向于先验。如果先验有利于原假设,那么原假设就不被轻易否定,至少接受的概率比否定要大。所以虽然贝叶斯还是会有偏向。
第三类假设如何用贝叶斯呢?因为一个点的概率是0,那么原假设永远不会被接受。这样肯定是不行的,我们要思考问题的来源。后验概率为什么是0,因为先验概率是0。如果知道某件事不可能发生,还检验什么。问题就在于现在等号不可能绝对成立,所以只能在一个近似范围内成立。这有点像浮点数比较。没有完全的相等。那么这个区间如何确定,如果你认为原假设出错比较严重,区间就小,否则就大。接受还是拒绝原假设其实不一定需要H0的概率大于1/2,也可以大于1/3,这取决于你自己。如果你喜欢冒险,可以把界限设得很小,反之,你比较稳健,可以很大。
信仰分布
X是正态总体时。
对上面这个分布,我们在做区间估计的时候其实就是把μ看成了一个参数,而其他统计量看作常数,这样我们得到了一个μ的分布,这个叫做μ的信仰分布。在抽样前,我们对于期望茫然不知,有了样本后,仍不能确切地定出μ。但根据样本提供的信息,我们对于期望的信仰程度有了不同,我们相信μ取样本均值附近的程度更大。信仰分布刻画了这个相信程度。利用信仰分布进行区间估计和检验的方法叫做信仰推断。
拟合优度检验
拟合优度检验是为了检验观察到的一批数据是否与某种理论分布符合。比如,某个人说它造的硬币是均匀的,那么就要检查正反的概率是否为0.5。
一开始,大家认为正态分布可以包罗万象,于是十九世纪它被用于分析正态分布。不过皮尔逊认为有些数据太偏了,明显不是正态分布,于是他提出了一种皮尔逊分布族,这个分布族可以包含正态分布。
皮尔逊分布族简称皮尔逊(Pearson)分布, 又称“皮尔逊曲线族”,是一种常见连续型分布族,是在1895年左右由英国统计学家卡尔·皮尔逊提出的一组频率分布,其中第Ⅲ型频率分布常用于水文计算。皮尔逊引进的一个包含四个参数的分布族。它的概率密度函数p(x)由下列微分方程确定:
。一旦有了数据,就用适当方法从皮尔逊曲线族中挑选一条曲线去拟合数据所属的总体分布。皮尔逊曲线族很大,可分为十二种类型。既包括常用的正态分布,还包括在实际中有广泛应用的偏态分布。如:一型分布是B分布,二型分布曲线是对称的U形曲线、三型是移位Γ分布,五型是移位逆Γ分布,六型是逆B分布,七型是t分布,八型是幂函数分布,十型是指数分布,十一型是正态分布……,曲线族的出现,打破了“正态分布是全能的”传统观念,在数理统计发展史上是一个重大突破。
那么可以估计出这些矩,然后代入密度函数。
那么第一步就可以根据样本算出一个合适的密度函数,对应不同的连续分布。
第二步是检验数据和这个分布的拟合程度,这就是著名的卡方检验法。费舍尔也对卡方检验法有贡献。
实际矩估计法就是皮尔逊为了得到最后的密度函数而创立的。
理论分布已知且只取有限个值
换句话说,分布是离散的。
H0:P(X=a_i)=p_i。
其中a_i和p_i都已知。现在从该总体中抽样n次。先设想n充分大,则按照大数定律,若记v_i
为样本中a_i出现的个数。则按照频率等于概率,应有v_i≈np_i,np_i这个值叫做理论值。v_i叫做观察值。显然理论值和经验值差距越小,原假设越合理,越被接受。如何定量这种差距?这个时候就要先介绍一个定理,它由皮尔逊证明:如何H0成立,则在样本大小n-∞时,Z分布趋向于自由度为k-1的卡方分布。其中:
这个证明很麻烦。
那么显然在ZC时,说明差距过大,拒绝假设。C的选取要根据检验水平了。假设根据样本值算出来Z0,在H0成立的条件下,出现Z0这么大的差距的概率有多大呢?我们可以算一算。
实际上这种检验已经可以叫做大样本方法了。上面的p其实和前面的功效函数是一样的想法,就是把临界值取为Z0的功效函数,不过在这里它叫做拟合优度。功效函数把Z看作参数,这里把Z0看作参数。
这个概率越大,说明H0成立,出现Z0并不稀奇,所以倾向于接受H0。那么我们设立一个检验水平α,当拟合优度大于α,接受H0,也就是说这样的Z0是有足够大的概率发生,即使现在发生,也不能拒绝H0,因为采样有偶然性。反之拒绝。
和前面参数检验时不同,参数检验时要根据检验水平定出临界值,有时候还可以根据一致最优检验来求出需要的n。而拟合优度检验时求出临界值的(虽然也不是一个临界值)并不是根据检验水平求出的。
其实拟合优度检验也可以按照参数检验的来,先根据α求出一个临界值,然后判断Z0和临界值的大小。此时也是把临界值看作参数,拟合优度随着临界值增加而递减。不过临界值由检验水平求出。如果求出来的Z0比临界值大,那么代入拟合优度得到的值肯定比临界值代入要小。反之,大。当然两步合一步也没什么不好的。拟合优度显然越大越好。
考虑骰子均匀性问题:
看频率的话,会觉得其实骰子还算均匀。但是由于我们的n太大,检验的精度就太高了,所以会拒绝假设。所以统计上的显著性不一定有实用中的重要性。
再举一个例子:
以α=0.05看,显然要接受假设。事实上你观察100次,即使H0成立,也会有55%的概率观察到这样大的差异。这看似有关,其实不能否定无关是因为随机性影响,也就是采样次数太小。如果是30:15:30,那么拟合优度就在0.05以下了。所以对于15次采样这么小的样本,不能忽视随机性的影响。需要多采一些样。但采样也不宜太大,以免吹毛求疵。
理论分布已知且只含有限个值但是有些参数未知
假设符号检验中可以有平局,现在设p(+)=θ=p(-),则p(=)=1-2θ。
这里0=θ=1/2。有一个未知参数。
假设分布有k个取值而有r个未知参数,那么需要满足r=k-2。
这个条件不知道怎么来的,可能是为了满足某些性质。那么此时还按照卡方分布,不过,根据费舍尔的证明,这个时候的自由度为k-1-r。鉴于卡方分布自由度最小为1,所以r=k-2。
而且要对参数做一些估计,使用极大似然估计法。
解r个方程组可以得到θ的值,不过方程组很难解,很有可能是非线性方程组,可以考虑用拟牛顿法等。
估计完参数就回到了已知参数的情况。
列联表
列联表是一种按两个属性做双向分类的表。例如,一群人按照男女(属性A)和有否色盲(属性B)分类,目的是为了考察性别对于色盲有否影响(当然有,男色盲要多得多)。
问题是要检验两个属性的独立性。如果H0为真,也就是独立,那么应该有:
总的参数量为行数+列数-2,这些是独立的参数。
然后可以写出似然函数:
因为列联表的行列可以互换,所以任何一列一行可以当作最后一列一行。
所以所有的极大似然估计结果都是用频率代替。
然后:
当列表为2x2时,称之为四格表。
还有一种情况,就是各列的行在制定试验时就确定,比如如果三个工厂,分别采样109,100和91个样本,分位三个等级。这个时候用行代表等级,列代表不同工厂,那么列和确定了。而很多时候列和都是随机的。
如果H0:三个工厂产品质量一致。这个时候三个工厂为三个总体,各自有一个分布。要检验的是三个分布的一致性,这种检验叫做齐一性检验。不过其实在做的时候检验的还是产品质量和工厂是否有关。如果工厂的产品质量等级分布一样,那么也会呈现出产品质量和工厂有关。这个时候依然可以用自由度为k-r-1的卡方分布。证明就更难了。
总体分布为一般分布
这个时候就是连续型了。这个时候的分布函数可以有未知参数。
当然这个时候假设已经不是原来的假设了,不过这个方法认为这样做是充要的。
如果划分越多,那么现在的假设越接近原假设,但是划分越多,那么每一个区间内的数量越少,这样就和Z的极限卡方分布越远,这是矛盾的。
一般根据样本值划分区间,虽然证明的时候必须在划分区间之前就确定,但是这样操作引起的误差很小。
对于离散的时候,如果某一几个取值的样本数太小,可以考虑合并为一个区间进行计算,不过还是要保证k=r+2。如果保证不了,就增加样本容量呗。
在对未知参数进行极大似然估计的时候,方程组有的时候很难解,这个时候可以根据具体的分布来估计参数,比如是正态分布,就拿样本均值估计期望,样本方差估计方差。这样的代替会使Z的极限分布为卡方分布的结论产生误差,但是还是可以应用的。
总结
由此可见卡方检验真的非常重要。
假设检验的基本思想是什么
假设检验的基本思想是小概率反证法思想。
小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为不假设成立。
假设检验(HypothesisTesting)是数理统计学中根据一定假设条件由样本推断总体的一种方法。
|假设检验
临界值 假设检验 假设检验的基本思想 区间估计 卡方分布 参数估计 参数检验 安养院 总体方差 样本容量 概率分布 概率计算 概率论 正态分布曲线 皮尔逊