《概率论》主要内容及其简评
剑桥大学物理学家兼应用数学家哈罗德杰弗里( Sir Harold Jeffreys,1891-1989 )于1939年写成《概率论》一书,由牛津大学出版社出版。 这本书问世以来几乎每隔10年重新印刷一次,至今仍在印刷第3版。 这本书对近几十年来贝叶斯学派的复活起到了重要作用,启发了后来学者对科学推断的深入思考。 英国统计学家、统计哲学家古德( I. J. Good,1916-2009 )说:“对科学哲学非常重要,比大多数哲学家写的书都要实用。”充分肯定了学术价值。
一. 《概率论》的写作目的
作者在第一版序言中说:“本书的主要目的是提供一种可以在实践中应用,可以根据观测数据进行推断和自洽的推理方法。” 并且,在第三版序言中,作者表示:“本书作为归纳推理理论公设的互换性,给出了包括乘法规则和逆概率原理在内的更详细的证明。 初始概率的简化公设,即科学规律所有可能形式的集合是有限集或可数集,且这些规律的初始概率构成总和等于1的收敛级数项,证明满足概率论的一般原理。 ……我并不是说我完成了所有的工作,但是我完成了比批评我的人更多的制造理论的任务。 如果说我的理论还有不足的话,那个问题在实际应用中似乎与宏观意图无关,或者任何理论都无法回避,难以解释。 ”
杰弗里坚持《概率论》,1937年写的《科学推断》这本书的基本思想。 也就是说贝叶斯分析被认为是从经验和数据中科学学习的一种方法。 杰弗里要想达到“为读者提供一种可在实践中应用、基于观测数据推算、可自洽的推理方法”的目的,就必须深化这一基本思路。 因此,他在《概率论》一书中提出了归纳推理中最重要的部分,即根据过去的经验预测未来的八条管辖原则; 为发展概率论提出了六条公理、三条约定,首次根据贝叶斯统计学的观点建立了严格的科学推理理论,给人耳目一新的感觉。 杰弗里在《概率论》中发展了k皮尔森的思想,强调“科学的一贯性在于其方法而不是其素材”。 在现代各种新知识、新学科层出不穷的背景下,这一思想的重要性也是显而易见的。 这一切引起了我们跟着他从全新的视角深入探讨概率论作用的极大兴趣。
二. 《概率论》各章的主要内容和简评
《概率论》全书共8章,各章主要内容及简评如下。
第一章是“基本概念”。 作者从一开始就鲜明地指出:“如何从经验中学习是科学发展乃至日常生活中人们面临的基本问题。” 为了深入阐述这一观点,作者必须明确表达根据过去经验预测未来的八条原则:所有假设; 提出的理论需咨询;提出的规则应能在实践中运用; 提出的理论在用其进行估计时,应明确说明可能出现错误的各种情况; 提出的理论不应预先否定经验命题原假设数应降至最低; 逻辑推理大体上应与人脑感官相协调归纳推理的反对意见,如果类似的意见破坏了一些已被普遍接受的纯数学规则,则视为无关紧要,无须忽视。
杰弗里在本章中提出了六个概率公理和三个约定(见正文末尾的注释) 基于这些描述,他重新阐述了逆概率原理——贝叶斯定理(后验概率先验概率似然),并指出它是与经验学习相关的最主要规则。 指出“似然”这个术语是由费舍教授( R. A. Fisher )引入的(但是,在费舍的用法中,在似然之前有时会加上常数因子)。 “似然”是关于附加数据及其相关命题的概率。 杰弗里在本章其余部分多方面推广了贝叶斯定理。 理解杰弗里对贝叶斯定理的这些真知灼见,应该有助于我们理解科学的推断,特别是类比归纳法的本质。我们在每一项研究中应该正确地提出理论,或者处理现有的理论,恰当地收集和处理数据第二章是“直接概率”。 杰弗里指出,在将“似然”理解为某个假设( hypothesis )、初始知识和当前观测值最有可能出现的概率的基础上,“先验概率”和“似然”两者都需要进一步研究。 给定假设的先验概率与当前观测值没有直接关联,尽管可能取决于以前的观测值。 因此,当前观测值中包含的与后验概率相关的所有信息被相似性地汇总; 然而,如果当前观测值给人们带来新知识,不同的假设所涉及的似然性肯定会有很大差异(先验概率不会太大变化),因此给定假设时观测值最有可能出现的概率是什么,需要特别关注。 在这方面,杰弗里论述得相当全面。 另一方面,杰弗里在这一章中,将采样理论与特征函数相结合,对概率论中常见的二元分布、负二元分布、泊松分布、均匀分布、t分布、卡方分布和正态分布等也进行了深入的讨论,分析了方法精细、独特。 尤其是他对皮尔逊分布族进行的细致分析和重新编号,系统而图文并茂,使得皮尔逊分布族各具体分布类型的分类标准、它们之间的迁移、常见分布(正态分布、均匀分布、负二项分布等)与皮尔逊分布族的联系等《揆古察今,志在所专》,这些知识对概率统计的教学和研究有很好的借鉴和利用价值,但这些在一般概率统计教科书中并不容易见到。 第三章是“推定问题”。 本章的目的是,随机变量的分布是已知的,其中有几个参数可以看作是未知的,它们取什么样的值不需要特别考虑。 然后,在得到对应的观测值后,求出这些参数的概率分布。 本章就当研究者对模型中的参数知之甚少(或想用“知之甚少”来研究)时,如何提出恰当的先验概率给出了两个原则。 结合实际案例,他对这两个原则做了多方面的说明,最后得出的结论如下:在估计问题中,存在确定可用分布参数先验概率的规则,它可以满足一致性要求( consistency ),即参数这表明至少有可能发展兼容归纳推理,涵盖了归纳推理的大部分。 大多数情况下,利用参数先验概率选取规则得到的参数估计结果与目前的常规结果相差甚远,但改进其形式后,该规则可以应用于相当广泛的场合。 在这些情况下,往往与有理由认为一些参数的先验概率相互独立的情况有关。 如果概率分布总体上其参数不微小,则选择这些参数先验概率的规则不适用,但此时改进规则仍能取得满意的结果。
在某些情况下,参数只能取离散值时,也可以推广(选择参数先验概率)规则。
顺便说一下,前芝加哥大学教授、著名计量经济学家阿诺德泽尔纳( Arnold Zellner )老师,受杰弗里提出的归纳推理理论,特别是上述两个参数先验概率原则的启发,在经济学和计量经济学的贝叶斯估计方面做了一系列开创性的工作因此,结合实际问题对随机数学原则(或原理)给出具体的表示和使用方法,是深入研究的重要环节,应引起我们的关注。
第四章为“近似方法与简化”。 本章介绍了极大似然、极大似然与不变性理论的联系、极大似然参数估计的逼近、不同估计准则下样本平均值的联合估计、数学期望的使用、正交参数、观测数据分组与分组的影响、观测数据平滑、误差分布律对误差处理影响的性质杰弗里在本章中展示了使用他熟练的矩量法和极大似然法分析数据的技术,其间穿插了对皮尔森、费舍尔、奈曼等统计学大师做出的贡献的评价。 浑然一体,精彩纷呈,多方面给予启示。 本章涉及[概率分布本身给定的时机]概率分布参数的许多估计[包括点估计和区间估计],因此被认为几乎涵盖了现代数理统计“估计方法”项下的所有重要课题。 如果不掌握适当的数理统计分析知识,特别是统计量、渐近效率和极大似然等概念,就很难理解本章的内容。 但是,掌握了这些知识,不仅阅读起来不太费力气,而且可以得到很多启示,例如,推算效率的各种值的取舍标准是如何权衡的(实际上没有普遍适用的原则,通常是某个推算) 舍弃所谓的“辅助统计量”( ancillary statistics ) ——样本容量,始终称为“辅助统计量”——有什么意义?)实际上,该辅助统计量不直接用于参数的估计,但具有估计的精度举一反三,触类旁通。 显然,这些知识有助于理解数理统计中各种估计量和估计方法的效果。 即使是对“两个随机变量之间的类相关性度量”这一众所周知的估计量的讨论,杰弗里也能够深入讨论由该估计量估计出的是为什么这个复杂问题,从而使本书具有基于常识进行统计计算和推理的特色这样的例子在本章乃至全书中还有很多。
第五章为“显著性检验:新参数”。 杰弗里在本章中想到了更难的问题。 也就是说,在什么条件下观测值支持概率分布本身的变化呢; 第三、四、二章的中心问题只是概率分布参数的估计,概率分布本身是给定的。 从逻辑上看,这个问题应该先于参数估计进行。 因为在进行参数推定时,先行假定了分布内的所有参数都是相关的。 于是,任何显著性检查问题都是,观测值是否支持新导入的该参数,或者用随机劣化来说明该新参数表示的劣化是否更合理。 因此,有必要建立两种假设进行比较,比较复杂的假设初始概率应该很小。 杰弗里为这样的比较构建了一个叫做k值的公式。 将k值与通常经过显著验证的p值,即尾部面积得出的结论进行比较,一定会令人感兴趣。
本章中,杰弗里用了很多例子来说明选择选择假说的重要性,但所有这些都无法定量分析对选择假说的影响力大小。 例如,潮汐长周期与月球运动关系的探测,原本是通过仔细观测月球运动的系统不规则变化来进行的。 人们在利用卡方、z和其他先验信息进行检验的过程中,虽然没有明确地给出,但往往能得到“从某个候选假设中正确选出一个”的提示。 杰弗里认为,适当量化这样的提示很重要。 威尔顿( W. F. R. Weldon )进行的验证骰子是否均匀的实验也利用杰弗里在本章中提出的k值进行了重新分析。 杰弗里不仅得到了预期的结果,还表示:“为了验证事件的公平性,不一定需要使用所有的相关信息。 这里介绍的方法对于验证“脱离随机状态”的大偏差是快速的,但对于小偏差却没有这样的快速性。 ——在这种情况下,需要进一步挖掘信息才能达到验证的目的。 ”
第六章为“显著性检验:复杂情况”。 为了对不能严格满足那里条件的一般参数估计问题进行讨论,如何调整第五章的结果是本章的主题。 调整的关键是认识先验概率不是一定的; 在知识的各个阶段对先验概率的推断也不是一定的,先验概率的作用只是展示推理是如何启动的。 特别是如果需要同时验证两个以上的参数,则对于验证的优先级,数据支持最强的“关于某个参数”假设应该是肯定的,而数据不支持的“关于其他参数”假设应该是否定的验证某个假说和基准分布规律之间差异的最好方法,无一例外都是对要验证的假说进行排序。 一次检查只能对其中的一个展开得出结论。 杰弗里在这里精彩地铺垫了奥克姆剃刀的原则“没有必要就不增加实体”。 “变坏是随机的。 除非有相反的证据,那不是随机的。 应该引入概率分布的新参数,如果被提出,除非有理由表明可以将它们一并验证,否则必须逐一验证”。 他用“两次震源发生地点是否相同”的检测,作为提出正确理由(参数也必须一起检测)的例子)因为两次地震的震源纬度不同,其经度通常也不同; 或者考察某未知相位周期性变差时,需要同时考虑相应的余弦和正弦值),为了说明他提出的“剃刀原则的现代表达”是可行的,该原则正好是第一章1.1节所述的“因果原则” 因此,杰弗里认为,应该把科学方法看作是一种逐渐逼近的方法。 它将“整体”老化分解为系统老化和随机老化两种,随机老化永远不会消失。 应该说他的这个观点很深刻。 即使对于集中式和多变量的统计分析,他的这种想法也成立。
顺便说一下,奥克姆( Ockham )地方中世纪的作者威廉( William )可能于1349年去世,被称为无敌博士。 很少见。 他证实,任何一位大主教犯了70种罪,信奉7种左道邪说。 他死在慕尼黑,但葬礼鲜为人知,所以死于哪一年仍然是个谜。 这里引用的奥克姆剃刀原则,最早是1639年由来自厨师地区( Cork )的约翰彭斯)以拉丁语形式给出的。 威廉和他同时代的人们展示了这个原则的几个其他等价表示(原书错误地把地名Ockham认为是人名William )。
第七章是“概率的若干频率定义”。 在本章的开头,杰弗里列举了迄今为止统计学家为了概率而定义的三个定义。 概率的“经典定义”,即随机实验有n种可能的结果,对于这m种结果来说,如果一个事件是真实的,则该事件的概率p定义为m/n。 文恩( Venn )极限的定义。 也就是说,如果事件多次出现,则事件的概率p被定义为“事件出现的次数与所有随机尝试的次数”之间的比值,以及在尝试次数无限时(比值的)的极限。 费舍尔无限总体概率的定义。 也就是说,在无限尝试序列存在于一列中的情况下,给定事件的概率p被定义为“该事件出现的次数与该无限尝试序列的所有随机尝试次数”之比。
杰弗里认为,上述三种概率定义有共同的严重缺陷。 那就是它们故意省略了解释一个假说的概率意义。 他们能做的只是提出假设,给出人为的规则,或者在一定条件下拒绝这个假设。 他们对假设被拒绝后如何提出替代假设只字未提,实际上也不存在证明他们人为提出的规则是否最佳的东西。 杰弗里一直主张概率绝不是频率,而是“合理信念、相信程度”的一种表现,与任何频率的定义都没有关系。
杰弗里在这一章中还论述了他和费舍尔观点的主要区别。 第一,杰弗里不同意费舍尔关于无限总体的假设,认为这个假设完全是多余的。 因为,做出这一假设需要以某种方式估算“机会”,关于“机会”的各种性质的讨论还无法证明,因此需要依赖假设。 其次,费舍尔在阐述其“信任猜测”时,数学符号并不恰当,和“学生”一样,费舍尔也跳过了许多困难的论证步骤,他无法明确表达出相关的假设是什么。 第三,杰弗里对于p值的使用也不同意费舍尔的做法。 但杰弗里承认费舍尔正在密切关注使用p值带来的风险(他甚至可以预见使用p值带来的主要风险) 让杰弗里吃惊的是,费舍尔在常识运用上很出色,对杰弗里所研究问题的关键点了如指掌,所以是给出了和杰弗里一样的回答,还是两人在非常怀疑的地方都有所不同?
但杰弗里也指出:“如果用容量较大的有限总体替换无限总体,就有可能实现费舍尔的概率定义。” 也可以证明概率加法规则及乘法规则。 与样本相比,如果总体容量较大,则概率(总体相关抽样比)依赖于总体容量的困难变得微不足道,关于无限总体的棘手之处在于,此时概率与该无限总体相关的抽样比是明确的,但这些抽样比本身是不确定的费舍尔的这种定义避免了穷尽所有可能的单位事件变得困难。 总体数量可被定义为在给定测试条件下在给定测试次数时所提取的总体数量的总数,这些数量可以是唯一的。 但是,这样做会带来一些困难。 因为,实际观测值组仍然需要从整体中随机提取,“等可能”的概念是伴随着随机性概念出现的; 类似地,“等可能”的概念在提取了所谓的第一个样本的情况下是否有效使用也是个疑问。 ”
杰弗里还说:“很多物理学家常说,‘概率论只涉及几次以上的事项’。 虽然生活中充满了不确定性,但保险公司的赔偿金是确实的”,这只是一个误解。 保险公司随时记录参保人数的保费减值以生命统计为依据,所有费率均基于不同险种的有限集合制定。 暗示保险公司只关心无限集合或无限系列。 另一方面,每个人都必须决定哪种保险最适合他的需要,他关心的只是他能存活一段时间的概率。 如果这个概率是无意义的,那么提出制定保险费标准需要准确考虑多少类似保险案例的问题是公正的。如果没有这样的标准,区分有限集合和无限集合本身就没有意义。 ”
所有这些精彩的论述都无疑有助于加深对概率本质的认识。
第八章是“更一般的几个问题”。 杰弗里通过回顾科学史和哲学史上的著名事例,重申了“人们关于概率的常识满足构建一致性概率理论的需要”的基本想法。 他在本章中将全书的主要结果概括如下。 “证明在所有观测数据中,与所提假设相关的信息相似,如果有足够的统计量,与这些观测值相关的其他函数无关。 建立不需要更多假设的纯参数估计方法广义假设检验,即只要待检验假设成立且表达明确,就可以在不预先判断经验假设真伪的情况下对其进行显著性检验没有必要为了避免违反常识的结果而引入P-值。 因此,可以得出这样的结论,即被推定的问题不是建立在矛盾假设基础上的个别问题,而是假设验证问题的附带问题。 在什么条件下下下一定律成立的概率较高,且由此推导出的推理可视为与演绎推理相近的结论,可为此提供说明。
三. 《概率论》全书的若干特点
纵观《概率论》全书,可以发现有以下特点。
首先,这本书的观点很独特,与科尔莫戈洛夫的概率论公理系统不同,它完全基于人们关于概率的常识建立了一致的概率理论。 杰弗里说概率论是基于逆概率的归纳推理理论,归纳推理最重要的工作是根据八条管辖规则推广过去的经验,预测未来。 第二,该书观点鲜明,旁征博引,所用的例子来源于地震学、天文学、数学、地球物理学、生物学、逻辑学(地球物理学的例子很多)等广泛领域,因此,书中提到的公理所阐述的任何科学规律都是有意义的再次,这本书重视比较分析,经常与k -皮尔森和费舍尔等统计学大师所做的工作进行比较讨论,富有吸引力和深思熟虑。 最后,这本书行文严谨,措辞严谨,论述精彩,令人赏心悦目。
当然,本书也有小瑕疵。 有公式写错了,地名写错了人名等等,瑕不掩瑜。 杰弗里这个《概率论》是我们应该重视的事情。
(本书中文版由厦门大学出版社于2014年刊行)