8.8 删失数据

下面的问题来自David MacKay的Information Theory, Inference and Learning Algorithms一书的第3章。具体内容读者可从这里下载http://www.inference.phy.cam.ac.uk/mackay/itprnn/ps/

一个不稳定的粒子从放射源射出,粒子衰变的距离为x。理论上,x服从一个参数为λ的指数分布。实际中,衰变仅能在一个长度从1 cm到20 cm的窗口内观测到。假设我们观测到了n次衰变,衰变的位置为 {x1,,xN}\{x_1, \cdots,x_N\},那么λ\lambda是多少?

这是一个有删失数据(censored data)的估计问题,即有些数据被系统性地排除在外了。

贝叶斯估计一个很大的优势是它可以相对容易地处理删失数据。只要稍微改一下上一节用到的方法就可以处理这个例子中的问题,我们将 PDFexpoPDF_{expo} 替换成PDFcondPDF_{cond}PDFcond(λ,x)=λeλx/Z(λ) PDF_{cond}(\lambda,x) = \lambda e^{-\lambda x}/Z(\lambda) 这里1<x<20,其他情况表达式的值为0, 并且 Z(λ)=120λeλxdx=eλe20λ Z(\lambda) = \int_{1}^{20}\lambda e^{-\lambda x}dx = e^{-\lambda}-e^{-20\lambda} 这里的Z(λ)Z(\lambda)在习题6-5中出现过。

习题8-4

请下载http://thinkstats.com/estimate.py,并将下载文件命名为decay.py,这个文件包含了本章前几节所用到的代码。

请修改decay.py,然后计算在得到观测X={1.5, 2, 3, 4, 5, 12}后λ的后验分布。这里λ的先验分布可以选择0到1.5之间的均匀分布(不包含0)。

读者可以从http://thinkstats.com/decay.py下载到问题的一种解答。

习题8-5

在2008年明尼苏达州的参议员选举中,Al Franken得到了1 212 629张选票,Norm Coleman得到了1 212 317张选票。Franken被宣布胜选。但是Charles Seife却指出这次选举结果是无效的,因为票数差异的幅度远小于误差的幅度,所以投票结果应该是两位竞选人打成平手。

假设在登记选票时,有可能会漏记选票,也有可能会将同一张选票登记两次,那么Franken真正赢得选举的概率是多大?

提示:这里必须添加一些细节来完成建模过程。