1.3 全国家庭成长调查

美国疾病控制与预防中心(CDC)从1973年开始推行全国家庭成长调查(NSFG),目的是收集(美国)“家庭的生活、婚姻状况、生育、避孕和男女健康信息。调查的结果用于……制定健康服务和健康教育计划,以及对家庭、生育和健康的统计研究”。〔1〕

〔1〕参见http://cdc.gov/nchs/nsfg.htm

我们会利用调查收集的数据来研究诸如“第一个小孩是否出生得较晚”之类的问题。为了有效使用这些数据,我们需要理解这个调查是怎么设计的。

NSFG是一个横断面研究(cross-sectional study),意思就是它的数据是一群人在某个时间点的情况。另一种常见方法是纵贯研究(longitudinal study),就是在一段时间内反复观察同一群人。

NSFG已经进行了7次,每次称为一个周期(cycle)。我们会使用来自Cycle 6的数据,这些数据是在2002年1月到2003年3月间收集的。

NSFG的目的是得到关于人口情况的一些结论,调查对象是15到44岁的美国人。

参与调查的人称为被调查者(respondent),一组被调查者就称为队列(cohort)。通常,横断面研究意味着具有代表性,即目标人群中的每一个人都有同等的几率参与调查。当然,实际很难实现这种理想状况,但执行调查的人会尽可能地做到这一点。

NSFG不具有代表性,而是有意进行了过采样(oversample)。设计者所调查的西班牙裔、非裔美国人和青少年的比例都高于他们在美国人口中的比例。过采样这些人群是为了确保其中的被调查者数量够大,从而得到有效的统计推断。

当然,过采样增大了根据调查结果推断全体人口结论的难度。稍候我们会继续讨论这一点。

习题1-1

尽管NSFG已经进行了7次,但它并不是纵贯研究。阅读维基百科页面http://wikipedia.org/wiki/Cross-sectional_studyhttp://wikipedia.org/wiki/Longitudinal_study可以弄清楚原因。

习题1-2

这个练习需要从NSFG下载数据,本书接下来会用到这些数据。

  1. 打开http://thinkstats.com/nsfg.html,阅读数据的使用协议,然后点击“I accept these terms”(假设你确实同意)。
  2. 下载2002FemResp.dat.gz和2002FemPreg.dat.gz两个文件。前者是被调查者文件,每一行代表一个被调查者,总共7643个女性被调查者。后者是各个被调查者的怀孕情况。
  3. 调查的在线资料地址:http://www.icpsr.umich.edu/nsfg6 。浏览左侧导航栏中调查的各部分,大致了解一下其中的内容。还可以在 http://cdc.gov/nchs/data/nsfg/nsfg_2002_questionnaires.htm上阅读调查问卷的内容。
  4. 本书的配套网站提供了处理NSFG数据文件的代码。从http://thinkstats.com/survey.py下载,然后在放置数据文件的目录中运行。程序会读取数据文件,然后会显示每个文件的行数:
    Number of respondents 7643 
    Number of pregnancies 13593
    
  5. 浏览一下代码,大致了解一下其功能。下一节会详细介绍。