1.3 全国家庭成长调查

美国疾病控制与预防中心（CDC）从1973年开始推行全国家庭成长调查（NSFG），目的是收集（美国）“家庭的生活、婚姻状况、生育、避孕和男女健康信息。调查的结果用于……制定健康服务和健康教育计划，以及对家庭、生育和健康的统计研究”。〔1〕

〔1〕参见http://cdc.gov/nchs/nsfg.htm。

我们会利用调查收集的数据来研究诸如“第一个小孩是否出生得较晚”之类的问题。为了有效使用这些数据，我们需要理解这个调查是怎么设计的。

NSFG是一个横断面研究（cross-sectional study），意思就是它的数据是一群人在某个时间点的情况。另一种常见方法是纵贯研究（longitudinal study），就是在一段时间内反复观察同一群人。

NSFG已经进行了7次，每次称为一个周期（cycle）。我们会使用来自Cycle 6的数据，这些数据是在2002年1月到2003年3月间收集的。

NSFG的目的是得到关于人口情况的一些结论，调查对象是15到44岁的美国人。

参与调查的人称为被调查者（respondent），一组被调查者就称为队列（cohort）。通常，横断面研究意味着具有代表性，即目标人群中的每一个人都有同等的几率参与调查。当然，实际很难实现这种理想状况，但执行调查的人会尽可能地做到这一点。

NSFG不具有代表性，而是有意进行了过采样（oversample）。设计者所调查的西班牙裔、非裔美国人和青少年的比例都高于他们在美国人口中的比例。过采样这些人群是为了确保其中的被调查者数量够大，从而得到有效的统计推断。

当然，过采样增大了根据调查结果推断全体人口结论的难度。稍候我们会继续讨论这一点。

尽管NSFG已经进行了7次，但它并不是纵贯研究。阅读维基百科页面http://wikipedia.org/wiki/Cross-sectional_study和http://wikipedia.org/wiki/Longitudinal_study可以弄清楚原因。

这个练习需要从NSFG下载数据，本书接下来会用到这些数据。

打开http://thinkstats.com/nsfg.html，阅读数据的使用协议，然后点击“I accept these terms”（假设你确实同意）。
下载2002FemResp.dat.gz和2002FemPreg.dat.gz两个文件。前者是被调查者文件，每一行代表一个被调查者，总共7643个女性被调查者。后者是各个被调查者的怀孕情况。
调查的在线资料地址：http://www.icpsr.umich.edu/nsfg6 。浏览左侧导航栏中调查的各部分，大致了解一下其中的内容。还可以在 http://cdc.gov/nchs/data/nsfg/nsfg_2002_questionnaires.htm上阅读调查问卷的内容。
本书的配套网站提供了处理NSFG数据文件的代码。从http://thinkstats.com/survey.py下载，然后在放置数据文件的目录中运行。程序会读取数据文件，然后会显示每个文件的行数：
```
Number of respondents 7643 
Number of pregnancies 13593
```
浏览一下代码，大致了解一下其功能。下一节会详细介绍。