当前位置:首页 > 联系我们 > 常见问答

栏目导航

常见问题与解答

1.在论文和其它的文献中怎么引用CFPS?

请在任何使用CFPS数据的地方进行数据来源标示。具体格式如下:“本论文(书)使用数据全部(部分)来自北京大学“985”项目资助、北京大学中国社会科学调查中心执行的中国家庭追踪调查。” 英文为“The data are from China Family Panel Studies (CFPS), funded by 985 Program of Peking University and carried out by the Institute of Social Science Survey of Peking University ”。

2.我如何获得数据?

中国家庭追踪调查(CFPS)的数据采用在线申请和下载。数据平台地址详见此处

3.CFPS只提供了区县的顺序码?能否提供国标码,我的研究中需要用过区县级别的变量,希望通过国标码来了解地区级的变量水平。

为更好保持受访户信息,CFPS将不提供省级以下区县具体信息。但为了研究的方便,我们创建了区县级数据库,提供的相关变量信息将包括区县的顺序码、 GDP、人均GDP、人口数、就业率、平均受教育年限、劳动年龄人口比例、老年人口比例、10到19岁人口性别比例、非农业户口人口比率。区县数据库申请,详见此处

4.CFPS中有关具体金额的题目,为何很多变量缺失?问卷中所提及的“逼近法”(unfolding)是如何操作的?

为更多获取有效信息,在受访者不愿意给出具体金额时,采用逼近法提问。例如,当问及个人的总收入时,题目中会显示字符串“2500/5000/7500 /12000/18000/27000/40000/60000/90000/140000/210000/320000/480000”。在访问时,以 中点为标记(例子中为40000),中点左侧的提问方式是“您的总收入是否低于XXXX”(此处XX代表的金额小于中点数值);中点右侧的提问方式是“您 的总收入是否高于XX”(此处XX代表的金额大于中点数值)。

5.做纵贯性分析(longitudinal analysis),如何匹配个人?

CFPS中的个人id变量(pid)为永久唯一标识码,跨年数据分析中可以通过此变量来连接匹配个人样本。

6.为什么将2012和2010年少儿库连接后有很多样本匹配不上?

有三个原因造成部分样本匹配不上:1)2012年新进成员在2010年没有观测;2)2010年13周岁以上成员在2012年成人库中;3)2012年约15%左右的少儿样本流失。

7.如何连接子女与父母的信息?

如果只需要父母或子女的基本信息(如年龄、婚姻、学历、户口、在家状态等),可直接从家庭成员关系库中查找;对于存在个人问卷的子女与父母,通过家庭成员关系库先找出父母或子女的pid,再从个人问卷库中通过pid来连接,获得其它信息。

8.2010年家庭问卷中,如何确定户主?

CFPS中每个样本的家庭成员都是同等的,没有户主的概念。研究者可根据特定的研究需要进行相应的处理。

9.2010年家庭数据库中,常有“某项支出_调整”、“调整后的家庭收入”,其中的调整是指什么?

调整主要是指将农村家户自家消费部分折算成部分收入。具体的操作详见2010技术报告 CFPS-14:中国家庭追踪调查2010年农村家庭收入的调整办法

10.为何现居住地城乡划分(urban)和现持户口(wa4)的城乡有不一致的情况?

urban是指CFPS的样本村居按统计局的定义是村(0)还是居(1)。wa4是受访户自答的户口状况。二者不一致的原因,可能有统计局村居划分标准的变化,以及被访者流动、迁移造成的。

11.2010、2012年成人库中的个人收入,是否包括自雇者的经营收入?

2010年个人问卷的收入提问为 “去年,您个人的总收入(所有收入来源)大概是多少钱”。可以理解为是包括了自雇者的经营收入的。

2012年的个人收入是工资、奖金、各种福利、退休金、勤工助学金、奖学金的总和。对于农民、做生意的人,没有问他们的个人收入(这部分收入在家庭问卷中已经问过了),但他们占得比例较大,所以样本中个人收入的缺失较大。后者的相关收入会在家庭收入中体现,但考虑到无法精确到个人层面,所以在个人收入这一部分没有体现这一部分的收入。Income是原始加总收,income_adj是income变量中缺失的部分进行了估算。

12.为何2010年的fswt_res(个人权重(全国再抽样样本/整合样本))值为missing?

fswt_res只对subsample=1的人有正值。权数可以有两种运用方式:1.用全样本,采用全国权数(fswt_nat); 2.用再抽样样本。在7月底的全国的用户培训,专门有老师讲解过权数运用,相关ppt可从CFPS网站上下载:http://www.isss.edu.cn/cfps/xinwen/News/2014/2014-07-29/234.html

13.“数据更新说明”显示2010年本科就读信息(变量QC306)发布,为何在最新版数据里找不到相关变量?

C306问题经后期整理后以collegetype变量对外发布,位于最新版2010成人数据库的末尾。

14.2010年的慢性疾病数据对外发布了么,为何找不到?

2010年成人库的慢性疾病信息,我们目前以编码的形式对外发布。对应的变量名称为QP501ACODE、QP501BCODE,为方便查阅,您可对照Codebook.

15.2010和2012年的村居编码位数不一致,请问如何匹配?

2012年村居编码中的前5位,是与2010年相对应的,可据此匹配两年的村居数据。

16.2010年多选题对应的变量如何理解?可否举例说明?

例如2010成人卷的qa7“您参加了以下哪些组织”,该问题包含14个备选项(可多选),故设置qa7_s_1- qa7_s_14。其中,qa7_s_1为用户选择的第1个组织,qa7_s_2为用户选择的第2个组织,其他选项依次类推。

17.少儿数据库中是否有代答人变量?

2010年少儿库中,具体的代答人变量为waproxy,变量中的内容为代答人在家庭内的成员顺序号。

2012年少儿库中,具体的代答人变量为kz1_b_1和kz1_b_3,变量中的内容为代答人在家庭内的成员顺序号。