我国首个按照线下抽样调查数据、互联网大数据和政府政务数据“三位一体”构思布局的数据库——“中国家庭大数据库”,12月25日在浙江大学公开发布。本次发布的是首批4轮以中国农村家庭为主要调查对象的线下追踪抽样调查数据。该数据库将通过网上数据安全平台,免费向校内外相关研究人员开放数据,根据国际通行做法,提供数据共享服务。

  “中国家庭大数据库”包含了2011年至2017年间的4轮中国农村家庭的追踪调查数据,涉及中国农村家庭比较完整的信息,详细包括家庭的基本结构、就业、收支、财富、农业生产经营、土地利用与流转、人口迁移与市民化、金融行为、社会保障、教育等各个方面。此外,数据还涉及中国基层单位(村委会)的基本情况,以及可供对比研究的城镇家庭数据。数据库包含的样本量情况:2011年全国25个省(市、区)的农村家庭样本共5120户17276人,样本具有全国代表性;2013年全国29个省(市、区)的农村家庭样本共16511户49060人,样本在全国代表性的基础上增加了省级代表性;2015年全国29个省(市、区)农村家庭样本共22535户76675人;2017年全国29个省(市、区)农村样本共12732户81945人。为便于对比研究,各年度的调查还包括了相应的城镇家庭的数据。

  专家介绍,数据库通过连续跟踪调查我国家庭的各方面信息,定期用微观数据记录我国家庭全方位的变迁,可以真正了解中国家庭的客观现实,探究各类社会问题的内在机制,从因果关系上解释和预测社会的发展变化,从而帮助提高决策水平,推进国家治理体系和治理能力的现代化建设,为满足国家重大战略需求提供实时的、全方位的数据支撑和保障。

  浙江大学中国农村发展研究院(卡特中心)利用本数据库前3轮部分数据,对中国农村家庭发展状况展开研究,挖掘出了我国农村社会发展中的诸多现象,于今年6月发布了《中国农村家庭发展报告》(2016)蓝皮书。研究显示:农村性别失衡现象日趋严重,尤其0到4岁少儿男女性别比例已达122比100;农村老龄化趋势加剧,老年人口占比已达到15.2%;农村大龄未婚人口比例逐渐上升,“剩男”问题尤其突出;九年制义务教育效果显著,但仍有9.5%的“90后”未达初中毕业;农村人口受教育程度较低,但改善趋势明显;耕地长期流转比例提高趋势明显,跨期限流转现象增加等等。

  该数据库的启用将直接为我国人文社科领域的研究者提供“接地气”的一手资料,将来通过不断地与线上数据进行匹配、汇集和扩展,最终将形成应用面极广的中国家庭大数据库。这一数据库可以成为大数据时代的问题发现与刻画的基础,解决目前大数据无法析因的困境,促进“大数据”研究的深入发展。

  数据库的线下抽样调查数据由浙江大学“中国家庭调查”项目采集,具体采集工作由浙大社会科学研究基础平台和浙江大学社会调查研究中心承担,并通过高校数据合作机制得到充实和丰满。经过2年的准备,2017年度的“中国家庭调查”项目从今年7月开始执行,浙江大学社会科学研究基础平台和调查中心的督导带领由浙江大学、安徽大学、福建农林大学等高校大学生组成的访问员陆续奔赴全国各地,深入村庄和社区,历时两个半月,采集了第一手数据,为“中国家庭大数据库”贡献了大批量线下调查数据,才得以呈现出发布会当天新鲜、第一手的数据。