多源数据下成都市人口结构研究

在城市规划中,对人的关注日益显现,以人为本不仅是规划理念,更是数据基础。掌握人的相关信息,诸如人口总量、人口结构、人口分布,是做好规划的前提和目标。其中,人口结构的分析既是重点也是难点,它涉及年龄结构、性别比例、职业结构等方面内容,对预测未来人口变化、布设相关服务设施、了解产业结构发展方向等具有重要指导意义。
一、   研究背景
目前规划中用到的人口相关信息基本来自于统计年鉴和人口普查等统计数据。虽然这些数据可信度高、质量较好,但其更新周期长、空间尺度大、时间粒度粗等因素的制约,已经不能实时反映日新月异的城市发展变化,不能满足当前规划需求。探索新方法、寻求新数据,成为解决该问题的必然。而现在主流的做法是依据历史统计数据,采用统计学方法进行推演和预测。虞丽萍以离散形式的人口发展方程为主模型,以中国历年统计数据为原始数据,验证了主模型和各子模型的有效性,并预测了2015年上海市人口年龄结构,绘制了人口年龄树(虞丽萍,2007);孟令国等人采用人口-发展-环境模型(PDE),以第六次全国人口普查数据为基础,设定生育率低中高三种不同方案进行推演,预测了我国2015-2050年人口结构变化走势(孟令国,2014);薄文则基于连续随机人口预测模型的函数型数据分析方法研究我国的人口年龄结构(薄文,2016)。
另一方面,手机实名制在全国全面落实,按照工信部规定,2016 年 12 月31日前,各运营商用户实名率达到 95%以上,2017年6月30日前全部电话用户完成实名登记。而经过脱敏处理的手机实名制信息能提供用户年龄、性别、籍贯等信息(不涉及具体用户),手机信令数据能确定其常住地。这意味着“手机信令数据+实名制信息”的模式,为我们研究人口结构提供了一个时间频率更快、更新周期更短、空间精度更高的新方法。
此外,成都市在2016年进行了市域范围内交通大调查,通过入户调查,也得到了抽样率在3%左右的统计数据,信息丰富详实,也能得到抽样人口结构图。
这三类数据口径不同,各有侧重和利弊,但在第七次人口普查数据获得之前,可以酌情综合使用。为此,本文进行了三种数据的研究与校核,一方面为了分析各类数据在表征人口结构上的特点;另一方面通过多源数据的校核,期望为多源数据综合分析人口结构给出指引。
 
二、   数据分析
人口的年龄结构是指在一定时间某一个地区或城市中各不同年龄段人口数量的比例关系,常用各个年龄组人口在其总人口中所占比重加以表示。性别比例则是研究范围内男性与女性人数比值。通常将年龄结构和性别比例结合起来,用人口百岁图的方式直观地反映两者特点。以往最常用传统统计数据分析该内容,但考虑到数据时效性和准确性,很有必要结合本次研究新增的手机信令数据和交通调查数据综合分析人口结构特征。
a)  相关数据介绍
人口普查数据:人口的年龄结构和性别比例是一段时间内人口自然变动和机械增长的综合结果。传统统计数据中能提供详细相关信息的是2010年第六次人口普查数据。虽然从2010到2017七年间成都市人口发生了自然增长和机械增长(参见历年统计年鉴),但数据来源和“六普”并非同一统计口径,同时也无法确定机械增长影响的具体年龄段。为保证数据基本可用,采用常用的“年龄移位法”基于2010年“六普”数据涉及的人口推测2017年人口结构,0-6岁年龄段数据空缺,得到了如下覆盖7-100岁范围的人口百岁图(图2.1)。
手机信令数据:本文用到的手机数据源于中国移动公司,数据段2017年2月15日-2月21号(无国家法定节假日、无重大活动)。数据范围覆盖成都市域(不含简阳)。据悉,成都市移动用户占比70%以上(来源于中国移动公司内部统计数据)。按照一周七天夜间停留时间最长原则识别出常住人口,再将其与用户实名制信息(性别和年纪)结合,可得出基于移动数据的成都市常住人口年龄结构和性别比例。考虑到各年龄段手机用户占比情况不一,特别是老人和小孩手机拥有率偏低。因此, 用手机信令数据反映20-60岁年龄段年龄结构和性别比例比较具有代表性。值得注意的是,即使只截取了手机使用率较高的年龄段信息,仍然无法规避手机运营商中国移动的市场占有率和研究年龄段手机未满覆盖带来的偏态。
交通调查数据:交通调查数据是依托2016年成都市市域范围进行的交通大调查项目,根据其收回的调查表信息绘制而成。本次调查抽样率约为3%,共收回有效调查表约20万份,涉及10万个家庭近19万人。由于调查员素质参差不齐、各区域抽样率大小不一,导致交通调查数据采集的信息在空间分布上存在一定偏态。经整理,最终得到整个成都市范围内6-100岁的人口百岁图(调查对象不含6岁以下人士)。
b)  结果分析
根据以上处理,我们分别得到了人口普查数据、手机信令数据、交通调查数据等三者的人口百岁图,如下所示。
                                 图2.1人口百岁图_人口普查数据
 
男女比例_人口普查数据
 
从人口普查数据的百岁图可以看到人口结构呈现明显的宝葫芦形状,在10-16岁/30-40岁/54-57岁年龄段存在明显的三个人口低谷。其中,54-57岁年龄段人口锐减可能是1960-1963年3年自然灾害造成的;30-40岁年龄段是受1978年以宪法方式确定其法律地位的“计划生育”政策影响最深的人群;10-16岁则是延续了30-40岁人口基数偏低造成的出生率偏低影响。
从性别比例分析(图2.2),除了20-30、55-60岁这两个年龄段,在80岁之前,男性均多余女性,80岁之后,男性人数锐减。说明我国青壮年男性比例较高,而女性总体较男性长寿。
人口百岁图_手机信令数据
 
男女比例_手机信令数据
 
手机信令数据的人口百岁图(20-60岁)呈现明显的哑铃状,在30-40岁年龄段出现人口低谷,这个与人口普查数据反映的情况一致。但男女比例上,25岁之前女性多余男性,25岁以后男性多余女性,并且这一比值随年龄增加呈现递增趋势,并在52岁这个比例达到峰值1.38。除了移动手机在20-60年龄段可能更加受到男性用户青睐这一市场行为外,我国男性青壮年比例高于女性这一事实再次得到验证。
人口百岁图_交通调查数据
 
男女比例_交通调查数据
 
    交通调查的人口百岁图可以看到人口结构呈现宝葫芦状,与人口普查数据呈现形状一致。但由于抽样分布不均,导致相邻年岁(逐岁)人数波动较大,但大致仍呈现出三个人口低谷:15-20岁/30-40岁/54-57岁。在性别比例上,由于调查在全年龄段非均匀分布,导致部分年龄段数据采样率偏低,因而男女比例波动幅度特别大。但总体上,25-60岁年龄段男性人数多于女性;老年阶段女性比男性长寿。
 
三、   多源数据校核
由于统计口径问题,各类人口数据均存在一定程度偏态,并不能完全代表真实人口。但总体上,人口普查数据是研究人口问题中较为可信的数据依据。但由于其更新周期较长,不能反映快速城市化过程人口现状,须结合时效性较好的数据(诸如手机信令数据、交通调查数据等),共同说明同一场合人口数据的不同问题。为此,分析不同类型数据的差异、校核其相关性,对于我们正确认识数据、使用数据,进而掌握较为真实的人口结构特征很有必要。
本次人口结构研究涉及数据包括人口普查数据、手机信令数据和交通调查数据等三种,数据说明和处理过程参见前文。考虑到手机信令数据仅在20-60岁年龄段覆盖率较高,表征性较强。以下分析均聚焦到20-60岁年龄段,以在同一年龄段下分析三种数据的差异性与相关性。
a)   数据差异性
由于交通调查数据相较其他两类数据抽样率较低,逐岁之间波动性较大,为平滑抽样误差,以每十岁为统计单元,汇总三种数据中20-60年龄段每十岁人口占比得到了如下折线图。

20-60岁每十岁人口占比
 
从上图可以看到,人口普查数据和交通调查数据反映的人口结构较为相似,均为中间高两头低,40-49岁人数多余30-39岁,30-39岁人数多余20-29岁。按照这个趋势判断,未来的10-20年时间,成都市将迎来老龄化高峰,产业结构调整及相应配套设施都应提前布局。但手机信令数据则反映出完全不同信息:在手机信令数据中20-29岁人口占比大于40-49岁,未来年劳动人口较为充沛。当然这样相反的结论受制于手机在不同年龄段覆盖率不同、不同年龄段移动手机占比不同等因素影响,其准确性需后期结合移动、联通、电信等三家运营商的统计元数据进一步确认。但三种数据在每十岁人口占比中的不同,反映了不同数据在同一问题中表征数据具有偏态。需结合数据元数据来选择适当的数据,具体问题具体分析。
 
b)   数据相关性
数据有偏态,反映的特征也有差异,但多种数据可以互为补充。了解它们之间的相关性可以在数据来源单一时,使用其它数据作为佐证,同时也可进一步验证数据可用性和适用范围。
首先分别计算人口普查数据、手机信令数据和交通调查数据在20-60岁年龄段逐岁人口占总人数比例,再计算三者两两之间逐岁人口占比的相关系数,用以说明不同数据之间的相关性。考虑到交通调查数据的采样率在不同年龄的不均匀性,为了平滑这种影响,我们按照年龄分组,分别计算20-29/30-39/40-49/50-59等四个年龄组内部的逐岁人口占比的相关系数。
20-60岁逐岁人口占比相关系数
 
在20-60年龄段,整体上,人口普查数据和交通调查数据的相关性较高,相关系数达到0.82;分年龄组进行统计时,两者在50-59年龄组相关性最高、40-49岁年龄组相关性最低。人口普查数据与手机信令数据整体相关系数为0.62,主要是由于40-49岁年龄组相关性过低影响,而其余三个组别相关系数均高于0.8, 其中,30-39岁年龄组取得最高值0.98。手机信令数据与交通调查数据的相关性仅为0.42,为三组中最低,特别两者在40-49岁年龄组相关性最低值为0.23。但按照分年龄组进行统计可以发现,这两类数据主要是在40-49岁年龄段相关性较低。
综合上述分析可以看到,这三类数据两两之间相关性在50-59年龄段均较好,高于0.93。说明在该年龄段,三种数据对年龄结构的表征偏态较小,未来在数据缺失的情况下,可以考虑用其中一种数据反映该年龄段人口结构的共性。另一方面,无论哪两类数据,它们在40-49岁年龄段相关性均较差,说明三种数据对年龄结构的表征区别较大,或者说三种数据中至少有两种数据在该年龄组数据偏态明显。也反映了该年龄段人口结构复杂难以刻画,需斟酌选用的数据,不能简单使用单一数据表征。在两两组合中,手机信令所在组别总体上低于其他组别,说明三种数据中,手机信令数据的偏态性较大,需结合其他数据补充完善方能用来正确表征人口结构。
c)   数据综合运用
以往常用人口普查数据分析人口结构问题,但其数据时效性限制了其进一步应用。手机信令数据时效性好、时间精度和空间精度均较高,但不同年龄段手机用户占比不一,存在分年龄段放样的问题;同时,单一运营商的数据不能反映全量问题,不同运营商之间的数据壁垒无法消除一人多号等影响;交通调查数据能满足时间和空间的精度要求,然而其数据质量受采样率和调查人员素质影响。
以上三种数据用于研究人口结构均有其自身不足,但相比之下,人口普查数据的采样率高、数据质量好,偏态少,通过掌握人口普查年至今的历年分年龄死亡率、分年龄人口机械变动以及出生人口等补充信息,基于年龄移位法、人口发展方程等成熟算法可以得到较为可信的年度人口结构情况。但事实上以上补充信息不易获取、缺失情况严重。根据以上三种数据的差异性和相关性分析,总体上分年龄段分析时(每十岁一段)交通调查数据对人口调查数据的拟合度较好,可以参考使用,但由于其逐岁人口波动性较大,不建议用于特定年龄的人口研究。手机信令数据由于不同运营商市场占有率、不同年龄段手机用户占比的影响对人口结构的研究偏态较大,但在20-39岁、50-59岁等手机用户覆盖率高的年龄段,其信息反映相对真实可靠,可以在该年龄段做时间尺度和空间尺度更精细的详细研究;40-49岁年龄段信息偏态问题可能归咎于许多学生使用的手机实际登记人为其父母。未来在打通移动、电信、联通等三方运营商的数据壁垒后,一旦获取了分年龄段用户占比、不同运营商用户占比、一人多号等补充信息,手机数据用于人口结构相关的研究将发挥更有价值的作用,未来可期。
 
四、   结论与展望
    本文基于手机数据、交通调查数据和六普数据,用这三种数据表达人口结构特征,分析了不同数据所含信息的差异性和相关性。可以看到,不同数据本身各有优缺点,在使用中应该充分考虑其特征后酌情使用,不同数据不应该进行年龄拼接后混用,而应该综合使用、互为佐证。未来,在移动、联通、电信三方数据均获取的情况下,对手机数据反映人口结构特征做进一