文本描述
摘要
近年来,住房问题成为全社会关注度较高的热点话题,使用基层数据尤其是数
据挖掘等大数据方法进行建模分析,探索住房相关问题的内在规律十分必要。本文
运用第六次人口普查中郑州市二七区的长表数据,尝试建立基于哑变量的多元线性
回归模型和基于大数据算法的随机森林模型,分别使用SPSS及R软件进行参数估
计,探讨了以户为单位人均住房面积与相关普查统计指标之间关系,力求找出影响
人均住房面积程度的因素。
多元线性回归分析是反映一种现象或事物的数量依多种现象或事物的数量的变
动而相应地变动的规律,可用于定量分析和分类分析。当多元线性回归的自变量为
定性变量时,就要借助“哑变量”来进行回归;随机森林是一种比较新的机器学习
模型,可以很好的预测多达数千个自变量对因变量的作用,且对自变量间的共线性
不敏感,被誉为当前最好的算法之一。本文尝试采用这两种模型来对影响以户为单
位的人家住房面积的主要因素进行探索。
通过建立基于哑变量的多元线性回归模型和随机森林模型对人均住房面积影响
因素进行探索分析,得出以下结论:(1)行政区划、本户应登记人数、住房来源、
年龄、户别等指标对以户为单位的人均住房面积影响较大。(2)在分类指标较多的
情况下,基于大数据算法的随机森林模型较传统多元线性回归模型使用更简便,拟
合优度更高,误差更小。
关键词:住房状况多元线性回归哑变量大数据随机森林