用户名: 密码: 验证码:
精准扶贫视角下的脱贫户特征分析及脱贫进程研究
详细信息    查看官网全文
摘要
扶贫开发工作是我国政府当前和今后一段时间的重点任务。在大力推进精准扶贫的背景下,研究脱贫户的特征和脱贫影响因素,有助于明确精准扶贫未来开展方向和思路。本文使用2016年江西贫困退出户核查问卷调查及国家统计局开展的2011-2015年江西城乡住户调查数据,选取了家庭人口、收入结构、耕地、消费等指标,经过数据筛选和预处理后,进行基于可视化技术的探索性分析。采用数据挖掘技术,利用五折交叉验证的方法对决策树,随机森林,boosting,神经网络等九类模型进行性能的可靠估计,选取随机森林为最优模型,并确定该模型的最优参数,遴选出影响农户脱贫的主要因素。同时,采用基于网络优化的支持向量机和基于粒子群优化的RBF模型两个组合模型,对脱贫进程即当前贫困发生率进行了预测,验证了两种组合模型的优势和有效性。本文的研究思路:第一步,整理9000多户贫困退出户核查问卷数据,选取部分调查指标,对数据进行预处理和匹配性分析。第二步,整理2011-2015年城乡住户调查数据,根据脱贫核查问卷,选取同样的调查指标检索出全省所有农村调查户,并对数据进行预处理。第三步,采用数据挖掘技术,基于多种方法(决策树,随机森林,boosting,神经网络等九类模型),遴选出影响农户脱贫的重要因素,并予以分析。第四步,结合脱贫因素分析结果,对2011-2015年脱贫进程进行预测分析,并与实际结果对比。研究结果表明,家庭经营第一产业收入占比、各类扶贫补贴收入、转移净收入占比、水稻种植面积、家庭人口是影响农户脱贫的最主要因素。本文提出基于城乡住户调查数据的脱贫进程预测模型切实可行,可对本地区的贫困进程提前进行有效判断。本文针对脱贫户的分析为推进精准扶贫工作提供了建议,并为城乡住户调查数据资料的开发利用提供了一种新的思路。
引文
[1]程开明.统计数据预处理的理论与方法述评[J].统计与信息论坛,2007,22(6):98-103.
    [2]朱晓峰.缺失值填充的若干问题研究[D].广西师范大学,2007.
    [3]楚永生.新时期中国农村贫困的特征、扶贫机制及政策调整[J].宏观经济研究,2008(10).
    [4]对农村贫困线及贫困发生率的反思[J].宏观经济研究,2012(8).
    [5]张清霞.浙江农村相对贫困:演变趋势、结构特征及影响因素[D].
    [6]张培林,钱林方,曹建军等.基于蚁群算法的支持向量机参数优化[D].南京理工大学学报,2009-08-30.
    [7]李娇.支持向量机参数优化研究[J].计算机应用技术,2011.
    [8]岳恒,张海军,柴天佑.基于混合粒子群算法的RBF神经网络参数优化[J].控制工程,2006-11-20.
    [9]吴喜之.复杂数据统计方法--基于R的应用[M].中国人民大学出版社,2013.
    [10]吴喜之.统计学:从数据到结论[M].中国统计出版社,2013.
    [11]Conway D,White J M.机器学习实用案例解析[M].机械工业出版社,2013.
    [12]王星等.大数据分析:方法与应用[M].清华大学出版社,2013.
    [13]魏振军.概率论与数理统计[M].北京:中国统计出版社,2005,4(3):32-125.
    [14]汤银才.R语言与统计分析[M].高等教育出版社,2008.
    [15]Zhao Y.R and Data Mining:Examples and Case Studies[M].2012.
    [16]Lantz,Brett.Machine Learning with R[M].Packt Publishing,2015.
    [17]Husson F,Le S,Cadoret M.Senso Mine R:Sensory data analysis with R[J].R Package Version,2014.
    [18]JIAWEI HAN(加).数据挖掘概念与技术[M].机械工业出版社,2006.
    [19]PAUL TEETOR.R语言经典实例[M].机械工业出版社,2013.
    [20]PANG-NING TAN(美).数据挖掘导论:完整版[M].人民邮电出版社,2011.
    [21]http://www.csie.ntu.edu.tw/~cjlin/papers/quadworkset.pdf.
    [22]https://www.csie.ntu.edu.tw/~cjlin/libsvm/.
    [23]http://www.iro.umontreal.ca/~memisevr/teaching/ift6268_2013/notes10.pdf.
    [24]黄文,王正林.数据挖掘:R语言实战[M].电子工业出版社,2014.
    [25]李晶皎,王爱侠,王骄译.模式识别[M].电子工业出版社,pp:81-82,2010.
    [26]郑逢德,张鸿宾.Lagrange双支撑向量回归机[M].计算机科学,vol.38,no.12,pp:247-249,2011.
    [27]Silvestro Micera,Angelo M.Sabatini,Paolo Dario.On automatic identification of upper-limb movements using small sized training sets of EMG signals[J].Medical Engineering Physics,vol.22,pp:527-533,2000.
    [28]Baofeng Sun,Wanzhong Chen.Classification of s EMG signals using integrated neural network with small sized training data[J].Biomedical Engineering:Applications,Basis and Communications,vol.24,no.4,pp:365-376,2012.
    [29]飞思科技产品研发中心.神经网络理论与Matlab7实现[M].北京:电子工业出版社,2005.
    [30]Hsu Chih Wei,Lin Chih Jen.A comparison of methods for multi-class support vector machines[J].IEEE Transactions on Neural Networks,vol.13,no.2,pp:415-425,2002.
    [31]王健峰,张磊,陈国兴,何学文.基于改进的网格搜索法的SVM参数优化[J].应用科技,vol.39,no.3,pp:28-31,2012.
    [32]Liu Xianglou,Jia Dongxu,Li Hui.Research on Kemal Parameter optimization of support vector machine in speaker recognition[J].Science Technology and Engineering,vol.10,no.7,pp:1669-1673,2010.
    [33]刘东平,单甘霖,张岐龙,段修生.基于改进遗传算法的支持向量机参数优化[J].微计算机应用,vol.31,no.5,pp:11-15,2010.
    [34]郭新辰.最小二乘支持向量机及应用研究[D].吉林大学-计算机应用技术专业,2008.
    [35]史峰,王辉,郁磊等.MATLAB智能算法30个案例分析[M].北京:北京航空航天大学出版社,2011.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700