用户名: 密码: 验证码:
大数据分析下劣质用户数据动态清理方法仿真
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:Simulation of Dynamic Cleanup of Inferior User Data under Big Data Analysis
  • 作者:郭娜 ; 沈焱萍 ; 韩莹 ; 李攀
  • 英文作者:GUO Na;SHEN Yan-ping;HAN Ying;LI Pan;Department of Disaster Information Engineering, Institute of Disaster Prevention;
  • 关键词:大数据分析 ; 劣质用户数据 ; 动态清理 ; 方法
  • 英文关键词:Big data analysis;;Poor user data;;Dynamic cleanup;;Method
  • 中文刊名:JSJZ
  • 英文刊名:Computer Simulation
  • 机构:防灾科技学院灾害信息工程系;
  • 出版日期:2019-02-15
  • 出版单位:计算机仿真
  • 年:2019
  • 期:v.36
  • 基金:河北省教育厅高等学校科学研究计划项目作为第一资助(Z2018209);; 中央高校基本科研业务费青年教师资助计划项目作为第二资助项(Z2018209)
  • 语种:中文;
  • 页:JSJZ201902077
  • 页数:5
  • CN:02
  • ISSN:11-3724/TP
  • 分类号:372-376
摘要
在大数据分析下对劣质用户数据进行动态清理时,对提高数据的准确率具有重要意义。进行劣质用户数据的动态清理时,需对数据集的关联因子进行计算,确定数据集的限定阈值。针对传统方法主要根据数据的变量进行清理,导致清理效果差、准确率低的问题,提出基于SVM方法的劣质用户数据动态清理方法。根据劣质用户的输出数据,分析劣质用户数据处于不同数据集时的空间矩阵,利用数据清理因子和数据清理频率对数据集在不同子空间中的距离进行计算,并区分数据集的关联因子,确定关联因子与限定阈值之间的关系,建立清理模型,并利用劣质用户的离散数据计算数据的均值和方差,通过求得结果分析数据的置信区间,并计算数据的置信边界,获得数据的分类函数,实现对劣质用户数据的动态清理。仿真结果表明,提出方法在对劣质用户数据进行动态清理时,具有较好的清理效果和较高的准确率。
        In the case of dynamic cleanup of poor user data under big data analysis, it is of great significance to improve the accuracy of data. When dynamic cleanup of inferior user data is performed, the correlation factor of the data set needs to be calculated to determine the limited threshold of the data set. The traditional method is mainly based on the data variables to clean, resulting in poor cleaning effect and low accuracy. The paper proposes a method of dynamic cleanup of poor user data based on the SVM method. Based on the output data of inferior users, we analyzed the spatial matrix when the inferior user data were in different data sets, calculated the distance of the data set in different subspaces by using the data cleaning factor and the data cleaning frequency, and distinguished the correlation factors of the data sets. The relationship between the correlation factor and the defined threshold was established, and the cleaning model was established. Based on this, the mean and variance of the data were calculated using the discrete data of the inferior user, the confidence interval of the data was analyzed with the obtained result, and the confidence boundary of the data was calculated and the data was obtained. The classification function realizes dynamic cleanup of inferior user data. The simulation results show that the proposed method has a better cleaning effect and a higher accuracy when performing dynamic cleaning of poor user data.
引文
[1] 张成军,刘超,郭强. 大数据网络环境下异常节点数据定位方法仿真[J]. 计算机仿真, 2017,34(5):273-276.
    [2] 屈世甲. 巷道风速传感器数据实时处理方法[J]. 煤矿安全, 2017,48(2):163-166.
    [3] 朱会娟,等. 基于动态可配置规则的数据清洗方法[J]. 计算机应用, 2017,37(4): 1014-1020.
    [4] 夏洋洋,龚勋,洪西进. 人脸识别背后的数据清理问题研究[J]. 智能系统学报, 2017,12(5):616-623.
    [5] 王闪,谭良. Web大数据环境下的相似重复数据清理[J]. 计算机工程与设计, 2017,38(3):646-651.
    [6] 陈勐勐,等. POTDR振动传感系统的数据处理与分析方法[J]. 电子测量与仪器学报, 2016,30(11):1671-1678.
    [7] 陈志高,等. ADCP数据综合处理方法及软件系统研制[J]. 人民长江, 2017,48(7): 41-45.
    [8] 宋杰,等. MySQL在健康相关数据清理中的应用[J]. 中国卫生统计, 2017,34(3): 515-517.
    [9] 付殷,等. 输电线路电磁环境试验数据清理方法研究[J]. 高电压技术, 2018,44(1): 289-295.
    [10] 郝舒欣,等. 空气污染对人群就诊影响时间序列分析的数据前处理方法[J]. 环境与健康杂志, 2017,34(5):427-432.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700