本站电脑知识提供应用软件知识,计算机网络软件知识,计算机系统工具知识,电脑配置知识,电脑故障排除和电脑常识大全,帮助您更好的学习电脑!不为别的,只因有共同的爱好,为软件和互联网发展出一分力! 数据预处理的四个步骤分别是数据清洗、数据集成、数据变换和数据归约;而数据的预处理是指对所收集数据进行分类或分组前所做的审核、筛选、排序等必要的处理;数据预处理,一方面是为了提高数据的质量,另一方面也是为了适应所做数据分析的软件或者方法。 数据的预处理是指对所收集数据进行分类或分组前所做的审核、筛选、排序等必要的处理。 数据预处理一方面是为了提高数据的质量,另一方面也是为了适应所做数据分析的软件或者方法。一般来说,数据预处理步骤有:数据清洗、数据集成、数据变换、数据归约,每个大步骤又有一些小的细分点。当然了,这四个大步骤在做数据预处理时未必都要执行。 一、数据清洗 数据清洗,顾名思义,“黑”的变成“白”的,“脏”的数据变成“干净”的,脏数据表现在形式上和内容上的脏。 形式上的脏,如:缺失值、带有特殊符号的; 内容上的脏,如:异常值。 1、缺失值 缺失值包括缺失值的识别和缺失值的处理。 在R里缺失值的识别使用函数is.na判别,函数complete.cases识别样本数据是否完整。 缺失值处理常用的方法有:删除、替换和插补。
2、异常值 异常值跟缺失值一样包括异常值的识别和异常值的处理。
二、数据集成 所谓数据集成就是将多个数据源合并放到一个数据存储中,当然如果所分析的数据原本就在一个数据存储里就不需要数据的集成了(多合一)。 数据集成的实现是将两个数据框以关键字为依据,在R里用merge函数实现,语句为merge(dataframe1, dataframe2,by=”关键字“”),默认按升序排列。 在进行数据集成时可能会出现如下问题:
三、数据变换 数据变换就是转化成适当的形式,来满足软件或分析理论的需要。 1、简单函数变换 简单函数变换用来将不具有正态分布的数据变成有正态分布的数据,常用的有平方、开方、取对数、差分等。如在时间序列里常对数据对数或差分运算,将非平稳序列转化成平稳序列。 2、规范化 规范化就是剔除掉变量量纲上的影响,比如:直接比较身高和体重的差异,单位的不同和取值范围的不同让这件事不能直接比较。
3、连续属性离散化 将连续属性变量转化成分类属性,就是连续属性离散化,特别是某些分类算法要求数据是分类属性,如:ID3算法。 常用的离散化方法有如下几种:
四、数据归约 数据归约是指在对挖掘任务和数据本身内容理解的基础上、寻找依赖于发现目标的数据的有用特征,以缩减数据规模,从而在尽可能保持数据原貌的前提下,最大限度地精简数据量。 数据规归能够降低无效错误的数据对建模的影响、缩减时间、降低存储数据的空间。 1、属性归约 属性归约是寻找最小的属性子集并确定子集概率分布接近原来数据的概率分布。
2、数值归约 通过减少数据量,包括有参数和无参数方法,有参数如线性回归和多元回归,无参数法如直方图、抽样等。 ? ? 学习教程快速掌握从入门到精通的电脑知识。 |
温馨提示:喜欢本站的话,请收藏一下本站!