当前位置:萝卜系统 > 硬件软件教程 > 详细页面

第三版数据挖掘的概念与技术

第三版数据挖掘的概念与技术

更新时间:2023-06-24 文章作者:未知 信息来源:网络 阅读次数:

根据运行的环境,操作系统可以分为桌面操作系统,手机操作系统,服务器操作系统,嵌入式操作系统等。

挖掘技术哪家强_数据挖掘概念与技术_数据仓库与数据挖掘技术习题答案

第一章是绪论,主要总结了技术和概念. 但是在我的阅读中,本书中的一些概念对初学者来说是非常不友好的,语言组织的逻辑也很差,有很多奇怪的单词,没有解释. 我不知道我是否会听不懂它,或者翻译不正确,所以为了理解这些内容,我只是自己检查一下信息,然后在这里写下我的理解,以便随时可以参考. 对于像我一样困惑的学生也很方便. . 由于我还是新手,边看边写,因此对某些事物的理解可能仅限于毛病甚至偏差,因此随着我不断加深理解,我将继续加深这一系列文章. 同时,我也希望所有学生提出批评和指正,以便一起交流和学习.

——————————————————分区线——————————————————

阅读整本书花了两个多月的时间. 发现这本书确实是一本非常好的书,但是它确实不适合初学者. 因为尽管本书是经过概述和概述的,所以Takanoya还是对KDD进行了总体描述,但这之所以简单并不是因为它并不深入,而是因为读者没有达到这一水平. 查看摘要,可以在云中看到非常精致的话.

当我阅读本书时,我还查阅了许多奇怪的名词. 学习了很多算法后,我回头看了看这本书,确实是同一回事.

但是,本书仍然存在一些缺陷. 首先是整本书的翻译没有到位,而且被怀疑已经翻过来了?第二个是书中的某些地方会出现错误,包括错误描述和数据错误. 但总的来说,这些错误不会影响阅读.

建议读者在阅读本书时阅读更多的信息并学习算法数据挖掘概念与技术,以便在阅读本书后会受益匪浅. 本系列文章是我在阅读本书时做的一些笔记,解释了我认为不是很了解的书中的一些概念描述,还解释了一些基本的通用算法. 当然,我在互联网上已经提到很多文章,并且我也有自己的看法. 为了让书中有更好的解释,我没有单独解释它们,只需阅读这些书即可.

我的系列文章的权利是本书的补充和参考材料.

我们为什么要进行数据挖掘?

这本书在本章中不断强调数据挖掘是部分实际应用的主题. 该学科的起源和发展来自社会的强烈需求.

什么是数据挖掘?

“数据挖掘”一词实际上并不能准确反映该学科. 更准确的定义应该是KDD(KDD: 中的知识发现),这是从数据中挖掘出有价值的知识,需要特别注意. 而且,数据挖掘是一个连续的过程! ! !它不是一次性的. 当然,这个形容词是有价值的,有很多种理解,这里不赘述,只了解. 而且由于各种原因,我们经常说通用术语“数据挖掘”是指“ KDD”

和数据仓库之间的区别

有关这两个概念的理解和区别,请参见Zhicheng Chen Cheng对这个问题的回答.

和数据仓库之间的本质区别是什么?

其中,有关数据仓库的更多信息. 数据仓库的目的是为决策提供数据支持. 换句话说,它的作用不在于业务,而在于提供数据证明以帮助管理者做出决定. 因此,它将存储从多个数据源获得的大量组织数据. 这里的意思是有序的组织意味着数据仓库的数据结构.

和数据仓库之间有什么区别?

实际上,两者之间的主要区别在于数据结构!

中的建模通常遵循三个范式,数据仓库建模具有特定的方式,通常使用多维建模(星型,雪花型).

数据仓库使用这些建模方法的原因是为了方便OLAP的建立并提高统计查询率.

数据挖掘概念与技术_数据仓库与数据挖掘技术习题答案_挖掘技术哪家强

坦率地说,通常的数据仓库是建立在上的,但是技术的使用却有所不同. 如果软件产品实际上是一个关系(如果放在现在就不严格了. 但是在早期它是正确的),例如: ORACLE,MS SQL SERVER等,有一些特殊之处,例如Teradata等.

在这里,我们将首先遇到数据立方体的参数. 在这里,有一个坑=. 让我们形成先入为主的想法. 认识到数据仓库中数据的形式是一个多维数据集! ! !实际上,事实并非如此! ! !这是我最初的想法. 后来,当我看到第四章时,我看得越多,情况就越糟. 我花了很多时间才弄清楚. 实际上,在严肃的数据仓库中没有像数据立方体这样的东西. 做这个东西的原因完全是为了促进我们的理解. 这确实是一个巨大的坑. =

好吧,正是因为存储在数据仓库中的数据是多维模型(同样,也不是数据立方体!!!). 因此,它特别适用于OLAP(分析处理)

OLAP在这里引入了一个新概念. 其实这个概念也很容易理解. 它的定义是这样的: 分析处理OLAP是一种软件技术,它使分析人员能够快速,一致且交互地观察各个方面的信息,以深入了解数据.

让我们仔细看一下这个定义,但这很容易理解. 我们可以弥补这样的情况: 在宇宙中,有一个神秘的立方体(立方体是数据)漂浮在其中,作为人类推荐的人,您被送到这里观察这件事,希望在其中找到一些东西. . 因为您处于失重状态,所以可以轻松地移动并从不同的方向和角度观察立方体. 您甚至可以上下滚动多维数据集(上下)以查看更多信息.

我这样说,每个人都应该能够理解吗?

下面是和数据仓库的比较图.

这里写图片描述

数据挖掘的步骤是什么?

关于数据挖掘的步骤,您会在书中或Internet上看到许多版本. 乍一看,您会觉得它们并不相同,但实际上,一般步骤是相同的??,仅是几个步骤,但是这些不同的版本在特定步骤的命名和细节顺序上是不同的. 我检查了很多信息,并认为以下版本最合适.

1. 数据集选择

此步骤的具体方法是: 根据您的目的,抽象出数据分析所需数据的特征,然后选择适当的收集方法来收集满足您要求的数据,并将数据存储在.

通常,数据集已经存在或至少知道如何获取它(例如,您可以自己编写一个搜寻器以从Internet搜寻数据,或者可以使用其他人已经发布的数据).

重要的是要注意,数据收集是整个过程的第一步,也是基础步骤. 这一步很重要! ! !数据集的选择对于数据挖掘模式是否有趣至关重要. 例如,如果您的目的是分析制药行业的数据,但您正在从物流行业收集数据,那么结果是.........(尽管也许会有一些意外,但这看起来中奖的可能性太小. )其次,对于海量数据,选择合适的数据存储和管理数据仓库至关重要.

2. 数据预处理

(1)数据清理

中的某些数据不完整(某些感兴趣的属性缺少属性值),因此需要数据清理以将完整,正确和一致的数据信息存储在数据仓库中. 否则,挖掘结果将无法令人满意.

(2)数据集成

逻辑上或物理上集中了来自不同来源,格式和特征的数据,以为企业提供全面的数据共享.

挖掘技术哪家强_数据挖掘概念与技术_数据仓库与数据挖掘技术习题答案

(3)数据减少

数据精简是指在最大程度地简化数据量的同时,尽可能保留数据的原始外观(完成此任务的必要前提是理解挖掘任务并熟悉内容的内容. 数据本身),同时进行业务运营数据挖掘. 通常很大. 数据约简技术可用于获取数据集的约简表示. 它虽然要小得多数据挖掘概念与技术,但是仍要保持原始数据的完整性,并且还原后的数据挖掘结果与还原前的数据相同或几乎相同.

(4)数据转换和数据离散化

通过平滑聚合,数据泛化,规范化等将数据转换为适合于数据挖掘的数据.

重要的一步.

3. 数据分析算法

这就是我们所说的数据挖掘,即特定的数据处理. 稍后再讨论.

4. 模型评估

从业务角度看,行业专家验证了数据挖掘结果的准确性.

实际上,并不一定需要行业专家来. 如本文开头所述,数据挖掘实际上是一个偏向实际应用的主题. 它通常与特定的子行业紧密联系. 因此,我们通过数据挖掘获得的结论或预测最好留给了解该行业的人来看一下并确定是否有意义.

5. 结果显示

通过数据挖掘获得的分析信息以可视方式呈现给用户,或作为新知识存储在知识库中,供其他应用程序使用.

上面列出的过程只是数据挖掘所需的一般过程. 并非所有项目都需要完成该过程. 这里应该特别注意: 数据挖掘过程是一个迭代过程. 如果每个步骤均未达到预期目标,则需要返回上一步,重新调整并执行.

可以使用哪些类型的图案?

可以使用哪些类型的图案?实际上,挖掘的目的是什么,或者最终希望得到什么?可以执行哪些形式的操作?

这里对模式的概念有很好的理解. 我以前还不了解模式的概念,直到第6章才对其进行了深化

此步骤导致了许多新概念,我将解释这些概念.

数据表征:

其定义如下: 使用目标数据的一般特征或特征进行总结.

数据仓库与数据挖掘技术习题答案_数据挖掘概念与技术_挖掘技术哪家强

可以这样理解. 例如,数据中有1,000个计算机定义的描述. 然后,您可以从这些数据中提取特征,将其汇总并压缩为这样的数据: 计算机是具有冯·诺依曼体系结构的机器. (此处给出的示例可能不是很正确,每个人都主要理解其含义,因此不必深入研究=. =)

另一个例子是,一个人特别丑陋,有1000条数据描述了他的丑陋程度. 然后,在提取特征之后,我们可以这样说. 他丑陋而令人难忘.

实际上,每个人都应该能够想到它. 数据表征的主要目的应该是规范化数据. 坦率地说,是在保留原始数据特征的同时减小原始数据的大小.

数据区别:

其定义是这样的: 数据区分是将目标数据对象的一般特征与一个或多个对比对象的一般特征进行比较.

这个定义比较长,但是很容易理解. 看一些例子以了解

老虎和猫都是猫科动物,但是它们之间是有区别的,那么它们之间有什么区别?

微信和QQ都是即时通讯工具,但是它们之间有区别,所以它们有什么区别?

因此,数据区别实际上很容易理解. 坦率地说,就是区分两个不同的东西. 然后我们通常区分两件事实际上是在看他们的不同特质或特征. 因此,数据差异化与数据表征之间的关系实际上非常接近.

频繁模式

频繁模式的定义是这样的: 它是指频繁出现在数据中的模式. 频繁模式的类型很多,包括频繁项集,频繁子序列和频繁子结构.

这看起来很复杂,但实际上非常简单.

频繁项目集实际上可以理解为频繁出现的事物的集合,例如面包和牛奶,啤酒和尿布是频繁项目集.

频繁子序列是经常出现的序列. 例如,购买电子产品的顺序通常是: 台式计算机-“笔记本计算机-手机-照相机”.

此序列应该经常发生.

从更广泛的意义上讲,频繁的子结构是频繁的项目集和频繁的子序列,并且具有更大的容忍度. 例如,购买台式计算机后,有些人可能会购买用于下一个电子产品的笔记本电脑,而有些人可能会购买平板电脑. 如果列出这些内容,则可能形成树或图之类的数据结构.

深入研究这些内容之后,您会发现许多事物之间存在关联和关联.

分类和回归

分类和回归的概念很难解释.

数据挖掘概念与技术_数据仓库与数据挖掘技术习题答案_挖掘技术哪家强

以支持向量机为例. 分类和回归问题都需要根据训练样本找到实值函数g(x). 回归问题的要求是: 给定一个新模型,然后根据训练集推断出相应的输出y(实数)是多少. 也就是说,使用y = g(x)推断与任何输入x对应的输出值. 分类问题是: 给定一个新模式,从训练集中推断出其对应的类别(例如: + 1,-1). 也就是说,使用y = sign(g(x))推断与任何输入x对应的类别. 总之,回归问题和分类问题的性质相同,唯一的区别是它们的输出范围不同. 在分类问题中,仅允许输出采用两个值;在回归问题中,输出可以取任何实数.

分类和回归之间的区别是输出变量的类型.

定量输出称为回归或连续变量预测;

定性输出称为分类或离散变量预测.

例如:

预测明天的气温多少,这是一项回归任务;

预测明天是多云,晴天还是下雨是一项分类任务.

实际上,我们所说的术语是指索引值预测和类标签预测. 在这里,我们可以暂时将数值预测理解为回归,将类别标签预测理解为分类.

我知道我对此有疑问. 请参考这里.

在上面的解释中,出现了短语“给定样式”. 这里提到的模式是指模型,例如分类规则,决策树,数学公式或神经网络. 稍后再说.

集群分析

所谓的集群是类或集群的聚集,而类是数据对象的集合. 在许多情况下,一开始就没有标签数据,因此可以使用聚类分析来生成数据组的类标签.

聚类有时称为分割,是指将具有相同特征的人分组,然后将这些特征平均以形成“特征向量”或“”. 聚类系统通常可以通过静态分类将相似的对象分为不同的组或更多的子集,以便同一子集中的成员对象具有相似的属性. 某些提供程序使用群集来直接提供有关不同访问者组或客户组的特征的报告. 聚类算法是数据挖掘的核心技术之一. 除了自身的算法应用外,聚类分析还可以用作数据挖掘算法中其他分析算法的预处理步骤.

在业务中,聚类可以帮助市场分析员从消费者中区分不同的消费者群体,并总结每种类型消费者的消费模式或消费习惯. 作为数据挖掘的模块,它可以用作发现中分布的一些深层信息的单独工具,也可以专注于特定类别以进行进一步分析并总结每个类别的数据特征.

离群分析

这很容易理解. 数据集中可能有一些数据对象. 它们与数据的一般行为或模型不一致. 这些数据是异常值.

分析异常值可能会导致异常或意外的收获.

好的,所有新术语都将进行解释. 让我们回到原来的问题. 我们可以在数据挖掘中做什么?实际上,坦率地说,我个人认为数据挖掘只具有两个功能. 一个是描述性功能(概括存在的功能),另一个是预测性功能(预测是未知的推断).

其他方面,本书中进行了详细的描述,相对容易理解. 这里没有太多要说明的


本文来自本站,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-249487-1.html



温馨提示:喜欢本站的话,请收藏一下本站!

本类教程下载

系统下载排行

网站地图xml | 网站地图html