Data Mining = Knowledge Discovery from Data = KDD
(Data Mining is the process of discovering interesting patterns and knowledge from large amounts of data)
KDD的步骤:
一些名词:
A data warehouse is a repository of information collected from multiple sources, stored under a unified schema, and usually residing at a single site. Data warehouses are constructed via a process of data cleaning, data integration, data transformation, data loading, and peri- odic data refreshing.
A Data warehouse is uaually modeled by a multidimensional data structure, called a data cube, in which each dimension corresponds to an attribute in the schema, and each cell stores the value of some aggregate measure. A data cube provides a multidimensional view of data and allows the precomputation and fast access of summarized data.
OLAP: Online Analytical Process
Examples of OLAP Operations: drill-down and roll-up.
这里,所谓的下钻和上卷,也就是降尺度和升尺度的概念,所谓的数据仓库,也就是数据的多维多尺度存储形式。
A transaction typically includes a unique transaction identity number and a list of the items making up the trasaction.
eg: 一次购买记录中有a、b、c、d这四种物品,则a、b、c、d分别是一个item,他们构成了这次购买的这一个transaction
事务数据可以在关系数据库中表达
如时序数据、空间数据、媒体数据、超文本数据、文本数据等等。
特征化/区分主要用于类/概念描述(Class/Concept Description)
所谓特征化,就是目标类数据的一般特性或特征的汇总,即指定所需要研究的类(target class)的属性;所谓区分,就是将目标类与一个或者多个可比较类(contrasting class)进行比较,即不同类别数据之间的对比。
频繁模式:数据中频繁出现的模式;关联:各类数据之间是否有关联;相关性:对关联程度的一种度量。可见,三者之间是一种递进的关系,即如果存在某种频繁模式,则数据之间可能存在关联,如果数据样本满足最小支持度阈值(minimum sipport threshold)和最小置信度阈值(minimum confidence threshold),则可以用相关性来评估这种关联的程度。
需要训练样本;用于预测。
聚类分析数据对象,不需要训练样本,不考虑所分的类别是什么。
在一般情况下,离群点(与一般模型不一致的数据点)被当作异常或噪声被抛弃;在某些情况下(如欺诈检测),离群点可能更有价值,可以利用离群点进行异常挖掘。
条件:①便于理解;②在某一级别的置信度上对新的数据有效;③潜在有用;④新颖。
涉及数据挖掘算法的完全性(completeness),挖掘出所有可能的模式是不现实的,通常需要根据用户提供的约束和兴趣度度量进行聚焦。
涉及算法优化的问题。
主要就是统计学,以及机器学习、深度学习相关的算法。
应用广泛,如商业智能(BI)和Web搜索引擎(其是一种专门的计算机服务器,在Web上搜索信息,用户搜索查询的结果本质上就是由网页、图片等组成的一张表,Web搜索引擎的本质就是大型数据挖掘应用,通常需要处理在线数据)。