在较高的抽象层发现的强关联规则可能只是常识,在较低的抽象层发现的规则可能只是高抽象层的平凡特化。
\(\Rightarrow\)关注如何在多个抽象层进行灵活的模式挖掘。
先对数据进行概念分层,在多个抽象层上挖掘产生的关联规则称为多层关联规则,一般采用自顶向下策略有高度抽象层向下挖掘。在支持度-置信度框架下,可以采用一致的最小支持度,也可以采用递减支持度(较低抽象层使用较小的支持度阈值)、基于项或分组的最小支持度(通常使用所有组的最小支持度阈值,以避免过滤掉有价值的模式)。
如果一个规则的支持度和置信度接近于其祖先规则的支持度和置信度,则称这个规则是冗余的。
涉及两个或多个维或谓词的关联规则被称为多维关联规则,具有不重复谓词的关联规则被称为维间(interdimension)关联规则,否则称为混合维(hybrid-dimension)关联规则,如:
\[age(X,"20..29")∧{occupation(X,"student")}\Rightarrow{buys(X,"laptap")}\]即对量化数据进行规则挖掘(一般的关联挖掘基于nominal量表),几种典型方法:数据立方体方法(基于数据的离散化)、基于聚类的方法和揭示异常行为的统计学方法。
稀有模式(非频繁模式)是支持度远低于用户指定的最小支持阈值的模式。
如果项集\(X\)和\(Y\)是频繁的,但很少一起出现(\(sup(X\bigcup Y)<sup(X)\times sup(Y)\)),则称项集\(X\)和\(Y\)是负相关的,模式\(X\bigcup Y\)是负相关模式。(只是一种定义方法,但这种定义不是零不变的,一般的判定标准是:$$(P(X | Y)+P(Y | X))/2<\epsilon\(,其中\)\epsilon$$是负模式阈值) |
规则挖掘过程中可能会从数据集中发现很多规则,其中大部分是不感兴趣的。一种启发式方法是将用户的期望或直观作为限制搜索空间的约束条件,即基于约束的挖掘。一般而言,约束包括:
(本节主要讨论规则约束)
元规则是形如\(P_1∧P_2∧..∧P_l\Rightarrow Q_1∧Q_2∧..∧Q_r\)的规则模板,其中\(P_i、Q_j\)是被例示的谓词或谓词变量。元规则使得用户可以说明他们感兴趣的规则的语法形式。
模式空间剪枝:检查候选模式,确定模式是否可以被剪掉(如果在剩下的挖掘过程中其超模式不可能产生,则可以剪掉这个模式)
数据搜索空间剪枝:检查数据集,确定特定的数据片段在剩下的挖掘过程中是否对其后的可满足模式有所贡献。如果不能,则剪去。
模式剪枝规则约束可以分为五类:
数据空间剪枝约束可以分为两类:
高维数据的挖掘的两个思路:
一种挖掘巨型模式的方法:模式融合(Pattern-Fusion),以有限的宽度遍历树,模式增长基于与其他模式凝聚。
核模式,对于模式\(\alpha\),项集\(\beta\subseteq\alpha\) 称为\(\alpha\)的\(\tau-\)核模式,如果\(|\frac{D_\alpha}{D_\beta}|\ge\tau, 0<\tau\le 1\),其中\(|D_\alpha|\)是数据库\(D\)中包含\(\alpha\)的模式数,\(\tau\)称为核比率。模式\(\alpha\)是\((d,\tau)-robust\)的,其中\(d=max_{\beta}\{|\alpha|-|\beta||\beta\subseteq\alpha,并且\beta是\alpha的\tau-模式\}\),巨型模式的\(d\)更大,鲁棒性更强。
模式融合方法包括两个阶段:
使用最小支持度阈值挖掘规则的效果有限——若阈值太低则产生的规则太多;若阈值太高则可能产生的规则是常识。挖掘频繁模式的压缩集合或近似集合可以解决这个问题。
模式压缩可以通过模式聚类实现,即对频繁模式进行聚类(使用\(\delta-\)簇紧密型度量),代表模式仅从每个簇中选取,从而提供频繁模式的一个压缩版本。因为闭频繁模式的集合是原频繁模式的无损压缩,因此在闭模式集合上发现代表模式是一种选择。设\(P_1、P_2\)是两个闭模式,其支持的事务集分别为\(T(P_1)、T(P_2)\),则\(P_1、P_2\)之间的模式距离\(Pat\_Dist(P_1,P_2)=1-\frac{T(P_1\bigcap T(P_2))}{T(P_1\bigcup T(P_2))}\)。
考虑同簇中代表模式的选取:给定两个模式\(A、B\),若\(O(B)\subset O(A)\),其中\(O(A)\)表示模式\(A\)的项集,则称\(B\)可以被\(A\)表达。则对同一个簇中的模式\(P_1,P_2,..,P_k\)而言,则代表模式\(P_r\)应当满足\(\bigcup_{i=1}^{k}{O(P_i)}\subseteq{O(P_r)}\)。
考虑模式的聚类:一般的聚类方法可能不适用于模式的聚类,这里使用了所谓\(\delta-\)簇的聚类方法,即对模式\(P\)和\(P'\)而言,如果\(O(P)\subseteq O(P')\),并且\(Pat\_Dist(P,P')\le\delta\),则称\(P\)被\(P'\delta\)覆盖。如果在一个存在一个代表模式\(P_r\)使得该集合中的每个模式\(P\)都被\(P_r\delta-\)覆盖,则这个模式集就是一个\(\delta-\)簇。由此概念可知,一个模式可能属于多个簇,使用\(\delta-\)簇只需要考虑每个模式与代表模式之间的距离,即\(Pat\_Dist(P,P_r)=1-\frac{T(P_r)}{T(P)}\)。
为了得到更简洁的表示,我们允许代表模式的支持度稍小于\(min\_sup\):对于代表模式\(P_r\),假设其支持度为\(k\),则有\(\delta\ge 1-\frac{T(P_r)}{T(p)}\ge 1-\frac{k}{min\_sup}\)。可得:\(k\ge(1-\delta)\times{min\_sup}\),使用这个稍小的值作为代表模式的最小支持度阈值。
则模式压缩问题的定义如下:给定一个事务数据库、最小支持度阈值和聚类质量度量\(\delta\),模式压缩问题是找到一个代表性的集合\(R\),使得对于每个频繁项集\(P\),存在代表模式\(P_r\in R\),\(P_r\)覆盖\(P\),且$$ | P | $$最小化。 |
找出代表模式的最小集合是\(NP\)困难问题。
挖掘top-k个最频繁模式是一种减少挖掘返回的模式数量的策略。即用户更愿意得到k个最感兴趣的模式,不仅具有高显著性,而且具有低冗余的k个代表模式的小集合称为感知冗余的top-k模式。
模式\(p\)的显著性度量\(S(p)\)将其映射到一个实数值。联合显著性\(S(p,q)\)与共同显著性$$S(p | q)\(的关系为\)S(p | q)=S(p,q)-S(q)\(,冗余性度量\)R(p,q)=S(p)+S(q)-S(p,q)\(,且应当满足\)0\le R(p,q)\le min{S(p),S(q)}$$。 |
发现感知冗余的top-k问题可以转换为发现最大化边缘显著性的k-模式集问题,该问题在信息检索领域已被研究透彻。(不做深究)
本节考察如何自动产生频繁模式的语义注解。
对模式\(p\)的语境建模,有如下考虑:
则定义语义模式注解的基本任务为:
则依次考虑:
如何设置权重?互信息是一种度量的权重函数,度量一个随机变量能推断另一个随机变量多少信息,给定两个频繁模式\(p_{\alpha}、p_{\beta}\),令随机变量\(X=\{0,1\}、Y=\{0,1\}\)是两个随机变量,分别代表\(p_{\alpha}、p_{\beta}\)的出现,则互信息\(I(X;Y)=\sum_{x\in{X}}\sum_{y\in{Y}}{P(x,y)log\frac{P(x,y)}{P(x)P(y)}}\),其中$$P(x=1,y=1)=\frac{ | D_{\alpha}\bigcap{D_\beta} | }{ | D | },P(x=0,y=1)=\frac{ | D_\beta | - | D_\alpha\bigcap D_\beta | }{ | D | },P(x=1,y=0)=\frac{ | D_\alpha | - | D_\alpha\bigcap D_\beta | }{ | D | },P(x=0,y=0)=\frac{ | D | - | D_\alpha\bigcup D_\beta | }{ | D | },$$ |
基于以上原则,即可产生语义注解。
再简单介绍一下模式挖掘的应用:
……