设为首页
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
报告产品类别: 预测报告 | 调查报告 | 调研报告 | 分析报告 | 可行性研究 | 数据报告 | 财务报告 | 市场分析报告 | 监测报告 | 指导报告 | 定制报告 | 技术报告 | 咨询报告
首页 >> 华经文库 >> 竞争情报 >> 知识管理 >> 关联规则分析
中国产业竞争情报网搜索
高级搜索
热门关键词: 垃圾发电 | 燃料乙醇 | 钢铁 | 农业机械 | 市场调查报告 | 可再生能源 | 海水淡化 | 汽车行业 | 乙醇汽油
关联规则分析

----------------------------------------------------------------------------

发表时间:2008-4-21

 

    关联规则简介:

    关联规则虽然来源于POS中,但是可以应用于很多领域。只要一个客户在同一个时间里买了多样东西,或者在一段时间了做了好几样事情就可能是一个潜在的应用。例如:用信用卡购物,如汽车租金和旅馆费,可以看他下一个要买的东西。电话公司提供的多项服务,以研究捆绑销售的问题。
银行提供的多项服务,来分析客户可能需要那些服务。

    不寻常的多项保险申请可能是欺诈行为。

    数据挖掘什么时候有用?三种规则:有用的、价值不高的、费解的。价值不高的规则往往是对一些商业领域内的规则重现。费解的规则往往是数据中一些偶然的东西,从而也没有什么采取行动的价值。

    虚拟元素(Virtual Items)是一个在事务中认为加入的元素。用来对事务进行一定的区别。加入虚拟元素后我们能做的事情:

    对比促销时和平常销售时的区别。

    按照销售的区域来看,按照销售的方式来看。
    比较城市和郊区的区别。 比较各个季节的不同。

    数据挖掘的基本流程:

     选择合适的元素。考虑不同的统计级别,选择哪种细节程度。细节的颗粒越粗,那么算法的工作量就越小;细节的颗粒越细,那么结果的可实施性就越好。关键:只有当数据中的元素出现的次数大致相同是,关联规则的效果才最好。虚拟元素不能太多!应该注意数据的质量。
产生规则。什么是规则?就是一个条件和一个结果的和:If condition then result。实际中有用的往往是结果中只有一个元素的情况。支持度、可信度和提高率(兴趣度)。

元组

出现频率

A

45%

B

42.5%

C

40%

AB

25%

AC

20%

BC

15%

ABC

5%

    支持度:就是一个元组在整个数据库中出现的概率。如上面的例子中S(A)=0.45。
    可信度:它是针对规则而言的。对于一般的规则,它的可信度=p(condition and result)/p(condition)。例如有如下规则:If B and C then A。则它的可信度是:p(B and C and A)/p(B and C)=5%/15%=0.33。
提高率(或者叫兴趣度):对于上面的一个规则,我们可以发现,当我们从从数据库中直接取A的时候,概率是45%;可在我们的规则中,取到A的概率却只有33.3%。显然,这种情况是我们不愿意见到的,我们应该略去这样的一些规则。所以我们引入了兴趣度的概念,具体的公式如下:兴趣度=p(condition and result)/p(condition)*p(result)。当兴趣度大于1的时候,这条规则就是比较好的;当兴趣度小于1的时候,这条规则就是没有很大意义的。兴趣度越大,规则的实际意义就越好。

   克服实际应用中数据量暴大的问题。当数据量增大时,要考虑的元素组就增长的很快了。
   分裂规则:例如:If A and not B then C。
   用关联规则的方法对序列规则的分析:
   为了进行序列模式的分析,事务数据要满足额外的两个条件:
   一个时标或者序列信息用以决定事务发生的顺序。
   标识信息,用以区别不同的事务。
  可以用于原因结果分析。

    关联规则的优缺点

    优点:
    它可以产生清晰有用的结果。 它支持间接数据挖掘。 可以处理变长的数据。 它的计算的消耗量是可以预见的。
    缺点:
    当问题变大时,计算量增长得厉害。 难以决定正确的数据。 容易忽略稀有的数据。

  • TOP↑
  • 打印
  • 编辑:管理员
  • [热关键词]
    关于国务院发展研究中心… | 关于中国产业竞争情报网 | 联系方式 | 友情链接 | 实习申请 | 广告位招商
    报告联系人:马小姐 电话:010-82252636 传真:010-82250535 E-mail:report@chinacir.com.cn
      地址:北京市西城区裕民路18号 邮编:100029 
    中国产业竞争情报网 版权所有 
    《中华人民共和国电信与信息服务业务经营许可证》京ICP备07001969