




如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
第十章数据仓库技术(DataWarehousing)早期的数据库主要支持联机事务处理 决策支持对数据分析的需求 传统数据库系统不适宜DSS 事务处理和分析处理的性能特性不同 数据集成问题 数据动态集成问题 历史数据问题 数据的综合问题 操作繁简问题⒉数据仓库概念数据结构:这种数据组织的特点: 对相关部门的数据进行收集和处理,重点是“数据”和“处理” 数据按部门的组织结构和业务活动特点进行; 数据是不断变化和反复更新的,所以,是动态的,要求的是 处理的速度和即时性(只反映当时的情况); 数据库中存储的表与部门中的业务报表基本上是对应的,所以, 直观,处理方便,易理解; 数据库建立的本质:数据与处理分离(在程序中不分离) 因为:很多应用涉及同一数据项,而同一数据项分散在不同的 数据库中→造成数据的不一致性。 这样的数据处理方式称为“联机事务处理”——OLTP 数据库的存储要求冗余小(各种范式) 速度快(保留一定的冗余)按主题组织数据的数据结构:按主题进行数据组织: ①企业关心的业务方向:客户,商品,供应商⒋数据仓库中的粒度⒌多维数据库⑴多维数据库报表——交叉报表⑵细化与概化处理VolumeofProd (numbersin1000)OLAP的分析方法-钻取⒍联机分析处理(OLAP)⒎数据仓库设计8.数据库到数据仓库OLTPvsOLAPCRM的业务整合需要数据仓库 数据清洁与集中需要数据仓库 数据分析需要数据仓库客户行为分析 重点客户发现 个性化服务 市场性能评估2.3CRM数据仓库的系统结构数据挖掘:从大型数据库的数据中提取人们感兴趣的知识,这些知识是 隐含的、事先未知的潜在有用信息。 数据挖掘就是对数据库(数据仓库)中蕴涵的、未知的、非平凡 的、有潜在应用价值的模式(规则)的提取。 例1:美国加州一超市连锁店:酒和尿布。⒉概念区别⑴人工神经网络(ArtificialNeural)4.关联算法(Associations)模式(pattern) 用高级语言表示的表达一定逻辑含义的信息,这里通常指数据库中数据之间的逻辑关系。 例如:在超市的商品销售数据库中,我们可以找到以下信息: 男性顾客在购买婴儿尿布时也往往同时购买啤酒 在购买面包和黄油的顾客中,大部分的人同时也买了牛奶 置信度(confidence) 知识在某一数据域上为真的量度。 置信度涉及到许多因素,如数据的完整性、样本数据的大小、领域知识的支持程度等。 没有足够的确定性,模式不能成为知识。 例如:模式‘在购买面包和黄油(X)的顾客中,大部分的人同时也买了牛奶(Y)’的置信度为:支持度(Support) 同时购买X和Y的客户人数占总客户数的百分比称的支持度。 兴趣度(interestingness) 在一定数据域上为真的知识被用户关注的程度。 知识(discoveredknowledge) 满足用户支持度和置信度的模式。 有效性(effectiveness) 知识的发现过程必须能够有效地在计算机上实现。 非平凡性(nontrivial) 能够以确定的计算过程提取的模式称为平凡知识。平凡的知识(如根据数据库中的薪水字段求得职员的平均薪水)不是数据挖掘的目标。 在数据挖掘中,知识的发现过程都应具有某种不确定性和一定的自由度,也就是要发现不平凡的知识。关联规则用于表示OLTP数据库中诸多属性(项集)之间的关联程度。而关联规则挖掘(AssociationRulesMining)则是利用数据库中的大量数据通过关联算法寻找属性间的相关性。 例:(超级市场)在购买商品A的客户中有90%的人会同时购买商品B,则可用关联规则表示为: A→B……………………………….……规则1 我们讲数据挖掘的结果要满足一定的置信度和兴趣度要求,在这里,用户对规则感兴趣的程度我们用规则的支持度来表示。规则1:A→B 支持度(Support) 同时购买A和B的客户人数占总客户数的百分比称为规则1的支持度。 Support(A→B)=Probability(A∩B) 置信度(Confidence) 同时购买A和B的客户人数占购买A的客户人数的百分比称为规则1的置信度。 Confidence(A→B)=Probability(B/A) =Probability(A∩B)/Probability(A)D如果不考虑关联规则的支持度和置信度,那么在事务数据库中存在无穷多的关联规则。事实上,人们一般只对满足一定的支持度和可信度的关联规则感兴趣。 为了发现出有意义的关联规则,需要给定两个阈值:最小支持度和最小置信度。关联规则挖掘的实质是在OLTP数据库中寻找满足用户给定的最小支持度和最小置信度的规则。 关联规则挖掘算法:TheAprioriAlgorithm Apriori算法的原理: 项

ys****39
实名认证
内容提供者


最近下载