您所在位置: 网站首页 / 数据挖掘在电子商务图书.docx / 文档详情
数据挖掘在电子商务图书.docx 立即下载
2025-08-17
约4.1千字
约13页
0
15KB
举报 版权申诉
预览加载中,请您耐心等待几秒...

数据挖掘在电子商务图书.docx

数据挖掘在电子商务图书.docx

预览

免费试读已结束,剩余 8 页请下载文档后查看

10 金币

下载文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

数据挖掘在电子商务图书

数据挖掘在电子商务图书推荐摘要:在这样庞大的图书信息中选择自己想要的信息是比较困难的,这样反而是增加了用户购买图书的难度。为了有效的解决这一问题,出现了图书推荐系统。本文将从数据挖掘方面对电子1.数据挖掘中关联规则的概念数据挖掘就是大量数据中提取或者挖掘知识,这种数据应该是海量的。还有另一种说法是把数据挖掘看成是数据库中知识的发现过程的一个基本步骤。1.1关联规则的概念关联规则可以说是在数据挖掘中相对来说比较常用的一种方法了,Agmwal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题。在这以后有诸多的研宄员对数据挖掘中的关联规则进行了大量的研究。他们的工作有很多,其中就包括对原有的算法进行了优化处理。比如,引进了随机采样、并行思想等。关联规则挖掘的过程是这样的一个流程,首先利用算法根据最小支持度找到频繁项集,再依托找到的频繁项集结合置信度生成形如X—Y的强关联规则。在关联关联规则挖掘过程中用到两个最重要的参数,支持度和置信度。设I={il’i是项集,其中ik(k=l,2,…,m)可以是购物篮中的物品,也可以是保险公司的顾客。设任务相关的数据D是事务集,其中每个事务T是项集,使得TSI。设A是一个项集,且A£T。关联规则是如下形式的逻辑蕴涵:A=>B,ASI,BGI,且AnB=A关联规则具有如下两个重要的属性: 支持度:P(AUB),即A和B这两个项集在事务集D中同时出现的概率。置信度:P(BIA),即在出现项集A的事务集D中,项集B也同时出现的概率。同时满足最小支持度阈值和最小置信度阈值的规则称为强规则。给定一个事务集D,挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度和最小可信度的关联规则,也就是产生强规则的问题。1.2 Apriori算法Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。很多的的挖掘算法是在Apriori算法的基础上进行改进的,比如基于散列(Hash)的方法,基于数据分割(Partition)的方法以及不产生候选项集的FP-GROWTH方法等。因此要了解关联规则算法不得不先要了解Apriori算法。Apriori算法使用的是频繁项集性质的先验知识,是使用了一种称为逐层搜索的迭代方法,其中k项集用于探索(k+1)项集。首先,通过对数据库的扫描,累计每一项的计数,并收集满足最小支持度的项,这样就能找出频繁项的集合。这样得到的集合可以标记L,。然后,使用3^找出频繁项集L2,使用L2找出L3。这样循环下去,直到找到频繁项集k项集为止。这样就对数据库进行了一次完整的扫描。2.关联规则在电子商务图书推荐系统中的具体应用 2.1数据收集、预处理用户可以通过登录到公司的网站进行个人信息的注册,从而形成用户个人信息注册表。用户可以进行图书信息浏览,或查看其他用户对图书产品的评价和感受。当用户对某件图书产品进行购买行为,形成订单之后。数据就会被采集,并进行清洗、集成和转换。当此用户再次进行图书购买行为时,购买记录同样会被采集,并根据图书类别进行分析,逐渐形成关联数据。并存储到图书交易数据库中。2.2生成关联规则假设某个项目集S={sl,s2...,sn}是频繁项目集,假设D是一个数据集,其中T是一个非空的项集。再假设A是一个项集并且有T包含A。有这样一个式子形如A=>B。其中A£I,B£i,B^0,并且AHB=0。这样的规则人=>8在事物集D中是成立的,具有支持度s。概率是P(AUB),还有就是置信度c,概率是P(BIA)。规则人=>8在事物集中的支持度为support,即support(AUB)=support(AUB,D)=So(3)规则A=>B的置信度可以容易的从A和AUB的支持度计数推出,即表示为P(Y|X)=c%。这样给出式子:confidence(A^B)=P(B|A)=support(AUB^D)/siq)port(A*D)(4)其中,support(AUB,D)是包括项集AUB的支持度,support(A,D)是项集X的支持度。对于已经给定的数据集D,求出同时满足最小支持度minsup和最小置信度minconf的关联规则。关联规则须满足这样两个条件:support(A=»B)>minsup;confidence(A=>B)>minconf。2.3关联规则的改进方法大部分关联规则挖掘算法都使用支持度-置信度框架。但是由于算法本身的原因,可能即使满足了最小支持度和最小置信度对用户不感兴趣的信息的探查,仍然会产生一些让用户感到不用的信息。在获得用户购买的行为模式后,并不一定所有的强关联规则都能成为用户所感兴趣的,这
查看更多
单篇购买
VIP会员(1亿+VIP文档免费下)

扫码即表示接受《下载须知》

数据挖掘在电子商务图书

文档大小:15KB

限时特价:扫码查看

• 请登录后再进行扫码购买
• 使用微信/支付宝扫码注册及付费下载,详阅 用户协议 隐私政策
• 如已在其他页面进行付款,请刷新当前页面重试
• 付费购买成功后,此文档可永久免费下载
全场最划算
12个月
199.0
¥360.0
限时特惠
3个月
69.9
¥90.0
新人专享
1个月
19.9
¥30.0
24个月
398.0
¥720.0
6个月会员
139.9
¥180.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用