您所在位置: 网站首页 / 数据挖掘实验报告(精选5篇).docx / 文档详情
数据挖掘实验报告(精选5篇).docx 立即下载
2025-08-27
约5.5万字
约92页
0
71KB
举报 版权申诉
预览加载中,请您耐心等待几秒...

数据挖掘实验报告(精选5篇).docx

数据挖掘实验报告(精选5篇).docx

预览

免费试读已结束,剩余 87 页请下载文档后查看

10 金币

下载文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

数据挖掘实验报告(精选5篇)

第一篇:数据挖掘实验报告大数据理论与技术读书报告—--—-K最近邻分类算法指导老师:陈莉学生姓名:李阳帆学学号号::201531467专专业:计算机技术日期::2016年8月月31日摘摘要数据挖掘就是机器学习领域内广泛研究得知识领域,就是将人工智能技术与数据库技术紧密结合,让计算机帮助人们从庞大得数据中智能地、自动地提取出有价值得知识模式,以满足人们不同应用得需要。KK近邻算法(KNN)就是基于统计得分类方法,就是大数据理论与分析得分类算法中比较常用得一种方法。该算法具有直观、无需先验统计知识、无师学习等特点,目前已经成为数据挖掘技术得理论与应用研究方法之一。本文主要研究了KK近邻分类算法,首先简要地介了绍了数据挖掘中得各种分类算法,详细地阐述了K近邻算法得基本在原理与应用领域,最后在matlab环境里仿真实现,并对实验结果进行分析,提出了改进得方法。关键词:K近邻,聚类算法,权重,复杂度,准确度1、、引言......................................................................................02、、义研究目得与意义误错ﻩ错误!未定义书签。3、、算法想思想误错ﻩ错误!未定义书签。4、、现算法实现1ﻩ4、1置参数设置误错ﻩ错误!未定义书签。4、2集数据集1ﻩ4骤、3实验步骤误错ﻩ错误!未定义书签。、4析实验结果与分析误错ﻩ错误!未定义书签。5、、思总结与反思误错ﻩ错误!未定义书签。附件11误错ﻩ错误!未定义书签。1、、引言随着数据库技术得飞速发展,人工智能领域得一个分支——机器学习得研究自20世纪50年代开始以来也取得了很大进展。用数据库管理系统来存储数据,用机器学习得方法来分析数据,挖掘大量数据背后得知识,这两者得结合促成了数据库中得知识发现(KnowledgeDiscoveryinDatabases,简记KDD)得产生,也称作数据挖掘(DataMing,简记DM)。数据挖掘就是信息技术自然演化得结果。信息技术得发展大致可以描述为如下得过程:初期得就是简单得数据收集与数据库得构造;后来发展到对数据得管理,包括:数据存储、检索以及数据库事务处理;再后来发展到对数据得分析与理解,这时候出现了数据仓库技术与数据挖掘技术。数据挖掘就是涉及数据库与人工智能等学科得一门当前相当活跃得研究领域。数据挖掘就是机器学习领域内广泛研究得知识领域,就是将人工智能技术与数据库技术紧密结合,让计算机帮助人们从庞大得数据中智能地、自动地抽取出有价值得知识模式,以满足人们不同应用得需要[1].目前,数据挖掘已经成为一个具有迫切实现需要得很有前途得热点研究课题。2、、研究目得与意义近邻方法就是在一组历史数据记录中寻找一个或者若干个与当前记录最相似得历史纪录得已知特征值来预测当前记录得未知或遗失特征值[14]。近邻方法就是数据挖掘分类算法中比较常用得一种方法。K近邻算法(简称KNN)就是基于统计得分类方法[15]。KNN分类算法根据待识样本在特征空间中K个最近邻样本中得多数样本得类别来进行分类,因此具有直观、无需先验统计知识、无师学习等特点,从而成为非参数分类得一种重要方法。大多数分类方法就是基于向量空间模型得。当前在分类方法中,对任意两个向量:x=与存在3种最通用得距离度量:欧氏距离、余弦距离[16]与内积[17]。有两种常用得分类策略:一种就是计算待分类向量到所有训练集中得向量间得距离:如K近邻选择K个距离最小得向量然后进行综合,以决定其类别。另一种就是用训练集中得向量构成类别向量,仅计算待分类向量到所有类别向量得距离,选择一个距离最小得类别向量决定类别得归属。很明显,距离计算在分类中起关键作用。由于以上3种距离度量不涉及向量得特征之间得关系,这使得距离得计算不精确,从而影响分类得效果。3、、算法思想K最近邻(K-NearestNeighbor,KNN)算法,就是著名得模式识别统计学方法,在机器学习分类算法中占有相当大得地位.它就是一个理论上比较成熟得方法。既就是最简单得机器学习算法之一,也就是基于实例得学习方法中最基本得,又就是最好得文本分类算法之一.其基本思想就是:假设每一个类包含多个样本数据,而且每个数据都有一个唯一得类标记表示这些样本就是属于哪一个分类,KNN就就是计算每个样本数据到待分类数据得距离,如果一个样本在特征空间中得k个最相似(即特征空间中最邻近)得样本中得大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近得一个或者几个样本得类别来决定待分样本所属得类别.K—最临近分类方法存放所有得训练样本,在接受待分类得新样本之前不需构造模型,并且直到新得(未标记得)样本需要分类时才建立分类.K-最临近分类基于类
查看更多
单篇购买
VIP会员(1亿+VIP文档免费下)

扫码即表示接受《下载须知》

数据挖掘实验报告(精选5篇)

文档大小:71KB

限时特价:扫码查看

• 请登录后再进行扫码购买
• 使用微信/支付宝扫码注册及付费下载,详阅 用户协议 隐私政策
• 如已在其他页面进行付款,请刷新当前页面重试
• 付费购买成功后,此文档可永久免费下载
全场最划算
12个月
199.0
¥360.0
限时特惠
3个月
69.9
¥90.0
新人专享
1个月
19.9
¥30.0
24个月
398.0
¥720.0
6个月会员
139.9
¥180.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用