

如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
基于Python的CNKI查收查引研究科学计量分析可视化 摘要: 随着科学研究的不断发展,科学计量分析在科研领域中扮演着越来越重要的角色。CNKI是我国知名的文献检索平台,其中包含了众多的论文、期刊、会议论文等科研文献,其查收和查引数据是科学计量分析的必要数据来源。本文主要介绍了基于Python的CNKI查收和查引数据的科学计量分析和可视化方法,包括爬虫实现、数据清洗、分析方法、可视化工具等方面。 关键词:科学计量分析;CNKI;爬虫;数据清洗;可视化 一、引言 科学计量分析逐渐成为了科研领域必不可少的一部分。科学计量是指利用定量方法对科学研究的科学、技术、人文和社会科学领域实现确定和分析的过程,其中的数据来源包括文献引用、专利、科技成果奖项、学术会议、学术期刊等方面。CNKI是一个综合性文献检索平台,提供各种学科的文献检索服务,其收录的文献涵盖了国内外期刊、博硕士论文、会议论文等方面,因此其收录的数据对于科学计量分析来说是非常重要的。 Python是一种易于上手的编程语言,并且具有灵活、高效的优势,因此得到越来越广泛的应用。本文基于Python,采取爬虫技术获取CNKI平台上的查收和查引数据,并使用科学计量分析和可视化工具,对数据进行分析和展示,以进一步提高科研数据的利用效率。 二、爬虫实现 爬虫是从网页上获取数据的技术手段,其在科学计量分析中有广泛的应用。本文使用Python编写爬虫程序,从CNKI平台获取查收和查引数据。爬虫程序的主要流程包括以下几个步骤:首先通过CNKI平台的检索功能获取有关文献的信息,例如文献的名称、作者、关键词等;接着通过在检索结果页面中触发获取查收和查引数据的功能,获取相应的数据;最后解析数据,筛选出有用的信息。 三、数据清洗 爬虫程序采集到的数据需要进行清洗,即去除无效信息,使数据具备规整、整洁的特点。数据清洗主要包括去重、缺失值填补、异常值处理等步骤。在本文中,数据清洗的工作主要针对爬取到的查收和查引数据进行处理。 四、分析方法 本文主要采用科学计量分析的方法,对CNKI平台上的查收和查引数据进行分析,包括以下几个方面: 1.展示文献的发布年份、期刊、作者以及关键词等信息; 2.分析各文献的被引用量和期刊影响因子等数据,比较文献的影响力; 3.利用岭回归分析方法,分析关键词与文献被引用量之间的关系,进一步分析关键词对文献的影响力; 4.利用PCA降维分析,将大量的关键词转化为少数几个维度,呈现关键词在人文学科、社会学科和自然学科中的分布情况。 五、可视化工具 为了更好地展示科学计量分析的结果,本文采用了多种可视化工具,包括以下几个方面: 1.使用Matplotlib绘制文献发布年份、期刊、作者等信息的折线图、条形图、气泡图等图表。 2.使用Seaborn绘制各学科关键词的分布情况的热力图、箱型图等图表。 3.使用Bokeh绘制关键词与被引用量的散点图、直方图等图表。 六、结论 本文介绍了基于Python的CNKI查收和查引数据的科学计量分析和可视化方法。通过爬虫技术获取CNKI平台上的查收和查引数据,并使用科学计量分析和可视化工具,对数据进行分析和展示,以进一步提高科研数据的利用效率。

快乐****蜜蜂
实名认证
内容提供者


最近下载
贵州省城市管理行政执法条例.doc
贵州省城市管理行政执法条例.doc
一种基于双轨缆道的牵引式雷达波在线测流系统.pdf
一种基于双轨缆道的牵引式雷达波在线测流系统.pdf
一种胃肠道超声检查助显剂及其制备方法.pdf
201651206021+莫武林+浅析在互联网时代下酒店的营销策略——以湛江民大喜来登酒店为例.doc
201651206021+莫武林+浅析在互联网时代下酒店的营销策略——以湛江民大喜来登酒店为例.doc
用于空间热电转换的耐高温涡轮发电机转子及其装配方法.pdf
用于空间热电转换的耐高温涡轮发电机转子及其装配方法.pdf
用于空间热电转换的耐高温涡轮发电机转子及其装配方法.pdf