您好,欢迎来到尚车旅游网。
搜索
您的当前位置:首页文献作者数据的采集与处理

文献作者数据的采集与处理

来源:尚车旅游网
第9期2019年3月江苏科技信息

JiangsuScience&TechnologyInformationNo.9March,2019文献作者数据的采集与处理

陈道兰

(重庆文理学院图书馆,重庆402160)

摘要:验证文献作者分布规律过程常常需要采集大量的作者数据。文章简要地介绍了利用知网、维

普、万方数据库和期刊主页批量采集文献作者数据的多种方法,同时也介绍了文献作者信息在第一作者的分离、作者频次的统计方面的处理技巧。关键词:作者数据;采集;处理;数据分列;数据透视中图分类号:G272文献标识码:A

0

引言

作为科学计量学与文献计量学的经典定律,洛特卡定律和普赖斯定律揭示了科学工作者人数与其所著论文之间的关系[1]。洛特卡定律描述了科学生产率的经验规律:写n篇论文的作者人数约为写1篇论文作者人数的1/n2;普赖斯定律指出核心作者人数约等于全部作者总数的平方根,核心作者撰写了全部作者的半数论文。自从洛特卡定律和普赖斯定律诞生之后,学界掀起了定律适用性验证的热潮[2-5]。在适用性验证的过程中,常常会涉及大量的作者数据的采集与处理,大量的作者数据的采集是研究洛特卡定律和普莱斯定律适用性的一个无法回避的问题,逐条采集每篇文献的作者信息是不可取的,因此如何批量采集作者信息是一个值得研究的课题。本文就中国知网、重庆维普、万方数据库以及相关期刊主页,结合作者数据采集的实际做法做一个简要的阐述,期望能够对相关学者在研究作者分布规律问题的过程中起到借鉴作用。

1文献作者数据的采集方法

1.1中国知网数据库的作者数据采集方法

中国知网作为集期刊、博硕论文、专利等资源为一体的网络出版平台,业已成为大多数科研工作者首选的数据库。利用中国知网数据库采集期刊文献作者信息时,有多种方式可供参考。

方法1:打开中国知网首页,在高级搜索页面下选择文献来源及需要采集的年限后,出现以“主题排序”的文献题名及作者信息。在该页面中勾选需要采

集的文献,点击“下一页”,直到勾选完所有需要采集

的文献;勾选完成后,点击“导出/参考文献”按钮,在出现的“文献管理中心_文献输出”页面中点击“自定义”按钮,然后在页面的右上方选择所需要采集的字段。最后在该页面中选择按钮“XLS”,将需要采集的数据以Excel表格进行保存。

方法2:在中国知网高级检索页面下,期刊的某些年份的文献信息有可能没有完全显示出来。此时可在该页面下点击所显示文献中的期刊名称,出现中国知网下该期刊的介绍页面,然后在该页面左下方出现知网收录的年份情况。点击某一年份的某一期后,在该页面的右下方出现该期的目录,包括文章的题名及作者信息。将需要采集的文献及作者信息选择后,进行复制粘贴,保存到Word文档即可。

方法3:一般地,期刊在每一年的最后一期会将该年度发表的文章题名及作者信息以目次索引的方式汇总。可以在中国知网的高级检索页面下,输入检索条件:篇名为“目次索引”,文献来源为所需要检索的期刊名,则在文献显示页面中出现该期刊各年的目次索引。将所显示的目次索引下载后即可得到文献作者信息。需要注意的是,该方法不一定能得到所有年份的数据,需要结合其他方法。1.2维普数据库的作者数据采集方法

方法1:进入维普网主页后,选择“期刊大全”,在“期刊名”中输入要检索的期刊名称,点击“搜索”按钮,出现该刊的介绍信息,然后点击该期刊名称或图标,在出现的页面最下方有该期刊的收录汇总。点击

基金项目:项目名称:共词矩阵的构造及其在文献聚类分析方法中的应用;项目编号:Z2016TS72。

作者简介:陈道兰(1970—),女,重庆人,馆员,学士;研究方向:信息咨询和读者服务。

-17-

第9期2019年3月江苏科技信息·图书情报

No.9March,2019某年某期后,该期的目录则呈现在新页面中,然后进

行选择复制粘贴,保存到Word文档中即可。

方法2:与中国知网的检索方法1相似。进入维普网高级检索页面,在任意字段栏选择“刊名”,然后在该栏输入需要采集的期刊名称,在“时间限定”栏中选择需要检索的起止年限后,点击“检索”按钮,出现检索到的文献“题名”“作者”“出处”“发文年”“被引量”等信息。在该页面中勾选需要采集的文献(或点击“全选”按钮),点击“下一页”,直到勾选完所有需要采集的文献;勾选完成后,点击“导出题录”按钮,在出现的新页面中点击“自定义导出”按钮,然后在页面的下方选择所需要采集的字段。最后在该页面中点击“确定”按钮,将需要采集的数据保存到以“*.txt”为文件名的写字板文件中即可;也可以点击“Excel导出”按钮,将采集到的数据以Excel文件形式保存。

方法3:在维普的高级检索页面下,输入篇名“目次索引”和文献来源(需要检索的期刊名称)等检索条件,其余步骤与中国知网的检索方法3相似。1.3万方数据库的作者数据采集方法

方法1:进入万方数据库主页后,选择“期刊”,输入要检索的期刊名称,点击“搜期刊”按钮,出现该刊的简要介绍信息,然后点击该期刊名称,出现含有期刊封面图标的期刊介绍。在出现的页面左下方有该期刊收录的“年份刊次”汇总。点击某年某期后,该期的目录则呈现在新页面中。此时有两种方法可供参考。第一种方法是进行选择复制粘贴,保存到Word文档中即可;第二种方法是勾选所需要采集的文献,点击下一页,直到勾选完所有需要检索的文献,然后点击“导出”按钮,在出现的新页面左下方点击“自定义格式”按钮,选择需要导出的字段,再点击“导出”按钮,将所需要采集的数据保存到以“*.txt”为文件名的写字板文件中即可。

方法2:在万方数据库高级搜索页面下的检索信息栏,选择“期刊名称/刊名”,输入所要采集的期刊名称,点击“检索”按钮,勾选所需要采集的文献,点击下一页,直到勾选完所有文献,然后点击“批量导出”按钮,在出现的新页面中再次勾选“全选”按钮(很重要),再选择“自定义格式”,选择需要输出的字段后点击“导出”按钮,将所采集的数据保存在写字板文件中。

方法3:同知网方法3,不再赘述。

1.4期刊主页下的文献作者数据采集方法

部分期刊开通了期刊主页,可以通过期刊的主页进行文献作者数据的采集。以期刊《情报学报》为例,先通过百度搜索到《情报学报》,打开该期刊的主页,在该期刊主页左边出现该刊的“年期列表”,点击某年某期后,在页面右边“本刊收录年代”,点击“更多”,则出现所有收录的年代列表。在收录年代的下方则出现文章列表,选择所需要采集的文献作者数据,复制粘贴到Word文档中即可(该方式复制粘贴到Word文

件中的数据是以Word表格形式保存的)。2文献作者数据的处理方法

从上面所介绍的各种文献作者数据的采集方法看到,所采集到的数据的保存格式不尽相同。为了提取作者(特别是第一作者)信息,需要对所采集到的信息进行处理。下面就不同保存格式进行说明。2.1采集的数据先处理成Word表格形式

通过万方数据库方法1,2和维普数据库方法2采集到的作者信息是以写字板形式保存的。先将写字板里面的内容复制粘贴到一个空的Word文件中,然后将每一篇文献的数据修改成同样条数的数据,再将所有数据通过Word的“文本转换成表格”功能,将含有作者信息的内容放在Word表格的同一列。

通过知网、维普、万方数据库采集到的“目次索引”是以Caj或Pdf格式进行保存的,将所下载到的Caj或Pdf文件进行复制粘贴到空的Word文件中,然后将每一篇文章及作者信息修改成两栏内容,一栏是文章题名,一栏是作者信息,再通过Word的“文本转换成表格”功能,将含有作者信息的内容放在Word表格的同一列。

通过知网方法2、维普方法1采集到的数据是以文字形式保存在Word文件中的,同上所述,将每一篇文章及作者信息修改成两栏内容,再通过“文本转换成表格”功能,将含有作者信息的内容放在Word表格的同一列。

通过期刊主页采集到的数据已经是Word表格,此步不必处理。

2.2将Word表格形式的数据转换成Excel表格

将所处理得到的Word表格数据复制粘贴到空的Excel表格,此时作者的信息应在同一列,但是某一行中可能会出现多个作者。如果只采集第一作者信息,则需要通过Excel表格的分列功能,将第一作者和其他作者进行分离。具体操作方法是:先选择需要分列的作者单元格,点击Excel工具栏的“数据—分列”,点击“下一步”,在“文本分列向导3步骤之2”中选择分隔符号,勾选需要的分隔符(一般地,所采集的信息中作者之间常用分号分隔,故一般都要选择分号作为分隔符),再点击“下一步”“完成”,就可以把第一作者同其他作者分离开来。有时候作者名之后会出现标注第几作者的信息,如“张三;王四”,此时在选择分隔符时,就需要勾选“其他”,然后在“其他”选项后填入左中括号“[”。

如果需要对第一作者的频次进行统计,则需要用到Excel的数据透视表功能[6]。具体操作方法是:先在所有数据的第一行之前插入1行,在新的第1行作者列上方输入“作者”,在作者列的右边插入1列,在作者的右边1列单元格都输入数字“1”,然后在插入的1列的第1行输入“频次”。选择作者和频次这两

-18-

第9期2019年3月江苏科技信息·图书情报

No.9March,2019列,点击“数据—数据透视表和数据透视图”,点击“下

一步”“完成”,在出现的新页面中,将“作者”拖至“将行字段拖至此处”的地方,将“频次”拖至“请将数据项拖至此处”的地方,得到数据透视表。在数据透视表中选择“汇总”所在列,按降序排列,得到作者出现的频次统计结果。3应用举例

下面以采集期刊《江苏科技信息》的作者信息为例介绍上面方法的操作要领。在中国知网高级搜索页面的“文献来源”栏中输入《江苏科技信息》,点击“检索”按钮,只能搜索到1994—2019年的文献。在该页面中勾选需要采集的文献,点击“下一页”,勾选前500篇文献,点击“导出/参考文献”按钮,“自定义”按钮,再勾选需要采集的字段。然后选择按钮“XLS”,将数据以Excel表格进行保存。由于中国知网一次最多只能勾选500篇文献,因此要将原勾选的文献进行清除,以便选择剩余的文献。然后回到勾选文献的页面,点击清除按钮,以清除掉刚才勾选的文献。再点击“下一页”,勾选剩余的文献,重复前述操作,直至保存完所有作者信息。

《江苏科技信息》创刊于1984年,因此中国知网没有将所有文献收录完全。其余文献可以从其他数据库进行查找。如在重庆维普数据库中可以查找到《江苏科技信息》19—1993年的部分文献。具体地,进入维普网高级搜索页面,在“刊名”栏输入《江苏科技信息》,点击“检索”按钮,查找到19年到1993年的226篇文献,勾选所有文献,点击“导出题录”按钮,在出现的新页面中点击“Excel导出”按钮,将需要采集的数据保存到Excel文件中。从上面两大数据库所查找到的文献依然不完全。不过,通过上述途径查找到的文献占据了几乎95%的文献,因此大体上能体现作者分布规律。

将上述保存的多个Excel表格中的“作者”列全部复制到新表格中,分离出第一作者,然后按照作者频次的统计方法统计出第一作者的频次,频次排在前

18的作者结果如下。

王遐(45)、蔡忆宁(38)、王永顺(23)、郭巍(22)、宋汝贤(22)、唐宝莲(20)、夏雷(16)、曾永沪(14)、甘利人(13)、游磊(12)、陈静(11)、杨水旸(11)、胡正强(10)、李敏(10)、马永浩(10)、吴林海(10)、夏太寿(10)、常海星(9)。

得到第一作者的频次统计结果后,就可以按照洛特卡分布验证方法,得到洛特卡分布特征参数值,从而就可以验证期刊是否服从洛特卡分布规律了。4结语

由于在验证作者分布规律过程中需要采集大量的作者数据,逐条采集每篇文献的作者信息是不可取的,因此常常需要进行批量采集作者信息。上面所谈到的各种方法为批量采集作者信息提供了可行性,但同时也要看到,单靠一种方法有时候不能采集到所有信息,因此常常需要将多种方法、多种数据库结合使用,才能采集到理想的数据。上面所谈到的数据采集方法不局限于作者信息的采集,还可以类推到诸如用于构建共词矩阵的关键词信息采集等方面。

参考文献

[1]D·普赖斯,张季娅.洛特卡定律与普赖斯定律[J].科学学与科学技术管理,1984(9):17-22.[2]周爱民.含零等级数据的洛特卡拓展模型[J].图书情报工作,2013(1):78-82.[3]张海燕.乘幂拟合法在确定洛特卡分布和定律参数中的应用[J].图书馆论坛,2014(1):18-21.[4]陈道兰.广义洛特卡分布特征参数的稳定性研究——以《情报理论与实践》为例[J].情报理论与实践,2014(8):28-31.[5]陈道兰,毛一波.广义洛特卡分布特征参数解区间波动研究[J].情报探索,2018(5):21-25.[6]任静.Excel2016入门与提高[M].北京:人民邮电出版社,2016.

(责任编辑王永超)

Researchondataacquisitionandprocessingofdocumentauthors

ChenDaolan

(Library,ChongqingUniversityofArtsandSciences,Chongqing402160,China)

Abstract:Intheprocessofverifyingtheauthor’sdistributionlaw,alargeamountofauthordataisoftenneeded.ThispaperbrieflyintroducesthevariousmethodsofdatacollectionbymeansofCNKI,CQVIP,Wanfangdatabaseandhomepageofjournals,andprocessingskillsofseparationandfrequencystatisticsforthefirstauthors.Keywords:authordata;acquisition;processing;databreakdown;dataperspective

-19-

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- sceh.cn 版权所有 湘ICP备2023017654号-4

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务