Journal of the China Society for Scientific and Technical Information, Aug. 2018, 37(8): 813-821 DOI: 10.3772/j.issn.1000-0135.2018.08.008
基于图书出版行业大数据的 选题决策分析模型研究
曾 文1,徐红姣1,车 尧1,3,李 辉2
(1. 中国科学技术信息研究所,北京 100038;2. 北京市科学技术情报研究所,北京 100044;
3. 《情报学报》编辑部,北京 100045)
摘 要 情报研究工作的本质是解决管理决策过程中信息不完备问题,通过情报工作将情报产品用于行业的管理
决策过程中是情报工作的应用场景之一。我国的图书出版行业已进入大数据时代的行业发展阶段,传统的国内图书出版行业的生产和出版等管理决策面临挑战。图书出版业各产业链下不同类型的数据既具备大数据的特点,也具有突出的行业特色。目前,国内针对海量、多类型和多来源的图书出版数据,进行数据分析模型构建研究工作比较匮乏。本文以图书出版行业管理决策过程为例,运用情报分析的方法,依据图书出版行业实际数据现状,提出可应用的选题决策分析模型,提出并构建图书出版选题决策模型的指标评价体系,并应用真实的图书出版数据进行了相关实验分析工作。实验结果表明,本文提出的数据模型具有一定的可应用性,为下一步新闻出版大数据的情报分析平台建设奠定了研究基础。
关键词 情报工作;图书出版;行业大数据;选题决策;模型
Research on Topic Selection Decision-making Analysis
Model for Big Data in Publishing Industry
Zeng Wen1, Xu Hongjiao1, Che Yao1,3 and Li Hui2
(1. Institute of Scientific and Technical Information of China (ISTIC), Beijing 100038; 2. Beijing Institute of
Science and Technology Information, Beijing 100044; 3. Editorial Department of Journal of
the China Society for Scientific and Technical Information, Beijing 100045) Abstract: The essence of intelligence studies is to solve the problem of incomplete information in the process of management decisions. One application area is the application of intelligence products to the process of management decision making. The publishing industry has entered the era of big data, which has greatly affected the traditional publishing industry in China. The various data in industrial chains of publishing have both the characteritics of big data and the outstanding characteristics of the industry. At present, there is little related research in China. Because of this, the decision-making process of publishing management was taken as an example. The method of intelligence analysis and actual data from the publishing industry were used to carry out the research. An applicable analysis model was proposed, and the index evaluation system of topic selection was constructed. Actual data were used to carry out re-lated experiments and analysis. The experimental results showed that the proposed data model was practical, laying the
收稿日期:2018-01-24;修回日期:2018-05-29
基金项目:国家社会科学基金项目“基于事实型科技大数据的情报分析方法及集成分析平台研究”(14BTQ038)。
作者简介:曾文,女,1973年生,博士,副研究员,硕士生导师,主要研究领域为科技情报分析技术、情报理论与方法,E-mail:
zengw@istic.ac.cn;徐红姣,女,1985年生,硕士,助理研究员,主要领域为情报学研究;车尧,男,1982年生,博士,副编审,主要研究领域为编辑出版、期刊研究;李辉,女,1975年生,硕士,副研究员,主要研究方向为科技情报。
814 情 报 学 报 第37卷
foundation for the construction of the big data platform in the future.
Key words: intelligence studies; publishing industry; big data; topic selection decision; model
1 引 言
情报研究的核心内容之一是在已掌握的信息数据资源基础上,使用各种专业知识、工具和技能对未掌握的数据和资料进行评估和预测,解决管理决策过程中的信息不完备问题[1]。从质和量的视角看,情报分析方法包括定性方法和定量方法。其中,定量方法是以数学方法为基础,以量化要素为特征,形成结论[2]。本质上,量化是以定性为基础的,因为在对一个研究对象进行量化研究前,首先必须根据研究对象的性质、任务、目的,确定量化调查对象的范围,规定分析这个对象所用的指标和分组方法。计算机技术的发展带来运算能力的提升,为量化研究提供了数学模型方法应用的客观基础。用数学语言构建原型,用数学方法解析问题的模型化方法,在情报分析实践中具有独特优势[3]。根据IBM的研究,我们每天创造大约2.5亿字节的数据。这些数据来自多个数据源,如社交媒体网站和应用、智能手机的使用活动、贸易和交易活动、数字图片和视频等。知名的咨询公司麦肯锡在2011年最早提到了“大数据”的概念。简言之,大数据就是通过已有的主流(传统)技术和工具,在可接受的时间范围内处理和分析数据集。大数据在发展体量(volume)、多样性(variety)、价值密度(value)及处理速度(velocity)方面都具有突出的特点,被称为大数据的4V特 性[4-5]。图书出版行业已进入大数据时代的行业发展阶段[5],图书出版行业的数据如何建模、描述、组织、保存、访问和共享,以及如何利用泛在网络数据,辅助和实现国家新闻出版广电总局及相关图书出版单位的出版数据的协同与分析,并服务于图书出版管理和发行事业的创新和发展等现实需求问题亟待解决。然而,如何基于海量的、度的图书出版数据对图书著作进行完备的和可应用的分析和决策等基础性的研究工作,在国内研究领域仍比较匮 乏[6-7]。本文基于我国图书出版行业对数据进行分析和管理决策的需求,将模型化方法用于行业领域的情报分析实践中。
2 国内外研究现状
2.1 图书出版行业现状分析
图书出版行业中包括以下数据信息类型:①内
容信息数据,即出版图书的内容信息。②索引信息数据,即图书的内容索引信息和附加信息,包括作者、题名、关键词、主题、内容摘要、目录、参考文献、书号(刊号)、定价、开本、出版单位、出版年份等。③经营信息数据,即图书出版和经营过程中发生的生产与经营数据,包括成本和利润的财务数据,也包括原材料和产品的生产数据,还包括入库、发货、库存、退货的发行数据等。④销售信息数据,图书出版进行发行环节发生的图书销售数据。⑤网络信息数据。新媒体数据时代,网上书店、各类搜索引擎、门户网站和电商等具有图书的索引信息和部分内容信息,以吸引读者或消费者前往注册、浏览和消费。用户通过网络进行搜索、阅览、评价。用户的话题、态度、社交关系、活跃程度、地理位置等用户行为数据,以及性别、教育程度、收入状况、职业等人口学统计数据等在网络上均会被保存。分析以上信息数据,可获知市场的热点、作者的声望和读者的偏好等分析结果[8]。
目前图书出版数据的获取、存储、管理、全面利用与分析,整体上处于一个较低的水平。对于多数的图书出版单位均面临着很高的数据收集和分析成本,仅有少数几个大的图书出版机构可以开展大数据级的数据存储、分析和应用。但是在涉及电商、出版业务的销售和顾客数据时获取的数据极为有限,甚至不可获取。因为这些数据绝大多数掌握在电子商务公司、社交网络网站、平台运营商、通讯和移动运营商的手中,对于出版单位来说,这部分数据的获取是非常困难的。因此,国家新闻出版广电总局等相关管理机构和单位必须管理和促进数据的生成、获取、销售等整个流通过程中的数据共享和分析,促进互联网和出版单位的深度合作以改进我国图书出版行业在图书出版和发行过程中进行科学的规划和决策管理[9]。
2.2 国内外研究现状
对图书出版行业来说,先进的数据分析能力可以帮助:①内容策划。大数据分析技术可以帮助出版社对大量数据进行分类、分析,这些信息包括国家有关和专业领域有关、媒体信息、教育界信息、作者译者信息、同类产品的市场信息等。如果能够做好充分的数据采集,并对这些数据进行科学分析,出版行业的选题针对性会更强、更加有
第8期 曾 文等:基于图书出版行业大数据的选题决策分析模型研究 815
的放矢[8]。②图书研发和生产。内容物的研发与生产是一个复杂的过程,大数据能够对图书研发和生产中的不足自动汇总分类,对大量历史数据进行深度分析,从而全面了解各阶段的进展。目前数字出版产品的研发过程由RDM(研发管理)系统进行管理;制作(生产)过程一般由ERP(企业资源计划)系统和数字化的制作工具管理;供应链由SCM(供应链管理)系统管理。如果利用这些系统把产品研发和生产过程中产生的所有数据进行收集分析,从中提炼规律并加以利用,对优化流程、提高产品的生产效率和质量有非常重要的意义。③市场方面[9]
。通过对大量数据进行分析,可以帮助公司做出准确的预测,规划销售战略,评估竞争对手威胁,预测消费者行为变化,增强供应链以及改进业务发展计划。对于图书出版而言,只有在大数据分析的支持下,精准营销、图书推送、知识要素阅读、知识服务等理念才会变成现实。因此,图书出版行业最上游和最重要的数据分析模型是选题决策模型。国内外专门针对图书选题决策的研究相对较少,而且基本偏于理论化,难以应用
[10-19]
。例如,国外曾有学者提
出个性化基于关联的主题选择(ATS)模型,即根据用户偏好与主题中获取的结构化模式之间的语义相关性,从一组主题中识别出语义上有效和相关的主题,通过用户兴趣驱动交互式主题建模过程[16-17]。由于选题策划方案的选择存在着许多模糊因素,有研究人员采用模糊数学综合评价方法来进行方案的选择,模糊综合评判模型基于模糊数学理论对某一选题进行模糊综合评判,采用定性分析和定量计算相结合的手段,尽量排除或减小主观因素的影响和干扰,从而可提高选题论证的公正性和准确性[18-19]。
3 图书出版行业的选题决策数据分析模型
模型化方法在情报领域中的应用,是20世纪80年代伴随计算机技术发展起来的。研究机构和情报分析部门将该方法运用到具体的战略情报预测和研究上。例如,1982年,美国兰德公司构造预测海湾形势的“MARKII”战略模型,其预测结果帮助美军进行多年的军事准备和应急部署计划,在1991年伊拉克入侵科威特后,美国迅速反应,出兵海湾地区。模型化方法将情报分析提升到一个新高度,分析人员使用各种模型,如图示、表格、地图等来分析问题或将其可视化。政治分析人员创建模型来预测选举结果,经济学家建立复杂模型预测经济趋
势和贸易活动等等。模型可帮助分析人员确定问题中所有已知部分,用有意义的方式将其呈现出来,便于理解。
选题是编辑依据国家、单位的出版方针,以自身的政治认知能力、社会活动能力、判断分析能力和语言文字能力等主观能力为基础,对各类出版信息资源进行开发、设计的一种创造性活动。根据选题策划对象的范围,可以分为宏观策划(长期策划)和微观策划(短期策划)。宏观策划主要是出版社层面完成一段时间的总体规划,由总编室牵头,抽调人员开展。宏观策划主要关注国家大的行业发展,提出一个大的选题方向,选择几个主题,确定总的出书数量,注重总体效益,不会关注单本图书的策划。宏观策划一般包括:背景、意义、可行性、必要性、社会效益(包含经费预算)、经济效益、选题方向结构(重点)、具体进度安排、共享分析、保障措施等内容。微观策划是编辑层面的,针对一个选题确定定价、印册、发行和营销等甚至更具体的东西。微观策划需要分析作者群体、历史图书、整个团队编辑人员的结构、市面上的精品等,更关注的是经济效益。当前我国出版机构主要依赖主编、编辑的经验开展选题策划,选题质量受主观因素影响较大。随着网络信息技术和消费终端的普及,一些出版企业采用不同的信息技术或产品,尝试通过客观数据分析来增强选题策划的质量和水平,提高出版产品的社会效益和经济效益。随着我国市场经济的日趋成熟,出版行业的竞争也日趋激烈。出版行业已经从数量规模型增长阶段转向质量效益型增长阶段。选题是出版产品的“种子”,好的出版产品需要好的选题策划。选题策划不仅要提出选题、物色作者、组织书稿,更重要的是做出符合市场需求、满足读者需要的图书、期刊等出版物产品,使作者的著述得到传播,使出版者的投入获得回报。图书的产生历经创作、生产、传播和服务等主要阶段,如图1所示。
在传统出版流程中,选题策划的提出更多依靠市场调查时获得的数据,透过市场调研的数据可以看到同一类型出版物的出版数量和销售情况等,从一个侧面反映该类出版物的受欢迎程度。这种方法的问题是,市场数据的搜集是随机抽样获得的,不能准确客观反映选题的市场价值,容易造成同质内容大量产生,导致出版资源的大量浪费。在“互联 网+”时代,出版流程中的产品数据、市场数据、用户消费数据的融合程度日益加深,作者和出版机构不
816 情 报 学 报 第37卷
图1 图书产生流程关系图
仅是知识和信息的提供者,也是社会人机关系的整合者。因此,如果沿用传统方式,从市场调研开始,到责任编辑提出内容,再到各级选题会层层论证方式决定选题决策,不仅费时费力,更滞后于瞬息多变的市场环境,容易错过图书的最佳出版时机。所以,在大数据时代应抛弃以随机抽样和因果推论为典型代表的传统选题决策思维。利用大数据技术,出版单位可以更实时、准确、低成本地分析现有市场的潜在需求和趋势,通过数据分析,出版单位可以相对清楚了解各个地区市场的读者偏好,针对不同目标市场进行偏好组合以生产出符合不同地区市场需求的图书出版物,获得比传统市场调研更好的结果。此外,通过对用户消费数据的分析,可以了解用户兴趣偏好,分析出用户需求,并以此作为出版产品更新迭代的动力,生产出符合用户潜在需求的图书产品,借助数据分析出版单位可将生产流程的标准化与产品内容的个性化统一,通过对用户偏好的组合,将用户喜欢的作者、风格和题材类型相组合,进行选题决策并策划一系列的畅销图书,即通过科学的选题决策方法,可以降低生产成本和需求风险。
预测和决策效果的重要影响因素。在实际图书出版行业中,影响决策的因素比较复杂。所以,构建、多角度的评价体系是可取的,特别是在数据规模有限和数据信息不完备的条件下,建立完备的指标评价体系是非常必要的,相应的数据分析模型以不同维度的评价指标数值的统计计算分析为主。此外,在图书的选题决策过程中,网络数据和读者(用户)数据既是数据获取的难点,同时也是决策过程中的重要数据源之一。例如,通过对主流社交平台(如豆瓣网、人人网、微博、微信及专业领域的交流平台等)和电商平台提供的记录用户行为(浏览行为、购买记录、发表的言论等)的海量数据进行分析,筛选出各领域的当前热点议题作为备选选题,相关的权威或焦点人物作为作者人选,同时对其相关用户的性别、年龄、职业、地理位置等信息进行分析,以准确定位目标读者群和测量市场容量的选题策划方法。在数据可获取的情况下,本文提出选题决策模型的整体指标评价体系,如表1所示。
3.2 选题决策模型的应用研究
依据当前图书出版行业的可获取数据的实际情况,可以整合多源数据为图书的选题提供决策依据。即将获取图书的中图分类号、出版社、印刷数量、总销售数据量及各个地区的销售数量、电商与社交媒体网站图书分类、星级评分、出版年份以及售价等数据,通过对这些数据的整合判断整体和局部的图书主题热点。
3.1 选题决策模型的指标评价体系
选题决策模型的目的是预测和决策,其依据是对数据的统计、学习和分析。预测是在一定信息条件下,对于未来状态的科学判断。信息总是不完全的,因此预测就不一定是正确的,预测有效性成为
第8期 曾 文等:基于图书出版行业大数据的选题决策分析模型研究 817
表1 选题决策模型评价指标
一级指标 作者
二级指标 创作能力
三级指标 著作平均销量 同类书作者排行 畅销品占比 获奖次数 读者的认可度 与同类书差异性 创新性 热度 推荐度 经济度 新颖度 合理性 导向正确 读者定位准确性 再版次数 影响时间 读者认可度 输出版权量 获奖次数 出版规模 单品利润率 图书获奖品种数 市场占有率 读者认可度 行业排名 再版品类数 互联网威胁 年新品比率 自身成功率 特色图书类别 利润率 人力资源 信息技术水平 创新能力 风险控制水平 同类书销量占比 同类书销量排行 销售走势分析 库存占比 库存排行 库存走势
分析方法
统计分析 统计分析 统计分析 统计分析 读者评论分析 定性分析 新词挖掘
热词及搜索、阅读分析 专业及网络推荐分析 同类书特征分布 同类书特征分布 同类书特征分布 定性分析 读者分布分析 统计分析 统计分析 读者评论分析 统计分析 统计分析 统计分析 统计分析 统计分析 统计分析 读者评论分析 统计分析 统计分析 定性分析 统计分析 统计分析 统计分析 统计分析 定性分析 定性分析 定性分析 定性分析 统计分析 统计分析 销售走势分析 统计分析 统计分析 库存走势分析 统计分析 统计分析 统计分析 定性分析 定性分析
数据来源 销售数据 销售数据 图书销量排行榜 国内外图书奖项数据 用户网络评论 专家判断
图书出版、产品数据 用户搜索及阅读数据 相关网站推荐信息 图书信息表 图书信息表 图书信息表 专家判断
图书及读者信息表 图书信息表
一段时间销量排行榜 用户网络评论 图书信息表
国内外图书奖项数据 图书信息表 成本、销售数据 国内外图书奖项数据 销售数据 用户网络评论 出版商排行榜 图书信息表 专家判断 图书基本信息表 图书销量排行榜 图书、销售数据 销售、成本数据 专家判断 专家判断 专家判断 专家判断 销售数据 销售数据 销售数据 库存数据 库存数据 库存数据 馆藏数据 借阅数据 借阅数据 读者需求 专家推荐
认可度
图书
内容
形式
社会效益
经济效益
出版商
竞争能力
业务能力
发展能力
市场 销售
库存
图书馆 馆藏 借阅
同类书馆藏占比 借阅占比 借阅排行 借阅需求 专家推荐
818 情 报 学 报 第37卷
图书的类别包括“教育类”、“专业类”以及“大众类”。针对专业图书,可以依据中图分类号作为图书的主题类别,针对大众类图书,则依据电商网站的图书分类作为图书的主题类别。以专业图书《机器学习》为例,其分类号为TP181,根据需求分析不同粒度的主题热度,包括T、TP、TP1、TP18、TP181等多个粒度,用于不同粒度的选题需求。同理,以电商网站的图书分类作为图书的主题类别,依据图书分类的层级多少区分主题粒度。以《机器学习》一书为例,其电商网站分类为“计算机与互联网>计算机控制仿真与人工智能>人工智能”,根据需求分析不同粒度的主题热度,包括计算机与互联网、计算机控制仿真与人工智能、人工智能等多个粒度,用于不同粒度的选题需求。
通过获取图书在各个社交媒体与电商网站的用户星级评分,如豆瓣、亚马逊、当当等,以星级得
分均分作为该图书的用户满意度得分,具体计算公式如下:
1sat
N
N
stari (1)
i1
其中,N为网站数量,stari为图书在网站i的星级均分。
以图书的销量印刷比作为图书的关注度得分,具体计算公式如下:
warmsalejsalej/press
n
(2)
i1
其中,warm为图书的关注度,press为图书的总印刷
量,salej为图书在地区j的销量。
基于前文对图1的分析,本文提出的图书选题决策模型包括两种:一是基于用户消费数据的选题决策模型,二是基于市场数据的选题决策模型。基本流程分别如图2和图3所示。
图2 基于用户消费数据的选题决策模型
图3 基于市场数据的选题决策模型
第8期 曾 文等:基于图书出版行业大数据的选题决策分析模型研究 819
表3 销售书目数据
4 实验与分析
实验数据来源为电商网站的用户评分及图书基本信息,其中图书书目共43995条,销售数据共有1728566条,涉及43995本书,参见表2和表3。
发行商
凤凰传媒 湖北省新华书店 湖南省新华书店 江西新华书店 上海新华传媒
书目数量
新华文轩出版传媒
销售数目数量 19842 59471 387472 50605 179171
409 703490 328107
表2 出版书目数据
出版社
人民交通出版社 1285 云南新华书店 中南传媒 63 浙江新华书店 高等教育出版社 25773
选题决策分析的展示对象为主题,主题用词来化学工业出版社 1062
表示,通过统计整体分析每个主题粒度下的所有主九州出版社 20
人民邮电出版社 4049 题的热度。以
2017年下半年为例,主题热点最高的
4、表5。
外语教学与研究出版社 581 图书依次是“城市交通运输”、“儿童文学”、“企业经中国建筑工业出版社 747 济”、“汽车工程”等。具体结果见表
表4 不同时间段满意度排名前10位的主题表
2016年上半年 2016年下半年 2017年上半年 2017年下半年 主题
热度
主题
热度
主题
热度
主题
热度
国家行政管理 0.1516 城市交通运输 0.1497各体文学评论和研究 0.0551 国家行政管理 0.0519中国经济 0.0526 中国经济 0.0376法的理论(法学) 0.0338 各体文学评论和研究
0.0376
高等教育 0.0301 企业经济 0.0256企业经济 0.0276 法的理论(法学) 0.0233金融、银行 0.0251 文学评论和研究 0.0218社会生活与社会问题 0.0238 高等教育 0.0218马克思主义的学习和研究 0.0226 中国农业经济 0.0203中国农业经济 0.0213 初等教育 0.0181
城市交通运输 0.4374 城市交通运输 0.2699国家行政管理 0.0616 儿童文学 0.0272各体文学评论和研究
0.0219 企业经济 0.0196
0.0174
中国经济 0.0188 汽车工程 0.0174中国人物传记 0.012 各体文学评论和研究
文学评论和研究 0.0115 国家行政管理 0.0163法的理论(法学) 0.011 一般性问题 0.0163儿童文学 0.0104 各国经济 0.0152城市与市政经济 0.0104 法的理论(法学) 0.0152绘画技法 0.0104 文学评论和研究 0.0141
表5 特定主题随时间满意度的变化(以“社会生活与社会问题”主题为例)
主题最大热度 主题平均热度 主题最小热度
2016上半年 2016下半年 2017上半年 2017下半年
0.1516 0.1497 0.4373 0.2698 0.0063 0.0040 0.0039 0.0049 0.0012 0.0007 0.0005 0.0010
社会生活与社会问题 0.0238 0.0158 0.0052 0.0043
本文以折线图形式反映某个特定主题下,随时间的热度变化(同时辅以主题最大热度、最小热度和平均热度三个曲线,展示选定主题在所有主题中的相对情况)。特定主题粒度下,通过主题的最大、最小、平均热度曲线对比,分析待选主题在整个主题集合中的热度。以图4为例,社会生活和社会问题热度,处于平均热度水平。
模型中营销决策的重点是为不同地区确定不同
图4 基于用户消费数据的选题决策模型分析结果
820 情 报 学 报 第37卷
的营销策略,主要是不同地区度的对比和展示。分析结果如表6~表8、图5和图6所示。以图5为例,整体分析不同地区对“建筑”主题的关注度随时间变化的趋势(“热”、“冷”、“不冷不热”),从图5可以看出,2017年7月,上海地区“建筑”类主题的图
书热销,湖北地区“建筑”类主题的图书冷销,江苏地区“建筑”类主题的图书不冷不热。以图6为例,局部分析某个地区用户热销图书按时间的变化趋势,从图6可以看出,上海地区在2017年9月的热销图书是“施工”类图书。
表6 给定时间段不同地区关注的Top 10主题(以2017年10月为例)
主题
Top1 平面设计 Top2 领导学 Top3 临床心理评估 Top4 创业规划 Top5 社会发展与变迁 Top6 幻想小说 Top7 教育哲学 Top8 诗文评类
地区
湖北
旅游法规 世界各事 诗文评类
湖南
生活哲学 教育哲学 历史研究
江西
创业规划 社会发展与变迁 数理科学 领导学 平面设计 诗文评类
上海
领导学
注册会计师(CPA)考试艺术课堂 平面设计 教育哲学 信息检索与管理
云南
注册会计师(CPA)考试创业规划 领导学 创业规划 幻想小说 社会发展与变迁
数理科学 临床心理评估
注册会计师(CPA)考试注册会计师(CPA)考试 创业规划 社会发展与变迁 艺术课堂 幻想小说
教育哲学 临床心理评估 艺术课堂
幻想小说 数理科学 世界各事
Top9 注册会计师(CPA)考试 临床心理评估 Top10 信息检索与管理
教育哲学
表7 不同地区对给定主题的关注度随时间变化表(以“建筑”主题为例,近半年数据)
时间
湖北
湖南
江苏
江西
上海
云南
浙江
201705 0.0244 0.0208 0.0798 0.0000 0.0228 0.0015 0.0911 201706 0.0000 0.0156 0.2236 0.0000 0.0366 0.0024 0.0853 201707 0.0000 0.0090 0.4391 0.0015 0.9281 0.0038 0.0237 201708 0.0000 0.0201 0.01 0.0030 0.4253 0.0160 0.0770 201709 0.0222 0.0106 0.0000 0.0019 0.5040 0.0119 0.0000 201710 0.0028 0.0230 0.0000 0.0061 0.0398 0.0102 0.0000
表8 给定地区随时间变化关注的主题的变化(以上海为例)
201705 201706 201707 201708 201709 201710 主题
关注度
主题
关注度
主题
关注度
主题
关注度
主题
关注度
主题
关注度
英语 0.0697 漫画 0.0633 专业 0.0662 教程 0.0684 第一 0.0624 建筑 0.0609 大学 0.0676 科学 0.0557 工程 0.0602 第三 0.0674 系列 0.0506 施工 0.0534 视野 0.0673 中国 0.0486 教材 0.0533 光盘 0.0602
图 0.0482 知识 0.0528
知识 0.0608专业 0.0584漫画 0.09第一 0.02施工 0.0533基础 0.0519岗位 0.0506工程 0.0505技能 0.0503
施工 0.0662 漫画 0.0637 知识 0.0609 第一 0.0630 专业 0.0602 科学 0.0562 图 0.0534 图 0.0494 年级 0.0533 年级 0.0490 方向 0.0528 中国 0.0484 市政 0.0521 系列 0.0483 教材 0.0520 儿童 0.0472 建筑 0.0515 大中华 0.0467 工程 0.0504 时代 0.0462 其他 0.4468 其他 0.4813
视听 0.0596 年级 0.0477 漫画 0.0521 DVD 0.0596 ROM 0.0594
话 0.0471 土建 0.0520 册 0.0468 第一 0.0515
漫画 0.0535 大中华 0.0460 图 0.0504 通用 0.0502其他 0.3674 其他 0.4831 其他 0.4468
其他 0.45
第8期 曾 文等:基于图书出版行业大数据的选题决策分析模型研究 821
图5 基于市场数据的选题决策模型分析结果I
图6 基于市场数据的选题决策模型分析结果II
5 结 论
“情报”是一种特殊的信息,是、、企业等为制定和执行而搜集、分析与处理的信息,情报是知识与信息的增值,是对事物本质、发展态势的评估和预测,是制订计划、定下决心、采取行动的重要依据[3]。情报分析最终是一种实践活动,本文面向图书出版行业开展情报分析的实践,提出图书出版选题决策模型的指标评价体系,并依据当前图书出版数据的行业现状,提出可行的图书选题决策数据分析模型及应用方法。本文的研究意义在于:通过采集选题关键信息,对选题的社会影响等做适当的预估;对选题的市场预期做适当的预测。通过分析同类图书销售数据、图书作者受欢迎程度、图书选题在市场关注程度等,更准确地预测图书印量;通过对图书销售数据和相关商品销售数据的分析和计算,获取读者的阅读喜好与习惯、不同省份读者群体所喜爱的书籍类型、分析出不同地区、不同读者群体的不同需求和喜好,以更好地进行营销推广等。本文的研究内容无论对于图书出版管理机构,还是对于图书出版和发行行业的个体或单位都具有一定的现实应用意义和参考意义,同时也可为系统级的大数据分析平台建设进行技术研发提供研究依据。需要指出的是:数据模型及分析技术需要一定的数据基础和应用环境,本文的实验研究结果表明:情报研究的思维和方法可以为行业发展工作提供决策和预判,情报分析方法在实践中可以得到验证和完善。不足之处在于:由于目前国内图书出版行业数据尚存壁垒,例如:电商数据、读者数据等无法全部
获取,因此数据分析模型可以利用的信息有限,模型的决策效果和准确性有很大的提升和改进空间。
参 考 文 献
[1] 王延飞, 何芳, 闫志开. 情报研究方法构建的关系基础[J]. 情报杂志, 2015, 34(4): 1-3, 26.
[2] 包昌火. 情报研究方[M]. 北京: 科学技术文献出版社, 1990: 1-26.
[3] 高金虎. 情报分析方[M]. 北京: 金城出版社, 2017: 3-27. [4] 苗晋诚. 大数据背景下图书出版面临的机遇与挑战[J]. 传播与版权, 2014(9): 37-38.
[5]
新闻出版广电总局. 2012年全国新闻出版业基本情况[EB/OL]. 北京: 门户网站. (2014-04-22)[2017-10-17]. http:// www.gov.cn/guoqing/2014-04/22/content_26027.htm.
[6]
Kumaresan A. Framework for building a big data platform for publishing industry[C]// Proceedings of the International Confer-ence on Knowledge Management in Organizations. Cham: Springer, 2015: 377-388.
[7]
Zhao Y J, Huang X Z. A research on development mode innova-tion of digital publishing industry in the age of big data[C]// Pro-ceedings of the 11th International Conference on Service Systems and Service Management, IEEE, 2014: 1-4.
[8] 苗晋诚. 大数据背景下图书出版面临的机遇与挑战[J]. 传播与版权, 2014, 3(9): 37-38.
[9] 莫常红. 从数据类型角度探讨提升图书出版发行的新路径[J]. 编辑之友, 2016(5): 25-28.
[10] 杨秀华. 选题决策模糊综合评价方法[J]. 赤子(上中旬), 2015(13): 92-93.
[11] 霍文婵, 崔海潮. 基于层次分析法的出版选题评价分析[J]. 环球市场, 2016(30): 33-34.
[12] 张跃先, 康锦江, 陈璐. 营销决策模型的研究及其应用[J]. 科技和产业, 2005(1): 39-42.
[13] 丁晓辉, 石一丁. 基于模糊综合评价法与AHP的企业内部控制评价研究[J]. 情报工程, 2015, 1(2): 83-90.
[14] 曾文, 李颖, 张运良, 等. 海量数据的组织与管理方法研究[J]. 情报工程, 2016, 2(1): 109-113.
[15] 陈一心. 选题的多目标决策模糊优化模型[J]. 海南师范学院学报(自然科学版), 2001, 34(2): 99-101.
[16]
Ramanathan R. Data envelopment analysisfor weight derivation and aggregation in the analytic hierarchy process[J]. Computers & Operations Research, 2005, 33(5): 12-1307.
[17]
Lau H C W, Lee W B, Lau P K H. Development of an intelligent decision support system for benchmarking assessment of business partners[J]. Benchmarking: An International Journal, 2001, 8(5): 376-395.
[18]
Chen L, Weng M. A fuzzy model for exploiting quality function deployment[J]. Mathematical and Computer Modeling, 2003, 38(5): 559-570.
[19]
Coles S, Rowley J. Revisiting decision trees[J]. Management Decision, 1995, 33(8): 46-50.
(责任编辑 王克平)
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- sceh.cn 版权所有 湘ICP备2023017654号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务