大数据时代档案管理工作刍议 一康胜利 摘要:从宏观的角度和发展的观点看,档案这一原始 未来演变都与数据的保存与积累、选择与舍弃存在着紧 密联系。 原始社会,囿于生产工具的有限性和社会生产力的 低下,人们对保存数据的需求处于极低的状态,只有一些 特别重大的事件才会使用结绳、刻契、绘画等方式实现辅 助记忆。逐渐地,日趋频繁的社会交往产生了大量的信息 和数据,人们愈发意识到保存数据的重要性;同时,造纸 性符号记录本身就包含着各种类型的数据信息,档案信息 资源理应是最具公信力的大数据。大数据时代档案管理工 作面临着“鉴定工作被淡化”等潜在挑战;同时档案第二价 值的发挥也将为档案管理工作带来新的发展机遇。本文建 议从加强“前端鉴定”、备份与归档互补、变被动利用为主 动服务等方面做好新形势下的档案管理工作。 关键词:大数据档案管理工作鉴定- ̄rfh利用 技术的产生和日趋完善,“白纸黑字”、“立字为据”等观点 日益成为人们的共识,这一阶段,人们会有意识地将重要 正在发生的大数据革命和举国瞩目的“互联网+”新 的原始记录保存下来,以备臼后查考利用。恰是借由这一 社会需求,并随着这一系列工作的科学化、理论化才逐渐 形成了档案学这一专门学科。之后摄影、缩微复制、数字 化等技术的先后发明和应用,更是极大地便利了档案记 录的收集、保管和利用。但在这一阶段,考虑到保管成本、 战略的实施,对档案行业意味着什么?对档案管理工作又 有哪些挑战和机遇?带着这些问题,笔者尝试就大数据时 代的档案管理工作特别是电子文件管理工作提出自己的 观点和看法,希冀能够起到抛砖引玉之效,促进学术界对 这些问题的关注和讨论。 ~检索效率等因素,人们也只是有选择地保管必要的信息 记录,以档案管理工作为例,不是全部收集而是依据档案 收集范围进行针对性收集;同时,进馆前鉴定和归档后定 期鉴定也是档案管理过程中的重要环节,而鉴定正是对 档案进行选择的过程,即部分归档而非全部归档。 、大数据的概念及其与档案管理工作的关系 概括来讲,大数据是一场正在发生的技术革命,从其 被正式提出到今天还不足五年时间,却极其深刻、广泛地 影响甚至颠覆着各行各业,迫使人们主动或被动地去学 习、运用这一新技术和理念。结合现实来看,它不仅能够 提高生产效率,促使人们更好更快地完成工作,如反映员 工工作状态的数据集可帮助公司了解员工的工作方法、 步骤和实时进度,保证最优配置,提升公司效率:而且它 还可以突破常规、帮助我们了解更多在以往容易被忽略 或不易察觉的现象和规律,例如以往若是某本图书销量 tEI ̄,就会被直接下架处理,但在大数据时代,包括顾客 "进入大数据时代,一方面数字存储、扫描、摄影等技 术的发展和完善,极大地降低了数据保存的成本,使得物 理记录(如纸质档案数字化后再行保存)和数字记录(电 子文件定稿直接归档保存)的海量保存或全部保存成为 可能;另一方面,以计算机为代表的现代科学技术已经渗 透到组织机构和个人日常工作、生活中的方方面面,因此 新近产生的数据记录大都是天然以数字化的形式存在, 保管更为便利。同时,数据从简单的处理对象开始转变为 取阅率、查询点击量等因素都将被考虑在内,经过一定的 调整或改变,这本书的销量就有可能实现逆转。同时,由 于大数据所包含的数据量足够客观且来源真实、可追溯, 种基础性资源,为了追求尽可能多的数据用于后期分 析研究或构建社会记忆、个人记忆等用途,再加上鉴定工 因此这些现象和规律又是科学的、可信赖的。 众所周知,档案的本质是原始性符号记录,它包含着 作耗时耗力并且存在着误删的可能性,在确保个人隐私 和不良记录有限利用的前提下,组织机构和个人更倾向 文本、数字、图形、声音和影像等各种类型的记录信息,而 这些原始的、以符号表达的记录信息就属于数据的一种; 于将以往社会活动的记录全部保存下来。这~社会意识 的转变,势必会对档案管理工作产生广泛、深刻地影响。 二、大数据对档案管理工作的影响 结合档案管理实际,其影响主要表现为两个方面,即 挑战和机遇: 第一,挑战。大数据时代,根据不同的利用需求可能 需要对电子文件(而非全部档案)的鉴定必要性进行重新 借助于全世界各地的综合性、专门性或特殊性档案馆 (室)储量巨大的馆藏以及每时每刻都在不断增长的档案 信息资源,毋庸置疑,档案不仅足以称得上是大数据,而 且还是大数据之中最为真实可靠、整理有序的第一手数 据来源。以此为管理对象的档案工作自然与大数据密不 可分,纵观历史,档案工作的孕育、萌芽、产生和发展以及 审视和考虑,这主要是因为大数据时代数据保存成本大 2015年第11期 幅降低,并且更加强调海量的源数据,重视效率和相关 业务流水号等档案信息,如果银行交易系统缺乏自动纠 性,而不是绝对精确。例如在进行科学实验的过程中,不 错机制,那么一旦发生错误交易,很难在短时间组织力量 要保留正确的实验记录,而且错误的实验记录和数据 进行鉴定并确定问题。而这个自动纠错机制的设置就是 同样包含有其他的相关性和参考价值,比如可以作为正 一种“前端鉴定”,即在交易发生前就由系统设计人员根 确结论的对立面起到佐证和排除作用,还可用以还原整 据银行交易的特点对相关规则做出限定,比如设置取出 个科学实验的真实过程和历史原貌,启迪新的科学研究。 或消费金额上限不能超过账户余额。类似这些简单的设 此前,碍于保管成本高昂,检索效率低下等因素,人们更 定在网站注册、数据采集等场景中屡见不鲜,而在档案管 加注重对档案的鉴定和选择:但在大数据时代,尤其是对 理工作中,针对特定项目或相似工作开展前,可根据保管 电子文件而言,甄别电子文件的成本远高于保管成本。因 期限表或以往工作经验对需要收集的文件进行重点跟 此,鉴于档案价值的相对性和成本的此消彼长,未来在某 踪、优先归档。 些领域可能会淡化电子文件的鉴定问题,取而代之的是 2.利用好备份和归档之间的联系,做到良性互补 将其全部保管下来,留待利用。 对于组织有序的社会机构而言,特别是应用了“前端 第二,机遇。这一机遇的发生主要依托于“档案价 鉴定”等理论指导的机构,如统计部门、金融公司,备份的 值的相对性”和“文件双重价值论”等理论和相关实践的 文件已经是整理有序、可资查考的。因此,电子文件备份 支持。此前档案界已有共识,某一份档案对于某一个体可 和归档之间的联系更为紧密,如果业务部门能够在业务 能是毫无用途的,但对其他组织或个人却可能具有特殊 活动过程中更加注重数据的有效性、有序性,那么在业务 且唯一的作用,即档案价值的相对性:同时,“文件双重价 部门和档案管理部门之间就可以借由网络的便捷性实现 值论”指出公共文件除对原形成机构具有第一价值外,它 同步备份和归档。具体而言,可以根据备份方式(完整备 还可能对其他机构或个人具有第二价值,即档案价值,包 份和增量备份)的不同,改变过去单一的完整归档模式, 括情报和凭证价值。即文件在完成业务活动之后需要被 新添增量归档,如周期短、关联性强的项目可以在项目完 保管起来转化为档案,因为它在未来仍具有发挥作用的 成或验收后进行完整归档:人口资源普查或基因图谱等 可能性和凭证作用。而大数据的出现,在本质上与档案管 周期较长、有序性强、数据采集量大的项目,则可以将备 理领域之前的做法和动机有异曲同工之妙,比如广为人 份和归档同步,增量备份的同时增量归档,甚至可以将备 知的“奶粉一汽车”这一成功案例:超市的商品销售数据 份和归档合二为一,既降低物质成本又便于统一保管,更 不仅可以作为档案保留在本单位进行二次开发、分析,例 重要的是减少档案产生与收集之间的时间差,提高档案 如将奶粉与啤酒放在一起,提高啤酒的销售额(数据分析 管理工作的及时性和灵敏度。 显示,奶爸们经常会在买奶粉时顺便买几罐啤酒);而且 3.档案管理工作的爆发点——利用 这些数据还可以跨越领域,与汽车销售紧密相关,数据显 大数据时代,社会机构和个人对信息的需求愈发强 示婴幼儿体质较弱且疾病经常发生在夜间,而夜间公共 烈,并呈现出多样化的特点,相对于网络上冗余杂乱的信 交通又很不便利,因此很多新生儿家庭会有购买汽车的 息资源,档案馆(室)所保管的数据信息更加真实、可靠, 需求。同理,依据“档案价值的相对性”,结合大数据技术, 具有较高的公信力,在这些需求的引导下,相关机构和个 分析挖掘和构建出潜在的业务关联性,将可开放的档案 人都很可能转化为档案的利用者,这就要求档案管理部 数据进行共享或有偿供给,不仅可以为利用者提供更加 门要转变工作思路,改变过去“馆里有什么就利用什么、 及时、周到的服务,还可以带动相关领域的发展,促进档 我编研你利用”的被动思维,重视特色档案的收集编研、 案第二价值的发挥。如果协调得当,那么档案形成者、利 提供更为便捷的检索工具、扩大档案开放的范围、借助网 用者以及作为媒介的档案馆(室)都能从中获得可观的经 络等多元形式主动地提供优质、高效的利用服务:同时, 济效益和社会效益,实现多赢。 还要求档案管理部门在开放利用过程中注意好档案的隐 三、大数据时代档案管理工作应该怎么做 私和保密问题,平衡开放和保密的利害关系,例如可借鉴 基于以上变化,笔者认为有必要对鉴定、备份归档、 匿名化思路,即剔除档案材料中的身份标识信息再行公 利用等环节进行重新审视和重点关注。 开。但是,万万不可由于怕麻烦、怕困难就紧闭大门,拒绝 1.将鉴定提前,加强“前端鉴定” 利用,那么档案馆就犹如一座蕴藏着无尽宝藏的信息孤 即将部分鉴定工作提前到业务工作开始之前或进行 岛,不但难以对档案管理工作有新的突破,而且极有可能 中,而不是放在业务工作完成之后。以银行交易数据为 错失这一难得的发展机遇。 例,每一天银行交易系统中都会产生数以千万计的交易 数据,这些数据中又包括客户姓名、交易金额、承办机构、 作者单位:辽宁大学历史学院 2ol5年第11期