1. 规划生命周期的管理
1.1. 从文件的创建或接收文件后的分发、存储、检索、归档和潜在的销毁
1.2. 规划包括开发分类/索引系统和分类法,以实现文件的存储和检索
1.3. 重要的是,生命周期规划中需要为档案建立具体的制度
1.4. 确定负责管理文件和档案的组织部门。该部门协调内部和外部的访问和分发,并将最佳实践和处理流程与组织的其他部门整合起来
1.5. 要制定一份整体的文件管理计划,其中包括重要文件和档案的业务连续性计划
1.6. 规划档案管理
-
1.6.1. 在档案管理时先要清楚什么是档案
-
1.6.2. 定义某一专业领域的档案应该包括来自该领域的专家以及理解档案管理体系的人员
-
1.6.3. 档案管理方法应将纸质档案、非结构化数据以及结构化电子档案全都考虑在内
1.7. 制定内容策略
-
1.7.1. 内容管理计划应直接支持组织以有效和全面的方式提供相关和有用的内容
-
1.7.2. 应考虑内容的驱动因素(需要内容的原因)、内容创建和交付等
-
1.7.3. 元数据分类和搜索引擎优化(SEO)使人们能够找到不同类型的内容,这对于任何内容策略都至关重要
2. 创建内容处理制度
2.1. 审计的范围和合规性
2.2. 重要档案的鉴定和保护
2.3. 保留档案的目的和保管期限表
2.4. 如何响应信息保留命令(特殊保护令),即针对已过保留期的诉讼信息要求
2.5. 本地和异地存储档案的要求
2.6. 硬盘驱动器和共享网络驱动器的使用和维护
2.7. 对电子邮件管理,从内容管理的角度进行处理
2.8. 合理的档案销毁方法,如预先批准的供应商和销毁证明的收据
2.9. 社交媒体制度
- 2.9.1. 特别是员工在使用组织账户开展业务的过程中发布的内容
2.10. 设备访问制度
-
2.10.1. 因为用户驱动IT的场景,如BYOD(使用自己的设备)、BYOA(使用自己的应用程序)和WYOD(穿戴自己的设备)是大势所趋,内容和档案管理功能需要兼容这些情景,以确保合规性、安全性和隐私要求
-
2.10.2. 制度应区分非正式内容(如Dropbox或Evernote)和正式内容(如合同和协议),以便对正式内容进行控制,为非正式内容提供指导
2.11. 处理敏感数据
- 2.11.1. 组织有义务通过识别和保护敏感数据来保护隐私
2.12. 应对诉讼
- 2.12.1. 组织应通过有前瞻性的电子取证措施,为时刻可能的诉讼请求做好准备(报最好的希望,做最坏的打算)
3. 定义内容信息架构
3.1. 使用基于内容的索引或元数据搜索
3.2. 基于用户的需求和偏好,索引的设计侧重于索引的关键或属性的决策选项
3.3. 数据管理专业人员在处理非结构化数据和内容的参考数据及元数据时,可能会涉及受控词汇表和术语
4. 实施的生命周期管理
4.1. 获取档案和内容
-
4.1.1. 获取内容是管理内容的第一步
-
4.1.2. 电子内容通常已经以某种格式存储在电子存储库中
-
4.1.3. 自动化的工作流程和识别技术有助于采集和摄取的过程以及提供审计跟踪
4.2. 管理版本的控制
-
4.2.1. 正式控制(Formal Control)
-
4.2.1.1. 需要正式的变更启动、对影响的全面评估、变更管理机构的决策以及给利益相关方一份全面执行和验证的状态报告
-
4.2.2. 修订控制(Revision Control)
-
4.2.2.1. 没那么正式,在需要变更时通知利益相关方并升级版本
-
4.2.3. 托管控制(Custody Control)
-
4.2.3.1. 最不正式,仅需要安全存储和一套检索方法
4.3. ANSI 859标准
-
4.3.1. 提供和更新资产的成本
-
4.3.2. 项目影响(如果变更将产生重大成本或进度后果)
-
4.3.3. 企业或项目变更的其他后果
-
4.3.4. 需要重新使用资产或资产的早期版本
-
4.3.5. 维护变更历史(当企业或项目要求时)
5. 备份和恢复
5.1. 文件/档案管理系统需要包含在组织的整体企业备份和恢复活动中,包括业务连续性和灾难恢复计划
5.2. 灾难可能包括停电、人为错误、网络和硬件故障、软件故障、恶意攻击以及自然灾害
5.3. 业务连续性计划(或灾难恢复计划)包含书面制度、程序和信息,旨在缓解对组织数据(包括文件)威胁的影响
5.4. 在发生灾难时,尽快恢复这些数据,同时尽量减少中断
6. 管理保管和处置
6.1. 有效的文件/档案管理需要有明确的制度和过程,特别是在保管和处置档案方面
6.2. 档案管理人员或信息资产所有者要实施监督工作,以确保团队对隐私和数据保护要求负责,并采取相应的措施防止身份盗用
6.3. 无附加值的信息应该从组织的资产中移除并处理掉,以避免浪费实体和电子空间以及与其维护相关的成本
6.4. 制度不适用
6.5. 对某一个人来说是无附加值信息,但对另一个人来说却是有价值的信息
6.6. 无法预见当前的无附加值实体和/或电子档案未来可能的需求
6.7. 对档案管理的不认可
6.8. 无法决定删除哪些档案
6.9. 做决定与移除实体和电子档案的感知成本
6.10. 电子空间很便宜,购买更多的空间比归档和移除过程更容易
7. 审计文件/档案
7.1. 要求定期审计文件和档案管理,以确保正确的信息在正确的时间送达正确的人员,以便做出决策或进行操作活动
7.2. 步骤
-
7.2.1. 定义组织驱动因素,并确定“为什么”要进行文件/记录管理的利益相关方(Why)
-
7.2.2. 一旦确定了检查/测量的内容和要使用的工具(如标准、基准、访问调查),就开始收集相关数据(How)
-
7.2.3. 报告结果
-
7.2.4. 制订下一步的行动计划和时间表
8. 发布和分发内容
8.1. 开放访问、搜索和检索
- 8.1.1. 一旦通过元数据/关键字标记对内容进行了描述,并在适当的信息内容体系结构中进行了分类,就可以对其进行检索和使用
8.2. 通过可接受的渠道分发
- 8.2.1. 由于内容消费者更想在自己选择的设备上消费或使用内容,因而分发期望有所改变
9. 企业内容管理系统
9.1. 文件管理
-
9.1.1. 文件管理系统是用于跟踪和存储电子文件和纸质文件的电子影像的应用程序
-
9.1.2. 可以在文件管理系统中创建或通过扫描仪及OCR软件采集文件
-
9.1.3. 文件存储库具有管理文件的功能,包括签入签出、版本控制、协作、比较、归档、状态、从一个存储介质迁移到另一个存储介质以及处置等特性
-
9.1.4. 手动工作流,指示用户将文件发往何处
-
9.1.5. 基于规则的工作流,通过制定规则指示文件在组织内的流向
-
9.1.6. 动态规则,允许基于内容的不同工作流
-
9.1.7. 尤其是涉及情报、军事和科学研究机构的系统,对于访问、使用或者检索,会更多地关注数据和信息的控制和安全能力
-
9.1.8. 数字资产管理
-
9.1.9. 图像处理系统
-
9.1.9.1. 图像处理系统(Image Processing System)用于采集、转换和管理纸质件的影像和电子文件
-
9.1.9.2. 采集使用的技术包括扫描、光识别和智能字符识别或表单处理
-
9.1.9.3. 识别技术包括光学字符识别(OCR)
-
9.1.9.4. 将扫描的(数字化)打印/手写文本以机械或电子转换的方式,将它们转换成可以被计算机软件识别的形式
-
9.1.9.5. 智能字符识别(ICR)是一种更先进的OCR系统,可以处理打印和草书手写的文本
-
9.1.9.6. 图像通常是通过使用计算机软件或相机而不是纸张产生的
-
9.1.9.7. 二进制文件格式包括矢量和栅格(位图)类型以及MS Word的DOC格式
-
9.1.10. 档案管理系统
-
9.1.10.1. 为遵从法规要求,档案管理系统(Records Management System)可能要有自动保管和处置、电子取证支持和长期归档的能力
-
9.1.10.2. 应该支持重要的档案程序,以保留关键业务档案。这种系统也许可以与文件管理系统集成
9.2. 内容管理系统
-
9.2.1. 内容管理系统(Content Management System, CMS)用于收集、组织、索引和检索内容,将内容存储为组件或整个文件,同时保持组件之间的链接
-
9.2.2. CMS负责管理内容的整个生命周期,如网页内容管理系统通过编辑、协作和核心存储库中的管理工具控制网站内容
9.3. 内容和文件工作流
-
9.3.1. 工作流工具支持业务流程、路由内容和文件、指派工作任务、跟踪状态以及创建审计跟踪
-
9.3.2. 在内容发布之前,工作流应支持对内容的审核和批准
10. 协作工具
10.1. 协作工具(Collaboration Tools)可用于收集、存储、工作流程和管理与团队活动相关的文件
10.2. 社交网络可以使个人和团队在内部共享文件和内容,并通过博客、wikis、RSS和标签与外部团队进行交互
11. 受控词汇表和元数据工具
11.1. 在组织中被用作数据指南的数据模型
11.2. 文件管理系统和办公软件
11.3. 元数据库、术语表或目录
11.4. 分类法和分类法之间的交叉参考模式
11.5. 集合索引(如特定的产品、市场或安装)、文件系统、民意调查、档案、位置或异地控股
11.6. 搜索引擎
11.7. 非结构化数据的BI工具
11.8. 企业和部门同义词表
11.9. 已发布的报告库、内容和参考书目及其目录
12. 标准标记和交换格式
12.1. 可扩展标示语言(XML)
-
12.1.1. 可扩展标记语言(XML)提供了一种表示结构化和非结构化数据和信息的语言
-
12.1.2. XML使用元数据来描述任何文件或数据库的内容、结构和业务规则
-
12.1.3. XML提供了将结构化数据整合到具有非结构化数据的关系型数据库中的功能
-
12.1.3.1. 非结构化数据可以存储在关系型数据管理系统的BLOB(二进制大对象)或XML文件中
-
12.1.4. XML可以将结构化数据与文件、报表、电子邮件、图像、图形、音频和视频文件中的非结构化数据集成在一起
-
12.1.4.1. 数据建模应考虑从结构化数据生成非结构化报告,并将其包括在创建纠错工作流、备份、恢复和归档中
-
12.1.5. XML还可以用于建立企业或公司门户网站(B2B、B2C),为用户提供了一个可以连接到各种内容的接入点
-
12.1.6. XML可以识别和标记非结构化数据/内容,以便计算机应用程序可以理解并处理它们
12.2. JSON
-
12.2.1. JSON(Java Script Object Notation)是一种开放的、轻量级的数据交换标准格式
-
12.2.2. 它的文本格式独立于语言,易于解析,但仍是使用C语言家族的习惯方式
-
12.2.3. 有两个结构:一是无序“‘名称/值’对”的集合,也被称为对象;二是值的有序集合,也被称为数组
-
12.2.4. JSON正成为互联网、NoSQL数据库的首选格式
-
12.2.5. 作为XML的替代者,JSON用于在服务器和网络应用程序之间传送数据
-
12.2.6. JSON是一种与XML相似但更紧凑的数据表示、传送和解释方法
-
12.2.7. 使用REST技术时,可以选择返回XML或JSON格式内容
12.3. 资源描述框架(RDF)
-
12.3.1. 资源描述框架(RDF)是用于描述各种网络资源信息的通用框架,是用于在Web上进行数据交换的标准模型
-
12.3.2. RDF资源保存在三元组中,该三元组是用SPARQL来存储和检索语义查询的数据库
-
12.3.3. RDF以主语(资源)-谓语(属性名称)-宾语(属性值)表达式或三元组的形式来描述资源
-
12.3.4. 主语-谓语-宾语每个都由一个URI(统一资源标识符)描述,但主语和宾语可以是空节点,并且谓语可以是文字(不支持空值和空字符串)
-
12.3.5. 最常见的URI格式是统一资源定位符(URL)
-
12.3.6. RDF使用XML作为其编码语法,它将元数据视为数据(如作者、创建日期等)
-
12.3.7. 简单知识组织系统(Simple Knowledge Organization System,SKOS)是一个RDF词汇表(即RDF数据模型应用于采集描述为概念层次结构的数据)
-
12.3.8. 网络本体语言(W3C Web Ontology Language, OWL)是RDF的词汇表扩展
-
12.3.8.1. 它是一种语义标记语言,用于在网络上发布和共享OWL文件(本体),适用于那些需要由应用程序而不是由人类来处理文件中的信息情形
12.4. Schema.org
-
12.4.1. Schema.org提供了一组用于页面标记的共享词汇表或模式,以便主流的搜索引擎可以理解它们
-
12.4.2. 它侧重于网页上的文字含义以及术语和关键词
13. 电子取证技术
13.1. 电子取证通常涉及审查大量文件
13.2. 电子取证技术活提供了许多功能和技术,如早期案例评估、收集、辨认、保全、处理、光学字符识别(OCR)、剔除、相似性分析和电子邮件线程分析
13.3. 技术辅助审查(TAR)是一个工作流或过程
- 13.3.1. 在此过程中,团队可以审查选定的文件并标记相关与否
13.4. 信息治理的支持可能也是电子取证的一个特征