识别非结构化数据与结构化数据安全保护的差异


识别非结构化数据与结构化数据安全保护的差异
  信息通常被归类为结构化形式的或非结构化形式的。不同的类型有不同的保护方法。举个例子来说,非结构化的Excel电子数据表实际上包含结构化的数据。在经典的术语中,结构化的数据是指数据符合某种严格的数据模型和限制的模型。比如,模型可以定义一个业务流程控制信息流经过一些面向服务的架构(SOA)系统,或者也可定义数据如何在内存的一个数组中存储。但是对于大多数IT和数据库管理专家来说,结构化数据是驻留在数据库中,并基于数据库架构和相关数据库规则被组织的信息。而作为一个安全专家来说,这就意味着两个重要的事情:
 
  数据库驻留在数据中心,周围是物理安全设施(包括砖墙、金属柜子等)、网络防火墙和其他安全措施,允许你能够控制对数据的访问。
 
  数据本身的结构化方式通常允许对数据的简单分类。举个例子,你能在数据库中识别一个特定的人的医疗记录和应用相应的安全控制。
 
  所以,因为你知道结构化数据是什么样的以及它驻留在哪里,你有严格的控制机制来决定谁能访问它。对于结构化数据定义和应用安全控制相对简单,要么使用结构内置的特性或者专门为特定结构设计的第三方工具即可完成控制。
 
  而在相比之下,非结构化数据的管理和安全更加困难。非结构化数据能在任何地方、以任何格式、在任何设备上存在,并且在大数据时代能够跨越任何网络。举个例子说明非结构化数据的应用复杂性,一个病人的记录从数据库中被提取出来显示在一个网页上,从网页拷贝到数据表格中,附在电子邮件中,然后发送到另外一个网络的邮箱中。
 
  并且,非结构化的数据没有严格的格式。当然,我们的Word文档,电子邮件等符合定义它们内部结构的标准;然而,它们其中包含的数据几乎没有限制。比如上面列举的那个病人记录的例子,假设一个用户改变内容后把它从网页上拷贝到数据表格中,可能删除了某些字段和标题。因为这个信息从一种格式转变成了另外一种格式,它原始的机构被有效的改变了。
 
  保护存储成结构化的数据和信息是相对简单的。但是随着一个信息从结构化的形式移转变为非结构化的时候,这个情况就会变得非常的复杂。考虑这样一个例子,很多分析人士的报告表明在当前的企业组织中,80%或者超过80%的电子信息是非结构化的,还有非结构化数据增长的速度是结构化数据的10到20倍。也考虑一下媒体上的新闻文章不断强调知识产权的窃取、信息的意外丢失、数据的恶意使用等,最核心的问题就是非结构化的数据。在2010年,全球总的非结构化的数据估计大概有100万PB(1048576000000GB),被认为将以每年25%的速度增加。我们显然需要去理解我们如何保护非结构化数据的安全。