不想错过重要资讯?
马上订阅新闻邮件!
 
a 您现在的位置: 中计在线 >> 信息化 >> BI >> 文章正文
信息系统数据梳理方法浅析
作者:吴世旗    文章来源:CIO时代    更新时间:2007-5-17 13:37:19
【字体:
 中计在线信息化频道全心上线!全力推动中国信息化进程!信息决策,易如反掌,尽在CIW信息化!
中移动去年净赚660亿
[寻找下一个1000亿] [发行A股没有时间表]
·农村信息服务发展呈现三大趋势
·手机病毒悄然来临,你准备好了吗?
·腾讯总裁刘炽平否认Q币属于虚拟货币
·2007年科技产业发展预测

利用信息技术强化企业管理的新纪元已经开始了。ERP企业资源计划1][2CRM客户关系管理3][4以及SCM供应链管理5建设的基础是充分利用企业的数据资源。如果缺乏有效的数据信息,其应用水平只能是“无效进、无效出”。为了提升管理效率,公司在存货、供货、客户、零售和其他重要的企业信息方面都需要高质量的数据。否则企业资源计划和客户关系管理的实施是难以成功的。数据梳理技术6][7是广泛实施数据应用项目(如实施DSS, CRM等)的基础,通过数据梳理,可以彻底搞清楚企业现有数据的内容、结构、模式、数据属性、数据质量等至关重要的内容,从而为构建新的数据模式和建立新的管理体系打下基础。

1.  数据梳理的内涵

一些业务和IT 经理们在研究公司的发展时,都会面对同样的问题。即由于得不到正确的数据,公司会在不完善和不可信的数据基础上做出错误的决策。

尽管数据梳理的重要性常常被忽视,可它是开展任何管理活动的基础,企业资源计划的实施、客户关系管理的使用、数据应用开发和管理软件的改写,实际上都应从数据梳理开始。

对企业资源计划和数据库应用的工业评估表明,这些项目要么失败,要么超出当时预算的65-70%。几乎在所有的情况下,项目的失败、超支和延长工期都是由同一个问题引起的,即对数据管理活动起关键作用的数据的质量、内容和完整性得不到正确的确认。这些问题在项目开始之前应引起高度重视并得到妥善解决。在数据管理活动最开始阶段就确认数据质量,可以大大降低项目失败的风险。

为了迎接信息化建设的挑战,数据梳理有助于了解公司数据的基础条件。数据梳理,也叫做数据剖析或数据审计,可以明确地展现公司数据现状及其特点。数据梳理主要是指对数据的结构、内容和关系进行分析,在关键的数据诊断阶段可以提供公司数据的质量信息。这些信息在帮助确定公司能提供什么样的数据和这些数据的有效性和实用性等方面起到重要作用。使用合理的数据梳理方法,可以随时透视公司业务过程和改善公司的业务流程。

1.1  一般数据问题

大多数公司都存在数据问题8。主要表现在数据难于管理,对于数据对象、关系、流程等难于控制。其次是数据的不一致性,数据异常、丢失、重复等,以及存在不符合业务规则的数据、孤立的数据等。在实施任何管理项目之前,需要了解支持管理活动的基本信息:

    (1)  在本管理活动中使用的数据质量是否可靠,

    (2)  现有数据能否支持项目功能,

    (3)  本活动中的数据是否符合预期的业务规则,

(4)  公司推行的管理活动是否可以获得所需要的数据源。

如果没有清楚地了解这些事情就开始实施诸如ERP等管理项目,将导致开发成本超支或者可能的项目失败。据工业估计,商业智能和客户关系管理的成功率在30%——50%之间。

公司通常不了解数据质量问题对公司业务影响程度。公司内部的数据问题会导致销售额下降、支出浪费、不明智的决策、不规范的客户关系。最终导致经营失败。

1.2       数据结构分析

通过数据结构分析9来了解数据模式和元数据库10,帮助确定在表中或者在栏中的数据是否一致或者是否符合公司业务要求。

1.2.1          元数据检验

大多数的数据都有与之相关联的元数据11,或者具有可描述的数据特征。它可能存在于相关数据库、数据模型或文本文件中。元数据中所包含的信息可以指示出数据的类型、字段长度,数据是否唯一,或者字段是否为空或为零等。

元数据用于描述表格或者表格栏中的数据。数据梳理方法是对数据进行扫描并推断出相同的信息类型。通常,元数据和数据的性质完全不同。例如,在元数据中设计长度为255字符、行数1000万行的字段。如果实际数据中最长的数据元素为200个字符,则字段设计的长度明显大于要求的长度,那么意味着浪费了550MB的磁盘空间。表1 所示的是典型的产品字段元数据应该包含的信息的实例。

 

数据列分析

字段:产品__ 描述

定义类型:VARCHAR

定义长度:38 chars

公制名称

公制值

数据类型             VARCHAR

主键候选             no

唯一计数             8513

唯一性               72.78

模式计数             5790

最小值               101 GEN

最大值               ZOO ANIMA.

最小长度             5

最大长度             38

零计数               1

空计数               0

真实类型             string

计数                 11698

数据长度             38 chars

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 1:字段元数据描述

1.2.2  模式匹配

一般情况下,模式匹配可确定字段中的数据值是否有预期的格式。这一技巧可以快速地确定字段中的数据与各数据源是否一致,是否符合要求。例如,模式匹配可以分析电话号码字段中是否包含所有的电话号码。模式匹配还能确定一个字段是否是全数值的,是否某个字段有着一致的长度和其他特殊需要的格式信息。

以电话号码模式报告为例。有效电话号码的格式是多种多样的,但是所有有效的格式都包括三组号码(三个区号,三个交换机号,四个本地局号)。这些号码组可能用(也可能不用)空格键或特殊字符来进行分隔。有效模式可能包括:

888888888

(888)888-8888

888-888-8888

888-888-XXXX

888-888-Xxxx

在这些例子中,“8”代表任何数字,“X”代表任何大写字母,“x”代表任何小写字母。现在来看看下面这个电话号码字段的模式报告。

 

模式频率分布

字段:电话号码

定义类型:VARCHAR

定义长度:15字符

 模式

计数

百分比

888-888-8888       3166      96.73

(888)888-8888        42       1.28

(888) 888-8888       34        1.04

888 88 8888 888      20        0.61

888 888 8888          5       0.15

888-888-XXXX        2       0.06

8-888-888-8888        2       0.06

x                    1       0.03

88 88 8888 888         1       0.03

 

 

 

 

 

 

 

 

 

 

 

 

 

 2:电话号码的模式频率报告

       本字段中的电话号码数据的主体是有效的电话号码。可是一些数据条目与有效的电话号码模式不符合。数据梳理技术可以通过数据钻取方法来观察潜在的数据或者创建含有追踪数据子集的报告,用于修改这些记录。

1.2.3  基本统计

通过观察数据的基本统计,可以对数据做很多分析。这一点对于所有类型的数据都是适用的,尤其适用于数值数据。考察这些统计值,诸如最小/最大值、平均值、中值,模式和标准偏差等,可以深入观察数据的有效性。表3所示的是来自会计部门的个体贷款额的统计数据。个体贷款额通常从2万元到100万元。不正确的贷款数据库可以导致不良数据统计结果、错误的客户账目等很多麻烦。

本报告分析了贷款额的潜在问题(标有*号)。贷款的最小值是个负值。最大值是9999999元。两笔贷款有缺失值(零计数)。中值和标准偏差都是很大的数。所有这些都显示出个体贷款数据文件中的潜在问题。

元数据分析、模式分析和基本统计是数据结构分析的主要方法,用来指示数据文件中潜在的结构问题。存在问题的原因是多种多样的。有些是由于错误地把数据输入字段而造成的。有些问题是因为不知道正确的数值或者使用了默认或虚构的值。

 

数据列分析

字段:贷款额

定义类型:double

定义长度:53 bit

公制名称

公制值

数据类型       double

主键候选       no

……

最小值         -223000  *

最大值  *      9999999

最小长度      not app.

最大长度      not app.

零计数  *      2

空计数        not app.

真实类型       double

计数           1628

数据长度       53  bit

平均           114348.170972

中值  *        4888499.5

式样           0

-零计数      1626

……

标准偏差       429438.361236  *

标准误差       10649.778281

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 3:贷款数据栏的统计

1.3       数据分析

数据分析用于指示业务规则和数据的完整性。在分析了整个的数据表或数据栏之后,需要仔细地查看每个单独的数据元素。结构分析可以在公司数据中进行大范围扫描,并指出需要进一步研究的问题区域;数据分析可以更深入地确定哪些数据不精确、不完整和不清楚。

1.3.1          标准化分析

公司的数据常常来自于不同的来源:不同的部门、不同的数据录入人员和不同的合作者。这常常是公司数据质量问题的根本所在。如果一条数据多次以不同的排列方式出现,则查询和统计报告都必须指出每次报告中所用的数据源和数据名称。公司名称、产品代号和客户地址等数据信息在数据库中只能有唯一的一种表示方式,否则一些重要的数据点会被丢失。

例如,开展以家庭电话资料为基础的通信个性化的营销活动,如果在同一地址内有大量的客户资料,而地址的表达却不一致。地址不同的表达方式会对针对性很强的活动产生很差的效果,导致错误的个性化分析。这些无效的数据将对优先选择的客户进行无效的促销而疏远客户,同时在人力和物力方面造成了浪费。

这些只是简单的数据不一致的例子,相似的情况在世界范围的数据库有着不同的表现形式。运用适当的数据分析方法可以找出这些非标准的缺陷,为数据质量提供保证。

1.3.2          频率分布和外延分析

频率分布技术可以减少数据分析的工作量。这项技巧重点关注所要进一步调查的数据,辨别出不正确的数据值,还可以通过钻取技术做出更深层次的判断。

外延分析也可以帮助你查明问题数据。频率统计方法根据数据表现形式寻找数据的关联关系,而外延分析则是为检查出那些明显的不同于其它数据值的少量数据。外延分析可指示出一组数据的最高和最低的值。这一方法对于数值和字符数据都是非常实用的。

实例:分析食品重量字段的10个最大和10个最小的值。在表4中,分析字段以克为单位,用于微波炉的个人份食品。有效的重量在4002000之间。

 

外延分析

字段:重量-

定义类型:小数

定义长度:7 字符

最小值

最大值

0            20020

0.85         20620

3.65         22400

16.8         31808

21.0         201602

22.68        215049

28.3         304641

29.0         322563

30.83        325475.3

31.80        342572

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 4  产品重量外延报告

分析结果,在低端和高端都有外延。在低端,数值可能用千克单位来代替克的输入。在高端,可能用团体的总重量代替个人份重量。外延分析能确定在某些数据元素中是否存在不一致性。通过深入钻取这些实际的数据可以确定修正的最佳方法。

1.3.3          业务规则的确认

每个公司都有自己的基本业务规则。以某公司部分员工工资职级为例:

 

工资级别

工资低端

工资高端

20

¥26,000

¥52,000

21

¥32,000

¥64,000

22

¥40,000

¥80,000

5:某公司员工工资职级规则

 

对于工资级别为20级的员工,他的年薪必定在26,000元到52,000元之间。

在数据输入点可以检查很多基本的业务规则,实际上,还可以在数据库中重新检查这些规则。有时由于缺乏有效确认而导致问题发生,包括超额支出、存货不足和少计利润等。

对于公司而言,业务规则一般都是确定的,很少要用到“规则以外”的梳理技术。预编制的业务规则可提供字段、范围检查,查找确认或者明确公式。其次,针对公司特定的业务规则,除了需要有效的数据梳理技术外,还必须建立、保存和确认有效的数据梳理流程。

为了确认数据的有效性,要求能够随时储存、启用和执行基本的业务规则。数据梳理还使用相同数据确认方法来检查和落实违背业务规则的情况。

1.4       数据关联分析

数据梳理的第三步是数据关联分析。这一方法用于分析数据冗余和相似性。可以分析正在使用的数据,并且可以把基于它们相互关系的不同用法联系到一起,还可以与新的用法联系起来。由于很多相互关联的数据条存储于分开的数据体中,导致很难掌握完整的数据情况。

现代公司都存储了大量的数据,例如,客户数据、供应商数据、产品数据、运营和商业智能数据、财务和税务数据等等。另外,公司从合作伙伴、专业公司得到数据,以及从其他来源获得特殊的业务数据。一般来说,公司在搞清所有数据来源和它们的不同应用关系之前,难以充分了解他们的全部数据,并且很难有效地管理这些数据。

关联分析有助于了解数据来源以及数据的相互作用。下面是当数据源没有正确关联时产生的问题:

1 在登记的产品发票中有产品的代码,但在公司的产品数据库中没有相应的产品。

2 销售订单中有客户代码,但在公司的客户数据库中并没有对应的客户。

3 在库存中发出的产品有某种通用产品代码。而在采购数据库中却没有相应代码。

4 在客户数据库中有多个客户有着相同的识别码。