实务点金 | 如何进行数据资源盘点
数据资源盘点是数据资产入表的前序必要环节。只有把现有的数据资源盘点清楚,才能基于这些资源去构建数据产品、开发应用场景,进而实现数据资源的资本化入账。本期实务点金由金证管理咨询服务主管合伙人谢力分享如何进行数据资源盘点。
如何进行数据资源盘点是企业常面临的问题。实务中,数据资源的盘点通常可以归纳为三种方式:
01 极简版数据资源盘点
很多政府机构、企业对于数据资产的盘点基于现有数据表里的记录以及每个记录表里的字段、记录未来产生的频率或者产生的速率等,尚没有追溯到每一张数据表中每个字段的含义。该种方式下,很难真正把数据资产盘点清楚,无法预知企业数据资产的状态。本质上,我们所看到的各种表其实已经是一种组合后的产物(组合的基本单位是业务对象),且表的数量没有上限。
02 简化版数据资源盘点
我们也看到较多的数据资产盘点基于数据表单以及数据集,对现有数据表单里的字段进行初步定义,比如定义字段类型,字段长度。这种规范和定义,比第一种方式有所进步,但是这两种所谓的数据资源的盘点,都比较流于形式。
前面两种方式都是“交作业”式的,满足眼前的紧急需求,看似有数据资源盘点,实则没有。数据还是处于孤岛状态,各自为政,不利于数据资源的深度开发利用,也不利于数据资产成本的计量。
03 标准版数据资源盘点
标准的数据资源盘点流程,包括业务场景梳理、业务对象识别、数据标准设计、数据模型搭建、逻辑实体设计、数据分布设计到最终形成详细的数据产品说明书。
首先是识别(主题)业务域,即基于业务域去看每个业务域当中产生了哪些业务对象。可以用实体(业务对象)和业务对象之间的逻辑关系这两个视角来看待。把这些业务域的对象识别出来之后,再去对这些业务对象进行定义,这就是数据标准环节,即确定数据资源的基础构成要素。
有了构成要素之后,我们再看要怎么样运用这些基本的数据要素。需要基于场景去分析,需求场景可能来自内部用户,也可能来自外部用户。根据用户的数据需求,首先需要构建一个数据模型,即通过从数据资源目录里面挑选一些标准组件,来构建基于特定应用场景下的模型。
在此基础上,再去填充和细化这个概念,就会形成一张逻辑表单。这个表单其实就是把业务对象和数据标准进行组合。这个表单与第二种数据资源盘点方式下所说的表单定义有所差异。前述第二种场景下,数据表单里面字段属性的定义是非常有限的,但是在第三种方式下,表单字段的定义非常多、非常完善。从IT的视角有一个术语叫做元数据的管理,就是把所有(从管理的视角、业务的视角、技术的视角)涉及到的对于数据标准的管理要求全部融入进来,所以它的量相对比第二种方式下有限的字段定义要多得多。
最后一个也是非常重要的环节,就是在逻辑设计和数据集之间的数据分布梳理。任何一张表都不是凭空产生的。每张表里的数据都由前序基础表中的数据加工整理汇总而来。数据分布就涉及到一层一层表单的往前追溯,直到追溯到一个最原始的数据采集点。通过数据分布的梳理,就把整个数据的血缘关系交代得非常清晰。未来数据产品需要升级时,就能很快理解或者重新架构数据产品,最终得到数据集。
经过此过程,我们也能够更好地或者更精细化地对数据资产相关的成本进行成本归集、成本分摊,最终进行成本结转。
总结来说,数据资源的盘点有三种常见的方案。前面两种方案相对都是比较简单。而相对完整的数据资源盘点,涉及识别业务域、业务对象、定义数据标准、场景应用分析、数据模型构建与逻辑表单设计。重要环节还包括元数据管理、数据分布梳理,以确保数据资源从源头到最终数据集的完整形成与清晰脉络,利于后续的计量、价值评估与资产管理。