本篇文章5414字,读完约14分钟
阅读指南在建设数字中国的过程中,构建全面的政府数据治理体系是打开政府大数据之门的关键。华奥数据在华为的生态中积累,并根据其在深圳龙岗等地的实践经验,总结出一套GLDM方法论,以规范数据治理体系和数据治理集成平台的建立。
“三位一体、五位一体”是指“推进技术集成、业务集成和数据集成,实现跨层次、跨区域、跨系统、跨部门、跨业务的协同管理和服务”,已成为当前我国政府信息化的指导思想。在建设数字中国的过程中,在“三并五跨”的指导下,构建政府“五跨”数据治理体系是打开政府大数据大门的关键。随着国家大数据战略的制定以及国家网络信息委员会和地方大数据局的成立,政府的“五跨”数据治理一体化建设如雨后春笋般出现。
然而,在各地区建立数据治理系统和建设数据治理集成平台的过程中,虽然有“三并五跨”的指导思想,但仍需要一种“五跨”的数据治理方法,将“三并五跨”的思想与落地项目的实施联系起来。通过华奥数据在华为生态中的积累,结合其在深圳龙岗等地的实践经验,总结出一套GLDM(政府逻辑数据模型)方法,以规范数据治理体系的建立和数据治理集成平台的建设。
大数据发现时代:如何避免哥伦布难题?
如果政府中的“五个跨度”数据源被视为一个已经发现或尚未发现、正在建造或即将建造的岛屿和大陆(这些岛屿中有相当一部分是“信息岛”),那么“三合一和五合一”的时代可以与15世纪的地理发现时代相提并论,即通过航空路线将岛屿和大陆连接起来并建立全球贸易。现在是“数据发现”的时代。在地理大发现的时代,早期的航海家,如哥伦布,经常“走路时不知道去哪里;当你到达时,你不知道它在哪里。当我回来时,我不知道我去了哪里”。GLDM将赋予大数据发现时代一种现代的“数据导航技术”,以避免“哥伦布难题”——在构建“五跨”数据治理系统时,我们不知道在开始时我们能做什么,在执行时我们应该做什么,在完成时我们应该做什么。
具体来说,由数据治理系统构建的GLDM“数据导航”有四个要素:
“图表”:整理政府信息资源目录就像在地理大发现时代建立图表的过程。它让我们知道哪里有大陆(大数据)、岛屿(数据资源)、珊瑚礁(敏感数据)和冰川(难以协调的数据)。“五跨”特征是政府数据不同于企业数据的本质特征。由于政府是等级制的,它的各级信息化建设不能由一个统一的国家信息技术部门作为一个企业来建设和运作。它只能由各级、各部门和企业独立构建、独立发展和独立运营。这使得政府信息资源编目成为一项必须首先完成的重要任务。这是一项结合了数据调查和商业调查的调查工作。其重点是现状调查和需求调查,包括各委员会的职责和业务。每项业务的流程和系统是什么?在每个服务和系统中将生成和使用什么数据?委员会有哪些数据库,它们是如何组织的?正在构建什么系统,需要什么数据?
在分类过程中,元信息,例如这些数据和数据库的生成系统和过程、数据源单元和存储位置、数据库类型、数据格式、数据模型、数据标准、数据更新频率、数据接口等。将被收集。“三化五交”的难点和瓶颈问题,如哪里有商业暗礁,哪里有信息孤岛,将在本次普查中记录和描述,最终形成一个城市/地区政府数据的全景图。由于政府职责的标准化(有三个计划,行政授权等。为了规范政府部门的职责),这项工作在省、市、县之间往往有很大的相似之处。GLDM正是将这些相似之处抽象化,使得基于GLDM的每一份政府信息资源目录都站在巨人的肩膀上。政府信息资源目录的整理结果将进入元数据管理系统,元数据管理系统的基本功能构成政府信息资源目录。
“路线”:数据共享与交换平台为数据导航开辟了一条路线。目前,国内有很多数据共享和交换平台产品,也有很多理论和实践探索文章,所以这里就不做了。
“指南针”:数据标准平台、数据监管平台和数据合规平台就像指南针。让我们的数据治理系统不要走错方向,避免弯路、错误和邪恶的方式。数据治理系统的建立就像数据工厂的建设。工厂的输入是当前数据(源数据),输出是数据资源(基础数据库和主题数据库等)。)和当前数据的质量反馈和安全监督。
“船”:数据质量管理平台和五跨数据融合平台是数据工厂的关键设备,就像数据航程中的“船”。真正的“航行”将由这两个平台完成。数据质量管理平台就像船的“舵”,控制着船的进程。这个五跨度的数据融合平台就像一艘船的“引擎”,推动着船前进。
包含这四个要素的数据治理系统能够治理和监督元数据(信息目录)、标准化过程、质量和安全,并贯彻“三位一体、五位一体”的理念。它可以体现为五位一体的标准化、五位一体的一致性、五位一体的及时性、五位一体的完整性和五位一体的数据实体身份,从而形成一个全面的数据治理系统,拥有一个完善的系统和四个可以轻松落地的治理系统:数据目录治理、数据标准治理、数据质量治理和数据安全治理。
数据标准平台:确保五跨标准化,使数据处理过程更加可控
在数据导航中,虽然我们有图表,但图表只让我们知道当前的数据和数据需求,而我们仍然不知道数据处理的目标。我们的目标数据是什么?我们仍有陷入“哥伦布困境”的危险。更让我们担心的是,数据处理过程是不可预测和不可控制的,数据处理结果因人而异,因时而异,因事件而异。因此,我们需要为我们的目标数据(数据资源库)建立标准。这些标准越完善,数据处理过程就越容易控制。
现状数据通常是面向业务和需求驱动的建模,这意味着我们在现状数据中看到的是一份社会保障支付和补偿记录、一份检查报告和案例、一份出生证、户籍、租赁合同和户籍记录等。然而,目标数据是面向资源的和通用数据驱动的建模。本质上,在数据空之间建立客观世界的映射,在数据空之间整合城市管理服务实体的数据描述。我们在目标数据中看到的是每个人和每个证书、每个企业和每个社会组织、每个套房和每个城市组件、每辆车和每条道路以及城市中发生的每件事(事件)等。
数据标准平台必须首先解决目标数据的建模问题。包括数据编码标准、数据元素标准、数据模型标准、数据存储标准、数据交换格式标准、数据共享接口标准等。
其次,数据标准平台还应解决当前数据(源数据)从目标到源的逐层逐步标准化的问题。由于当前的系统和数据库已经建立了很长时间,拆除现有数据的模型、代码、类型、字典、格式和接口是非常昂贵的。智能城市正在建设中,将部署大量新的智能应用程序,这些应用程序将生成大量增量数据。如果在新系统的建设过程中直接采用与目标数据兼容的源业务数据标准,将大大减少后期的数据浪费,节省大量的数据清理成本。因此,数据标准平台需要建立通用业务数据标准和关键特殊业务数据标准,并确保在信息项目启动和验收过程中采用这些标准。
第三,数据标准化平台还应解决数据处理的标准化问题。由于当前数据和目标数据都已经标准化,从当前数据到目标数据的处理过程也将更容易标准化,这样我们就可以在数据工厂实施标准化建设,建设一个系统化、标准化、智能化的“数据精炼厂”。数据处理的过程标准包括数据清洗规则标准、数据融合过程标准和数据质量评估标准。通过目标、来源和流程的标准化,可以确保政府大数据的处理不会走弯路、犯错误,不会走向相反的方向,不会踏上前人踩过的坑。数据标准化平台不仅帮助制定标准(归纳、发现和分析标准)和管理现有标准,还确保标准应用于系统设计和开发(标准的注册、发布、订阅和采用注册),对现有和增量数据进行标准符合性测试-使用标准发现数据中的问题(错误检查),并智能地标准化问题数据-解决发现的问题(错误纠正:主要是纠正形式错误)。
数据监管平台和数据合规平台:确保五跨数据安全,防范数据风险
数据标准平台可以解决数据治理系统中最困难的标准化问题,而数据治理系统中还有一个重要的问题——安全问题。在整理信息资源目录的过程中,数据在所有委员会和所有业务系统中的存在被清楚地显示出来。作为负责数据安全保护的部门(DPA:Data Protection Authorities),如何确保源数据、目标数据、数据处理和应用程序流程不存在安全问题?如何堵住所有的数据泄露点,确保数据不会被不小心丢失、非法泄露、恶意篡改和非法用于业务?这需要由数据监管平台来完成。事实上,数据的交易、操作、开放和共享应该受到有效的数据监督,以便健康有序地进行。否则,在交易、运营、开放和共享过程中会积累大量风险,随着未来数据立法和数据政策的明确,这些风险可能随时爆发。正如证券交易所需要证监会的监管一样,数据交易所和数据运营公司也需要DPA部门的监管,以避免像互联网金融混乱这样的“数据混乱”。“凯撒的是凯撒的,上帝的是上帝的”。数据的开发和利用可以通过市场化的方式进行。然而,数据监管是政府在数据交易和操作中的底线责任,就像金融办公室对金融业的监管责任、国土资源局对国土资源的监管责任以及互联网信息办公室对内容行业和公众舆论的监管责任一样。
自2018年5月25日起,欧盟关于数据监督和保护的《一般数据保护条例》(GDPR)开始实施。“数据遗忘权”、“数据可移植权”、“数据知情权”和“个人数据处理标志”的要求正在对中国互联网企业和大数据企业产生重大影响。与此同时,“个人原则”(长臂管辖权原则)和“个人信息退出原则”也将影响中国的数据主权和数据立法。迫切需要建立中国的数据保护立法和数据监管机构及其监管职责。数据监管平台可以确保数据治理系统不会出错或误入歧途。
除了DPA的数据监控平台之外,处理个人信息的企业和政府机构还需要在DPA的管辖范围内建立一个数据合规平台,以确保数据监控措施落到实处,并在数据收集、处理、处理、共享、交换和本单位开放的过程中预防和控制风险。
数据质量治理平台和五跨数据融合平台:确保五跨数据质量,防止GIGO
解决了“数据导航”过程中的海图、导航路线和罗盘问题。剩下的问题是,根据航海图,需要一艘船沿着航行路线航行,并通过罗盘将数据指向另一侧。此次船舶搜索的核心组件是“方向舵”(数据质量控制平台)和“引擎”(五跨数据融合平台)。这两个平台可以避免在五跨数据的复杂情况下,政务应用中“用数据不如用数据”的不利局面。在从源数据到目标数据的处理过程中,不仅实体会重复,格式会混乱,而且数据也会冲突或出错。有两种错误,一种是正式的,另一种是实质性的。对于正式的错误,可以通过当前的技术手段进行全自动的数据清理,但是对于实质性的错误,不能实现全自动化,并且在很多情况下部门职责不允许自动的数据清理,人工干预下的合法数据修改必须在源业务系统或数据责任部门进行。然而,数据资源库的建设不能等待千千这样的人为干预。因此,除了自动发现错误、引入手动干预以手动纠正实质性错误(系统将给出建议值)和控制源数据质量的数据质量管理平台外,还需要一个不等待手动干预的五跨数据融合平台,尽可能地保证和提高数据质量,最大限度地支持决策分析的应用,保证在正确的统计显著性条件下,后台对所有数据问题的连续处理,并在尽可能短的时间内构建数据资源库。
如果说数据质量管理平台是一个综合运用技术手段和管理机制来管理源数据质量、科学评估各机构数据共享绩效的平台,那么五跨数据融合平台就像一个连续的数据流水线工厂,不断将当前的源数据提炼为目标数据资源。在GLDM方法论中,数据质量管理平台是一个数据天网系统,包括三层管理网络结构,如勘探网络、标准网络和质量网络,而五跨数据融合平台是一个数据工厂系统,包括六层管道结构,如历史层、标准层、原子层、集成层、集市层和应用层。
GLDM:为“中国数据治理计划”添砖加瓦
信息资源目录分类(图)、数据共享与交换平台(气道)、数据标准平台和数据监管平台(罗盘)、数据质量管理平台和五跨数据融合平台(船)构成了GLDM数据导航的五跨数据管理方法。在华奥和华为的合作中,这种方法已经成为知识积累的最佳形式,指导最佳实践,使每个大数据中心和每个数据治理系统都站在巨人的肩膀上,避免了早期城市走的弯路和错误的道路。作为对“三并五跨”思想的实践探索,以“三并五跨”思想和GLDM方法论为指导的数据中心建设正显示出强大的生命力。
在过去的30年里,逻辑数据模型(LDM)在金融、电信、能源和交通等许多领域发挥了至关重要的作用。数据仓库的领导者Teradata凭借其在许多行业对LDM的掌控,已经成为世界上最重要的数据公司之一。然而,由于世界上没有“三位一体和五位一体”的大规模实践,跨部门和跨业务的政府数据的逻辑数据模型,即五位一体的LDM,仍然是a 空白色。GLDM(五交叉管理逻辑数据模型)方法被开发来填补这个空白。GLDM通过不断总结各省/市/区/县数据中心和数据治理系统的建设经验,逐步提高各级数据中心和数据治理系统的建设水平。
在2017年5月的第三届数字博览会上,GLDM方法论受到了广泛关注,并收到了中国新闻社、凤凰财经和贵州当地媒体的大量报道。华奥公司正与更多的省、市、区级大数据中心、大数据局、经济和信息委员会、互联网信息办公室和数字办公室合作,总结和分享数据治理系统建设的成功和不成功经验,丰富GLDM方法。
2017年,华奥和华为在生态合作伙伴大会上联合发布了基于GLDM的两国政府数据治理和整合联合解决方案。之后,华奥和华为多次提交,获得一致通过。华奥愿意与当地政府数据管理部门一起探索和实践,为“数据治理中国计划”添砖加瓦。(贾/文,深圳华奥数据有限公司CEO)
来源:BBC新闻网
标题:GLDM:数字中国的“五跨度”数据治理方法
地址:http://www.0bbc.com/xbglxw/2591.html