面向能源大数据的链上链下数据监管方案研究

余 晗 李俊妮 吴海涵 原洁璇 史嘉伟 李元诚

1(国家电网有限公司大数据中心 北京 100052) 2(华北电力大学控制与计算机工程学院 北京 100096)

能源网和互联网的深度融合是新时代下适应能源转型发展潮流的重要手段,作为第3次工业革命的核心,能源互联网依托于分布式发电、可再生能源等新能源技术以及人工智能、大数据、云计算和区块链等计算机专业技术,近年来取得了长足的发展.因此,能源大数据越来越成为企业的重要战略资源,企业越来越开始关注能源数据的价值.能源大数据集成多种能源(电、煤、石油、天然气等)的生产、传输、存储、消费、交易等数据于一体,这些能源数据分布存储在多个企业或者部门,通过它们之间的数据共享可以更好地发挥出能源数据的价值,更好地将能源数据服务于社会发展.然而由于能源主体众多、数据量大、类型多、来源广、异构性强的特点[1],现阶段的能源数据共享监管成为一个难题.首先,多源异构的能源数据在各个环节中的信息分散存储,各部门只能通过数据接口进行信息共享和数据流动,因此数据信息共享的程度并不高,各链路的协调效率也较低,导致出现了一个数据孤岛.其次,在传统的能源数据集中传输和存储的场景中,攻击者可能会在数据传输过程中窃取用户的数据信息,导致用户的私有信息泄露等问题.此外,目前由中心节点集中存储能源数据信息的方法,可能存在存储节点单点故障、遭受恶意篡改数据等安全风险.

近年来,区块链技术的发展为能源数据共享问题的解决提供了一个新的思路,区块链技术完美契合能源互联网基本特征,有效地满足了能源数据共享、隐私保护以及可靠数据传输的需求,具有很大的应用前景与研究价值.习近平总书记在中央政治局第十八次集体学习时强调,区块链技术的集成应用在新的技术革新和产业变革中起着重要作用[2].区块链的概念起源于比特币[3],最初是由日本学者中本聪提出的.它是一种通过哈希函数对数据进行非对称加密[4],将数据打包并上传到分布式节点,形成链式结构,从而实现事务信息的加密和记录的技术.区块由区块头和区块体2部分组成:区块头一般包含版本号、前一个区块的哈希值、Merkle根、时间戳等;
区块体一般包含自前区块之后发生的多笔数据交易信息.区块链包括点对点传输、哈希算法、共识机制[5]和智能合约[6]等底层技术,它在信息处理方面不依赖于第三方,并且具有分布式存储、防篡改、安全性、分散化和健壮的可追溯性的特点.Aitzhan等人[7]、Sikorski等人[8]以及张宁等人[9]提出将区块链技术应用到能源互联网,其优势包括:不再需要统一的中心机构进行调度管控,系统中的所有个体都可以自调度决策;
跨能源系统的通用性给不同的能源系统信息提供统一的平台;
具有数据的保密性与可靠性;
使用区块链技术、多签名和匿名加密信息实现能源数据共享.

尽管区块链适合能源互联网的数据共享任务,但是对于能源数据共享的监管研究,目前所开展的工作并不多.大量学者从链上链下映射和存储模型的方向来研究数据监管问题,目前绝大多数工业区块链建设项目都是采用了链上存证、链下保存大量基础数据的方式来实现链上链下映射与数据协同,进而实现数据监管任务:文献[10]以政务数据为背景,设计出基于授权的链上链下协同模型,通过算力池大幅缓解了区块链的瓶颈压力,提出了基于智能合约的去中心化访问策略,并最终通过实验达到了比较好的效果;
文献[11]以不同发电厂的数据类型为例,将电力系统监管数据与可公开共享数据分开研究,提出基于区块链的电力数据统一监管与共享交易模型,设计基于摘要目录树集中式检索的电力数据共享交易第三方平台,达到了对电力交易安全监管的目的;
文献[12]提出了一种基于区块链的第三方平台多价值链协同数据共享框架,并通过实际案例验证了该框架的有效性;
文献[13]提出了一种基于区块链的日志存储方法,采用区块链的分布式架构来保存告警日志,避免了数据窃取和恶意篡改,使用查询区块索引库的方式来替代传统的区块链顺序检索,提高了告警日志检索的速度;
文献[14]通过分析区块链的技术特点,提出了一种基于区块链的电力共享经济方案,为区块链在电力领域的应用提供了新的思路;
文献[15]利用区块链技术实现了电网分布式经济调度下的数据保护,可有效抵御网络攻击;
文献[16]设计了一种基于区块链的智慧电厂数据安全传输系统,结合数字签名等技术保障了数据网络传输的安全;
文献[17]结合区块链技术的特点,提出了农业数据共享模型、溯源模型以及隐私计算模型,实现了农业数据的科学监管.针对能源数据共享过程中的监管,需要结合能源数据的特点进行进一步研究.

鉴于此,本文提出了一种面向能源大数据的基于联盟链的可信监管模型,实现了链上链下数据的映射,从而保证了能源数据共享过程中的安全与可溯源.本文的主要贡献如下:

1) 基于能源大数据中心数据中台建设,提出面向能源大数据的链上链下数据监管模型,借助数据中台基本功能,对各系统资源数据进行汇聚与清洗,将监管数据上链保存,为数据共享提供有效支撑;

图1 链上链下能源数据监管模型

2) 依托数据资源目录系统,建立目录区块链,对数据资源目录的关键数据进行了有效设计,并对其进行上链操作,监管数据关键字与链下数据关键字一一对应,将目录更新信息及时上链,实现了数据存储阶段数据的链前与链上监管;

3) 针对数据访问过程,将数据共享过程中的实际操作进行记录,形成日志文件进行保存,将日志元数据上链,并在区块头添加密文索引信息,方便日志检索,将更新之后的结果返回给数据资源目录系统进行更新,实现了数据访问阶段数据的链上监管.

本文从能源数据的存储和共享2个角度,探究面向能源大数据链上链下数据的监管模型,其中总体架构如图1所示,主要包括数据资源、数据中台、监管链和能源数据监管部门4大部分.数据资源之间的共享操作通过数据中台进行连接,由数据中台对共享数据统一汇聚与处理,交由能源数据监管部门进行上链操作,将重要的敏感数据与数据访问操作保存在监管区块链中,一方面可以从监管链对能源数据信息进行监督管理,确保能源数据流通过程中的真实性与安全性;
另一方面也使得各共享主体与监管部门之间避免产生信息孤岛,实现监管一体化.该整体架构中的实体名称和具体实现的功能如下:

似乎所有津津乐道的故事都有类似这样一个“风骚”的开始:初识只作乍见之欢。我们似乎都是习惯了喜新厌旧的人,喜欢去新的城市,喜欢探索新的事物,喜欢更换新的物品,喜欢接触新的人……世间的美好,多数在于初见,初见你初妆、初见你笑颜……然而好的事物容易有一个通病,那就是都不长远。越是璀璨,就越是脆弱。花前月下,尘梦如烟,似曾相识,昙花一现!其实,人生难得的是日后久处不厌,如果是,那么,有生之年,有幸遇见。

1) 数据资源系统.包括电力资源系统在内的多个进行能源数据共享的能源大数据中心内部主体,可供其他不同系统进行可验证的数据远程访问服务,其中包括燃气资源管理系统、核能数据管理系统、基建信息管理系统以及数据共享过程中可能会使用到的各类数据,它们之间通过数据中台进行连接,从而实现数据共享的操作.每个数据资源系统既可以作为数据提供者,向能源监管部门上传数据供其他系统访问,也可以作为数据使用者请求对其他系统数据的共享操作.各资源系统协同运作,共同完成能源数据从生产、传输、存储等各流程的任务.

2) 数据中台.即大型的数据管理平台[18],由于政府部门、事业单位以及各资源系统对能源数据的需求差异化较大,数据中台可以对这些不同来源的数据进行汇聚与监控,服务于内外部客户,对外提供统一的服务能力.数据中台分为贴源层、共享层和分析层3大模块,其中:贴源层负责存储原始数据,用于方便数据治理,数据主要包括结构化数据和非结构化数据2类;
共享层负责对各资源系统收集来的数据进行集成与清洗,构建统一的数据交换模型与标准化接口;
分析层负责实现最后的数据应用服务.

3) 监管链.由各能源大数据中心和能源监管部门共同构成,主要用于记录能源数据共享过程中的监管数据,这些数据包括数据访问记录以及基本能源数据目录等.监管链采用联盟链[19]的形式进行构建,联盟链是一种只针对某个群体的成员和有限的第三方的区块链形式,它介于公有链与私有链之间,由于联盟链的节点数量有限,和公有链相比,联盟链的可控性更强、交易速度更快且去中心化程度更低.每个数据资源系统都可以作为联盟链中的一个节点,每个联盟链节点能够为用户生成唯一身份标识,分配公钥和私钥,管理用户的能源数据,所有节点都保存完整的区块链副本,即共享数据的目录、数据访问等信息,从而形成不可篡改的记录.

4) 能源数据监管部门. 主要负责对不同用户的数据访问过程等监管数据进行统一管理,将数据访问信息的关键字段进行上链.监管部门可以根据关键字查询区块链数据,并通过目录服务器与数据库相结合搜索链下数据,针对能源数据的变化实现有效的追踪溯源服务,进而实现能源数据的监管与确权.

5) 数据库服务器. 作为数据库系统,主要功能是参与对链下实际存储能源数据的管理、查询、操纵与维护,负责数据库更新的实时监控,为目录更新上链工作提供支撑.

6) 目录服务器. 参与对链下数据资源目录数据的管理与查询等工作,可作为目录数据查找实际能源数据的接口.

7) 政府与事业单位. 可作为外部组织向能源大数据中心发起数据共享请求.

数据存储监管主要是从原始数据的存储角度来探究能源数据的监管工作,包括链下数据与链上记录的监管,链下监管需要对链下数据的格式和内容进行检查,从而保证数据上链的可靠性,链上监管需要实时接收链上的广播信息,将目录信息的更新操作及时上链.

2.1 数据资源目录

数据资源目录[20]是指按照一定的分类方法对信息资源进行排序、编码、描述,从而方便检索、定位与获取信息资源的一种方式,它可以记录信息的来源与去向,并且规定了数据的共享规范,可以有效体现数据的价值属性,在数据共享的过程中起到十分重要的作用.

图2 数据资源目录系统结构

如图2所示,多个业务系统通过数据资源目录管理系统进行连接,各业务系统可以作为数据提供者,将自己拥有的托管数据或自管理数据上传给数据资源目录服务管理者,注册数据存储,如果用户信息验证成功,则生成目录信息并将其存储在数据库中,为其他的数据使用者提供目录订阅与使用服务.同时,各业务系统也可以作为数据使用者,对其他系统的目录服务进行申请访问,从而实现数据共享.

对于传统的数据资源目录,共享交换效率低,数据有效性差,数据权责不清晰,数据的所有权和管理权分离,容易引起维护、安全等问题.

因此,本文依托于数据资源目录,结合区块链技术,构建了目录区块链.

2.2 目录上链监管

本文利用区块链去中心化、不可篡改的特性,将数据资源目录通过区块链进行存储,在保证数据共享安全的情况下,缓解区块链的存储压力.

目录区块链的上链流程如下:

1) 假定各资源系统已完成身份注册,拥有唯一的身份标识符[21],则上传自己拥有的带有数字签名[22]的管理数据;

2) 各资源系统向数据资源目录管理系统提交目录注册存储申请,请求生成数据资源目录;

图3 链上链下能源数据存储格式设计

3) 数据资源目录管理系统对各资源系统提交的申请进行确认,通过智能合约验证其身份信息并判断申请信息是否完整,若身份验证正确且符合数据规范则同意请求,对管理数据按照事先设计的数据标准生成数据资源目录信息,将数据资源目录保存在目录服务器中,并返回存储位置信息;

4) 由数据资源目录管理系统对数据资源目录关键字段信息进行上链申请;

5) 由监管部门节点对上链数据进行检查,验证有效后将数据打包成新的区块,将新区块广播到区块链网络所有节点,在区块链节点共识完成之后,数据上链,保存在目录区块链中,更新索引信息并返回上链结果,否则抛弃此区块.

2.3 目录数据标准监管格式

如图3所示,目录区块链中的主要业务数据设计包括数据关键字信息,即数据唯一编号、链下数据所在位置、最后更新时间、特征值等,对目录数据各字段的描述如下:

1) 数据关键字信息即数据唯一编号.反映数据唯一性的主要属性字段,可以与链下目录数据库存储数据进行一一对应,从而实现链上链下数据的映射关系,每个上传到区块链的数据都拥有唯一的ID.

2) 数据所在位置.即链上数据所对应的链下数据具体数据库或服务器位置,可以实现链上数据对链下数据的定位.

3) 最后更新时间.给目录区块更灵活的管理方式,通过链上字段反映出数据实时变化的信息,方便对数据的追溯与查询.

4) 特征值.即目录数据上链的哈希编号,可用于数据真实性和完整性的检验,其中哈希算法公式为:

其中,n为区块索引;
k为哈希值;
kn-1为上一次产生的哈希值.

5) 数据提供者ID.用于标识数据的提供者即归属机构或者个人.

6) 数据状态.用于标识该数据当前是否可用,若值为0表示数据不可用,若值为1表示数据可用.

2.4 目录更新监管

为了对能源数据进行有效监管,数据资源目录也需要根据链下数据的实时更新而进行变化,将更新后的数据资源目录再次上链.这样,区块链上保存有不同时间目录的更新信息,可利用此链上信息对数据进行逆向溯源操作,从而实现对能源数据的监管工作.

目录区块链的更新流程如下:

问卷数据由笔者手工输入,数据分析用SPSS 22.0进行了描述统计和独立样本T检验。下面将对问卷调查及相应的访谈内容进行结果分析与讨论。

1) 在本地数据库中设置触发器,建立数据库更新表,触发器会把表的变动信息包括更新时间等写入数据库更新表,按更新时间将数据库更新表排序;

2) 各资源系统监控本类能源数据变化,定期对数据库更新表进行扫描,并设置检查点,将数据库更新表进行采集;

3) 各资源系统向监管部门发送目录更新请求,传输的参数包括数据提供者ID、关键字以及数据更新表信息等;

4) 监管部门收到目录更新请求之后,将请求信息汇聚到数据中台,调用数据中台通过搜索算法获取目录区块链上与关键字对应的目录数据,检查数据提供者ID是否与发出目录更新请求的用户一致,若一致则可确定目录属于请求者;

5) 数据中台根据请求信息,提取最后更新时间、数据提供者ID、数据所在位置等字段信息,若当前目录不再使用,将数据状态字段置为0,打包准备上链;

6) 监管节点将打包好的区块广播给区块链各节点,根据指定的共识算法进行共识,若共识成功则进行下一步操作,否则抛弃此区块;

7) 将共识成功的区块上链,返回操作结果;

8) 区块上链后,将更新结果返回给数据提供者;

9) 根据上链结果,对链下数据库中存储的数据资源目录进行更新,包括关键字信息与其他实际修改的字段信息,将关键字与链上数据信息一一对应;

10) 重复步骤2的操作,从检查点开始继续对数据库更新表进行扫描,继续进行上链申请,达成共识后将数据保存在区块链上,确保区块链上保存的一直是最新的数据.

基于上述提到的目录区块链基本思想,将数据资源目录保存在区块链中,链下数据存储在数据库,利用区块链的防篡改性和可追溯性,避免了数据目录被非法篡改.当数据资源目录需要变动时,监管链可以实时地将变化的信息进行存储.为了验证链下数据的真实性,监管部门可以向区块链网络发起请求调用智能合约,通过索引结构按照关键字随时查询链上数据,得到链上存储的最新目录数据之后,通过数据所在位置这一字段信息,定位到数据的链下存储具体地址,将链上信息与链下信息进行对比,若信息不一致,则监管部门应立即启动告警服务.能源数据各资源系统也可以通过其他方式向区块链网络发起溯源请求,在满足权限的前提下查询链上信息,从而验证能源数据是否符合规定的标准或者信息是否已经遭到篡改.

数据访问主要指的是各资源系统以及外部组织在数据共享过程中对数据的各种操作,包括数据的读取、更新与删除等行为.为了防止非法用户对能源数据的访问,也方便今后对数据的追溯,需要对数据的访问过程进行上链记录,实时监控访问数据,从而达到数据可信共享的目的.数据的访问分为2个场景:1)能源大数据中心内部的数据访问;2)外部组织对能源数据的访问.

3.1 访问记录上链监管

数据访问记录的上链具体流程如下:

1) 数据中台将数据访问记录存储在分布式数据库中,对关键信息进行加密,保证日志文件存储的安全性;

2) 对日志文件进行预处理,提取关键字信息,生成访问记录元数据,包括时间戳、访问用户信息、访问权限等,其中包含多关键字K={k1,k2,…};

3) 对多关键字信息进行加密,得到新的信息MK={Ek1,Ek2,…};

4) 将包含该关键字的访问文件的索引插入索引表中,生成倒排索引结构表;

5) 在区块体中放入日志元数据,区块头除版本号、上一区块哈希值、Merkle根节点、区块生成时间戳、难度阈值、随机数等基本信息之外,引入拓展信息,即日志索引结构,方便对日志文件进行检索,打包将区块发送给监管节点申请上链,打包流程如图4所示;

图4 访问记录区块打包流程

6) 监管节点将区块广播给区块链网络所有节点,达成共识之后将区块上链,数据上链后将永久保存在区块链上,之后监管节点将上链结果返回.

数据访问分为内部数据访问和外部数据访问:内部数据访问即能源大数据中心各资源系统之间的数据共享,内部数据就是本地数据库服务器存储的数据不用进行可搜索加密查找目录区块链中的关键字,通过数据中台查找本地目录服务器就可以完成数据访问流程;

外部数据访问的模式就是监管部门通过发来的交换表信息先访问目录区块链,通过可搜索加密找到关键字对应的目录区块,解析目录区块数据信息,找到数据存储实体和具体位置,进而找到对应数据.外部数据访问流程如图5所示,具体流程如下:

1) 各访问用户根据密码算法生成自己的公私钥对,向监管部门发送加密信息进行身份注册申请,监管部门根据私钥解密,为用户生成带有监管部门签名的数字身份信息;

2) 各用户访问具体所需数据时要调用API接口向监管部门发起申请,此时监管部门就会捕捉系统的访问请求,验证访问用户信息并且检索权限表,核实系统是否拥有访问权限.若不符合则拒绝数据服务请求,若符合则判断访问类型,若为内部访问则直接提交数据中台进行目录访问,将数据返回给数据请求用户,若为外部访问则进入下一步;

3) 外部访问用户提交交换表说明具体的数据服务请求,交换表格式采用监管部门制定的统一标准;

4) 监管节点根据交换表内容,生成统一格式的标准数据,查询目录区块链,得到访问数据具体存储位置,通过目录服务器到数据库服务器的查找过程得到相应数据,给予用户数据服务的相应反馈,返回执行结果;

5) 将上述得到的标准数据保存,得到操作日志的元数据,将其存储在本地数据库中,按照前面所述流程上链,返回上链结果.

图5 外部数据访问流程

3.2 访问记录元数据标准监管格式

如图6所示,数据访问过程的元数据设计主要包括数据关键字信息即数据唯一编号、访问用户ID、访问类型、时间戳、特征值等.大部分字段与目录标准监管格式一致,其中访问类型字段表示访问用户对数据执行的具体操作,访问用户ID表示用户的唯一标识符,访问数据表示用户所要访问的具体数据.

图6 数据访问过程元数据设计

本文针对能源数据共享过程可能遭受数据篡改、存在单点故障等问题,提出了一种面向能源大数据的链上链下监管模型,通过监控链下数据变化,实时将数据变化信息上链,从而达到数据协同的目的.本文主要从数据存储和数据访问2个方面探索能源数据的监管模型:数据存储主要依托数据资源目录建立目录区块链,解决链上目录到链下数据的映射,实现了能源数据存储阶段的链前监管与链上监管;
数据访问过程解决访问记录上链,实现了能源数据共享阶段的链上监管.最后,将数据资源目录和数据访问过程统一起来,实现了能源数据共享过程的有效监管,为能源大数据中心的建设提供了方案和思路.但是,由于能源系统庞大、体系结构丰富,本文的监管方案并不能完全适用于能源数据的共享过程,而且在访问控制等方面并没有进行细节上的更多描述,因此还需要在今后的工作中进一步研究和完善.

猜你喜欢关键字区块能源履职尽责求实效 真抓实干勇作为——十个关键字,盘点江苏统战的2021华人时刊(2022年1期)2022-04-26区块链:一个改变未来的幽灵科学(2020年5期)2020-11-26第六章意外的收获小学科学(2020年5期)2020-05-25区块链:主要角色和衍生应用科学(2020年6期)2020-02-06成功避开“关键字”动漫界·幼教365(大班)(2019年10期)2019-10-28————不可再生能源">用完就没有的能源
————不可再生能源家教世界(2019年4期)2019-02-26区块链+媒体业的N种可能传媒评论(2018年4期)2018-06-27读懂区块链现代企业文化(2018年13期)2018-06-09福能源 缓慢直销路知识经济·中国直销(2017年3期)2017-04-16智能垃圾箱环球时报(2009-11-25)2009-11-25

推荐访问:数据 监管 面向