507
浏览摘要
随着社会经济高速发展,能源短缺和环境污染等问题日益显著,人类的生存与发展受到了严重影响,这些问题也越来越受到人们的关注。全球各国相关能源企业、组织机构已经具备了大量的能源研究成果和数据,但这些研究成果和数据口径不一,甚至存在矛盾的情况,没有得到有效融合与深度应用。
本课题研究的主要内容是对G公司全球能源信息釆集分析平台的构建过程以及实施效果评价进行研究。一方面综合分析了综合数据、成果管理、分析展示需求,并依此对平台进行了设计,具体阐述了设计原则、提出总体架构设计、业务架构设计、应用架构设计、技术架构设计、数据架构设计以及安全架构设计;对此平台开发和运行环境进行说明,并重点介绍了指标査询、报告协作编写、电网图展示、大屏展示等主要功能。另一方面从平台功能效果、平台非功能效果、用户能力提升水平、实施团队服务水平四个因素确定了该平台的实施效果评价指标体系,并选取层次分析(AHP)和模糊综合评价法对该平台的实施效果进行综合评价,得出该平台整体实施应用效果优良的结论。同时根据评价结果,发现该平台非功能效果需要完善与加强,并提出了相关建议,以便进—步优化该平台应用,从而提升全球能源研究业务发展。另外,通过将层次分析(AHP)和模糊综合评价法理论应用在实际研究活动中,以达到进一步验证与丰富该理论与方法,也能够为相关系统实施效果评价提供借鉴参考。
关键词:全球能源;数据釆集;多维展示;实施效果评价
目录
摘要 I
Abstract
第1章绪论 1
J.1选题背景与意义 1
1.1.1选题背景 1
1.1.2选题意义 1
1.2国内外发展动态及研究现状 3
1.2.1全球能源信息现状 3
1.2.2全球能源信息采集分析平台构建研究现状 5
1.2.3全球能源信息釆集分析平台实施效果评价现状 6
1.3论文主要研究内容及框架 7第2章相关理论基础 9
2.1全球能源信息釆集分析理论基础 9
2.1.1全球能源信息的相关概念 9
2.1.2数据釆集分析技术理论 10
2.2系统实施效果评价理论基础 12
2.2.1层次分析法原理 12
2.2.2模糊综合评价法 13
2.3本章小结 13第3章全球能源信息采集分析平台需求分析 14
3.1总体需求分析 14
3.2系统用户分析 15
3.3业务流程分析 15
3.4数据流程分析 18
3.5功能性需求分析 19
3.5.1综合数据库需求分析 19
3.5.2成果管理需求分析 21
3.5.3分析展示需求分析 21
3.6非功能性需求分析 22
3.7本章小结 24第4章全球能源信息采集分析平台的设计与实现 25
4.1全球能源信息釆集分析平台设计 25
III
4.1.1设计原则 25
4.1.2总体设计 25
4.1.3业务架构 27
4.1.4应用架构 28
4.1.5技术架构 29
4.1.6数据架构 32
4.1.7安全架构 33
4.2全球能源信息釆集分析平台实现 34
4.2.1系统开发和运行环境 34
4.2.2系统主要功能实现 35
4.3本章小结 43
第5章全球能源信息采集分析平台实施效果评价 44
5.1实施内容与过程 44
5.2实施效果评价 46
5.2.1平台实施效果评价研究目的 47
5.2.2评价研究方法的选择 47
5.2.3评价体系的构建 51
5.2.4实施效果综合评价 53
5.2.5结果分析 59
5.3系统实施建议 60
5.4本章小结 60
第6章研究成果和结论 61
参考文献
第1章绪论
1.1选题背景与意义
1.1.1选题背景
随着经济、科技的高速发展以及人们对幸福生活的持续追求,人类所消耗的能源总量在不断增长,其中传统化石能源的消耗目前还占主导地位,大量的化石能源的消耗导致全球变暖、空气质量降低、地理环境破坏等问题日益严重。同时,由于化石能源不可再生,导致人类生存以及人类社会可持续发展遇到前所未有的困难。因此,如何推进能源转型,发展绿色能源经济,已成为全球各国共同面临的难题,需要进行广泛而深入的研究。目前,国外相关能源企业、组织机构的智库己经具备了大量的原始数据和研究成果,并建成了较为成熟的研究理论与方法,但我国能源研究起步较晚,还没有形成成熟先进的研究方法,也未形成权威的能源研究成果O2015年1月,我国国务院发布了《关于加强中国特色新型智库建设的意见》,急切要求大力建设中国特色新型智库。
另外,随着信息技术的高速发展,近年来大数据、云计算等相关技术得到了广泛应用,各行各业也积累了众多成熟的实践经验,因而利用这些技术及实践经验实现海量能源数据的快速读取、处理、计算、展现与分析,变得非常安全且高效。
G公司作为国内一家重要的国家级全球能源分析研究单位,全球能源信息釆集分析平台作为该公司能源智库的重要组成部分,是该公司整个能源分析与决策活动的基础。它能够基于大数据技术对海量能源数据进行釆集、计算、管理与分析,在全球能源数据的海洋里发现具有较高价值的能源信息,并将分析结果进行快速分享。
基于作者在该项目上作为项目经理的相关工作经验,同时搜集阅读国内外相关数据釆集、能源研究、大数据、软件系统实施效果评价等相关主题文献,以及与该项目相关干系人进行研讨,深入总结分析该平台系统构建过程中的经验与教训,并通过层次分析法和模糊综合评价法,对该平台的实施效果进行评价,最终对该平台的构建与实施过程提出相关反馈建议。
1.1.2选题意义
(1)理论意义
全球范围的能源数据主要以各主要发达国家的智库机构网站的形式存在。如美国能源信息署、英国石油公司、国际能源署等机构的官方网站。经分析,发现很多机构网站数据存在不完整以及不同机构网站数据之间存在差异甚至矛盾的问题。本系统对这些网站上的能源相关信息进行采集、整理和存储,并通过大数据技术手段发现相关数据的问题,鉴别优质数据源,同时汲取这些智库网站的优点,完善G公司全球能源信息采集分析平台构建理论与方法,并为同类应用平台的构建提供借鉴参考。
本课题的另一部分内容是对G公司全球能源信息采集分析平台实施效果进行评价。由于软件实施效果评价很难通过直接的定量指标来评价,具有强模糊性,因此需通过层次分析法(AHP)和模糊综合评价法对该平台的实施效果进行评价,同时可以进一步验证与丰富该理论与方法。
本课题经济效益体现在通过优化平台功能构建与实施效果,为G公司进一步拓宽国内外政府、企业、机构能源数据渠道,节约信息数据获取和使用成本,构建并完善包含全球范围内经济、能源、电力、环境、政治、金融等信息的数据库,充分利用网络技术实现将釆集到的数据和相关分析结果在企业、政府、行业乃至全球范围内进行共享,以便有效降低各方每年数据获取成本和信息交流成本。
(2)实践意义
在应用层面,研究全球能源信息釆集分析平台的构建与实施效果有以下实践意义:
1) 全球能源研究涉及国内外经济、能源、电力、环境、政治、金融等数据,这些数据种类繁多、发布日期不一、异构性强,数据获取和甄别工作困难重重,且权威性、完整性、准确性有待探究。本课题综合利用当前先进信息化手段,建立统一的能源综合数据库,确保研究成果立足于强大的信息数据分析,最大程度地实现数据的科学性、正确性、权威性。
2) 通过全球能源信息釆集分析平台的构建研究,能够加强G公司知识产权与信息管理,从而达到保护G公司核心机密和提升信息安全水平的目的。G公司的研究工作涉及的大量数据,以及长期以来积累的研究成果,是G公司发展的核心数据与机密,安全性和保密性要求高。目前大量数据与研究成果管理分散,G公司缺乏统一的数据管理机制,发展存在安全隐患。依托全球能源信息采集分析平台,实现数据的集中存储、管理及更新,建立权威、准确、可靠、可控的统一研究平台,并能辅助年度报告和规划研究报告编写,实现数据、成果的智能化高效査询搜索,能够有效避免重要数据泄露,保护G公司数据信息安全和保密性。
3) 通过对全球能源信息采集分析平台的实施效果评价研究,重新梳理平台构建过程中的问题,以帮助平台应用方面得到有效提升完善,持续满足G公司不断变化的能源研究分析需求。研究评价指标体系的构建,最终实现对全球能源信息釆集分析平台的实施效果评价,为同类软件实施效果评价的评价指标选择提供参考。
在技术应用层面,建设全球能源信息采集分析平台的构建与实施效果评价具有以下实践意义:
①通过网页釆集程序实现全球主要能源网站的指标数据釆集,并对采集的指标数据进行清洗映射,形成六类指标数据体系。
②通过创造性地打通了数据釆集入库、数据处理更新、数据报表的自动生成,再到word报告的生成过程、并实现多人报告协作编写。与当前市面上国内外常规报表工具及协作办公软件相比,有着更深入、更实用的价值。
③扩展数据可视化在能源领域的应用,实现了海量数据的极速可视化、基于3D地图的可视化、基于各种可视化技术的综合应用。
1.2国内外发展动态及研究现状
1.2.1全球能源信息现状
国外方面,进入本世纪后,和平与发展成为全球新时代发展主题,能源发展是根本,世界各国均调整能源战略,维护各国的能源安全和国家利益。其中,美欧日等能源消耗大国转向海外能源多元化,通过经济、政治、军事等国家手段,加强影响和控制能源供应国,追求能源供应渠道的多元化,运输通道的畅通无阻
全球能源信息主要来源于相关智库,据《全球智库报告2016》统计,全球智库共有6846家,其中总数量排在前五名的国家分别是美国(1835家)、英国(288家)、印度(280家)和德国(195家)【2]。智库也开始转型,综合性智库逐步减少,而特定领域的专业智库越来越多,用以提升其核心竞争力。例如能源专业(或包含能源专业的)的主要权威智库有联合国网站、国际货币基金组织网站、世界银行网站、国际能源署网站、美国能源信息署网站、彭博新能源财经网站、英国石油公司网站等。各智库网站包含数据情况如下:
(1) 联合国网站Bl:包括官方文件和书目数据库、联合国成员信息、联合国多语言术语数据库、多媒体信息、非政府组织信息、统计指标、会议和事件、联合国在线档案收藏。
(2) 国际货帀基金组织网站〔4]:包括全局数据、金融数据、汇率数据等。
(3) 世界银行网站[5]:包括农业与农村发展类数据、援助有效性数据、气候变化数据、经济增长数据、能源与矿业数据、环境数据、外部债务数据、金融业数据、基础设施数据、贫困指标、私营部门信息、共部门信息、科技发展指标、社会发展指标、贸易数据、城市发展数据、世界银行集团的项目和财务信息。
(4) 国际能源署圏:包括国家/地区统计数据、能效指标国家实践数据库、能量平衡流数据、能源技术展望信息、石油市场报表、政策与措施信息、非常规天然气数据库、建筑节能政策、碳捕获和存储数据库。
(5) 美国能源信息署网站卩]:包括石油和其他液体信息、煤炭信息、天然气信息、可再生和可替代燃料、电力信息、核能信息、能源消耗与效率信息、能量信息总结。
(6) 彭博新能源财经网站[8]:包括可再生能源信息、能源智能技术信息、碳市场数、捕获与封存信息、核电信息、电力市场数据、水处理信息。
(7) 英国石油公司网站[9):包括石油数据、天然气数据、煤炭数据、核能源数据、水力发电数据、可再生资源数据、一次能源数据、电力数据、二氧化碳排放数据、国家和地区数据。
以上各智库网站大都只具备某一领域或区域的数据,全球范围内的数据不够全面,且不同智库之间的同一数据因为统计口径或方法不一致,存在差异。在我国深入社会转型发展进程中,研究我国新型智库,必须坚持国际比较和本土研究并重〔1%建设成我国特色且适合国家与企业自身情况的研究系统。
国内方面,依据我国发布的《关于加强中国特色新型智库建设的意见》,要大力建设能够为能源领域的专家学者提供交流学习的平台。习主席的“四个革命、一个合作”能源战略思想以及《能源发展“十三五”规划》为我国能源革命与转型升级提供了指导思想[11]。具体来讲,国家层面推进的全球能源互联网战略卩2]是推进能源改革的重要力量,将在全球范围内产生重大影响,甚至引领全球能源革命。
依据《全球智库报告2016》统计的智库数量为435家,如万得数据库、国土资源部网站、国家气象局网站及相关能源部门网站等。各主要智库情况如下:
(1) 万得数据库卩3】:包括中国宏观数据(包括国民经济、价格指数、工业、对外贸易、资产投资等众多领域数据,如:利率数据、货币数据)、全球宏观数据(包括美国、日本、欧盟、港澳台、亚洲主要国家及G20国家深度宏观数据。其中包含国民经济核算、国际收支、人口与就业、价格、金融、贸易、制造业、房地产等领域)、行业经济数据(涵盖21个大类的行业数据,内容包括价格、产销量、进出口、库存、行业财务指标、重点上市公司经营业务等数据)、中国宏观预测(包含近20项宏观指标月度和年度数据的机构预测值和实际公布值、预测的明细数据和预测时间及多达未来四期的月度和年度预测)、全球经济日历(包含中国及全球重要经济数据公布时间和重大经济事件发生日期)。
(2) 国家统计局网站Ml:包括国内生产总值(GDP)、居民消费者价格指数(CPI)、生产者价格指数(PPI)、工业生产增长速度、固定资产投资、社会消费品零售总额、粮食产量、城乡居民收入与支岀。
(3) 国土资源部网站mi:包括历年的中国国土资源公报、国土资源主要统计数据、中国矿产资源报告、全国主要城市地价监测报告、全国住房用地供应计划、海洋数据、测绘信息、土地利用数据。
(4) 国家气象局网站卩6】:包括天气实况信息、预报信息。
以上数据来源分散、数据粒度不统一、指标计量方式多种多样,以及关联关系不明确、综合利用价值不高,无法支撑高度综合分析需求,为了响应《能源发展“十三五”规划》要求,G公司需要建立一个数据全面、应用完整的全球能源信息釆集分析平台。
1.2.2全球能源信息釆集分析平台构建研究现状
目前全球能源信息釆集分析平台多以智库系统形式存在。相关研究如下:
赵益维、赵豪迈针对大数据背景下“一带一路”新型智库信息服务体系进行了研究,指出“一带一路”新型智库信息支持服务体系尚不完善、并设计出了一款“一带一路”新型智库信息服务体系,共包括平台层、方法层、资源层、组织层四层,其中最底层的平台层包括数据库模块、大数据管理模块、研究管理、智库门户、研究协同、研究辅助六大块U7],其中数据源釆集、数据处理、数据质量评价,系统落地及实施效果评价均未涉及,且该智库不是针对能源研究领域,但其总体构建思路可以借鉴。
郑晓东、胡汉辉等人基于互联网大数据理论,研究分析了能源大数据的釆集、分析、展示以及管理,并通过对江苏能源规划研究平台的实际开发应用,在实践中验证了能源大数据系统架构规划仍]。
谢宏斌认为大数据技术是新科研生产力的代表,它的发展促进了数据釆集、处理、分析、挖掘、数据可视化各环节的相关软件工具的出现"]。因此,基于大数据技术的能源数据釆集分析平台能为当前及未来的能源研究需求提供协助。
由于能源数据釆集分析平台中将会存储大量非结构化数据,因此需用到大数据分布式全文检索功能,李聪颖、王瑞刚、于金良对该课题进行了分析,实现了基于一种开源企业搜索引擎Solr实现对大数据分布式文件系统HDFS中数据的检索
(1)关于数据釆集研究
由于G公司全球能源信息釆集分析平台的数据主要来源于网页数据,因此本文讨论的数据采集范围主要针对网页数据釆集。目前网页数据采集一般是基于爬虫程序进行网页解析与下载。
路辉、高尚飞、李少龙在营销管理系统建设过程中对其中的互联网数据釆集模块进行了设计,实现了基于HTTP协议的业务系统网页数据釆集的请求、响应及数据解析的应用集成设计PL此方案暂时处理设计阶段,没有具体的实践应用。
李世忠设计了一种可以自学习的网页数据釆集软件。要求用户对所需釆集的网页数据进行描述,再经过多次釆集训练,生成数据识别模型。这种设计的优点是当目标网页结构产生变化的,在一定程度上识别模型可对釆集策略进行自动修正,减少釆集工作的人工干预工作量〔22】,但这个设计落地及准确性都有待进一步验证。
Anderson,Ross介绍了一种可扩展分布式网络爬虫UbiCrawler的设计与实现,并对其性能进行了分析四]。Ubicrawler的主要特点是平台独立性、容错性、对要爬取的范围进行分配,将整个任务分散执行,提升效率。但UbiCrawler在国内应用人数较少,应用面不广泛,资源少,学习成本高,存在实际应用的风险。
另外,国内市面上也有一些成熟的网页数据采集工具软件,如火车头釆集器〔24】,八爪鱼釆集器SI等,这些工具的特点是能适用于大部分网站,可实现分布式高速采
集、多识别系统、支持多数据库、采集监控系统等功能;缺点是使用较为复杂,没有基础的人员学习时间较长,以及无法很好的与基于BS架构的系统进行集成,碰到特殊问题则无法快速解决。
国外也有一些应用比较广泛的网页数据釆集工具,如DIFFBOT〔26]、Import.io[27]等。其中DIFFBOT的优点是在采集网络数据时不需要编写规则,全程可视化操作,简单易上手,包括BULKAPRCRAWLBOT,CUSTOMAPI三大功能模块,缺点是目前还不是特别成熟,是由初创公司推出,后续更新与持续发展可能存在变数。Import.io的优点是能够适应任何网址,操作非常简单,自动釆集,采集结果可视化,而且是基于BS架构,方便与现有系统集成,缺点是无法选择具体数据,无法自动翻页采集。
(2)关于报告协作编写研究
随着人们在工作中的连接性越来越强,工作内容越来越复杂以及计算机技术的深入应用与广泛推广,单打独斗的工作方式己经满足不了大型工作的需要,人们之间的协同合作与信息共享变得日益重要。在这种情况下,计算机协同工作受到人们的推崇。它能够减少人们的沟通成本,可解决时间差和空间差的阻碍,从而提高群体工作效率郞】。
人们在工作中最常见的工作内容是报告文档的编写,多人报告协作编写成为应用计算机工作的常态,但是目前市面上的相关报告协作编写工具或产品大多是协同办公产品,例如石墨文档[29)、有道云协作[3。]、谷歌文档⑶】,此类协作编写工具或产品在静态报告编写方面比较灵活实用,但无法关联数据库,进行数据图表编辑。另一类分析产品如国外的QlickView。#,Cognos[33],MicroStrategy。,】,国内的帆软报表的等报表分析工具能连接数据源,但无法同时实现协作编写功能。本课题拟实现通过制定报告模板,选定报告中要嵌入的数据源、制定统计计算规则、动态生成报告片段,为完整报告编写提供高质量的素材,并实现多人协作报告编写及版本管理,以达到大大提升报告编写效率及质量。
(3)关于能源大数据可视化展示研究
经过近几年的大数据及可视化相关技术的发展,国内外针对特定业务领域的大数据分析与可视化研究方向未艾,各种形式的大数据可视化技术与产品层出不穷,比如国外的可视化产品有Tableau1361.QlickView、Cognos>MicroStrategy等,国内的主要可视化产品有帆软、永洪报表"I、润乾[38】。可视化框架技术主要有国外的D3.js【39】、rb0ljs【4。】、hcharts[41h国内的EchartsW】等。
3D可视化应用也非常广泛,主要用于地理信息展示。本课题重点研究本平台使用到的国外开源框架Leaflet]s"3]与Three.js[44]的应用。
1.2.3全球能源信息采集分析平台实施效果评价现状
平台构建后,需对实施效果进行评价,才能得到有效反馈从而提升实施效果。如何才能对全球能源信息釆集分析平台进行科学客观的评价呢?我们将综合参考智库的评价方法以及其它类型的软件系统实施效果评价。智库的评价方法一般使用专家判断法,而软件系统实施效果评价一般采用层次分析法。例如王栋、刘娜、张巧芸、张文强〔45]对ERP系统的应用与实施效果进行了评价,薛雯芦、巧玲[46]等人对一款门诊自助服务系统进行了实施的效果评价,瑪然[47]使用SIPOC、ESIA、ASME等分析工具分析了公司现有业务流程,对比了信息管理系统前后公司工作效率和效果的改良情况,得出了一款基于业务流程再造的信息系统的实施效果达到了预期目标。
以上研究存在相似的地方,但不同软件系统其评价指标不同,因此他们的方法不能直接应用于全球能源信息釆集分析平台的实施效果评价。
1.3论文主要研究内容及框架
本课题研究主要内容包括全球能源研究现状、能源研究领域的平台构建情况、全球能源信息釆集分析平台的需求分析、系统设计与实现,以及平台实施效果评价。
本论文研究目标为全面了解如何实现包含国内外经济、能源、电力、环境、政治、金融等数据信息的高效采集、翻译、清洗、存储、分析等功能,支撑负荷预测、电量预测、电价对比分析等业务功能的能源数据库,实现G公司数据信息的权威性和一致性;如何建成智能、实用、美观、全面、互动的全球能源信息展示功能。
主要内容大致如下:
第1章绪论
介绍该课题研究活动的选择背景与选题意义,概述国内外发展动态及相关研究现状,明确论文研究内容的主要框架体系。
第2章相关理论基础
分析全球能源信息采集分析的理论基础及技术支撑情况,特别是基于大数据的理论与技术支撑情况;分析软件系统实施效果评价的理论基础。
第3章平台需求分析
阐述G公司的实际能源研究业务现状,以及对基于大数据的全球能源信息釆集分析平台的需求情况,包括总体需求分析、系统用户分析、功能性需求分析、非功能性需求分析。对系统业务对象、业务流程、业务数据流等内容进行分析,以支撑后续系统的设计与实现。
第4章平台的设计与实现
阐述G公司能源数据采集分析平台的设计与实现,其中设计内容包括系统设计原则、业务架构、应用架构、数据架构、技术架构、安全架构等的设计;实现内容包括系统开发运行环境及系统主要功能实现。
第5章平台的实施效果评价
阐述G公司全球能源信息采集分析平台的实施内容及过程、实施效果评价。其中实施内容及过程部分包括差异分析及方案设计、数据收集及处理、系统部署及配置、系统测试、用户培训、上线试运行支持、质保运维;实施效果评价部分包括用户调查研究、评价指标体系构建、通过层次分析法与模糊综合评价等方法实现对平台实施效果进行评价,并总体描述平台实施的效果。
第6章研究成果和结论
全面总结论文研究成果与不足,提出后续研究计划。
第2章相关理论基础
全球能源信息釆集分析平台构建及实施效果评价研究涉及的相关基础理论包括全球能源信息釆集分析理论基础与系统实施效果评价的理论基础。
2.1全球能源信息采集分析理论基础
2.1.1全球能源信息的相关概念
(1)全球能源信息的范围
信息原来是个比较宽泛的概念,本文涉及的全球能源信息是按照业务要求,从内容上泛指与全球范围内能源相关的原始数据及加工后的数据,从分类上不单指能源类数据,也涉及全球各国政治、经济、金融、电力等相关类别数据。
能源类数据具体包括能源资源:如各类能源的己探明资源储量;能源生产:如各类能源的产量;能源贸易:如各类能源的进岀口量及自给率等;能源供应:各类能源的供应量;还包括各类能源的消费、价格、平衡情况指标。
经济类数据具体包括宏观经济指标:如全球各国GDP、产业结构信息、行业信息、投资指标、通货膨账等:民生经济指标,如人均GDP、PMI、人均存款、CPI等;价格指标,如各类大宗商品价格;财政政策、法规、预算、税收、收支、负债、贷款等;贸易指标:如进出口、国际收支等数据;行业经济:如各行业投资信息等。
电力类数据具体包括电力生产、消费、价格、贸易数据,以及电网网架数据、电力工程、电力技术数据。
环境类数据具体包括主要矿产、水资源、森林资源资源储量、供水用水情况、自然灾害、地质灾害及防治数据、气体排放数据、自然保护区、气候变化数据。
政治数据具体包括法律法规、人口、国家概况、宗教文化、教育、就业、科技相关数据等。
金融类数据具体包括货币基本信息、发行量、国家投资、融资信息、汇率及股票信息。
另一方面,从形式方面看,本课题把全球能源数据分为结构化数据和非结构化数据,其中结构化数据主要是指指标数据,主要来源是互联网网页釆集和离线导入,非结构化数据主要是文本数据,主要是网页文本数据釆集并转换成pdf或txt文件。
(2)全球能源数据研究的目的
随着数据资源井喷式地增长,以及信息技术特别是大数据、智能搜索、人工智能等新技术发展的突飞猛进,全球范围内各行各业的知名企业己经建立或正在建立数据智库系统。例如成果较为突出的有国外的兰德公司、皮尤研究中心、世界资源研究所(WRI)、
德勤有限公司等。
其中兰德公司是美国综合性智库的佼佼者,在美国军事理论、作战构想、指挥决策等方面发挥着重要的作用[4%擅长战略研究,开展过大量预测性、长远性研究,提出的不少想法和预测均能经受住了时间的检验。研究范围涉及安全、健康、教育、可持续增长与发展等领域,其研究成果对于美国政府的决策具有深刻影响〔491。
皮尤研究中心是美国的一家智库机构和独立性民调机构,主要致力于皮尤民众与媒介研究中心、皮尤西班牙中心、皮尤新闻学项目、皮尤宗教信仰与公共生活论坛、皮尤网络与美国生活项目、皮尤全球民意项目、皮尤社会与人口统计项目等。其重点研究内容有社会与科学、技术应用、移动连接、在线隐私以及青少年社交与技术SI。
世界资源研究所(WRI)是一■家专门研究全球范围的环境与发展的智库,它的研究内容聚焦在社会经济与环境的协同发展[51]。其气候数据资源管理平台CAIT收集汇聚了来自联合国粮食和农业组织、世界银行、国际能源机构、美国能源部二氧化碳信息分析中心、美国人口普查局、美国能源情报署、中央情报局世界概况、美国环境保护局等权威机构提供的原始数据,并且WRI将该平台向全球用户开发,为他们提供开放、免费、友好的数据查询服务。
德勤有限公司〔52]及其下属事务所为了研究分析美国政府当下所面临的挑战,订购了Statists数据平台的全部数据,该平台接入了超过18000个覆盖170多个行业的数据源,形成3000多个主题、100多万条记录的英文统计资料。
但是,中国还未形成一套颇为齐全的能源综合数据库,以及在此基础上可开展深度分析的分析平台。打造“全球视野,中国特色”的综合数据库和研究平台,加强研究能力和工具手段建设,对支撑G公司全球能源研究、辅助建设具有全球话语权和影响力的国际一流智库、提升G公司长期发展能力具有重大意义。
2.1.2数据釆集分析技术理论
(1)数据釆集技术
1)结构化数据采集技术
结构化数据特别是指标数据的采集可通过网络爬虫来实现。网络爬虫是一项能够搜集网页列表并解析网页文件的技术。通过前期的设置后,网络爬虫在进行网页搜集和网页解析的过程中可进行自动执行,无须耗费大量的手动工作量。在解析网页列表后,所有被获取到的网页将会存贮在数据库或数据文件中,并基于这些网页地址进行逐个访问,再进行网页内容的获取,一般是将网页内容片断与目标字段进行对应,釆集程序将网页内容片断采集下来后赋值给相应目标字段,最终完成全部结构化数据的釆集入库。
基于对当前绝大部分网站的技术选型,可基于Nutch【53】和Webmagic【54】爬虫框架实现。
①Nutch
ApacheNutch是一个高度可扩展性和可扩展性的开源Web爬虫软件项目。Nutch完全以Java编程语言编码,但是数据是用语言无关的格式编写的。它具有高度模块化的架构,允许开发人员为媒体类型解析,数据检索,查询和集群创建插件。
②Webmagic
Webmagic是一个开源的Java垂直爬虫框架。采用了完全模块化的设计,强大的可扩展性。支持多线程、支持分布式、支持爬取JavaScript动态渲染的页面、无框架依赖,可以灵活的嵌入到项目中去。
2)非结构化数据釆集技术
非结构化数据釆集技术可直接下载网页附件文件,也可将釆集的网页内容转成pdf或txt文件,整体上比结构化数据釆集更容易实现。
(2) 数据存储与计算
大数据:数据储存技术主要包括传统的关系型数据库、文件存储系统技术以及近几年发展起来的分布式文件存储(HDFS)技术OR。随着大数据技术的进一步发展,大数据体系内的分布式文件存储与分布式计算技术得到越来越广泛的应用。大数据基于其4“V”特点,(即Valume数据体量大、Variety数据类型繁多、Velocity处理速度快、Value价值密度低)可快速读取或处理PB级别的结构化、非结构化数据,以快速获得高价值的信息,经过充分合理地利用这些数据并对其进行正确、准确的分析,将会带来很高的价值回报㈣。
内存计算:传统计算机的计算方式是从磁盘或数据库中读取数据后加载到内存中进行计算,这个过程相对较长,而且可计算的数据量较小。随着硬件技术的发展,例如内存硬件容量的逐步扩大,内存计算技术的产生与应用成为可能。内存计算技术可将大量数据放入容量较大的内存空间进行处理,从而减少或避免了大量的输入/输出操作,在很大程度上提高了海量数据处理的能力,这些能力不仅体现在对大规模数据进行实时分析与计算,更重要的是无需事先进行数据建模和预处理,最终达到可以随时验证或落地任意一个临时想法。
(3) 数据检索技术
数据检索技术包括结构化数据检索与非结构化数据检索技术,结果化数据检索技术通常釆用关系型数据库的相关索引技术,非结构化检索技术主要是实现非结构化文档的全文检索,一般基于当前流行的Solr〔57]技术,它是传统的Lucene的升级版。
(4) 数据可视化分析技术
数据可视化的定义有很多,其中以维基百科最为人们接受。它给出的数据可视化的定义是:数据可视化借助于图形化手段,清晰有效地传达与沟通信息EL这个定义说明数据可视化的最终目标是要清晰有效地传达与沟通信息。利用人对自然世界事物的大小、
颜色、形状、空间位置等属性的认知并进行高效传递,以帮助人们从数据中发现事物的关联关系、发展规律以及变化趋势。另外,数据可视化技术越来越变得多样与具有想象力,是未来各类软件技术不者或缺的部分。全球能源信息釆集分析平台数据可视化从展示内容上可分为指标综合展示、电网图展示、指标对比分析展示、大屏展示等;从数据时效性方面看可分为实时数据展示(含准实时数据展示)与历史数据展示。
2.2系统实施效果评价理论基础
2.2.1层次分析法原理
层次分析法(AnalyticHierarchyProcess,简称为AHP),是一种基于层次权重的决策分析方法。它将参与决策的全部元素分为目标层、准则层、方案层等多个层次,对各层分别进行定性与定量分析。此方法最早是由美国运筹学家萨蒂在为美国国防部研究“根据各个工业部门对国家福利的贡献大小而进行电力分配”的课题时发明并应用的a〕。
该方法进入我国并在各大研究活动中得到实际应用己经有很长一段时间了,已经有了广泛而成熟的应用。该方法通过把问题层次化,并在每层上界定组成要素,并依据这些要素间的相关关系、影响关系及隶属关系,分层次聚合,形成多层次分析模型。并最后把系统分析总结为从上到下的不同层次。较低层提供决策的方案、措施等,较高层提出目标。层次分析法的应用领域非常广泛,包括能源环境、医疗卫生、军事指挥、政策法规、人力资源、经济与计划、消费预测、系统评价、气候环境、教育教学、会计税法等多个领域。层次分析法一般步骤如下:
(1)层次结构模型建立
充分研究待分析系统,将该系统的影响因素划分为多个层次,然后用层次框图显示这些层次的递阶结构、不同因素之间的从属关系。
(2)判断矩阵构造
层次分析法的一大特点是要将每一层的不同因素分别进行两两比较,按其重要性大小打分,越重要的因素分数越高,最终各层形成一个判断矩阵。
(3)层次单排序及一致性检验
通过计算得出每个判断矩阵的最大特征根和特征向量,再归一化处理。得出本层相关因素相对于上层因素的重要性排序权值。同时需要进行判断矩阵的一致性检验,如果检验结果符合条件,方可进行下一步分析。否则需对判断矩阵进行重新构造。
(4)层次总排序及一致性检验
层次总排序是从最高层依次到最低层进行的计算同一层相对于最高层的重要性排序权值。此过程也需对判断矩阵进行一致性检验,如果不符合检验标准,还是要重新构造判断矩阵。
12
2.2.2模糊综合评价法
模糊综合评价法是一种基于模糊数学的综合评价方法[6%具体依据模糊数学隶属度理论将问题的定性分析转化为定量分析的方法。它的特点是系统性强、结果清晰、能够解决那些比较难量化的问题,适用于解决各种确定性不强的问题。
模糊综合评价法的基本步骤如下:
(1)构建模糊综合评价指标体系
进行综合评价的第一步就是要构建模糊综合评价指标体系。评价指标体系的构建首先需要进行评价指标选取,评价指标选取的是否合适,将严重影响综合评价的效果。构建评价指标时应参考与该评价指标系统相关的国际国内的相关规定以及行业标准。
(2)构建权重向量
通过层次分析法或专家法构建权重向量。
(3)构建评价矩阵
通过建立合适的隶属函数来构建完整的评价矩阵。
(4)合成评价矩阵和权重
采用合适的合成因子对评价矩阵和权重进行合成,并解释结果向量。
2.3本章小结
本章界定了本文中全球能源数据的范畴并进行了分类,阐述了数据釆集从形式上分为结构化数据采集与非结构化数据采集,以及各自的实现原理及相关技术理论,充分分析了数据釆集、数据分析、数据挖掘、数据可视化的相关技术理论基础并选取合适的支撑技术。另外描述了系统实施效果评价的的基本概念与理论,重点描述了层次分析法及模糊综合分析法的基本概念、原理以及使用的基本步骤。
第3章全球能源信息采集分析平台需求分析
全球能源信息釆集分析平台构建的第一步是进行需求分析。平台的需求包括总体需求分析、系统用户分析、业务流程分析、数据流程分析,以及平台功能性需求分析及非功能性需求分析。
3.1总体需求分析
G公司主要业务方向是负责开展各国能源电力发展战略规划和能源政策研究;负责全球能源资源储量及分布研究;负责开展能源运输网络研究,一级能源网与其他网络融合发展研究;负责开展各国经济、政治、社会、文化发展和国际关系研究;负责产业金融政策和投资贸易政策研究;负责商业模式和投融资;负责各国能源法律法规研究。具体工作需要依据从各种渠道获取到的全球能源相关数据,进行数据处理、加工、整合,最终形成权威的数据体系,并构建系统进行集中管理分析并将分析结果进行集中展示、共享。最终通过强化与相关部门的协同联动,加强沟通合作,形成分析成果并推广分析成果。当前业务过程中存在如下问题:
(1)数据涉及领域众多、来源广泛。G公司业务研究涉及国内外政治、经济、能源、电力、环境、金融等数据,这些数据种类繁多、发布日期不一、异构性强,数据获取和甄别工作困难重重,且权威性、完整性、准确性有待探究,研究分析人员无法及时获取有效的信息及数据。具体表现在以往的分析方式是由人工从网页上获取数据,再进行分析,最终形成报告。但是由于数据增长的速度与日剧增,G公司所要研究的内容与不断扩展,且领导对报告时效性要求越来越高,现有的数据获取、分析、共享方式不能很好地满足G公司的业务要求。因此综合利用当前先进信息化手段,建立统一的综合数据库,确保研究成果立足于强大的信息数据分析,最大程度地实现数据的科学性、正确性、权威性,是G公司能源研究的客观需求。
(2)欠发达国家数据收集困难。随着互联网技术的飞速发展,汇集并构建全球能源数据库,有助于了解和掌握全球能源发展现状,是进行全球能源研究的必备基础之一。通常发达国家数据积累较为丰富,数据质量较高,而欠发达国家和地区的数据往往不易获取。
(3)缺少统一平台来支撑全球能源研究成果的积累与分享。能源作为世界经济发展的重要基础,在全球范围内有众多机构、组织和企业对其进行研究。虽然随着互联网的飞速发展,相关资源及研究成果可通过互联网获得,但是如何管理好这些内外部的资源与成果,提升工作效率成为一项艰巨的任务。因此,构建统一的数据釆集分析平台正是解决此问题的办法,通过加强全球能源数据采集、存储、加工、处理和分析全价值链的处理能力,并为全球能源、电力研究和规划提供辅助决策及技术支撑,不仅可以辅助能源研究过程,还可以对研究结果进行管理与持续跟踪。
(4)由于G公司业务还处于发展初级阶段,对数据分析利用与展示方法方式上还缺乏相关经验,希望通过本平台的构建,一方面提高用户业务能力,一方面可以加强G公司对外的交流共享。
基于以上业务需求,业务部门和信息化部门联合梳理并确定了系统需求:
(1) 构建综合数据库需求:需要对全球范围内的经济、能源、电力、政治、环境、金融等数据(含结构化与非结构化数据)进行釆集、清洗、对于非中文数据进行翻译、并实现集中存储、管理,并形成G公司自有的数据体系对外共享发布。其中,数据管理包括数据信息维护(指标数据维护、非结构化数据维护)、指标数据管理、数据库性能监测、指标映射、计量单位管理、数据入库情况统计、国家与机构管理等需求。
(2) 成果管理需求:实现G公司内外部的研究成果的分类管理、成果档案管理、实现研究报告的多人协作编写及报告输出、构建个人用户的个人知识储藏室。
(3) 分析展示需求:基于釆集到的数据进行综合分析,将分析过程与结果以地图、数据图表、三维图等多种形式在桌面端和大屏上展示出来。具体分析展示内容包括电网图的展示、各国电价对比分析、指标综合展示、电力需求预测分析、国别直通车、指标对比分析等。
3.2系统用户分析
3.3业务流程分析
3.5功能性需求分析
全球能源信息釆集分析平台主要实现全球各主要国家经济、能源、电力、环境、政治、金融等数据信息的高效釆集、清洗、存储、分析等功能,制定统一的数据标准体系、规范数据存储,支撑电网图展示、电力需求预测、电价对比分析等业务功能,实现G公司数据信息的权威性和一致性,并对外进行分析结果的共享。
3.5.1综合数据库需求分析
(1) 数据采集
1) 在线釆集
在线釆集主要包括信息采集、接口管理、数据任务管理以及数据质量统计。
信息釆集包括结构化数据采集与非结构化数据采集,结构化数据釆集主要是釆集指标数据,非结构化数据釆集主要是将网页文本内容或附件釆集下来转换成pdf文件;接口管理包括集成接口管理及目标状态监测,前者主要是管理集成接口标准,后者是监测目标系统是否能正常连接访问;数据任务管理包括釆集任务管理及任务日志査询,其中采集任务管理包括数据釆集方式、范围、时间、频度的设置,任务日志査询是按照相关条件查询釆集任务执行日志,并可根据条件分类统计任务日志信息;数据质量统计包括日志综合统计、采集质量统计、仪表盘展示,其中日志综合统计功能是通过模块、日志分类、级别、日期时间等条件查询系统各类日志信息,釆集质量统计是按照任务分类、目标系统、日期时间范围等条件统计数据釆集的合格率和准确率等,并以饼图或柱状图方式展示,仪表盘展示是以仪表盘的形式展示数据釆集的关键指标,包括釆集执行次数、数据总数量、数据正常数量、数据坏损数量、釆集成功率、目标系统可用率等。
2) 离线导入
支持xls、文本文件等方式的离线数据导入,结构化数据导入至关系数据库,非结构化数据直接上传至文件存储服务器,导入或上传完成后可统计导入信息。
3) 数据填报
对结构化的指标数据可进行在线录入,审批人员可进行审批。
(2) 数据清洗
1)数据清洗与校核
数据清洗与校核包括清洗规则管理与校核规则管理、手动校核、数据手动修改、校核日志记录。其中清洗规则管理主要是实现创建数据清洗规则,配置数据的数据类型、上下限制、变化比例值等,通过这些配置参数实现对釆集数据进行后台的清洗;校核规则管理主要是实现创建数据校核规则,需配置匹配策略、校核计算公式、生效对象等,通过校核规则对于错误的数据进行自动更正;手动校核主要实现手动选择数据进行比对,提供数据的曲线比对,统计值比对等,根据比对结果实现对数据的联合校核。同时提供操作的记录及恢复功能;数据手动修改需提供对己采集数据的条件查询功能,在査询出数据后,可选择数据进行手工校对并修改;校核日志记录是在手动校核和修改过程中自动记录操作日志。
2)数据检查
数据检查包括数据质量检查、异常数据分析、数据重复对比及信息比对日志。其中数据质量检査是按日、月、年的日期范围,以及数据来源等条件,对数据进行质量统计,可得到数据的总数、有效数量、损坏数量;异常数据分析是对异常的数据进行时间的统计及分析,提供对异常数据的趋势追忆,分析数据前后的变化趋势;提供异常数据关联分析;数据重复对比是提供对多系列数据的相似性量化及曲线比对;提供对数据在时间范围内的相似性量化及时间分布统计;信息比对日志是将信息比对的结果进行记录,并提供日志的查询及日志分析功能。
(3)数据管理
1) 数据维护
数据维护包括数据补录、数据修正、数据审批功能。其中数据补录提供在线对遗漏数据或额外数据进行补录功能;数据修正是提供修正填报或补录的数据功能;数据审批是提供填报、补录、修正过程中的审批功能,包括审批通过、回退等。
2) 数据指标管理
数据指标管理包括指标维护、指标计算配置及指标版本管理。其中数据指标维护需实现指标管理,维护指标基础信息、顺序、对应源指标,实现指标增删改查;数据指标计算配置需实现对每个指标二次计算需求管理配置,例如配置均值、方差、分位数、相关系数、分布函数拟合、一元及多元单方程线性回归等计算公式和逻辑;数据指标版本管理实现指标版本的增删改查与版本切换功能。
3) 国家与机构管理
维护平台中统一的国家信息和组织机构信息。
4) 计量单位管理
维护平台中统一的计量单位之间转换关系。
5) 指标映射
维护源指标与体系指标之间的对应关系。
6) 数据库性能监测
对数据库的性能时行实时监测,并以仪表盘的方式显示。
7) 数据入库情况统计
统计数据库中的存量数据及增量数据变化情况。按时间段进行统计,并以仪表盘方式显示。
(4)数据翻译
数据翻译包括自动翻译和手动翻译。其中自动翻译包括翻译配置管理、自动翻译、翻译比对、译文管理、翻译日志管理等需求;手动翻译包括译文修正及人工翻译需求。
(5)数据査询
数据查询包括结构化数据查询和非结构化数据查询。其中结构化数据査询又包括指标查询及源数据查询。结构化数据按时间、指标类别、单位等条件进行查询,非结构化数据按时间、单位、关键字等条件进行查询。
(6)数据存储
本平台数据存储包括结构化数据存储与非结构化数据存储。其中结构化数据需釆用关系型数据库进行存储,并支撑结构化数据查询、统计分析等应用;非结构化数据需釆用分布式文件系统实现存储,并支撑非结构化数据检索、统计、挖掘等应用。
3.5.2成果管理需求分析
成果管理需求包括研究报告管理、报告协作编写及个人知识储藏室三大块需求。
(1)研究报告管理
研究报告管理包括报告上传、报告存储、报告分类及报告检索等需求。报告上传需求要求平台用户可上传各类格式报告文档;报告存储需求需通过文件服务器长期存储报告;报告分类需求则是要求对报告进行分类管理;报告检索需支持按关键字、文档名、作者名等条件对各类报告进行快速检索。
(2)报告协作编写
报告协作编写包括报告在线浏览、报告生成、报告模板维护、报告输出等需求。其中报告在线浏览要求直接在浏览器端进行报告的查看;报告生成管理是允许用户可以选择报告生成格式、存储目录、生成份数等配置以便最终生成报告;报告模板维护要求按照业务需求提供不同报告模板,方便用户进行报告撰写;报告输出需按用户需求输出报告,可在线打开或下载Word形式报告。
(3)个人知识储藏室
个人知识储藏室包括知识维护、知识分类、知识检索、知识共享、知识地图、知识轨迹等功能需求。以便支持平台用户更好地管理个人知识。其中知识维护包括知识的上传、权限控制;知识分类包括分类的创建、修改、删除;知识检索包括分类检索及模糊检索;知识共享包括共享及共享取消;知识地图功能需统计分析用户知识储藏室的内容并生成知识地图,以直观显示用户的兴趣点、工作重点等信息;知识轨迹包括知识资料的浏览、下载及转移等信息的统计。
3.5.3分析展示需求分析
(1)电网图展示
需利用先进的三维展示技术,对全球骨干电网规划网架进行直观展示,通过切换展示不同年份的规划网架,能够清晰、直观的反映全球骨干电网的发展方向。
(2)电价对比分析
全球电价分析需求包含电价数据展示、国家对比、电价差、自动比较和智能分析五部分需求。需将地理信息技术和全球电价信息相结合,直观展示不同国家或区域的电价高低情况;同时能够重点展示特定国家的电价高低排名、平均电价等信息;还能够比较不同国家或区域之间的电价差距,最终以辅助电网规划研究。
(3)指标综合展示
需实现能源、电力、经济等数据趋势性、规律性分析及关键指标的可视化,需支持以饼图、曲线图、柱状图等多种图表形式进行直观展示。
(4)电力需求预测分析
电力需求预测分析需求包括预测方案管理与维护、需求分析模型及算法开发、需求分析结果对比与可视化。其中预测方案管理与维护需实现包括新建、修改、删除电力需求预测方案、对方案包含的各类数据的编辑维护;需求分析模型及算法开发需实现负荷特性的变化趋势分析,以及评估电能替代的潜力、规模和趋势等,对电源结构和布局进行优化分析;需求分析结果对比与可视化需通过对比分析多方案需求预测结果,以饼图、表格、地图、柱图等多种形式综合展示全球能源供需预测结果。
(5)国别直通车
在同一个系统页面上同时显示该国家或地区相关的所有结构化与非结构化信息,以方便用户从国别角度快速进行数据查看和分析。
(6)指标对比分析
可通过选择多个不同指标并按时间维护进行分析,分析各指标的变化趋势,探索其关联关系。
(7)大屏展示
可通过制作大尺寸仪表板,在大屏幕上进行展示,以方便领导査看与决策。
3.6非功能性需求分析
(1)性能与可靠性
1)通用性能
通用性能的相关指标由事务失败率指标和业务响应时间组成。其中事务失败率不得高于0.1%,业务响应时间按不同操作进行分别要求。例如登录平均响应时间不高于5秒;进行简单页面查询时,平均响应时间不得高于5秒;进行复杂统计查询时,平均响应时间不得高于8秒;进行简单月度统计查询时,平均响应时间不高于5秒,进行复杂月统计査询时,平均响应时间不得高于15秒;进行年度统计时,平均响应时间不得高于30秒。
2) 数据库性能
系统具有千万级数据量的响应能力,平均响应时间不应该超过5秒;最大响应时间不应该超过15秒;系统具有百万条数据量的快速检索能力,平均响应时间不超过5秒;最大响应时间不超过15秒。
3) 系统资源性能
系统资源性能主要体现在内存的使用率和CPU的利用率。为保障系统资源性能,需对这两方面进行要求,其中内存平均使用率不能高于75%,CPU的平均利用率不能高于60%O
4) Web服务器性能
为了保障系统用户在使用平台时能够流畅的查看和提交页面表单,需要限制系统事务处理的页面响应时间以及表单提交的数据量。具体要求如下:对于复杂的事务内容需要分批分级进行多次响应,如果系统资源即将耗尽,则需采用系统延迟访问机制,以防系统宕机,并为平台用户提供友好的提示;一般情况下,每次提交系统表单数据量要求不超过1024K,超过则分多次提交。
5) 可靠性
系统可靠性是指在一定条件下软件系统不失效的概率,是软件能够满足需求的一种性质。具体是指软件在需求分析定义、设计、编码、测试过程中会出现错误。在项目全过程中需要进行可靠性的把控,要求要开展全业务、全过程的测试,包括功能测试、单元测试、集成测试、性能测试,确保服务器的CPU及内存均持续达到性能要求。
(2) 可扩展性
系统要有良好的可扩展性,以便不断地满足业务需求的变化,为系统后续功能的完善提供良好的支持。具体要求实现合理的分层、采用分布式架构以及服务化和组件化构建。其中,合理的分层可以降低开发复杂度以及运维的难度;釆用分布式架构可以提高应用的性能和计算弹性;通过服务化与组件化架构,可以保证业务的可扩展性。另外,系统开发过程中要遵循相关编程规约,提供完善的数据字典及接口文档,以及详细的代码注释,以便于项目后期维护。
(3) 信息安全
信息安全包括对应用安全、数据安全两大方面的要求。其中应用安全方面要进行系统应用的功能赋权、系统验证,以及加强会话创建和存活期的控制、加强系统身份认证、严格控制配置管理、加强防止SQL注入、加强系统日志审计功能。数据安全方面不仅要求保证数据通信的完整与保密,还需保证数据存储、主机及终端等的安全,还需对数据的重要程度分级进行管控,通过应用合理的加密技术、用户权限控制与审计等措施确保应用安全、传输安全及访问控制安全,对敏感数据要进行脱敏处理。要求考虑代码安全质量管理,在编码过程中防范安全漏洞。要求达到等保二级的应用安全标准。
(4)可维护性
系统要具备正确的、完整的与系统一致的说明文档。支持维护人员通过阅读源代码和相关文档轻松了解软件系统的结构、接口、功能和内部过程,支持维护人员完成运行、部署、伸缩扩容等维护工作。
(5)可容错性
平台应有较强的逻辑纠错容错能力。能够提供对用户操作顺序、输入数据的正确性检査功能,能够显著提示错误信息。系统提供出错处理机制,能够明确提示错误信息。系统提供运行监视和故障恢复机制,能够建立和维护系统运行日志文件,对系统的所有操作进行跟踪和记录。系统提供软件异常处理措施。
3.7本章小结
本章首先总体介绍了全球能源信息采集分析平台的用户需求概况,从用户的主要业务需求出发,得出用户日常的研究工作主要是包括釆集、处理、分析展示数据并进行多人协作完成报告编写、管理、分享。进而得出平台整体业务需求包括综合数据库、成果管理、分析展示三大块;对平台系统用户进行了分析,按业务需求得出用户分类及权限分类;从综合数据库、成果管理、分析展示三大块进行了详细的需求分析描述;以及从性能与可靠性、可扩展性、信息安全、可维护性、可容错性等方面进行了非功能性需求分析。
第4章全球能源信息采集分析平台的设计与实现
在完成对全球能源信息釆集分析平台的需求分析后,下一步是对平台先后进行设计与实现。平台的设计包括设计原则、总体设计、业务架构、应用架构、技术架构、数据架构及安全架构,平台的实现包括系统开发和运行环境以及系统主要功能实现。
4.1全球能源信息采集分析平台设计
在全球能源信息釆集分析平台设计过程中,遵循原则如下:统筹规划与分步设计相结合,统一设计与灵活扩展相结合,统一数据与多种应用相结合。主要设计内容包括建设标准、总体设计、业务架构、应用架构、技术架构、数据架构及安全架构的设计。
4.1.1设计原则
在平台设计过程中,遵循原则如下:
(1) 统筹规划与分步设计相结合。体现在要先进行系统总体架构设计,再按各模块逐步细化设计。按由简到繁、由易到难、由解决重大问题到解决一般问题的原则,边开发边应用,在实践中检验完善系统。
(2) 统一设计与灵活扩展相结合。系统的设计工具、方法、技术都应具有统一的输入输出数据形式和统一的用户交互界面,同时系统设计时需充分考虑第三方软件的集成接口,应具备灵活扩展能力,以方便研究人员使用、交流和传承。
(3) 统一数据与多种应用相结合。加强原始数据的分析挖掘能力,根据不同数据信息源的数据定义与统计口径,确保数据的权威性、统一性与唯一性。
4.1.2总体设计
全球能源信息采集分析平台将接入国内外商业数据资源,同时对接G公司内部巳有信息资源,实现全球经济、能源、电力、环境、政治、金融等各类数据信息的整合管理,以支持全球能源各类分析、研究业务的开展。平台系统主要包括综合数据库子系统、成果管理子系统、分析展示子系统等三个子系统。具体各个子系统的功能模块总体架构如图4-1所示。
图4-1系统总体结构设计图
(1) 数据源:包括联合国、英国石油公司、世界银行、国际可再生能源署、国家统计局、世界银行、万得等外部数据源以及G公司内部相关系统。
(2) 数据釆集:主要形成系统数据收集渠道。衔接G公司内部已有信息系统与外部各类信息来源,依据实际情况,通过数据抓取、系统接入、数据填报等多种方式确保系统数据能全面、及时的获取。
(3) 数据清洗:釆集到的数据可能存在重复,采集下来的字段数据可能会有HTML标计或特殊字符等情况,数据清洗主要解决数据质量问题。
(4) 数据翻译:主要实现多语种的翻译,系统提供谷歌翻译接口实现外文数据自动翻译,可以对某一数据源下所有数据批量翻译,也可以查询到某一条内容单独翻译,页面中英文对照展示并能对翻译内容进行人工校核。
(5)数据存储:承载系统涵盖的所有数据,主要包括经济、能源、电力、环境、政治、金融等六大类数据。从形式上分为结构化与非结构化数据,其中结构化数据存储在SG-RDB关系型数据库中,非结构化数据存储在分布式文件存储系统(HDFS)中,非结构化数据索引存储在Solr中。
(6)数据管理:数据管理层包括指标维护、指标数据管理、数据库性能监测、指标映射、计量单位管理、数据入库情况统计、国家与机构管理。
(7)数据査询:主要包括指标査询和非结构化数据查询,指标数据是从源数据通过处理及映射后得到的规范的指标数据。
(8)指标综合展示:基于Tableau可灵活快速将平台中的指标数据进行多种形式的展示,如地图、柱图、饼图、线图等。
(9)指标对比分析:将不同指标数据进行灵活对比分析,可分析不同国别同一指标的变化情况,也可分析同一国别不同指标之间的关联情况。
(10)数据接口管理:对外部提供数据接口,提供WebServices数据服务。
(11)信息安全与运维体系:主要是从运维队伍、技术保障、制度规范等方面形成一套管理和作业体系,保障平台安全稳定运行。
(12)相关的标准化与法规体系:主要是从管理标准、技术标准、作业标准、制度体系等方面保障系统建设、运行可持续发展。
4.1.3业务架构
全球能源信息釆集分析平台业务架构包括综合数据管理、成果管理、分析展示三大块,
4丄4应用架构
全球能源信息釆集分析平台的应用架构是以项目需求分析为基础,围绕系统建设目标和范围进行设计的,充分体现其对业务能力的支撑,严格遵循业务驱动性、应用的完整性及架构柔性的原则进行设计,
4.1.5技术架构
依照G公司全球能源信息釆集分析平台建设目标、功能需求、非功能性需求设计平台技术架构。平台遵循J2EE技术路线,结合大数据存储、计算技术实现主要功能。系统技术架构图如图4-4所示。
图4-4系统技术架构图
平台技术架构分为数据源层、处理层、存储层、应用层。各层技术细节如下:
(1)数据源
数据源层都是来源于各大系统及外部网站的数据,各大系统的数据存储形式一般为关系型数据库,如0racle,Mysql等;外部网站一般以网页的形式存在,包括HTML及附件文件。
(2)处理层
数据釆集处理主要采用以下技术:
HttpClient:HttpClient主要实现在页面上的事件请求,触发服务端返回相关代码。它实现了所有HTTP的方法(GET、POST、PUT、HEAD等)、支持自动转向、支HTTPS协议、支持代理服务器等。
HttpUnit介绍:HttpUnit是通过模拟浏览器的行为,将返回的网页内容作为普通文本,方便后面的解析与采集。
Jsoup:Jsoup是HTML解析器,可直接解析某个URL地址、HTML文本内容。它可以很好地把httpclient获取到网页内容解析成标准html格式,通过读取前台页面配置的参数,解析出相应的字段内容,包括标题、发表时间、摘要、内容等。
HtmlCleaner:HtmlCleaner的作用是将HTML文档的各个元素重新进行排序,并生成结构良好的(Well-Formed)HTML文档内容。
(3) 存储层
存储层提供数据存储与访问服务。数据存储方面,釆用分布式文件系统(HDFS)、SG-RDB数据库实现。其中,分布式文件系统(HDFS)主要存储非结构化数据;SG-RDB数据库在储结构化数据,逻辑上按数据主题进行存储,物理上拆形成处理域、应用域两个数据库;数据访问方面,釆用JAVA技术构建统一的数据访问服务,实现数据资源统一监管及资源分配,达到数据规范应用、提高数据库可用性的目的。
HDFS:即Hadoop分布式文件系统,它是Hadoop生态体系的最核心的组件之一,是所有上层计算的基础,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用,在本平台建设过程中它主要用于存储非结构化数据,例如釆集的非结构化数据和研究报告等。
(4) 应用层
1) 数据翻译
通过调用不同的翻译接口,如百度翻译⑹]、有道翻译【621进行非结构化文本的翻译。可进行单一文本的翻译和批量文本翻译,通过不同的语言翻译接口实现不同的翻译通路。翻译的原文文本存在服务器端数据库表中,翻译过程中先读取原文,再调用翻译接口,返回翻译结果,写入到数据库表中。
2) 数据管理
主要通过Java相关技术实现数据指标管理、数据维护等功能。
3) 数据査询
本平台通过SQL、Solr、JavaScript等技术组件实现数据查询功能。
①SQL:SQL是结构化查询语言(StructuredQueryLanguage)的简称,它是一种程序语言,用于在数据库中查询数据以及进行数据库程序设计,并可实现对各种关系型数据库的管理。本项目中SQL用来读取SG-RDB数据库,进行结构化数据操作。
②Solr:Solr是一个基于Lucene的Java搜索引擎服务器。它通过对外提供标准的HTTP接口来实现对数据的索引的增加、删除、修改、査询等操作。用户通过向部署在Servlet容器中的SolrWeb应用程序发送HTTP请求来启动索引和搜索。Solr接受请求,确定要使用的适当SolrRequestHandler,然后处理请求。通过HTTP以同样的方式返回响应,默认配置返回Solr的标准XML响应,也可以配置Solr的备用响应格式,如XML/XSLT和JSONo
③JavaScript:JavaScript一种脚本语言,常用于作为浏览器能识别的语言,与HTML联合使用,能产生网页动态交互功能。它是一种动态类型、弱类型、基于原型的语言,经常存在浏览器兼容问题。本项目中主要用于系统动态交互的实现。
4)数据可视化
数据可视化技术是一种利用计算机图形学以及图像处理相关技术,将数据信息转换成图像或图形进行展现的理论和方法〔63〕。随着互联网、电子商务等产业的快速发展,可视化技术在不同行业和领域得到了广泛的应用〔冈。全球能源信息采集分析平台可视化技术结合成熟产品Tableau.ArcGIS[65]及相关可视化框架组件如LeafLet.js、Three.js、Echarts等实现。
①Tableau可视化
Tableau是一款直观的、拖放式的数据可视化工具,操作极为便捷,任何Excel用户都能很容易的使用Tableau,适合分析人员的原本操作习惯;基于内存计算和列式存储的技术使得它操作大量数据时也能保持极高的效率;除了能够制作并展现普通的表格与图形外,它也能以综合仪表盘的形式显示桌面端专题页面或大屏展示页面,并实现灵活的交互;支持异构数据源的融合以及支持移动端应用,对数据挖掘应用也有良好的支撑作用[66〕。全球能源信息采集分析平台主要通过Tableau实现指标对比分析和指标综合展7K以及大屏展示功能。
②ArcGIS
ArcGIS是由Esri公司开发提供的一款成熟的地理信息系统(GIS)产品,它可进行空间数据整合、处理、管理、分析,并提供地图制作、结果发布与共享的功能。它可以通过ArcGISAPIforJavaScript高效构建Web制图应用程序,能够创建地图形式的高效交互的数据可视化应用,通过调用ArcGISServer的RESTAPI,实现地图信息的显示、查询、分析、服务聚合等功能SI。全球能源信息采集分析平台通过ArcGIS实现电网图的展示与交互。
③LeafLet.js
LeafLet.js是一款用于兼容移动端交互地图的开源JS库。它具有简单、高性能和实用性强的特性,包括140多个控件和插件,可实现数据提供,数据格式、地理编码、路线搜索、地图控件等多种常用功能。也可以便捷地实现自定义控件,具有良好的可
扩展性。最终程序可在主要的桌面和移动端平台、各类浏览器上高效运转。全球能源信息釆集分析平台通过LeafLetjs实现基于平面地图的电价对比分析功能时】。
④Three.js
Three.js是一款开源的3D绘图JS引擎(Three就是三维的意思),是通过JavaScript编写的第三方WebGL库,提供了非常多的3D显示功能。可以用它来创建三维场景,包括了摄影机、光影、材质等各种对象SI。全球能源信息采集分析平台通过Three.js实现三维地图展现功能。
⑤ECharts
ECharts是一款由百度公司提供的基于JavaScript的数据可视化组件库,能够提供直观、生动、可交互、可个性化定制的数据可视化图表,如区域图(折线图)、条状图(柱状图)、气泡图(散点图)、K线图、和弦图、地图、环形图(饼图)、力导向布局图等多种图形,同时支持任意维度的堆积图和多图表混合展现卩。]。全球能源信息采集分析平台通过Echarts实现电力需求预测分析的展示与分析功能。
4.1.6数据架构
平台数据架构主要包括数据源层、数据导入处理层和数据存储层。数据源是指该平台外部数据源,例如各类网站、数据文件及系统接口;数据导入处理层包含数据釆集、数据填报、离线导入等功能;数据存储层主要是经过处理后的数据在本平台中进
行的分类存储,结构化数据(主要是指标数据)存储在关系型数据库中,非结构化数
4.1.7安全架构
依据G公司信息化安全要求以及出于全球能源信息采集分析平台的业务需求,并通过对业务数据可能受到未经授权的非法访问与篡改以及由此产生的后果进行全面论证,确定了全球能源信息采集分析平台保护定级为二级。按照二级安全防护要求,从应用安全、数据安全、主机安全、网络安全、物理安全、边界安全六大方面进行安全防护设计。
(1)应用安全
应用安全防护从防止平台SQL注入的入侵、加强平台身份认证、加强平台应用功能的授权、加强对平台输入输出数据的验证、严格控制配置管理、加强会话创建和存活期的控制、加强系统异常以及审计日志功能等方面进行安全防护,对重要操作进行日志记录,对密码管理提供专用的功能,如密码修改、密码过期、密码错误锁定,不断提高密码验证强度。
(2)数据安全
系统的数据在存储或移动过程中,均可能被非法访问与篡改,从而导致数据泄露。为了确保数据安全,我们需通过数据加密、数据完整性校验。通过定时增量、全量数据备份方式实现数据备份安全。主要实现方式与措施是对敏感数据加密,例如用国密SM3算法对用户密码及页面传参进行加密,用国密SM2对配置文件(如数据库连接字符串)等进行管理。数据存储安全的实现是要对本地数据进行备份,一般每天进行一次数据的全量备份。
(3)主机安全
主机安全防护主要是对服务器设备进行安全防护。主要釆用系统访问控制、服务访问管理、系统漏洞修补、服务漏洞修补、一次性口令认证、实时入侵检测系统、访问控制系统、DDoS攻击检测及防护等安全措施。例如通过对传输中的数据进行MD5校验的方法阻止数据被非法篡改、窃听、泄漏。
(4)网络安全
网络安全主要是对网络通道进行安全防护。包括网络通道环境、网络通道安全防护,通常采用入侵检测、虚拟局域网、防火墙、虚拟专用网络等技术实现。本系统釆用B/S架构模式,所有的安全控制在服务端完成,对每一位访问者都做身份的识别、认证、审核。
(5)物理安全
物理安全根据设备部署安装位置选择相应的防护措施。主要需要考虑物理存储设备的运行安全以及设备丢失等问题,还需考虑安全访问限制问题。
(6)边界安全
边界安全防护目标是保证不同网络边界两部分不分受到跨界攻击,系统在发生安全事件前期能够通过对安全日志及入侵检测事件的分析发现攻击意图,在安全事件发生后能提供入侵事件日志记录以进行审计追踪。通过防火墙及网关技术配置各个粒度的访问控制策略。通过绑定IP、MAC限制访问,通过日志进行安全审计。
4.2全球能源信息采集分析平台实现
4.2.1系统开发和运行环境
(1)系统开发环境
(2)系统运行环境
本平台系统运行环境主要包括软件环境与硬件环境。其中软件环境包括操作系统、中间件、关系型数据库、非结构化全文检索、大数据组件等。具体软件环境详见表4-2。
本平台系统硬件环境主要是相关服务器,包括釆集服务器、存储服务器、全文检索服务器、文件服务器、Web应用服务器。具体配置与数据详见表4-3。
1)软件环境
本平台软件环境釆用按国家电网公司信息管理部门要求的最新版本,对于国网公司信息管理部门未作要求的技术或组件,则通过技术验证,选择成熟、应用较为广泛且有一定经验积累的技术或组件,以减少技术风险和降低开发成本。
(2)数据翻译
1) 自动翻译
针对釆集到的互联网多国语言数据实现自动翻译功能,能够支持即时翻译,按照翻译配置信息定时定量翻译,最终翻译成完整的中文信息进行保存。翻译时从采集结果表读取外文数据,再调用谷歌翻译接口进行翻译,将翻译结果存储到翻译表中。
2) 手动翻译
手动翻译功能主要是对釆集下来的非结构化数据进行手动翻译,通过左侧页面数据源名称列表,在右侧查看该源下的数据,包括标题、作者、发表时间、摘要、来源网址、
采集时间以及翻译状态等,对于未曾翻译的数据可以点击“翻译”按钮,进行翻译。
通过对来自各数据源的指标数据进行整合处理,通过自动匹配或人工指标映射与源指标进行对应,形成目标六大类(经济、能源、电力、环境、政治、金融)数据体系,即指标数据,可对指标数据进行查询。指标查询是通过指标编号、名称、类别、机构、时间等条件进行指标数据的查询,查询到某个指标后,可同时显示其同期值、同比值、环比值等数据,并可将其关联的指标就近显示。
(5)研究报告管理
研究报告管理功能是对G公司内部有价值的研究成果文档进行综合管理。可实现报告上传、报告删除、在线浏览、分类管理、权限设置、报告搜索等功能。
为全球能源发展报告、电网规划研究报告、专题报告等撰写提供数据、表格等内容支持,具备辅助撰写功能,可半自动化生成报告章节;支持在线浏览报告成果。按照业务需求提供不同报告模板,方便用户进行报告撰写;按用户需求输出报告;报告协作编写在技术上实现多人协作编写同一个Word报告。不同的用户进来可査看最新报告,并可进行编辑,保存后形成最新版本。
(7)个人知识储藏室
个人知识储藏室简称为储藏室,主要是实现用户个人知识空间的管理,可以上传并分享个人有价值的各种格式的资料,也可将这些资料进行共享与收藏。对于自己上传和收藏的资料可快速查询定位。包括知识维护、知识分类、知识检索、知识共享、知识地图、知识轨迹等功能。
(8)电网图展示
基于ArcGIS技术,实现对电网图的绘制与展示功能,具体包括图层管理、快速查询、绘图编辑、制图输出等功能。具体是以ArcGIS矢量地图引擎为支撑,展现全球各国电网,电网的粗细与颜色表示电网的不同电压等级,可实现地图及网架的放大、缩小操作,以及査询交互操作,快速定位到某一条线路,并可查看该线路的详细信息以及线路上的节点信息,数据涵盖全球各主国家,
可以切换成三维形式进行操作,具体操作方式包括拖拽式旋转,通过鼠标滚轮进行放大或缩小,可通过电压等级选择电网线路。不同的电压等级线路由不同颜色的线条表示。通过这种立体方式,可以方便用户直观并快速查看所需的电网线路或电网区域,以辅助电网规划与分析业务活动,具体效果如图4-15o
以Three.js三维地图形式展示全球主要国家骨干电网网架,可通过拖拽、滚动鼠标滚轮的形式进行旋转、放大和缩小操作,便利地浏览全球骨干网架图。
(9)指标综合展示
基于Tableau客户端工具TableauDesktop进行数据源连接、视图构建、形成仪表板并将仪表板发布至服务端,继而通过单点登录集成技术,实现与平台的无缝集成,实现各个专题的综合展示,例如世界人口概况、GDP与产业分布、化石能源分布等。
(11)电价对比分析
基于LeafLet.js技术实现电价对比分析,电价对比分析综合展示不同区域/国家的电价基本情况,通过筛选条件可以展示各国不同年份和不同类别的电价信息,分析不同区域/国家的电力价格差异,并以图表的形式展现。选择自动比较可以对各国家某一年份或某一类别的电价进行自动分析比较;智能分析包括时间、电价类别、电价阈值、对比范围等,选定各条件后可对各国电价进行智能分析,展示符合筛选条件的结果。
(12)电力需求预测分析
电力需求预测是基于历史的用电量、历史人口、预测人口(从其它线下渠道获得的己知量)、历史GDP、预测GDP(从其它线下渠道获得的已知量)、历史负荷数据分别通过弹性系数法、年平均增长率法、线性回归法、人均用电量法、分行业预测法预测未来相关国家的用电量和用电负荷,并以图表的形示进行展现。
(13)指标对比分析
为方便用户自助式分析对比,平台通过Tableau实现指标对比分析的功能,可对研究指标(如各国家面积、人口信息)进行横向、纵向分析,并能灵活定制分析内容与计算方法,清晰的反映各类指标数据趋势和分布情况,提升指标数据研究效率。
任埃分扮丄
(14)大屏展示
通过Tableau制作大屏仪表板,在大屏上进行展示。
图4-21大屏展示
4.3本章小结
本章重点描述了平台的设计与实现方法,对实现的功能进行详细描述,对选用的技术内容也进行了重点说明。在设计部分具体描述了平台的设计原则、总体架构、业务架构、应用架构、技术架构、物理架构、安全架构等内容,在实现部分描述了平台三大模块各部分的实现功能,以及平台系统的开发运行的软硬件环境。
第5章全球能源信息采集分析平台实施效果评价
在全球能源信息采集分析平台构建完成并应用一段时间后对其进行实施效果评价,本平台的实施效果评价包括平台的实施内容与过程描述以及平台的实施效果评价。
5.1实施内容与过程
(1)差异分析及方案设计
项目组在正式启动实施前需讨论并提岀针对项目建设单位的差异化需求解决思路,明确差异分析范围及工作流程,制定相关文档模板,对差异化需求处理的各个环节进行指导,以保障差异分析工作的顺利开展,确保实施内容及效果符合系统设计和建设目标。
(2)数据收集及处理
在数据收集阶段,明确数据收集范围,并提岀需要收集的数据内容及格式要求,明确用户方接口人并发放相关模板或问卷,按计划回收。数据收集过程中严格要求,电子文档需要进行加密处理。对收集到的数据进行反复校对,确保数据的规范性和完整性。
(3)系统测试
系统在部署前需要进行系统测试工作,包括功能性能测试、安全测评等。功能测试主要包括对平台的功能流程按业务需求及概设的标准进行测试;性能测试是通过测试软件LoadRunner进行压力测试,验证是否满足非功能需求的性能要求;安全测试包括应用安全即相关审计功能的测试、渗透测试及代码安全扫描等。
(4)系统部署及配置
(5) 用户培训
1) 培训目的及要求
为了保证平台投运后,业务人员能够快速掌握平台的相关业务流程和功能操作,实现平台良好运行且达到实用化的目标,项目组对用户方业务人员进行培训,主要分为一般业务人员和系统管理员的培训,在试运行阶段与运维阶段提供技术支持,以保证最终用户熟练使用平台系统。
2) 培训方式
用户培训由项目组提供场地及其它硬件资源,确定培训方式为集中授课培训,并确定培训的时间、内容和频度,客户方根据培训需求确定参加培训的人员。
项目组为培训免费提供不同的中文培训教材,对于成熟产品提供原厂培训,培训场地和所需系统环境由项目组提供,培训前项目组给出详细的培训内容、培训计划和课程安排等。
3) 培训内容
系统管理人员培训:在系统建设的整个过程中对系统管理人员进行培训,使得系统管理人员能够熟悉并掌握系统的整体结构、系统日常运行维护操作和常见故障定位和排查等内容。
最终用户培训:在平台建设完成后,对平台系统的使用人员进行培训,使得他们能够掌握系统的功能及操作方法,能在平台系统中处理日常业务。
(6) 上线试运行支持
实施团队配合建设单位制订相关文档,包括但不限于系统部署方案、系统安全策略配置方案、系统备份方案、系统应急预案、系统监控方案、系统技术支持方案等运行技术文档,并在试运行过程中提供技术保障。
(7) 质保运维
项目组提供包括电话支持、调研讨论、系统优化、系统故障排除等多种技术服务。依据平台所发生问题的严重程度,在上线支持期内项目组将开展如下维护工作:
1) 平台验收后提供12个月的质保服务期。
2) 在质保期提供免费的功能升级、业务解答等技术服务。
3) 在质保期内开通7X24小时的热线电话随时解答项目单位的问题,项目单位可直接与项目组有关技术人员定期和不定期的进行技术咨询和联络,项目组技术人员负责答疑解惑。
4) 平台在出现问题后项目组技术人员应先远程协助项目单位系统管理员一同进行诊断,查找问题原因,尽快解决故障。若平台因重大故障不能正常运行,两小时内远程仍没有排除的,项目组更高级别的技术人员在规定的时间内会赶赴现场处理,确保将项目单位的损失降到最低。
5) 在质保期内,项目组提供平台系统软件的免费升级服务、性能调优等服务。
6) 对于出现的系统故障,在质保期间,项目运维人员提供7X24的服务响应,在接到故障报修电话半小时之内做出实质性响应,若未能解决故障的,运维人员将启动更高级别的响应服务,并在2小时之内到达现场处理。
7) 在质保期内,平台任何属于项目组责任的系统缺陷,项目组免费进行修改。
8) 在质保期间,项目组对平台及相关资料进行严格的版本管理,并在用户方备案。任何新版本具备向下兼容的特性。
9) 在质保期满后,运维人员满足项目单位对所出现系统重大故障的维护完善要求。
5.2实施效果评价
一个软件项目的实施效果通常受到各方面因素的影响,例如资金、项目团队、项目时间、技术等。因此需要首先明确全球能源信息釆集分析平台项目建设的目标,并依据指标体系构建原则建立该系统平台项目实施效果评价指标体系,继而按选择实施效果评价模型,对全球能源信息采集分析平台的实施效果进行有效的评价。实施效果评价过程具体包括通过用户调查研究、评价指标体系构建、层次分析法、模糊综合评等方法实现对平台实施效果的评价,
5.2.1平台实施效果评价研究目的
全球能源信息釆集分析平台实施效果评价是通过科学的评价方法与技术手段对该平台进行一个综合性的分析测评。通过专家讨论形成评价指标,找出平台实施过程中哪些需要改善,哪些是值得借鉴推广的。通过此次评价,对该平台提出改进意见,以期能够为G公司提升业务绩效。
5.2.2评价研究方法的选择
在选择了全球能源信息釆集平台项目实施效果评价相关指标的基础上,建立该项目实施效果评价模型,形成指标体系,根据指标体系中各指标之间的包含关系及独立性,建立各级层次模型,并通过运用层次分析法,对不同层次的指标依据其重要性和影响程度进行赋权打分,然后运用模糊综合评价法计算,从而对整个全球能源信息釆集平台项目实施效果进行综合评价。本项目实施效果评价的最大难点是指标因素难量化,通过将定量与定性分析相结合,可以很好地解决这个问题。通过对全球能源信息釆集分析平台的实施效果的综合评价,以客观合理为前提,为领导决策提供有效支持。
本文建立的全球能源信息采集平台实施效果评价模型,采用层次分析法进行指标权重的计算,并利用模糊综合评价法计算综合得分,得岀综合评价结论。主要操作包括以下几个步骤。
(1)层次分析法
层次分析法是,在20世纪70年代中叶由美国匹兹堡大学教授T.L.Seaty提出来的。它是将定性和定量分析相结合的,具有系统化、层次化的分析方法。它的操作过程是把复杂的问题进行解析,得出多个不同的因素,并实现其基于支配关系分组,再通过同一层次中的因素进行两两比较,确定其相对重要性,然后进行各层次之间的总排序,从而得出不同方案的得分,为选定最优方案提供支持。
层次分析法是用来为决策者提供合理的决策依据,根据该方法计算岀因子的权重,可判定因子对评价对象的影响程度,该方法适用于各个领域。
该评价方法最关键的操作内容是数学模型和指标体系的构建。首先要解决的问题是如何构建数学模型,因为否则建立指标体系将是没有意义的。选择指标的不同对结果影响很大,指标的选择尽量全面,才能真实反映问题的本质。不同层次之间指标需要有明确的支配或依附关系。层次分析法的评价过程如下:
1)建立层次结构模型
建立层次结构模型时,要坚持以下几个原则:在分解简化问题时不能大而全分解所有的因素,而是要抓住主要矛盾,把握主要因素,分析主要因素;并且需要综合考虑参与比较的元素之间的强度关系,同一层的指标不能强度关系相差太远。将相关的多个因素按照不同属性从上到下分解成多个层,下层的因素附属于上层的因素,或者下层的因
47
素上层因素能产生影响。其中,最上层为目标层,一般情况就只有1个因素,最下层一般为方案层或对象层,中间可以是一个或多个层,通常为准则层或指标层。当准则层的
因素太多,例如超过9个,则需进一步分解出子准则层。
2)构建对比判断矩阵
若矩阵A=(a.pnxn同时满足以下两个条件%>0,atj=l/a((i>j=l,2,■•-n)=则可判断A为正互反矩阵,我们目前的矩阵C很明显就是正互反矩阵。正互反矩阵标度首先解决第一个问题是每个准则(因素)权重具体应该分配多少。但是直接给出各个因素的权重实现起来较困难,而将全部因素的重要程度进行两两比较则是相对更容易实现的。在层次分析法的实际操作过程中,为了使决策判断能够实现定量化,形成上判断矩阵,通常釆用某个的标度方法来将判断定量化,
以上比例标度法是一种常用方法,釆用它的理由主要有三个:一是经过心理学证实,人们对这个世界上的不同事物相同属性的分辨能力是有差别的,通常差别在5-9级之间,釆用1-9的标度能够反映大多数人的判断能力;二是经过许多的社会调查证明得到:此比例标度己经在很长一段时间内被人们广泛理解并釆用;最后是通过科学家们的科学考察和长期实践活动,表明此比例标度己经可以使得人们区分所有感觉上有差别的事物的全部属性。因此目前在层次分析法的应用中,大多数都釆用尺度。当然,关于不同尺度的讨论一直存在着。
3)计算权重向量并做一致性检验
判断矩阵权重向量的计算是从其中发现有用信息的基础,进而实现对事物固有规律的认知,从而帮助决策者做出科学的决策。通过构造出的判断矩阵,找出与最大特征值对应的特征向量,并进行归一化。
在进行一致性检验之前,先了解一下一致性矩阵。对于正互反矩阵A,若对于任意i,j,k均满足CLijCLjk=CLjk,i,j,k=l,2,...n,则称此正互反矩阵为一致性矩阵。它的一个显著特性是能够计算出不同因素的所占比重。
若是A的最大特征值,并且W=(W/…,W)是;Igx对应的特征向量,那么
wi
a..=一
其中,上述表达式中的W就是我们需要的权重,因此只要得出比较矩阵的最大特征值所对应的特征向量,就可以得到不同因素的权重,并通过归一化处理后(每个权重除以权重和作为自己的值,最终总和为1)就能在用于实际应用过程中了。对于专家填写后的判断矩阵,利用一定数学方法进行层次排序。
但是,在各层排序的过程中需要对判断矩阵进行一致性检验。因为人们对一个正确的判断矩阵重要性排序是有一定逻辑规律的,比如对某一个人来说,物品E比物品F重要,物品F又比物品G重要,那么从正常逻辑关系上来说,物品E应该比物品G明显重要,若物理E、F、G三者之间进行两两比较时出现物E比物品G重要的结果,那么该判断矩阵就违背了其一致性原则,是不合理且无效的。当检查矩阵一致性的时候,根据计算出来的结果必须符合两个要素是不能出现矛盾的,否则,需要重新选取要素,直
至满意为止。
一致性检验需要按以下步骤进行:
第一步,计算一致性指标CI(consistencyindex)
第三步,对一致性比例CR(consistencyratio)进行计算和结果判定:
CR=CI/RI (5-2)
按照惯例,判断矩阵的一致性合理的认定标准是CR<0.1,若CR>0.1,则其一致性要求未达标,需要重新修正计算。
4)层次的单排序
层次单排序,指的是相对于上一层某个因素来说,本层次各因素的重要性的排序。计算方法有特征根法、和法、方根法、幕法等,本文釆用方根法来进行层次单排序。具体其计算步骤如下:
先求出每一行元素的乘积,求得每一行元素的乘积:
其中(AW),表示向量AW的第i个元素。
5)层次的总排序
层次的总排序是从上到下逐层计算指标层因素相对于系统总目标的合成权重,最后得出各因素对总体目标影响值的排序结果。层次分析法釆用数值介于0到1之间的优先权重作为区分指标影响程度的指标,在决策准则已经确定的情况之下,优先权重数值直
接体现了指标重要性的权重。只有通过层次总排序的检验,才能继续进行下一步的分析。
6)决策
首先计算出最底层因素对最高层即总目标的相对优劣的权值,对权值进行排序从而对各因素进行最终的排序。
(2)模糊综合评价法
模糊综合评价方法过程如下:
1)确定评价要素和评价等级
确定评价要素后才能建立模糊综合评价指标体系,而模糊综合评价指标体系是进行综合评价的基本要求,评价要素与等级均会对评价结果产生决定性影响。
2)确定评价矩阵和权重
通过专家经验法或者AHP层次分析法构建好权重向量。
3)进行模糊合成和决策
根据最大隶属度原则,进行单因素评价、模糊合成,最终得出评判结果。最大隶属原则(maximummembershipprinciple)是模糊数学的基本原则之一,该原则内容主要包括两点:一是穷尽性原则,指的是可以将对象总体中全部的分子进行归类。二是排它性原则,指的是对象中的全体分子都只能属于一个类,这样得到最后的评判结果才可信。
(3)评价过程
首先确定G公司全球能源信息釆集分析平台实施效果的评价对象,进而选择合适的方法进行综合评价。具体评价过程如下;根据G公司全球能源信息釆集分析平台的实施目标及实施过程,通过德尔菲法选择指标并计算各个指标的权重,形成评价指标体系的判断矩阵,再通过计算形成评价结果。进而对系统实施的效果予以分析,并提岀优化改进建议。
523评价体系的构建
(1)指标体系的建立原则
1)真实性与合理性相结合原则。确保选择的指标是真实的、合理的,评价指标体系必须要经得住考究,指标的选择与设置要以科学理论为依据,所选取的指标应有明确的含义且有权威性,能够充分反映G公司全球能源采集分析平台构建与实施的实际情况。
2)全面性与代表性相结合原则
影响G公司全球能源信息采集分析平台实施效果的因素有很多,我们选择的指标必须要符合软件系统特征,而且能够全面反映各因素之间的关系,在全面考虑因素后,选择出具有代表性的因素,这样才能将分析活动落到实处。
3)前瞻性与灵活性相结合原则
随着外部社会、经济、信息技术等因素的发展,以及G公司内部业务、人员、组织等因素的变化,该平台的应用也将不断发展变化。这就要求在建立G公司全球能源信息采集分析平台实施效果评价指标体系时要紧跟时代的发展,形成的指标体系具备一定的前瞻性和灵活性,满足动态发展性要求,能够及时准确地反映出平台实施效果的变化。
4)实用性与可操作性结合原则
所建立的指标体系需能够实际落地应用并达到可操作级别。这一点也是本文所列全部原则中最重要的一条。构建指标体系时,不能一味注重指标的数量以及指标模型的复杂度,在能够达到评价目标的前提下更要注重评价方法的简化处理,保证指标含义清晰明了,确保整个评价活动有效地进行。由于本文主要采取层次分析法进行全球能源信息釆集分析平台系统的实施效果评价,所选指标需可按一定的逻辑关系进行横向比较,以确保层次分析法可操作。
(2)评价指标体系的建立
本文选用专家意见法、即德尔菲法建立指标体系。它具有以下几个特性:
1) 匿名性
参与决策的专家组成员采取独立与匿名的原则,只开发一个函件的交流通道,以确杜绝某些成员会有跟风的情况。
2) 反馈性
专家意见法一般要进行3到4轮的沟通反馈,通过一次次的沟通反馈,调査组和专家组成员都可以更深一步地研究问题,确保专家最后的判断决策与其真实想法一致,从而认为决策是客观的。
3) 统计性
通过专家意见后,全部专家的判断结果肯定是存在差异的。只能通过统计,最终釆取大多数人的意见,无需对每个人的意思进行公布。
按以下过程进行评价指标的选择:
(1) 确定评估的目标。具体指确定全球能源信息采集分析平台实施效果评价指标体系。
(2) 选聘专家。在选取专家这一方面,需要做大量的前期准备工作。首先选取全球能源信息釆集分析平台项目建设过程的重要干系人为候选对象,具体有项目建设方、承建方、监理单位、相关软硬件产品的供应方等等。另外,需要在以上候选专家中去掉那些有利益关系的专家,保障专家评判的公正,例如施工方项目经理不能参与评价指标的选择,因为可能会产生有利于施工方的倾向性选择,最终影响指标体系的客观性。最后,还需将系统实施效果评价方面不太了解的人员,优先选择那些具备相关经验并擅长软件实施效果评价相关理论和方法的人员。经过严格筛选后,形成评价专家组。按G公司的实际情况出发,本文决定邀请参与系统建设与实施的建设方的业务部门及信息管理部门共十名专家。
[1](
[2]曹如中,梁亚丽,宋雅雯,郭华.智库建设模式的国际比较及其启示[J/OL].情报理论与实践,:1-11(2017-12-06)
[3]联合国网站[EB/OL].(2010-02-01)[2017-12-10],http://www.un.org/zh/index.html.
[4]国际货币基金组织[EB/OL].(2017-03-05)(2017-12-10].http://www.imf.org/extemal.
[5]世界银行[EB/OL].(2016-05-05)[2017-12-10].http://www.worldbank.org.
[6]国际能源署[EB/OL],(2017-10-09)[2017-12-10],http://www.iea.org.
[7]美国能源信息署[EB/OL],(2017-01-02)[2017-12-10].http://www.eia.gov.
[8]彭博新能源财经[EB/OL],(2017-12-10)[2017-12-10],
https://about.newenergyfinance.com/about/.
[9]英国石油公司[EB/OL].(2017-12-01)(2017-12-10].https://www.bp.com.
[10]陈辛未我国新型智库建设研究[D].郑州大学,2016.