平台咨询热线:
平台合作热线:
您当前位置:网站首页>政策法规 > 行业探讨

大数据技术下的公共资源交易信息安全风险

发布时间: 2021-03-23 15:54:06 浏览量: 发稿人:阳光易招公共资源交易平台

 大数据时代,加强对信息安全的维护工作势在必行。目前业内对于这项新兴技术可能会对公共资源交易活动产生的风险后果还认识不足,安全防范意识普遍比较薄弱。本文列举了部分利用大数据技术攻击公共资源交易电子化平台的常见手段,旨在引起有关部门的高度重视,进一步加强对相关安全技术的研发力度,制定相关的信息安全维护措施。

一、引言

目前,我国公共资源主要通过信息化手段完成交易活动,各地公共资源交易管理和服务机构基本都搭建了电子交易平台,以数字化交易、信息化公开为主导的交易理念成为公共资源交易管理者的共识。然而凡事都有两面性,公共资源交易对电子化、信息化的高度依赖对其安全防护产生了巨大的冲击。特别是近年来,随着大数据技术的出现,信息安全风险形势日益严峻,由于大数据技术是一种功能强大的分析算法,它可以从海量的信息中发现期望的数据,并对这些数据进行智能分类,提取有价值的片段,给出高度精准的趋势判断甚至是预测结果,如果被一些别有用心的不法分子利用这种利器在公共资源交易活动中肆意滥用,势必破坏正常的交易秩序,危及电子交易平台正常运行,其风险后果不容小觑。

二、大数据技术对公共资源交易信息安全构成的风险

大数据技术主要围绕“数据价值化”这个核心来展开,而对于各方交易主体尤其是投标单位而言,交易数据无疑是最具价值的资源之一。大数据技术主要涉及数据采集、数据整理、数据存储、数据安全、数据分析、数据呈现和数据应用等技术。从信息安全角度看,数据采集中的数据挖掘技术,数据整理中的数据清洗和数据沉淀技术,数据安全中的数据劫持等技术都是构成公共资源交易信息安全风险的主要来源。

1.利用数据挖掘技术拼接出专家评委库

所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整策略,减少风险,做出正确的决策。

利用数据挖掘技术对公共资源交易电子平台进行有目的的定向挖掘,可以获取十分精准有效的信息。比如,在政府采购活动中,根据《政府采购评审专家管理办法》的要求,在评审活动完成后要公开评审专家名单。这就给大数据挖掘技术提供了用武之地,只需要积累足够数量的交易项目样本,对评审专家名单进行逐一提取去重(聚类方法),就能拟合出一份较为详尽的评委库名单,加之我国一些地区的评审专家库补充、调整周期长,评委库成员相对稳定,尤其是部分稀缺专业专家人数较少,用大数据技术进行拼接、积累更加方便。

2019年8月份,温州泰顺县公安局公布了一起特大串通投标案,侦查人员发现有5家投标企业的标书做工粗糙,标书报价清单的字体、大小,甚至排版、设置换行都一致,报价还非常接近,经查是犯罪嫌疑人罗某在招标信息发布以后,通过系统查询,发现几家拥有资质的公司,从中选择了四家经常有来往的公司,联系共同参与投标。尽管这些操作还属于最基础、最原始的数据挖掘动作,但是其效率可见一斑。

目前,网络上提供有大量专业的高质量数据挖掘工具,如RapidMiner工具,它不仅提供了数据预处理和可视化、预测分析和统计建模、评估等功能,还包含有一些很有用的扩展包,可以用来搭建推荐系统和评论挖掘系统。

以中国政府采购网、广西壮族自治区公共资源交易网站公示的政府采购类项目为例,利用RapidMiner对评审专家邓某某参与过的8个项目进行定向挖掘,数据分析结果见表1。

表1的数据可以推测出专家的所在专业(结合项目属性)、参与评审项目的频次(结合评审周期),如果数据样本足够大,则完全可能拼接出全体评审专家名单。笔者对广西某市2018年政府采购评审专家进行数据采集,大约只需要抓取23次项目公示信息,进行简单地去重分析整理,不到一小时就可以顺利拼接出全部46人的名单。

当然,不少地方在征集政府采购评委库阶段就主动公开了评审专家名单,用数据挖掘的方法拼接出专家库评委信息意义不大(本例是用以说明数据挖掘技术的应用场景)。但是这项技术同样可以适用在其他不宜公开的专业交易领域,这样原本应当保密的信息就大白于天下,对于公共资源交易管理或者运行服务机构的数据安全工作产生不小的压力。

2.利用数据清洗技术预测出投标人名单

数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。它可以发现并纠正数据文件中可识别的错误,包括检查数据一致性,处理无效值和缺失值等。数据清洗的基本原理是利用数理统计或预定义的清理规则将“脏数据”转化为满足数据质量要求的数据,即过滤那些不符合要求的数据。

众所周知,一个地区的投标活动,固然没有“一一对应”的必然规律可循,但是分析该地区企业的投标习惯,还是能够掌握其大方向。如利用OpenRefine可以对企业的参与度、活跃度进行数据清洗,大致推测出项目潜在参与竞标企业的具体名单,这给少数不良企业组织围标、串标创造了便利。例如,我国一些公共资源交易电子化程度较高的省市,多年前就建立了以招标投标诚信库为主要依托的招标管理模式,其基本思路是建立起由行业主管(监督)部门为主导的招标投标诚信库。投标前,投标企业必须把营业执照、人员资质证书和工程业绩(合同、竣工验收证明)等材料传送到诚信库系统中并全部对外公示(向全社会公开),投标时,投标文件必须从经公示过后的诚信库中提取(否则不作为评标依据)。这种做法引入了社会监督力量,减少了评委的评审压力(实际上评委仅对投标方案进行技术性评审),实践证明,这是一种行之有效的招标投标管理手段。然而利用最新的数据清洗技术,却能够快速对这些公开信息进行过滤,从而获知本来应当保密的投标信息。

以数据清洗工具OpenRefine为例,它可以实现数据排序、自动查找重复条目并完成数据记录。OpenRefine的真正能力体现在facets身上。Facets类似于一款电子表格过滤器,能够轻松找出其中的空白单元格与重复数据,并掌握特定数值在数据中的出现频率。

下面这个例子就是利用OpenRefine工具,对南方某县建设工程诚信库进行数据清洗以后预测潜在投标人的过程,大致可以分为四个阶段:

①数值化过程:提取招标文件中对于企业的资质、业绩和其他相关要求,即对文本语料进行数字化,便于软件进行模糊查询和比对;

②标准化过程:利用Python等工具对诚信库内符合招标条件要求的企业进行筛选(重点侦测招标信息发布以后新增企业的入库和管理人员备案情况),初步列出符合招标文件所需条件的所有企业的大名单;

③降维过程:分析当地投标企业参与类似项目历次的概率情况,主要目的是尽量减少数据脱脏的工作量,使预测结果不受大幅度扰动;

④脱脏预测过程:对符合条件的企业进行置信度检验(即排除不可能参与此次投标的企业),拟合出潜在的投标企业名单。

笔者利用这种方法对该县交易平台房屋建筑企业诚信库数据做过抓取测试,一些个性化要求比较明显的招标项目(即资质要求比较高、业绩程度比较好,潜在投标企业相对固定),最高一次预测结果与实际投标验证的契合程度超过了73%(即预测出的投标人名单中有七成以上单位最终参与了投标),这是一个惊人的数字,应当引起管理者的高度重视。

3.利用数据沉淀技术判断出投标习惯

数据沉淀又叫做资料探勘。一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。它与数据挖掘最大的区别在于,沉淀技术能将离散化的数据根据关联规则进行聚类,而不仅仅停留在“挖掘”阶段,能智能化自动形成有价值的分析报告。实际上,数据挖掘、数据清洗和数据沉淀三者是一个有机的整体,它们相互配合能够发挥巨大的功效。数据沉淀可以理解为数据挖掘的智能化高级阶段。它们三者的关系可以用“采矿”过程做形象的比喻。数据挖掘好比是一辆大功率的“挖掘机”在数据矿山挖掘有价值的矿石,通过数据清洗这张“滤网”去粗取精进行初次加工,筛选出含量高、品相好的半成品,最后再利用数据沉淀这台“自动分拣机”,把不同品质的数据矿产分类、存储。只要构建出面向需求的数理模型,数据沉淀的直接结果就可以用于判断投标企业的报价习惯,确定报价合理区间以及分析评委的评分倾向等。

4.利用数据劫持技术窃取投标文件

数据劫持(或者可以说是HTTP劫持),一般是指来自网站的服务器的数据在到达用户浏览器的途中,其数据被劫持并遭到篡改,这种情况一般出现在以HTTP协议传输数据的网站上,因为这些数据是明文传送的。广义上讲,数据劫持是数据嗅探的变种形式之一,它属于网络犯罪的常见类型。利用数据劫持技术可以窃取包括投标文件在内的大量保密信息。

2017年5月12日,WannaCry勒索病毒肆虐全球。全球150多个国家近20万台计算机被WannaCry感染,造成超过80亿美元的损失。人们对于数据被劫持进而被勒索直到今天仍心有余悸。公共资源交易领域也发生过一起类似案件。2018年4月,泸州市公安局网安支队发现一网民频繁在网上联系黑客入侵网站,经侦查发现,这是一个专业从事入侵政府公共资源交易网站的犯罪团伙,是一起典型的利用数据劫持为入侵手段的串通招标投标案,黑客们入侵四川、重庆、贵州、广东等地公共资源交易网站,获取网站投标文件和评标专家名单,肆意篡改数据,还控制网站评标专家抽取。

5.其他与大数据有关的变种攻击手段

除了前面提到的几类方法,大数据还有其他丰富的技术分支(有些技术不是大数据的专属分支,可以看作是大数据时代的衍生技术),它们都会对公共资源交易电子平台构成不同程度地威胁,如利用SQL注入攻击数据库,只要是B/S模式应用开发的数据库,如果没有对用户输入数据的合法性进行判断,则用户就可以提交数据库查询代码,根据程序返回的结果,获得某些他想得知的数据,这就是所谓的SQL Injection,即SQL注入。再如,利用DNS欺骗实施网络钓鱼,一个常用的办法是在网页进行挂马诈骗,诱使用户递交重要的个人信息。还有DDoS攻击也是常见的威胁之一,DDoS 攻击可以通过利用服务器上的漏洞,采用大数据并发送访问的方式消耗服务器上的资源(如带宽、内存、硬盘等)造成网络拥堵或无法正常访问。表2列举了部分大数据技术下公共资源交易信息安全风险的主要类型。

三、结语

笔者提出的以上这些常见的大数据技术,尚属于比较基础的技术手段,即便是这样,利用它们寻找电子交易平台的漏洞还是绰绰有余,这也表明公共资源交易信息安全防控尚未引起各方面的重视。数据库安全厂商Sentrigo的CTO Slavik Markovich认为,通常情况下,数据库的配置是很脆弱的,以至于很容易就可以利用其漏洞,并不需要缓冲区溢出或SQL注入攻击,因为这种数据库的初始配置总体上就是不安全的。数据科学家公认,大数据技术拥有超出想象的强大威力,作为一门新兴学科,发展速度可谓一日千里,当前以深度神经网络等新兴技术为代表的大数据分析技术已经开始登场,它是一种更先进的人工智能技术,具有自身自行处理、分布存储和高度容错等特性,非常适合处理非线性的模糊、不完整、不严密的数据,可用来处理离散问题模型,如果和机器学习、深度学习、云计算、边缘计算等人工智能工具结合,将产生更加巨大的动能。公共资源交易数据作为宝贵的数据资源,一旦成为一些不法分子觊觎的“香饽饽”,利用大数据技术武器达到其非法的目的,势必对现有的交易秩序产生十分负面的影响。

数据开放共享、信息公开透明是公共资源交易活动的基本要求和发展方向。我国公共资源交易运行和服务机构掌握着绝大多数交易数据资源,但法律法规的缺位导致数据共享的范围边界仍未明晰,很多数据有意公开但不敢公开,从而产生信息孤岛和数据壁垒,而有的数据公开了以后又要面临诸如大数据技术的冲击和威胁,因此既要防止应当公开的信息公开不彻底,又要防止公开的信息公开后被技术手段所非法利用,这些要引起公共资源交易管理部门的高度重视。

11203.jpg11204.jpg

 

 

 

   作者:汤   骏

   作者单位:南通市公共资源交易中心

   来源:《招标采购管理》