全、快、准——开普云大数据服务平台为政府网站保驾护航
2018-10-09 09:11:47 来源: 开普云 作者:

每天实时监测的网站数量达到3万家,每天监测的网页超过5亿个,每天实时发现的问题超过5万个。政府网站是政府发布信息、互动交流、服务百姓的权威窗口和渠道。网站内容和技术的健康度直接决定了网站的权威性和影响力,直接影响了政府的公信力。保障政府网站的健康运转,是一项任务艰巨、使命光荣的工作。

自2015年国办印发《国务院办公厅关于开展第一次全国政府网站普查的通知》(国办发〔2015〕15号,以下简称15号文)以来,开普云始终坚持以全面提升各级政府网站服务能力为己任,以“云计算”+“大数据”+“人工智能”技术为基础,不断开拓,勇于创新,在核心技术研发与基础设施上投入巨量资源,精心打造了开普云全国政务大数据服务平台,为政府网站提供“全、快、准”的全方位监测服务,保障了各级政府网站的安全稳定运行!

全——网站监测全,全网络、全地域、全时段

众所周知,互联网访问是存在网络波动的,可能某些时候某部分网络因为各种原因,造成网站无法被用户访问。

2017年12月,某市门户网站就遇到过此类困扰。因为市政一次施工挖断了一条光缆,导致出现全国其它地区大面积无法访问该网站的恶劣后果,而本市内访问几乎不受影响,网站管理员也对此事茫然不知。

发生上述问题的根本原因,在于该网站把监测服务部署在政府网站内部,从内部发起监测,希望通过这种模式代替外部监测。内部监测固然有用,但内部测不能模拟互联网用户访问行为,无法代替其它地区公众的感知,甚至连基本的南北网络互联互通访问监测都无法实现,根本无法替代外部监测。此外,受到技术能力和资金规模的限制,一些厂商的监测服务只在个别地区个别服务器节点上开展,这种局部、单点单线路的网络监测无法感知到全国各地真实用户的访问情况,经常会以偏概全,达不到监测要求。

开普云是可以对全国所有政府网站提供实时全面监测的云服务商,截至目前,公司已经开通了全国各地30个点的500多台服务器监控节点,可以为政府网站提供全国异地多点、多网络、多线路、全地域、7*24*365全时段的监控服务,真正做到了地域全、时间全覆盖、网络全覆盖。

开普云以15号文和《政府网站发展指引》为建设依据,对政府网站进行全方位的监测。开普云把政府网站监测分为三个层次:

  • 网站可用性

网站的基本服务是否可用,即网站连通性(包括全国互联互通情况)、网站更新情况(包括首页、栏目和全站三个层次的更新情况)、网站链接可用性(包含首页和全站两个层次的链接可用性)、网站在搜索引擎的收录量和排名情况(多数用户通过搜索引擎访问政府网站)。网站可用是一个政府网站建设需要达到的基本层次。

  • 网站内容安全

内容安全,是指一个网站的内容不出错。内容安全审查的项目包括网页篡改、网站挂码、暗链、广告、外链、政治敏感词、领导人的姓名/官职搭配/报道顺序、黄赌毒信息、错别字、语法规范性、宗教历史文化常识性错误等数十项检查。确保网站内容安全比确保网站可用需要付出更多的努力。

  • 网站用户体验

通过网站用户行为分析、网站功能流畅性分析、网页浏览器兼容性分析、网页浏览资源开销分析等手段,全面深入查找问题,帮助网站提升用户满意度。

开普云政务大数据服务平台经过多年技术积累,完全实现了对上述三个层次问题的全面监测,做到了对政府网站全方位的保驾护航。


快——快速响应,及时处置

2018年2月27日,开普云收到来自某政府的感谢信,他们政府网站1分钟前刚发布的文章被篡改,开普云大数据平台马上发现了问题,及时发送短信通知网站负责人,网站及时整改,在产生负面影响之前恢复了正确内容。对开普云来说,类似的情况几乎每天都在发生。

互联网的传播速度是以分钟计,如果政府网站的错误不能及时发现、及时通知、及时整改,非常可能被社会舆论炒作,严重影响政府声誉。为做到问题及时发现、分秒必达,开普云在全国各地部署了500余台服务器,数万个网络监测探头在不间断工作,对政府网站进行全方位的探测,对探测出的问题进行智能评估,接近安全阈值的问题及时发送给客户。目前开普云是国内唯一一个可以对全国所有政府网站进行分钟级监测和预警的云服务平台。


准——大数据分析+人工智能,确保问题监测漏报率低、准确性高

开普云平台始终坚持技术引领,从2015年的V1.0发展到目前的V3.0,数据不断积累,算法不断加强,从领域知识工程,到传统机器学习,到现在的深度学习,算法精确度越来越好,问题覆盖越来越全面,问题漏报越来越少,发现问题的准确度越来越高。

通过云探头快速收集积累足够的数据,利用不断改进的大数据算法去发现问题,运用人工智能尤其是机器学习提高准确度。

开普云目前积累了50亿的政府网页数据,拥有历年8万家政府网站的站点地图,还拥有所有网站历年的监测数据、庞大的用户访问数据,这是开普云服务保障政府网站安全可靠运行最宝贵的数字资产。通过传统机器学习算法和深度学习算法的结合,我们将开普云的监测质量推高到一个新的水准。请看以下开普云的“黑科技”!

  • 黑科技1:基于深度学习的网页篡改监测

网页篡改,目前一些厂商的典型做法是收集一些规则(特征工程),通过是否匹配规则进行判断。实际上,网页篡改的可能情况大类有十种以上、小类有上百种,根据人工定义的单一指标去判断,准确性完全无法保障。开普云引入深度神经网络,将每种可能篡改情况作为特征项,为每个网页构建一个特征向量,通过两层隐藏层投射,通过归一化函数,将网页篡改识别精度比传统的基于特征工程的单一指标判断要提升30%以上。

  • 黑科技2:短程+中程+长程算法相结合的错别字检查

在错别字识别中,开普云独创地提出了短程、中程、长程相结合的算法,通过局部N-Gram打分、依存树判断依存概率、基于深度学习评估流畅性,可以从微观到宏观发现各种错别字问题和语法问题,比目前市面上基于“规则+bigram”识别错别字的方法,领先了至少一代,在识别精度、识别效率上全面提升。

  • 黑科技3:两层DAT多模式串算法极大提升敏感词的精准度

在敏感词监测中,每个敏感词的变种就有数千种。传统的多模式串匹配算法根本难以在内存中加载如此庞大的词库。开普云独创性地通过两层的DAT多模式串算法,可以穷尽所有可能的多字、少字、错一字、交换两字的模式串,在毫秒级实现上百亿种模式串的快速比对,让所有敏感词一览无遗。

  • 黑科技4:毫秒级网页抽取算法

在网页信息抽取上,开普云开发了基于互信息和时间窗的网页抽取算法,可以在毫秒级实现复杂网页信息的自动化精准抽取。

  • 黑科技5:海量网页消重和相似性判断

在网页信息查重上,开普云基于多级缓存的NoSQL+Simhash+海明距离的网页查重技术,可以对数十亿网页在毫秒级别按段落比对文章的相似性。

纵观服务客户的历程,回顾开普云近20年发展过程,我们深深感觉到,只有紧贴用户需求,始终问题导向,坚持技术创新,我们才能做的更好。

这些年脚踏实地的努力,开普云在政务网站服务保障领域取得了一定成绩。从云监测开始,开普云立志于为政府提供更好更全面服务。我们一步一个脚印,我们锐意进取。选择开普云,未来,我们会用越来越好的服务陪伴你。