把握大势,当争朝夕,内容安全如何做到“尽在掌握”
2019-04-12 09:27:10 来源: 开普云 作者:

近年来,随着信息社会不断发展,微信、微博等新兴媒体影响力越来越大,国家相继出台多项政策引导新兴媒体健康有序发展。

2019年1月,中共中央宣传部和国家广播电视总局联合发布《县级融媒体中心建设规范》,要求平台管理者在信息发布前、发布后对内容进行审核,确保对外呈现内容的合法性、正确性、合理性。2018年12月,国务院办公厅印发《关于推进政务新媒体健康有序发展的意见》,要求各单位严格内容发布审核制度,坚持分级分类审核、先审后发,严把政治关、法律关、保密关、文字关。

面对新要求、新变化,平台主管部门在享受新媒体实时传播、双向交流等种种优越性的同时,也面临着需要确保信息更新及时,内容准确权威等新的挑战。这也使新媒体运营者承担着更大的压力,需要在及时发稿要求紧、无法多次校稿的情况下,对内容进行精准把控。

但“万事尽从忙里错”,速度快与准确性高往往很难兼得。一段简单的报道错误也可能对政府形象和公信力造成巨大的负面影响。

笔者曾做过测试,将一篇报道中的几处叫法故意改错,并增加了公民的身份隐私信息。10名参与测试的编辑人员在可使用搜索引擎的情况下,竟无一人找出报道中的全部错误,其中两名工作经验尚浅的编辑人员,竟忽略了报道中存在的身份隐私信息。这个测试结果表明:在新媒体运营过程中,一些内容安全问题单靠人工投入很难解决,必须结合技术手段!

目前开普云产品已经实现对新媒体平台的内容安全自动监测功能,通过机器学习算法和深度学习算法的结合,最大程度避免内容安全问题!

短程+中程+长程算法相结合的错别字检查

在错别字识别中,开普云独创地提出了短程、中程、长程相结合的算法,通过局部N-Gram打分、依存概率判断,结合深度学习评估流畅性,可以从微观到宏观发现各种错别字问题和语法问题,比目前市面上基于“规则+bigram”识别错别字的方法,领先了至少一代,在识别精度、识别效率上全面提升。

两层DAT多模式串算法极大提升敏感词监测的精准度

在敏感词监测中,每个敏感词的变种就有数千种,传统的多模式串匹配算法根本难以在内存中加载如此庞大的词库。开普云独创性地通过两层的DAT多模式串算法,可以穷尽所有可能的多字、少字、错一字、交换两字的模式串,在毫秒级实现上百亿种模式串的快速比对,让所有敏感词无所遁形。

除此之外,开普云还在大数据服务平台中融入多项专利技术,不断探索,以高技术保障高抓取精度与高准确率,确保内容安全问题“尽在掌握”。

把握大势,当争朝夕,在国家新战略指导下,中国正加速迈入媒体融合发展新时代,各单位在大力构建符合市场需求的新媒体平台,让其更具传播力和竞争力的同时,更要守好内容安全这道底线,让主流媒体更具强大引导力、公信力。