核心技术
数字内容采集、分析、存储和应用全生命周期管理的六大核心技术

平台简介

公司目前已经积累了涵盖数字内容采集、分析、存储和应用全生命周期管理的六大核心技术,尤其专注于运用前沿的人工智能技术如自然语言处理和深度学习对大规模文本内容进行实时处理和分析,有效支撑了公司互联网内容服务平台和大数据服务平台两大应用领域,形成了互联网智慧门户、政务服务平台、融媒体平台、云监测、内容安全、云搜索等六大产品及服务。

大规模多形态高性能采集技术
有效解决三大技术难点:大规模分布式采集的复杂性(定位为采集数百亿乃至万亿级别网页)、大规模网页采集的实时性(网页监测周期根据重要性从几分钟到几十分钟不等)、异构动态网站采集的智能性。
基于平衡语料库的文本智能分析技术
基于无监督自动构建技术,构建了较大规模平语料库,极大提升了文本分析的智能化水平,为大数据服务提供了有力支撑。
大规模互联网敏感信息实时监测技术
基于大规模多形态高性能采集技术和基于平衡语料库的文本智能分析技术,可实时监测多种类别敏感词、错别字以及负面信息,有效保障政府互联网内容服务平台的权威性和公信力。
政务领域智能搜索技术
公司政府智能技术架构实现了全、快、准的搜索服务,结合NLP技术对目标网站进行语义分析和语义建模,可智能理解用户搜索意图分析,为用户提供智能化搜索服务。
集约化环境下数字内容全生命周期管理技术
有效解决了海量异构数据高效、便捷、安全存储,解决了数据治理、数据交换的难题。目前,该技术广泛应用于统一信息资源库、内容管理系统等产品中。
一体化在线政务服务平台的异构数据交换关键技术
基于版式智能文档的数据交换技术和多源异构系统的接口整合技术,解决异构系统之间的数据交换难题,解决政务内外网数据二次录入的复杂性问题。