科技创新

产学研用深度融合,推动多领域、多层次的科技成果产出

首页>科技创新>核心技术

核心技术

大规模高速度多形态数据采集技术

采用基于深度学习的链接自动分类技术、基于网页节点间互信息的页面内容智能抽取技术、动态网页自动解析渲染技术、海量链接实时消重和分发技术、动态分治分布式数据采集集群技术等,构建了大规模高速度多形态数据采集平台技术体系。可以有效适应数量巨大、形态多样、更新频繁的网站及新媒体采集场景,解决其中的异构动态数据源采集的技术复杂性、大规模网页高频采集的实时性和大规模分布式采集调度的扩展性等问题。

知识模型融合的错敏文本识别技术

综合运用知识规则模型、统计语言模型与深度学习模型,构建全方位的智能化错敏文本分析体系。利用AC自动机等技术进行多模式文本匹配,以适应特定的监管规则。利用fasttext等技术进行快速文本篇章段落级分类,实现异常内容检测。采用n-gram统计语言模型结合知识图谱进行词语提取,实现领域高频词与新词持续发现。利用大规模预训练深度语言模型及字音字形混淆集生成策略,结合政务、法律、金融等领域真实数据进行微调,实现高精度实体识别、错别字定位纠正。

高性能音视频内容分析与理解技术

基于深度卷积神经网络与Transformer等先进的图像、视频、音频内容提取与理解技术,形成了图像分类、目标检测、图像分割、目标识别、视频分类、行为识别、语音识别、情感识别等核心技术模块。依托丰富的政务业务场景,构建了持续更新的政务领域音视频数据库,保障了算法的不断进步和应用的实战效果。典型应用包括图像文本识别、人物形象识别、违规图像与音视频监测等内容安全服务。

垂直领域智能语义分析与检索技术

基于计算语言学及认知语言学等学科理论,利用机器学习技术将词汇、句子、段落、篇章等不同语言单位进行多层次解析,形成适合计算处理的语义结构。在具体的语义检索场景中,通过语义索引构建和查询语义分析技术,让计算机从语义层面理解用户的检索意图,并利用概念间的关系和推理规则进行辅助检索,从根本上解决了传统基于文本匹配的检索中经常出现的查不全、找不准、排不前等问题。在专利审查、文件比对等垂直应用领域,相对于传统布尔检索,语义分析与检索技术可极大提高检索覆盖度和精准性。

混合模态内容语义向量化检索技术

混合模态检索可适应文本、图像、语音、视频等多种不同模态交叉混合的索引与查询方式,充分利用多种模态之间的相关性和互补性,从而学习到更加精确和鲁棒的特征表示。在混合模态检索推理过程中,借助训练得到的特征表达模型对各模态非结构化数据进行抽象,形成多维结构化向量,基于高效的索引结构和乘积量化技术,实现快速准确的召回,赋能图文搜索、智能问答等多种业务场景。

虚拟数字人重建、驱动与交互技术

基于人脸图像、视频数据,通过人脸检测、人脸关键点检测、人脸分割等技术,结合通用的人脸三维模型,实现特定对象的虚拟数字人人脸三维模型重建生成。基于自然语音或合成语音驱动,结合三维人脸网格,通过深度神经网络拟合语音特征与融合变形参数关系,实现高同步、高写实的三维虚拟数字人人脸序列动画。利用基于政务、能源、金融等领域知识图谱,并结合语音识别、数字人驱动、图形渲染等技术,实现虚拟数字人在特定领域的交互问答与业务处理。

数字内容资产全生命周期管理技术

对结构化及非结构化数字资源进行重定义,通过元数据链接、知识图谱等基础技术,重新定义、盘点和规划数据,形成数据资产。提供全局统一的数字内容资产管理门户,将富含业务知识的分析模型、内容报表、内容主题、内容集合等逻辑资源封装为数据产品。以高效、安全的内容数据服务方式,构建主题明确、服务完善、流程清晰的数字内容生命周期管理体系。在创建、存储、分发、运营和检索富媒体以及管理数字权利和权限的业务流程中,通过优质的内容体验赋能客户数字化和智能化业务场景。

批量与流式数据实时分析处理技术

全面集成各种异构数据源,实现各类数据的实时汇聚、处理与分析。采用先进的实时数据分析处理技术,将实时数据处理与实时数据分析融合,实现数据处理与分析一体化;将批量数据分析与流式数据分析融合,实现流批分析一体化。构建新一代实时数据分析处理引擎,利用复杂事件处理与机器学习能力,在实时异构数据汇聚、清洗和转换,实时数据入库和实时数据分析与统计,复杂事件检测和提取等方面为各类客户的大数据业务提供全业务场景支撑。

X