【技术洞见】基于BERT,发掘语言的智慧

发布时间:2023-03-15 来源:开普云

绞尽脑汁写的文案却因为几个错别字扣掉了奖金,拿一根根头发换来的稿件却因为输入法的“联想”而被毙掉?是该怪罪自己朦胧的睡眼,还是该怪罪输入法的“智能”?如何避免惨遭错别字的“毒手”?如何减少人工校对,避免错字导致功亏一篑?


能不能借助不知疲倦的计算机来帮助校对?又该如何让计算机明白什么是正确的文本,哪里是错别字?


在AI浪潮中“狂飙”的开普云,多年来一直紧跟业界前沿技术,从用户需求出发,不断发掘语言的“智慧”,探索利用预训练语言模型的力量,增强数智安全产品的纠错能力,提高用户体验。


01


就像一个牙牙学语的孩子需要聆听大量对话与教学才能逐渐掌握说话技巧一样,想让计算机明白人类语言,大量的数据熏陶是必不可少的。如何获取大量的优质文本以及贴近真实的错误生成便成了重中之重。


开普云选取海量的文本材料,包括但不限于:微信公众号语料、微博等社交媒体评论、政务系统公告、各类别新闻稿件等,在数以亿计的原始文本数据中,进行清洗、分句以及造错等操作,生成千万级的高质量训练集,以此作为模型的训练样本。在进行更为重要的造错操作时,对错误出现的频率与错误种类进行拟真操作,使训练数据更贴近真实场景中的犯错习惯,极大防止了模型在海量数据中迷失方向。


02


开普云采用了基于BERT的序列标注任务为核心,对文本中的每一个字进行一个行为预测,包括保持、删减、新增和替换四种不同的行为,以此对本文进行纠错。相较于传统的基于先编码后解码的序列生成模型,基于注意力机制的序列标注模型可完成两个维度的转变:


首先是抛弃了传统的编码器-解码器结构,转而采用了注意力机制,以此保证了对语句的长距离记忆。其次,序列标注任务形式将任务模式由数据量需求庞大,推理缓慢且错误难以直接分辨的序列生成模型,转化成为对每个字符进行行为打标的形式。


在BERT等预训练语言模型愈来愈庞大优秀的技术趋势下,序列标注模型不仅加快了推理速度,还获得了更为优秀的纠错质量。


尽管序列标注模型在纠错任务中已经表现得极为出色,但是其专注点更多是多字、少字以及乱序的任务。而在实际任务中,更多的错误出现在由键入带来的同音字、音近字使用错误,或者由OCR引入的形近字错误。


针对此类错误,开普云采用了逻辑相对简单,但是针对性更强的拼写纠错技术,在获取到上述出色的预训练语言模型带来的向量表示后,通过简单有效的全连接层直接输出每个字符的结果。在训练的过程中,同时叠加了句子是否有错的序列分类损失,加权调整了对于错字的惩罚比例,进一步提升了模型的纠错能力。


03


挖掘技术更多实用性,发挥技术最大价值是开普云的目标。序列标注模型结合拼写纠错模型固然高效完成了任务,但是其机制或将导致纠错结果不够符合日常习惯。


指针生成网络,一个原本用于文本摘要的模型,被引入纠错任务后,取得了意想不到的收获。指针生成网络兼具了复制与生成的功能,即,从原始文本中复制无错的文字,再对有错误的位置进行生成工作。此时,即使产生了一些有问题的判断,其结果也往往是通顺的,有时甚至达到了修缮语义完整程度的附加功能。这种运作机制更符合预训练语言模型的原始训练过程和目标,因此在更小数量级的训练样本上也取得了更好的纠错质量。


在大规模生成式预训练语言模型蓬勃发展的今天,开普云汇聚诸多人工智能领域专家,以持续的技术创新,优化模型,加快推理速度,以更好的性能、更快的速度提升错别字纠错任务的上限。纠正后的语句将更加通顺流畅,并可在纠正错误、修复语义的基础上对原始文本进行润色,实现AIGC能力的普及应用。





内容安全业务介绍


开普云内容安全审查平台依托20余年服务政府客户积累的专业词库,搭配自主研发的敏感词检测引擎和错别字检测引擎,结合大数据、人工智能、语音转换、图像识别等技术手段,精准识别网站新媒体稿件、公文中的不良内容,实现从源头杜绝内容安全隐患。平台应用场景丰富,支持文件库批量检查,为用户建立全方位、多层次、立体化的事前内容安全防护体系。


开普云网站新媒体云监管平台借助数据采集、人工智能、云计算、机器学习、语义分析等技术,紧密贴合网站新媒体监管指标,针对内容安全、信息发布、办事服务、互动交流、功能设计、创新发展等指标进行监测。通过常态化安全监测、周期性抽查工作,最大程度消除客户网站及新媒体中影响单位形象的问题,提升客户单位公信力和互联网影响力,并按照监测指标要求提供全面反映网站实际运行情况及问题的站点报告。产品实现自动化采集检查,配以人工团队专业审核,在发现重大问题后及时发出预警,辅助主管单位全面了解站群健康情况,为主办单位建立全天候安全屏障。





返回列表页

    热门推荐

      X