登录注册

盘酷分享站_永久百度网盘会员一个月免费试用

2023-9-22 21:35| 发布者: admin| 查看: 436| 评论: 0

摘要: 盘酷分享站_永久百度网盘会员一个月免费试用

现有的预训练方案主要有两种：1）强监督预训练；2）自监督预训练。接下来我们一起了解它背后的技术原理。

强监督预训练通常通过数据生成的方式生成大量的合成数据做预训练，并结合少量真实数据finetune 的方式来提升识别精度。生成数据可以很好解决数据样本少的问题，并能通过大量的语料，让模型学习更多的文本语义信息。然而，受限于真实场景的复杂程度和数据生成技术的效果，生成的数据和真实场景往往存在较大的差异性。因此通过合成数据预训练的方式，对模型识别精度提升存在着瓶颈。

近年来无监督学习技术的发展，为大规模无标签真实数据利用带来了可能性。Mask Image modeling 和 contrastive learning 技术被广泛地用于视觉任务中，以从无标签真实数据中学习视觉表征。虽然目前的自监督预训练能够很好利用大量的无监督数据，以学习良好的视觉表征，但是却忽略了对文本语义的建模。

针对OCR识别存在的难点，以及当前技术方案存在的痛点，百度OCR首次提出了基于视觉和语义多模态预训练的方案 VIMER-MaskOCR。

更多资源访问【拾盘网】http://www.10pan.net/