趋势来袭！大模型时代的文档图像发展与图像安全剖析-摩杜云开发者社区

1. 前言背景

自去年ChatGPT发布之后，各大科技公司纷纷推出了自家的大模型，标志这人类社会正式进入了大模型时代。大模型的发展速度惊人，从最初的只能根据提问生成自然语言文本，到现在可以根据输入文本来绘图，根据输入图像来进行OCR识别，并对文档或图像的内容进行解释。这意味着现在的大模型已经从单一模态的输入和输出，进化到了多模态的输入和输出。

在近期召开的第六届中国模式识别与计算机视觉大会上。我专门学习了合合信息的郭丰俊博士关于文档图像前沿技术探索的分享。郭博士是上海交通大学模式识别与智能系统博士，他首先介绍了多模态在文档图像领域的应用以及合合信息在此方向的最新研究成果。接着，他阐述了如何应对各类图像安全问题，特别是图像篡改以及AI换脸等造假行为的甄别新思路。通过郭博士的分享，我对大模型时代文档图像领域的发展趋势有了更深入的了解。

2. 大模型在文档图像领域的应用

通用大语言模型（Large Language Models，LLM）是以深度学习为基础，包含超大规模参数的预训练模型，主要应用于自然语言领域。这些模型的训练需要大量的高质量数据语料。然而，随着大模型的快速发展和广泛应用，高质量的数据语料逐渐被消耗殆尽。据预测，到2026年全世界可用于大模型训练的高质量数据语料将面临枯竭的风险。这对大模型的发展和应用提出了严峻挑战。

为了应对这一问题，单一的文本数据输入已无法满足需求，大模型需要引入多种模态的数据语料。电子文档作为丰富的数据源，具有巨大的潜力。首先，电子文档提供了丰富多样的文本内容，涵盖了各种领域的专业知识，专业术语，实际场景将这些文档作为语料库，可以有效扩大大语言模型的训练数据范围，提高其语言理解和生成能力。其次，电子文档通常经过精心编辑，逻辑清晰、可读性强。其章节分明、段落明确的结构有助于大模型更好地学习理解上下文规则。此外，通过电子文档的训练，大模型还能够适应不同的语境和用法。

考虑到电子文档中存在大量的扫描件，文档图像处理技术的发展对大模型的进步具有重要意义。图像处理和自然语言处理相结合，将为大模型提供更加全面和多样的数据支持，进一步推动其发展和应用。

同时，这种技术也可以给图像识别提供新的思路和方法。通过结合自然语言处理，图像识别可以更加准确地理解图像中的文本信息，从而提高图像识别的准确性和可靠性。这种跨模态的技术将为人工智能领域的发展带来新的机遇和挑战。

2.1. 文档图像大模型的进展

目前，业界已经涌现出了一批知名的文档图像大模型，其中有代表性的包括多模态模型BLP2，微软的LLaVA以及DeepMind的Flamingo。这些模型在工作机制上有所不同，但都展现了在文档图像处理领域的强大能力。

BLP2多模态模型使用Q-Former连接图像编码器(ViT) 和LLM解码器，通过Image Encode将图像进行编码，然后使用Q-Former将图像部分和文字部分进行融合，最后对接大模型进行理解和生成。这种工作机制使得BLP2不仅能够进行图像识别，还能充分利用大模型的理解能力，提高了模型的性能和应用范围。

微软的LLaVA模型则采用CLIP ViT-L图像编码器和LLaMA解码器，并使用GPT-4和自注意力生成高质量的158K instruction following数据。这种方法使得LLaVA能够在文档图像处理任务中取得较好的效果，提高了模型的准确性和可靠性。

DeepMind的Flamingo模型则在大语言模型中增加了Gated Attention层，通过计算图像特征和文本特征之间的注意力权重，生成与文本特征相匹配的视觉向量。这个视觉向量与文本向量一起作为输入，使得语言模型的输出更加准确和生动。

尽管这些文档图像大模型在工作机制上有所不同，但它们都依赖于OCR引擎进行文本识别。这种模式存在的一个问题是误差的累积，目前这些模型在OCR识别上的系统性能还有待进一步提高。

趋势来袭！大模型时代的文档图像发展与图像安全剖析_多模态

郭丰俊博士指出了当前文档图像大模型在处理细粒度文本时存在的局限性，可能的原因之一是视觉编码器的分辨率不足。在真实的应用场景中，细粒度文本往往会受到光照、噪声、变形等各种因素的干扰，这增加了文字识别的难度。现有的多模态大模型中的视觉编码器，如基于卷积神经网络或Transformer的模型，在处理图像时会受到分辨率的限制，导致对细粒度文本的识别效果不佳。

另一方面，训练数据集的缺乏也是影响模型性能的重要因素。由于缺少针对细粒度文本的标注数据，模型难以从数据中学习到有效的细粒度文本特征表示。因此，虽然现有的多模态大模型在处理显著文本时表现较好，但在处理细粒度文本时仍存在很大的局限性。

为了克服这些局限性，需要进一步开展深入的研究和探索。

3. 图像安全

图像安全与每个人的日常生活紧密相连，许多诈骗分子利用伪造的身份证冒充他人进行非法交易，或者通过虚假发票实施金融诈骗。

在传统图像处理中，人们通过PS（Photoshop）等工具对图像进行篡改，例如添加水印，修改原图内容等。这种篡改方式相对较易检测出来。然而，随着大模型时代的到来，AI换脸技术的出现使得图像篡改变得更加复杂和难以检测。通过运用大量的训练数据和强大的神经网络模型，AI可以生成非常逼真的人脸图像，与真实的人脸几乎无法区分。由此，利用AI换了技术进行欺诈的案例屡见不鲜。

除了AI换脸技术，通过生成对抗网络（GAN）等技术，AIGC还能生成各种类型的图像，包括风景、动物、物体等。这些生成的图像可以非常逼真，与真实的图片相比真假难辨。这给图像安全带来了巨大的挑战，因为人们很难判断一张图像是真实拍摄的还是由AI所生成的。

趋势来袭！大模型时代的文档图像发展与图像安全剖析_多模态_02

为了应对这些挑战，研究人员正在努力开发新的技术和方法来检测和防止图像篡改和伪造。

3.1. 图像篡改检测

传统的图像篡改检测技术主要通过应用Sobel算子计算图像的梯度，然后进行阈值处理，将梯度幅值较小的像素设为零。接着通过分析非零像素数量来判断图像是否被篡改。具体来说，如果非零像素数量超过图像总像素数的1%，那么该图像会被认定为已被篡改。

这种方法对于相片这类有明显像素差异的图片有一定的效果，但对于截图这类缺乏纹路和底色、光照差异的图片则显得力不从心，鉴别准确率不高。

为了应对这种情况，合合信息提出了一种全新的分割模型Backbone，该模型采用了ConvNeXt作为编码器，同时使用LightHam和EANet两个网络并行作为解码器。

编码器的作用是将输入的图像数据进行特征提取和压缩，将其转化为低维的特征表示。在这个分割模型中，选择的ConvNeXt编码器是一种基于卷积神经网络（CNN）的新型架构。它在保持计算效率的同时，能够有效地捕捉图像中的局部和全局信息，提高了网络的性能和表达能力。

解码器的作用则是将编码器提取的特征表示恢复为原始图像的大小，并进行像素级别的分类。在这个分割模型中，采用了并行的两个解码器：LightHam和EANet。LightHam是一种轻量级的解码器结构，通过分层注意力机制和多尺度融合策略，实现了高效的图像分割。而EANet（Efficient Attention Network）则是一种高效的解码器结构，通过引入自底向上的注意力机制和空间金字塔池化等技术，提高了分割的准确性和速度。

最后，这两个解码器并行工作，分别生成两个独立的分割结果。这两个结果可以进一步融合或选择最优的结果作为最终的分割输出。这种并行处理的方式可以提高模型的鲁棒性和准确性，同时也增加了模型的复杂度和计算开销。

Backbone分割模型架构图如下图所示：

趋势来袭！大模型时代的文档图像发展与图像安全剖析_文档图像识别_03

合合信息自研的图片篡改检测系统，在 ICDAR2023 文档图像篡改检测竞赛中，凭借卓越的检测性能，成功荣获赛道冠军。

趋势来袭！大模型时代的文档图像发展与图像安全剖析_文档图像识别_04

合合信息自研的图片篡改检测系统已经在多个行业成功落地，包括证券、保险、银行、零售等。这些行业的业务流程涉及到大量的图像信息处理和审核，如证件照、合同、发票等，因此对图像篡改检测的需求较大。

通过引入合合信息的图片篡改检测系统，企业可以提高业务审核的准确性和效率，有效减少因图像篡改而引发的风险和损失。同时，该系统还可以提升企业的业务流程自动化水平，降低人工审核的成本和误差。

为了方便更多用户体验和使用该系统，合合信息已在其官网上线了这套图片篡改检测系统。有需求的小伙伴可以到官网进行免费体验。体验地址为： PS检测网址。通过这一系统，用户可以快速检测图像是否被篡改，提高图像信息的可信度。

趋势来袭！大模型时代的文档图像发展与图像安全剖析_文档图像识别_05

3.2. 生成式图像鉴别

生成式图像鉴别主要面临两大难题：首先，AI生成的图像涵盖了丰富多样的场景，这使得通过穷举法进行鉴别变得非常困难；其次，AI生成的图像非常的逼真，与真实图片相似度极高，这对人类的判断构成了极大的挑战。

为了应对这些难点，合合信息提出了一种创新的方法，基于空域和频域关系建模。这种方法无需穷举所有可能的图像，而是通过捕捉多维度的特征来准确地分辨真实图片和生成式图片之间的微妙差异。

这种多维度特征的分析方式为机器提供了一种更加精确的判断图像真实性的能力，从而有效地解决了生成式图片与真实图片相似度过高的问题。这使得机器能够更加可靠地鉴别图像的来源，提高了生成式图像鉴别的准确性。

模型结构图如下图所示：

趋势来袭！大模型时代的文档图像发展与图像安全剖析_文档图像识别_06

以人脸为例，该模型通过运用多个空间注意力头来聚焦空间特征，并结合纹理增强模块对浅层特征中的细微伪影进行放大处理。这些技术手段大大增强了模型真实人脸和伪造人脸的感知与判断准确度。在各种复杂场景下，该模型均能够表现出高度可靠的性能，准确区分真实人脸和伪造人脸。随着相关技术的快速迭代，模型的性能也在不断提升，进一步优化了对生成式图像鉴别的能力。

趋势来袭！大模型时代的文档图像发展与图像安全剖析_大模型_07

4. 总结

通过郭丰俊博士的分享，我深入了解了大模型在文档图像领域应用的广阔前景。合合信息将大模型与OCR技术巧妙结合，创新地将端到端的检测识别定义为图片到序列的预测任务，只需单点标注指示文本位置，无需额外的ROI采样和复杂的后处理操作，真正实现了检测与识别的完美融合。这一创新方法极大地提高了文档图像识别的效率，展现了大模型在文档图像处理中的优势。

此外，合合信息还提出了一种空域和频率建模的方法，以解决AI换脸和AI生成图片的图像篡改鉴别问题。该方法通过捕捉多维度的特征，精确地分辨真实图片和生成式图片之间的细微差异，在实际场景中表现出可靠的性能。

值得一提的是，合合信息在文档图像领域拥有近20年的丰富积累，具备OCR识别、版面分析等技术领域的坚实基础。公司推出了多款知名产品，如扫描全能王和名片全能王等，展现了其在文档图像处理领域的领先地位。