PP-OCR与文心一言强强结合，无须训练，信息抽取精度超80%！-摩杜云开发者社区

众所周知，文本图像的智能分析面临诸多挑战。首先，文本图像的场景非常多样，比如论文、书籍、说明书、合同等，模型的泛化性难以满足要求。其次，有的场景比较复杂，比如生僻字、表格和多页PDF等，模型难以达到理想的精度。最后，部署繁琐，模型部署涉及诸多技术细节，影响落地效率。

在大模型时代，LLM会带来怎样的帮助呢？

近期，我们发布了一个融合了文心一言和PP-OCRv4的文档图像信息抽取神器——PP-ChatOCRv2。一个SDK，覆盖20+ 高频应用场景，支持5 种文本图像智能分析能力和部署，包括通用场景关键信息抽取（快递单、营业执照和机动车行驶证等）、复杂文档场景关键信息抽取（解决生僻字、特殊标点、多页PDF、表格等难点问题）、通用OCR、文档场景专用OCR、通用表格识别。此外针对垂类业务场景，也支持模型训练、微调和Prompt优化。让我们先看看效果。

PP-OCR与文心一言强强结合，无须训练，信息抽取精度超80%！_配置文件

PP-ChatOCRv2 效果速览

PP-ChatOCRv2在线体验传送门： https://aistudio.baidu.com/application/detail/10368

PP-ChatOCRv2有四方面特色：

场景丰富： 支持5种智能文本图像分析能力，覆盖20+高频应用场景，尤其针对复杂文档场景进行了专项优化。
精准度高： 「PP-OCR」与「文心一言」强强结合，支持 1.5万+大字库，专项优化生僻字、多页PDF、表格等难题。无需训练即可在20+场景关键息抽取平均准确率达80%以上。
一键部署： 一键获取PP-ChatOCRv2离线部署SDK，助力企业快速实现工程落地。
便捷开发： 针对垂类业务场景，可灵活替换微调后的OCR模型，支持自定义Prompt优化。

下面我们将详细介绍这款神器的特色。

场景丰富

PP-ChatOCRv2支持的5种智能文本图像分析能力如下表所示：

PP-OCR与文心一言强强结合，无须训练，信息抽取精度超80%！_OCR_02

覆盖以下20+高频应用场景：营业执照、机动车行驶证、驾照、车检证、增值税发票、高速发票、商场发票、火车票、航空电子行程单（飞机发票)、快递单号、快车/出租车行程单、身份证、社保卡、银行卡、名片、身份证、社保卡、户口本、结婚证、出生证、房产证、港澳通行证、台湾通行证、保险单、银行电子回单等。此外，PP-ChatOCRv2 针对复杂文档场景进行了专项优化。

精准度高

PP-ChatOCRv2通用文本图像智能分析系统由OCR系统和文心大模型串联完成，OCR系统中集成了文本检测、文本识别、版面分析、表格识别等多个功能，可实现CPU/GPU上的实时预测，在通用场景上达到80%+的平均准确率。文心大语言模型可以将海量数据和知识融合，准确率高且应用广泛。

PP-ChatOCRv2的技术流程如下图所示：首先输入预测图片，送入通用OCR系统，经过版面分析后，预测图像中的文字信息和表格结构。将OCR预测出的文字、表格结构与Query之间进行向量检索，得到与Query相关的文本信息。然后送入Prompt生成器重新组合成Prompt，最终传给大模型获得预测结果。

PP-OCR与文心一言强强结合，无须训练，信息抽取精度超80%！_自定义_03

PP-ChatOCRv2 技术流程图

一键部署

PP-ChatOCRv2 的部署非常简单，选择好部署环境，一键获取SDK部署包。一个SDK，通过不同配置文件，完成5种智能文本图像分析任务推理。目前支持部署在Linux 操作系统，使用NVIDIA GPU和X86 CPU推理，后续规划适配到更多国产硬件，并且提供服务化部署和端侧部署能力。

PP-OCR与文心一言强强结合，无须训练，信息抽取精度超80%！_OCR_04

PP-OCR与文心一言强强结合，无须训练，信息抽取精度超80%！_文心一言_05

便捷开发

除上述特色外，这款神器也提供了便捷的二次开发功能，可灵活替换微调后的OCR模型，支持自定义Prompt优化。通过UI界面点击和少量文本内容修改，即可便捷地完成二次开发：

Prompt优化：通过配置文件的方式暴露必要接口，开发者可以通过配置文件选择场景模版、修改few-shot指令，通过少量的代码即可完成特定场景的预处理和后处理，减小开发成本。
OCR模型优化：PaddleX支持用户基于自有数据进行OCR模型的训练微调，进而替换PP-ChatOCRv2中的OCR模型，获得更优的推理效果。

PP-OCR与文心一言强强结合，无须训练，信息抽取精度超80%！_应用场景_06

Prompt优化示意

PP-OCR与文心一言强强结合，无须训练，信息抽取精度超80%！_应用场景_07

OCR 模型微调示意

PaddleX是面向国内外主流AI硬件的，全流程、高效率的飞桨精选AI模型的一站式AI开发套件，目前覆盖10+主流AI任务下的40+精选模型全流程开发，提供了PP-ChatOCRv2、大模型半监督学习工具和PP-TSv2三大特色工具。PP-ChatOCRv2作为一个通用文本图像智能分析工具，旨在为大家带来LLM加持下的效率提升。

PP-ChatOCRv2 工具首页：https://aistudio.baidu.com/projectdetail/paddlex/7050167

加入PaddleX官方频道，和大家一起讨论PP-ChatOCRv2开发经验，传送门：https://aistudio.baidu.com/community/channel/610