摩杜云开发者社区-摩杜云

表格识别与内容提炼技术理解及研发趋势

引言：表格是各类文档中常见的对象，其结构化的组织形式方便人们进行信息理解和提取。表格的种类根据有无边框可以划分有线表、少线表、无线表。表格样式复杂多样，如存在背景填充、光照阴影、单元格行列合并等情况。大数据时代存在大量电子文档，应用表格识别技术能够减少表格处理时间，因此表格识别是文档理解领域的重要研究课题，也是合合信息这几年的技术突破点方向之一。表格识别主要包括表格检测和表格结构识别两个子任务。表格检测主要检测表格主体，即样本中表格区域。表格结构识别是对表格区域进行分析，提取表格中的数据与结构信息，得到行列分布与逻辑结构。未经特殊说明，以下表格识别专指表格结构识别。研究现状与解决...

fOEFwBhxyMRj 2023年11月01日 88 0 0 算法与数据结构

表格检测识别技术的发展历程

-引言近年来，随着计算机技术的飞速发展，越来越多的研究者开始关注表格检测识别技术。表格检测识别技术是一种利用计算机自动处理表格的技术，它可以实现从文本中检测出表格，并进行识别和提取。这种技术有助于提高文本处理的效率，为计算机辅助知识发现和知识挖掘提供了支持。表格检测和识别技术的发展可以追溯到20世纪80年代，当时，随着计算机技术的发展，人们开始尝试使用计算机来检测和识别文档中的表格。当时的技术主要以传统的计算机视觉技术为基础，包括图像处理、分类和特征提取等技术。早期的表格检测与识别研究主要是基于启发式规则的方法，即指定一组规则来进行决策，以便识别出满足特定条件的表格。 -发展历程 198...

fOEFwBhxyMRj 2023年11月01日 118 0 0 算法与数据结构

文本纠错：提升OCR任务准确率的方法理解

文本纠错：提升OCR任务准确率的方法理解摘要：错字率是OCR任务中的重要指标，文本纠错需要机器具备人类水平相当的语言理解能力。随着人工智能应用的成熟，越来越多的纠错方法被提出。近年来深度学习在OCR领域取得了巨大的成功，但OCR应用中识别错误时有出现。错误的识别结果不仅难以阅读和理解，同时也降低文本的信息价值。在某些领域，如医疗行业，识别错误可能带来巨大的损失。因此如何降低OCR任务的错字率受到学术界和工业界的广泛关注。合合信息通过本文来讲解文本纠错技术帮助更多人解决业务问题。通常文本纠错的流程可以分为错误文本识别、候选词生成和候选词排序三个步骤。文本纠错方法可包括基于...

fOEFwBhxyMRj 2023年11月01日 95 0 0 AI综合

【弯曲矫正】智能文字识别技术-弯曲矫正概述

一、背景电子文档由于更容易存档、编辑、签名和共享，越来越多的文档需电子化，随着高质量摄像头在手机等移动设备上的普及，利用移动设备对文档进行数字化采集已经非常普遍。通过图像校正与图像质量提升，移动设备采集的文档图像质量甚至可以与专用的文档扫描仪相当。然而，文档总是由于纸张几何形状和捕获条件不受控制而形变。这阻碍了形变图像的信息提取，降低可读性，对数据增强和下游任务如OCR识别、版面分析与还原等任务增加难度。二、方法概述为解决文档弯曲矫正问题，学术界已有多种方案。一类是利用多目相机，结构光或者激光雷达等设备对文档进行扫描，获得文档表面的3D结构信息，进而对文档校正展平。这类方法一般可以得到...

fOEFwBhxyMRj 2023年11月01日 131 0 0 AI综合

复杂环境下ocr与印章识别技术理解及研发趋势

引言随着社会经济的发展，印章作为企事业单位、社会团体、政府部门乃至国家的一种具有法律意义的标志和证据，在现代社会生活中发挥着重要作用。随着现代商务活动的不断发展，企业在业务开展的过程中通常会涉及大量的合同签署归档工作，以往会采取人工审核合同照片的方式来判断合同签署的双方是否都加盖了公章，但是这样做人工审核时间成本高、人力成本高，因此，印章识别可自动提取出印章文本，从而实现计算机替代人工审核比对，解决合同管理工作中人工审核时间成本高、人力成本高的难题，降低财税及商务合同签订过程的业务风险，使商务连接更加高效和便捷。常用印章日常工作中常见的印章有：公章、财务章、法定代表人章、发票专用章、合...

fOEFwBhxyMRj 2023年11月01日 145 0 0 AI综合

基于深度学习的表格检测与识别技术的优势

引言：信息时代的高速发展导致数据的大量产生与频繁传输，单单依靠人力很难处理这些数据。依托于人工智能的兴起与发展，数据的利用变得更加高效。表格作为数据的一种重要载体，是人们为了让数据的组织形式更加标准和结构化而使用的一种数据类型。   表格的特点：信息高度精炼集中，方便信息的检索和比较。表格被广泛用于表示结构和功能信息，它们出现在不同种类的文献中，包括报纸、研究论文和科学文件等。表格使读者能够快速地比较、分析和理解文件中出现的事实。表格识别的目的是获取图像中的表格并访问其数据，是文档分析与识别领域的一个重要分支。   表格在生成或存储过程中往往以图片或PDF（Port...

fOEFwBhxyMRj 2023年11月01日 67 0 0 AI综合

【倒计时3天】“CSIG企业行”走进合合信息，大咖解密智能文档处理背后的底层技术及AI未来展望

3月18日，由中国图象图形学会（CSIG）主办，合合信息、CSIG文档图像分析与识别专业委员会联合承办的“CSIG企业行”系列活动将正式举办，通过搭建学术界与企业交流合作平台，为企业创新发展提供科技支撑，为图像图形领域高校师生提供与企业互动机会，集结产学研力量，共同推动图像图形领域的发展。此次活动以“图文智能处理与多场景应用技术展望”为主题，聚焦图像文档处理中的结构建模、底层视觉技术、跨媒体数据协同应用、生成式人工智能及对话式大型语言模型等热门话题，特邀来自上海交大、厦门大学、复旦、中科大的知名高校的学者与合合信息技术团队一道，以直播的形式分享文档处理实践经验及NLP发展趋势，探讨ChatG...

fOEFwBhxyMRj 2023年11月01日 72 0 0 AI综合

一个基于序列的弱监督视觉信息抽取学习框架

一、简要介绍     视觉信息提取（VIE）近年来受到了越来越多的关注。现有的方法通常首先将光学字符识别（OCR）结果组织成纯文本，然后利用标记级实体注释作为监督来训练序列标记模型。但是，它花费大量的注释成本，可能导致标签混淆，OCR错误也会显著影响最终性能。在本文中，作者提出了一个统一的弱监督学习框架，称为TCPN（标签、复制或预测网络），它引入了1)一种有效的编码器，可以同时对二维OCR结果中的语义和布局信息进行建模；2)仅利用关键信息序列作为监督的弱监督训练策略；和3)一个灵活和可转换的解码器，其中包含两种推理模式：一种（复制或预测模式）是通过复制输入或预测一个标记...

fOEFwBhxyMRj 2023年11月01日 85 0 0 AI综合

CSIG企业行-走进合合信息成功举行，聚焦生成式人工智能、智能文档处理前沿热点

3月18日，由中国图象图形学学会（CSIG）主办，合合信息、CSIG文档图像分析与识别专业委员会联合承办的“CSIG企业行”系列活动成功举办。此次活动以“图文智能处理与多场景应用技术展望”为主题，特邀来自上海交大、厦门大学、复旦大学、中科大的知名学府的学者与合合信息技术团队一道，面向行内研究者分享图像文档处理中的结构建模、底层视觉技术、跨媒体数据协同应用、生成式人工智能及对话式大型语言模型等研究及实践成果。研讨会嘉宾合影 “CSIG企业行”活动旨在汇集产学研各界资源，探讨图文智能信息技术领域的最新发展动态和未来趋势，共同推动图像图形领域的发展。会议开始，合合信息董事长、总经理镇立新博士发表...

fOEFwBhxyMRj 2023年11月01日 74 0 0 AI综合

一个有效的图表图像数据提取框架

一、简要介绍在本文中，作者通过采用最先进的计算机视觉技术，在数据挖掘系统的数据提取阶段，填补了研究的空白。如图1所示，该阶段包含两个子任务，即绘制元素检测和数据转换。为了建立一个鲁棒的Boxdetector，作者综合比较了不同的基于深度学习的方法，并找到了一种合适的高精度的边框检测方法。为了建立鲁棒pointdetector，采用了带有特征融合模块的全卷积网络，与传统方法相比，可以区分近点。该系统可以有效地处理各种图表数据，而不需要做出启发式的假设。在数据转换方面，作者将检测到的元素转换为具有语义值的数据。提出了一种网络来测量图例匹配阶段图例和检测元素之间的特征相似性。此外，作者还提供了一...

fOEFwBhxyMRj 2023年11月01日 79 0 0 AI综合

如何提升智能文档处理识别精度？合合信息“版面分析”实现新突破

  春季是繁忙的播种季，学生党迎来了开学季和紧张的研究生复试，职场人士也需要处理新签业务带来的大量不同类型的文件，比如合同、发票、档案等。这些文件在被拍照、扫描成电子文档的过程中，时常存在漏字、错位现象。究其原因，有个看似“冷门”却关键的技术点极大地影响了文字识别效果，这个技术便是“版面分析”。     近期，人工智能及大数据科技企业合合信息持续突破版面分析技术在版面分割、区域间的逻辑关系处理等方面的难题，通过智能文字识别、智能图像处理等核心技，助力使用者从各类复杂的图片文档中精准获取信息。   深度学习助力版面分析“泛化”难题突破 &nbsp...

fOEFwBhxyMRj 2023年11月01日 123 0 0 AI综合

合合信息新推出反光消除技术，助力手写文字识别更精准

  近期，合合信息旗下扫描全能王推出液晶手写板（简称“手写板”），为用户带来仿真、流畅的书写绘画体验，一同发布的还有扫描全能王APP的新功能“拍手写板”。该功能可帮助用户在拍摄手写板内容后去除图片上的反光干扰，形成更贴近白纸、板报的图片，并通过手写字迹识别，快捷、有序地获取可编辑、可分享的电子文档，助力工作效率提升。家庭场景中，父母可使用该功能清晰地扫描、分享孩子的画作，记录其成长轨迹。    扫描全能王“拍手写板”不同滤镜表现效果   据悉，“反光消除”技术是“拍手写板”功能的核心亮点。此前，人们消除图像反光需要使用专业的电脑端图像处理软件，进行图层复...

fOEFwBhxyMRj 2023年11月01日 86 0 0 AI综合

Marior去除边距和迭代内容矫正用于自然文档矫正

一、简要介绍本文简要介绍了论文“Marior:MarginRemovalandIterativeContentRectificationforDocumentDewarpingintheWild”的相关工作。照相机捕捉到的文档图像通常会出现透视和几何变形。考虑到视觉美感较差和OCR系统性能下降，对其进行纠正具有重要的价值。最近的基于学习的方法集中关注于精确裁剪的文档图像。然而，这可能不足以克服实际挑战，包括具有大边缘区域或没有边缘区域的文档图像。由于这种不切实际，用户在遇到大型边缘区域时难以精确地裁剪文档。同时，无边缘的变形图像仍然是一个难以解决的问题。据作者所知，目前还没有完整有效的pip...

fOEFwBhxyMRj 2023年11月01日 169 0 0 AI综合

合合信息亮相CCIG2023：多位大咖共话智能文档未来，文档图像内容安全还面临哪些技术难题？

 近日，中国图象图形大会（CCIG2023）（简称“大会”）在苏州圆满落幕。本届大会以“图象图形·向未来”为主题，由中国科学技术协会指导，中国图象图形学学会主办，苏州科技大学承办，特邀谭铁牛院士、赵沁平院士、吴一戎院士等百余位国内外知名学者，来自代表企业的技术专家，共话图像图形学术研究与技术创新趋势，共谋行业新发展。    （金连文主持《文档图像智能分析与处理》论坛）   技术论坛《文档图像智能分析与处理》是本次大会的亮点之一，由华南理工大学二级教授、中国图象图形学学会常务理事金连文担任主持，合合信息智能技术平台事业部副总经理、高级工程师丁凯博...

fOEFwBhxyMRj 2023年11月01日 101 0 0 AI综合

常用的表格检测识别方法-表格区域检测方法（上）

  常用的表格检测识别方法   表格检测识别一般分为三个子任务：表格区域检测、表格结构识别和表格内容识别。本章将围绕这三个表格识别子任务，从传统方法、深度学习方法等方面，综述该领域国内国外的发展历史和最新进展，并提供几个先进的模型方法。   3.1表格区域检测方法   表格检测已经被研究了一段较长的时间。研究人员使用了不同的方法，可以分为如下：   1.基于启发式的方法   2.基于机器学习的方法   3.基于深度学习的方法         基于启发式的方法，主要用于20世纪90...

fOEFwBhxyMRj 2023年11月01日 70 0 0 AI综合

常用的表格检测识别方法 - 表格区域检测方法（下）

——书接上文   Training 半监督网络的训练分两步进行：a)对标记数据独立训练学生模块，由教师模块生成伪标签；b)结合两个模块的训练，得到最终的预测结果。   伪标签框架     实验   数据集： TableBank是文档分析领域中用于表识别问题的第二大数据集。该数据集有417,000个通过arXiv数据库爬虫过程注释。该数据集具有来自三类文档图像的表格：LaTeX图像（253,817）、Word图像（163,417），以及两者的组合（417,234）。它还包括一个用于识别表格的结构的数据集。在论文的实验中，只使用进行表检测的数...

fOEFwBhxyMRj 2023年11月01日 123 0 0 AI综合

常用的表格检测识别方法——表格结构识别方法(上）

第三章 常用的表格检测识别方法 3.2表格结构识别方法    表格结构识别是表格区域检测之后的任务，其目标是识别出表格的布局结构、层次结构等，将表格视觉信息转换成可重建表格的结构描述信息。这些表格结构描述信息包括：单元格的具体位置、单元格之间的关系、单元格的行列位置等。   在当前的研究中，表格结构信息主要包括以下两类描述形式：1）单元格的列表（包含每个单元格的位置、单元格的行列信息、单元格的内容）；2）HTML代码或Latex代码（包含单元格的位置信息，有些也会包含单元格的内容）。    与表格区域检测任务类似，在早期的表格结构识别...

fOEFwBhxyMRj 2023年11月01日 77 0 0 AI综合

常用的表格检测识别方法——表格结构识别方法 (下）

常用的表格检测识别方法——表格结构识别方法（下） 3.2表格结构识别方法  表格结构识别是表格区域检测之后的任务，其目标是识别出表格的布局结构、层次结构等，将表格视觉信息转换成可重建表格的结构描述信息。这些表格结构描述信息包括：单元格的具体位置、单元格之间的关系、单元格的行列位置等。在当前的研究中，表格结构信息主要包括以下两类描述形式：1）单元格的列表（包含每个单元格的位置、单元格的行列信息、单元格的内容）；2）HTML代码或Latex代码（包含单元格的位置信息，有些也会包含单元格的内容）。   与表格区域检测任务类似，在早期的表格结构识别方法中，研究者们通常会根据数据集特...

fOEFwBhxyMRj 2023年11月01日 39 0 0 AI综合

常用的表格检测识别方法-表格内容识别方法

常用的表格检测识别方法 3.3表格内容识别方法表格识别的研究主要涉及两个方面，一方面是对单元格内的文本进行识别，这一步通常是在确定单元格区域后，利用较为稳定的光学字符识别方法（OCR）来实现，这一方面不是表格识别研究的重点，不在此展开；另一方面是基于整个表格内容进行的表格分类、单元格分类、以及表格信息抽取等任务，这是当前表格识别研究的热门领域之一。下文会对表格信息抽取进行展开讲述。从文档中抽取关键信息已经被研究了几十年。在基于深度学习的方法出现之前，早期的工作主要依赖于已知模板中的一些规则或人为设计的特性，因此它们通常在没见过的模板上失败，在实际应用中不可适配。随着深度学习的发展，在信息抽...

fOEFwBhxyMRj 2023年11月01日 127 0 0 AI综合

中国信通院携手合合信息开启《文档图像篡改检测标准》制定工作

  文档图像是信息的重要载体，却经常被不法分子利用软件、算法进行篡改。这些虚假材料往往被用于散播谣言、经济诈骗、编造虚假新闻，给个人、社会造成了恶劣的影响。AIGC全球爆火后，人们对“生成式造假”风险的攀升倍感忧虑，图像内容的安全与可信性也成为了公众关注的焦点。为贯彻落实《中华人民共和国网络安全法》《生成式人工智能服务管理》等文件中对于AI服务的规范性要求，系统性建立图像内容安全行业发展秩序，中国信息通信研究院（以下简称“中国信通院”）启动了《文档图像篡改检测标准》制定工作。该项标准由中国信通院牵头，上海合合信息科技股份有限公司、中国图象图形学学会、中国科学技术大学等科技...

fOEFwBhxyMRj 2023年11月01日 115 0 0 AI综合