摩杜云开发者社区-摩杜云

LayoutLM【论文翻译】

论文基础信息如下 LayoutLM:Pre-trainingofTextandLayoutforDocumentImageUnderstanding arxiv.org/pdf/1912.13… github.com/microsoft/u… 0ABSTRACT 在过去的几年中，预训练技术在各种自然语言处理（NLP）任务中已经取得了成功。尽管预训练模型在NLP应用中被广泛使用，但它们几乎完全专注于文本级别的操作，而忽视了对于文档图像理解至关重要的布局和样式信息。在本文中，我们提出了LayoutLM，用于在扫描文档图像中共同建模文本和布局信息之间的交互作用，这对于许多真实世界的文档图像理解...

UnKK9CO9r5Jr 2023年11月19日 29 0 0 数据集表单人工智能商业计算机视觉表单数据集计算机视觉人工智能商业

OCR数据集 : Benchmarking Chinese Text Recognition: Datasets 【论文翻译】

论文基础信息如下 Abstract 深度学习蓬勃发展的局面见证了近年来文本识别领域的迅速发展。然而，现有的文本识别方法主要针对英文文本。作为另一种广泛使用的语言，中文文本识别在各个领域都有广泛的应用市场。根据我们的观察，我们认为中文文本识别受到关注不足的原因在于缺乏合理的数据集构建标准、统一的评估协议以及现有基准结果。为了弥补这一空白，我们从公开的竞赛、项目和论文中手动收集了中文文本识别数据集。根据应用场景，我们将收集到的数据集分为场景、网络、文档和手写数据集四类。此外，我们在中文文本识别中规范了评估协议。通过统一的评估协议，我们在收集到的数据集上评估了一系列具有代表性的文本识别方法，以提供...

UnKK9CO9r5Jr 2023年11月15日 24 0 0 基线计算机视觉基线深度学习计算机视觉数据集数据集深度学习中文字符中文字符

Personalize Segment Anything Model with One Shot【论文翻译】

论文基础信息如下 arxiv.org/pdf/2305.03… github.com/ZrrSkywalke… 本文由博主墨理学AI借助翻译工具对该论文进行了翻译 Abstract  通过大数据预训练驱动，分段任意模型（SegmentAnythingModel，SAM）已被证明是一个强大且可提示的框架，革新了分割模型。尽管其具有普遍性，但在没有人力提示的情况下，定制SAM以适应特定的视觉概念仍未得到充分探索，例如自动在不同的图像中分割您的宠物狗。在本文中，我们提出了一种无需训练的个性化方法，称为PerSAM，用于SAM。只给定一张带有参考掩码的单张图像，PerSAM首先通过位置...

UnKK9CO9r5Jr 2023年11月05日 66 0 0 图像识别图像识别人工智能目标对象数据计算机视觉数据计算机视觉人工智能目标对象

CentOS下OpenCV默认安装位置【16】

CentOSLinuxrelease7.7的opencv默认安装位置如下： OpenCV_DIR/usr/local/lib64/cmake/opencv4/ OpenCV默认拉取的最新版本：4.5.1 ????CentOS-root用户openCV编译安装操作如下：查看系统： cat/etc/redhat-releaseCentOSLinuxrelease7.7.1908 下载opencv源码和一个常用库opencv_contrib gitclonehttps://github.com/Itseez/opencv.gitgitclonehttps:/...

UnKK9CO9r5Jr 2023年11月02日 36 0 0 深度学习计算机视觉 git linux CentOS