机器学习
文档图像识别 标签描述

1.前言背景 自去年ChatGPT发布之后,各大科技公司纷纷推出了自家的大模型,标志这人类社会正式进入了大模型时代。大模型的发展速度惊人,从最初的只能根据提问生成自然语言文本,到现在可以根据输入文本来绘图,根据输入图像来进行OCR识别,并对文档或图像的内容进行解释。这意味着现在的大模型已经从单一模态的输入和输出,进化到了多模态的输入和输出。 在近期召开的第六届中国模式识别与计算机视觉大会上。我专门学习了合合信息的郭丰俊博士关于文档图像前沿技术探索的分享。郭博士是上海交通大学模式识别与智能系统博士,他首先介绍了多模态在文档图像领域的应用以及合合信息在此方向的最新研究成果。接着,他阐述了如何应对各...