近日,2024中国图象图形大会在西安盛大开幕。这场由中国图象图形学学会主办,空军军医大学、西安交通大学、西北工业大学联合承办的盛会,汇聚了国内外图像图形领域的*专家和学者,通过二十多场论坛、百余项成果,集中展示了生成式人工智能、大模型、机器学习、类脑计算等多个领域的最新进展。
大模型技术作为本次大会的焦点之一,其强大的图像处理能力引起了广泛关注。随着科技的不断革新,大模型技术正在各个行业中得到广泛应用,满足了对复杂图像处理的多样化需求。为了深入探讨大模型技术的发展与应用,大会期间特别举办了《大模型技术及其前沿应用》论坛。
论坛上,来自华南理工大学、上海交通大学、清华大学、复旦大学、上海人工智能实验室以及上海合合信息科技股份有限公司的专家代表们,围绕大模型技术在图像领域的发展、应用进行了深入研讨。他们一致认为,大模型技术的快速发展,不仅推动了图像图形领域的进步,也为相关行业的发展注入了新的活力。
然而,大模型技术的快速发展也面临着一些挑战。其中,模型训练语料的“能源危机”就是亟待解决的问题之一。据人工智能研究人员小组Epoch研究估计,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。这一预测引发了与会者的深思。
针对这一问题,合合信息智能创新事业部研发总监常扬在论坛上分享了合合信息智能文档处理技术在文档解析领域的工作。他强调,文档解析技术的进步能够有效解决高质量语料数据匮乏的问题。通过机器识别文档中的多种元素,包括文本、表格、图像等,该技术能够更好地处理多类型数据,还原文档阅读顺序,加速大模型的训练与应用。此外,合合信息还打通了电子档解析、扫描档图像处理、文字识别、表格识别、版面分析、版面还原和排版布局等文档智能化处理的全流程。
常扬还详细阐述了文档解析技术的难点,即如何准确识别文档中的各个元素,并理解其之间的逻辑关系。他提出,这需要关注“物理版面分析”和“逻辑版面分析”两个方面。物理版面分析侧重于视觉特征、文档布局,而逻辑版面分析则侧重于对语义特征的分析。通过这两方面的结合,可以实现对文档的全面解析。
本次大会的成功举办,不仅为图像图形领域的专家学者们提供了一个交流学习的平台,也为大模型技术的发展和应用指明了方向。未来,随着技术的不断进步和创新,我们有理由相信,大模型技术将在更多领域展现出其强大的应用潜力。合合信息技术团队也将持续在智能文档处理领域深耕,让新技术在行业中更快速地产生价值。