旗下微信矩阵:

证监会金融科技中心携手庖丁科技 赋能资本市场前线监管

庖丁科技专注于做一家人工智能领域的长青企业,从大处着眼,以小处入手,努力成为中国领先的新一代金融数据提供商和新一代智能金融服务商。
2018-11-15 22:32 · 投资界综合

  近期,庖丁科技中标证券期货业金融科技研究发展中心(深圳)(以下简称“深交所”)——“证券文本信息抽取技术研究”项目,以证券市场文本信息为对象,研究利用自然语言处理技术,从披露公告中抽取指定的文本信息,并且满足具有一定技术性能指标要求的课题。

  资本市场上,信息披露作为法规,通常要求信息披露义务人“应当真实、准确、完整、及时地披露信息”。我国上市公司信息披露的内容大体可分为三类:证券发行文件、定期报告和临时报告。

  上市公司的公告信息披露必须在指定信息披露网站发布,主要为PDF格式。以深市上市公司为例,2016年全年共披露265985篇公告,2017年共披露291607篇,随着上市公司数量日益增多,这一数字也会逐年增加,不但为深交所的合规检查带来压力,也给投资者带来极大的信息负载。如何将海量公告更有效、更高效地让阅读人“读薄”?其中通过自然语言处理、深度学习等技术将公告信息结构化提取成为关键所在。

  正因如此,庖丁科技正在持续而坚定地推进该项工作。他们首先通过卷积神经网络对公告中的段落表格等信息进行分割抽取。为了适应样本数量稀少的问题,他们还提出了一种轻量级的机器学习方法。该方法能够高效地将不同类别公告的关键语句抽取出来,并使之具有在线学习的能力,抽取过程仅需公告制作业务专家对少量公告进行标注,即可达到可用效果。关键语句抽取后,再通过LSTM神经网络进行细粒度提取,从而将公告结构化。目前,庖丁科技对并购重组公告的结构化抽取的工作已取得较为理想的结果,提升了深交所监管工作的效率。这项工作的探索不仅为扩展更多公告类型奠定基础,也为其他类型文本处理带来了宝贵经验。

  利用非结构化信息抽取技术,我们能够把隐藏在海量公开公告中企业与企业、企业与个人关系进行深度挖掘,并且透视、洞察企业的价值及风险。作为国内拥有世界*的金融文本信息抽取技术、有能力利用深度学习和金融知识库进行高精度的结构化信息提取的先进团体,庖丁科技将继续全力服务金融行业,助力金融机构进一步提升服务实体经济的能力。

  庖丁科技是一家以人工智能技术为核心的金融科技行业探路者,致力于将国际最前沿的深度学习(Deep Learning)、自然语言处理(Natural Language Processing)、富格式数据(Richly Formatted Data)解析等技术与金融各垂直领域专业知识进行深度融合,帮助传统金融行业打造新一代核心竞争力。庖丁科技专注于做一家人工智能领域的长青企业,从大处着眼,以小处入手,努力成为中国*的新一代金融数据提供商和新一代智能金融服务商。

【本文经授权发布,不代表投资界立场。本平台仅提供信息存储服务。】如有任何疑问题,请联系(editor@zero2ipo.com.cn)投资界处理。

本文涉及