近日,计算语言学和自然语言处理领域的*学术会议The 62nd Annual Meeting of the Association for Computational Linguistics(以下简称ACL)落下帷幕,在其主办的官方比赛Social Media Mining for Health Research and Applications Workshop and Shared Tasks 2024(以下简称SMM4H)中,理光中国研究院自然语言处理(NLP)团队以其*的研究成果,获得共享竞赛任务提取和规范化英文推文中的药物不良事件(ADEs)赛道的第 一名,并受邀分享了技术方案。
理光中国研究院团队在本届SMM4H 2024共享竞赛任务中选择的竞赛课题是“提取和规范化英文推文中的药物不良事件(ADEs)”。这项任务的核心挑战在于从充满噪音的社交媒体推文中,精准地提取出由药物引起的不良反应,并将这些信息准确映射到MedDRA词典中的标准化医学术语。
*竞赛任务描述
竞赛中,参赛团队在充分考虑了非结构化数据的复杂性、噪音和背景信息的干扰、多义性问题以及数据稀疏性等客观问题后,通过一系列创新技术的应用显著提高了不良事件信息提取和术语规范化的性能:
1.提出了一个包含ADEs抽取、MedDRA术语检索和MedDRA术语过滤模块的体系架构,有效地缓解了传统方法使用的流程所带来的误差传播,提升了术语规范化的准确性。
2.创新性地提出了四种基于大语言模型的数据增强方法,充分发挥了大语言模型生成高质量文本内容的能力。
3.通过使用医学领域训练样本对文本嵌入模型进行微调,显著提高了MedDRA术语的召回率。
在技术层面实现突破的同时,理光团队本次竞赛的研究成果在公共健康领域具备一定的现实意义与应用潜力。丰富药物评估视角,该系统通过分析社交媒体反馈,补充了临床试验中未报告的药物副作用信息,为药物安全性评估提供了新的视角;实时监测与数据支持,系统能够实时监测公共健康趋势,并通过社交媒体数据分析,快速反映药物使用情况和风险,为公共卫生决策提供数据支持;公共健康风险管理,对于制药公司和监管机构系统提供了实时监控社交媒体上的ADEs信息的能力,有助于及早发现并管理潜在的公共健康风险。
*理光中国研究院NLP团队成员在ACL 2024现场分享技术方案
理光以远见卓识引领技术革新,致力探索科技创新最前沿。本次获奖不仅彰显了理光在自然语言处理领域不断锐意进取和深厚技术积累,也展现了人工智能技术在解决现实世界问题中的潜力和价值。展望未来,理光将持续引领技术进步与应用拓展,携手全球合作伙伴积极探索、不懈挑战,在数字化浪潮中高扬人工智能之帆,赋能各行各业共赴可持续未来。
背景:
一年一度的ACL大会是自然语言处理领域的*会议,其主办的SMM4H是一个关注社交媒体数据挖掘在健康研究和应用中的年会和竞赛活动。今年第9届SMM4H以"Large Language Models (LLMs) and Generalizability for Social Media NLP"为主题,专注于深入探讨大型语言模型(LLMs)在社交媒体自然语言处理(NLP)任务中的应用及泛化能力,旨在推动社交媒体数据分析在健康科学领域的创新与发展。
MedDRA词典(Medical Dictionary for Regulatory Activities)是一个国际权威的标准化医学术语集。它的存在极大地促进了全球不同国家和地区的药品监管机构、制药企业、临床研究者以及医疗保健专业人员之间的有效沟通和数据交换。通过使用MedDRA词典,可以确保医学信息的准确性和一致性,从而在全球范围内实现医学数据的无缝对接和交流。