Skip to content

Latest commit

 

History

History
 
 

information_extraction

简体中文 | English

信息抽取应用

目录

1. 信息抽取应用简介

信息抽取应用针对信息抽取一系列高频场景开源了产业级解决方案,具备多领域、多任务、跨模态的能力,打通数据标注-模型训练-模型调优-预测部署全流程,可快速实现信息抽取产品落地。

信息抽取通俗地说就是从给定的文本/图片等输入数据中抽取出结构化信息的过程。在信息抽取的落地过程中通常面临领域多变、任务多样、数据稀缺等许多挑战。针对信息抽取领域的难点和痛点,PaddleNLP信息抽取应用基于UIE统一建模的思想,提供了信息抽取产业级应用方案,除支持纯文本场景实体、关系、事件、观点等不同任务抽取外,还支持文档/图片/表格的端到端信息抽取。该应用不限定行业领域和抽取目标,可实现从产品原型研发、业务POC阶段到业务落地、迭代阶段的无缝衔接,助力开发者实现特定领域抽取场景的快速适配与落地。

信息抽取应用亮点:

  • 覆盖场景全面🎓: 覆盖信息抽取各类主流任务,面向纯文本和文档场景,支持多语言,满足开发者多样信息抽取落地需求。
  • 效果领先🏃: 以在纯文本、多模态上均有突出效果的UIE系列模型作为训练基座,提供多种尺寸的预训练模型满足不同需求,具有广泛成熟的实践应用性。
  • 简单易用⚡: 通过Taskflow实现三行代码可实现无标注数据的情况下进行快速调用,一行命令即可开启信息抽取训练,轻松完成部署上线,降低信息抽取技术落地门槛。
  • 高效调优✊: 开发者无需机器学习背景知识,即可轻松上手数据标注及模型训练流程。

2. 技术特色

2.1 信息抽取方案全覆盖

多模型选择,满足精度、速度,适配不同信息抽取使用场景。

模型名称 使用场景 支持任务
uie-base
uie-medium
uie-mini
uie-micro
uie-nano
面向纯文本场景的抽取式模型,支持中文 具备实体、关系、事件、评论观点等通用信息抽取能力
uie-base-en 面向纯文本场景的抽取式模型,支持英文 具备实体、关系、事件、评论观点等通用信息抽取能力
uie-m-base
uie-m-large
面向纯文本场景的抽取式模型,支持中英 具备实体、关系、事件、评论观点等通用信息抽取能力
uie-x-base 面向纯文本文档场景的抽取式模型,支持中英 支持纯文本场景的全部功能,还支持文档/图片/表格的端到端信息抽取

2.2 强大的训练基座

信息抽取应用使用ERNIE 3.0轻量级模型作为预训练模型,同时在大量信息抽取数据上进行了二次预训练,从而让模型适配固定prompt。

  • 中文文本数据集实验效果

我们在互联网、医疗、金融三大垂类文本自建测试集上进行了实验:

金融医疗互联网
0-shot5-shot0-shot5-shot0-shot5-shot
uie-base (12L768H)46.4370.9271.8385.7278.3381.86
uie-medium (6L768H)41.1164.5365.4075.7278.3279.68
uie-mini (6L384H)37.0464.6560.5078.3672.0976.38
uie-micro (4L384H)37.5362.1157.0475.9266.0070.22
uie-nano (4L312H)38.9466.8348.2976.7462.8672.35
uie-m-large (24L1024H)49.3574.5570.5092.6678.4983.02
uie-m-base (12L768H)38.4674.3163.3787.3276.2780.13
🧾 🎓uie-x-base (12L768H)48.8473.8765.6088.8179.3681.65

0-shot表示无训练数据直接通过paddlenlp.Taskflow进行预测,5-shot表示每个类别包含5条标注数据进行模型微调。实验表明UIE在垂类场景可以通过少量数据(few-shot)进一步提升效果

  • 多模态数据集实验效果

我们在通用、金融、医疗三大场景自建多模态测试集上对UIE-X的零样本效果进行了实验:

通用金融医疗
🧾 🎓uie-x-base (12L768H)65.0373.5184.24

通用测试集包含了不同领域的复杂样本,抽取难度最大。

2.3 产业级全流程方案

调研阶段

数据准备阶段

  • 我们推荐在实际的业务场景中定制自己的信息抽取模型。我们提供了不同抽取场景的Label Studio标注解决方案,可基于该方案实现从数据标注到训练数据构造的无缝衔接,大大降低了数据标注、模型定制的时间成本。

模型微调及封闭域蒸馏

模型部署

2.4 效果展示

  • UIE-X端到端文档抽取产业应用示例

    • 报关单

    • Delivery Note(需微调)

    • 增值税发票(需微调)

    • 表单(需微调)

3. 快速开始

3.1 Taskflow开箱即用

3.2 文本信息抽取

3.3 文档信息抽取