Name		Name	Last commit message	Last commit date
parent directory ..
document_intelligence		document_intelligence
information_extraction		information_extraction
neural_search		neural_search
question_answering		question_answering
sentiment_analysis		sentiment_analysis
speech_cmd_analysis		speech_cmd_analysis
text_classification		text_classification
text_summarization		text_summarization
zero_shot_text_classification		zero_shot_text_classification
README.md		README.md

README.md

产业级端到端系统范例

1、简介

PaddleNLP 从预训练模型库出发，提供了经典预训练模型在主流 NLP 任务上丰富的应用示例，满足了大量开发者的学习科研与基础应用需求。

针对更广泛的产业落地需求、更复杂的 NLP 场景任务，PaddleNLP 推出产业级端到端系统范例库（下文简称产业范例），提供单个模型之上的产业解决方案。

最强模型与实践———产业范例针对具体业务场景，提供最佳模型（组合），兼顾模型精度与性能，降低开发者模型选型成本；
全流程———打通数据标注-模型训练-模型调优-模型压缩—预测部署全流程，帮助开发者更低成本得完成产业落地。

2、基于 Pipelines 构建产业范例，加速落地

在面向不同场景任务建设一系列产业方案的过程中，不难发现，从技术基础设施角度看：

（1）NLP系统都可以抽象为由多个基础组件串接而成的流水线系统；（2）多个NLP流水线系统可共享使用相同的基础组件。

因此，PaddleNLP 逐渐孵化出了一套 NLP 流水线系统 Pipelines，将各个 NLP 复杂系统的通用模块抽象封装为标准组件，支持开发者通过配置文件对标准组件进行组合，仅需几分钟即可定制化构建智能系统，让解决NLP任务像搭积木一样便捷、灵活、高效。同时，Pipelines 中预置了前沿的预训练模型和算法，在研发效率、模型效果和性能方面提供多重保障。因此，Pipelines 能够大幅加快开发者使用飞桨落地的效率。

PaddleNLP 提供了多个版本的产业范例:

如果你希望快速体验、直接应用、从零搭建一套完整系统，推荐使用 Pipelines 版本。这里集成了训练好的模型，无需关心模型训练细节；提供 Docker 环境，可快速一键部署端到端系统；打通前端 Demo 界面，便于直观展示、分析、调试效果。
如果你希望使用自己的业务数据进行二次开发，推荐使用./applications目录下的可定制版本，训练好的模型可以直接集成进 Pipelines 中进行使用。
也可以使用 AI Studio 在线 Jupyter Notebook 快速体验，有 GPU 算力哦。

场景任务	Pipelines版本地址	可定制版本地址	Notebook
检索	字面+语义检索	语义检索	基于Pipelines搭建检索系统二次开发语义检索
问答	FAQ问答无监督检索式问答有监督检索式问答	FAQ问答无监督检索式问答	基于Pipelines搭建FAQ问答系统基于Pipelines搭建抽取式问答系统 FAQ政务问答 FAQ保险问答
文本分类	暂无	文本分类	对话意图识别法律文本多标签分类层次分类
通用文本分类	暂无	通用文本分类
通用信息抽取	暂无	通用信息抽取	UIE快速体验 UIE微调实体抽取 UIE微调关系抽取 UIE-X快速体验 UIE-X微调
情感分析	情感分析	情感分析	情感分析
文档智能	文档抽取问答	跨模态文档问答	文档抽取问答汽车说明书问答
文生图	文生图系统	可参考PPDiffusers
语音指令解析	暂无	语音指令解析	语音指令解析
文本摘要	暂无	文本摘要	文本摘要

3、典型范例介绍

📄 通用信息抽取系统

首个产业级通用信息抽取方案 UIE，面向纯文本，实现多任务统一建模，提供强大的零样本抽取和少样本快速迁移能力；
首个兼具文本及文档抽取能力、多语言、开放域的信息抽取方案 UIE-X，基于 ERNIE-Layout 跨模态布局增强预训练模型，集成 PaddleOCR 的 PP-OCR、PP-Structure 版面分析能力，小样本文档信息抽取效果领先。

详细使用说明请参考通用信息抽取系统，更多：UIE 解读、UIE-X 解读。

🔍 语义检索系统

前沿算法———基于 SimCSE、In-batch Negatives、ERNIE Pairwise、RocketQA Pointwise 等提供针对无监督、有监督等多种数据情况的多样化方案；
全流程———覆盖召回、排序环节，集成主流 ANN 引擎，同时兼容 ElasticSearch 字面检索模式，提供多路召回方案。打通训练、调优、高效向量检索引擎建库和查询全流程。

详细使用说明请参考语义检索系统。

❓ 智能问答系统

端到端问答技术 🚀RocketQA，首个中文端到端问答模型，基于知识增强的预训练模型ERNIE和百万量级的人工标注数据集DuReader训练得到，效果优异；
覆盖有监督（如 FAQ 问答）、无监督（自动生成 QA 对，生成的问答对语料可以通过无监督的方式构建检索式问答系统）等多种情况，适用各类业务场景。

详细使用说明请参考智能问答系统与文档智能问答。

📚 通用文本分类

基于“任务架构统一、通用能力共享”的通用文本分类技术 UTC，实了良好的零/少样本迁移能力，实现大一统诸多任务的开放域分类，可支持情感分析、意图识别、语义匹配、蕴含推理等各种可转换为分类问题的 NLU 任务。

详细使用说明请参考通用文本分类，更多：文章解读。

🗂 文本分类

场景方案全覆盖––––开源预训练模型-微调、提示学习、基于语义索引等多种分类技术方案，满足不同场景需求，涵盖多分类（multi-class）、多标签（multi-label）、层次分类（hierarchical）三类任务；
模型高效调优––––强强结合数据增强能力与可信增强技术，解决脏数据、标注数据欠缺、数据不平衡等问题，大幅提升模型效果。

详细使用说明请参考文本分类，更多：文章解读。

💌 评论观点抽取与情感分析

经典方案：基于情感知识增强预训练模型SKEP，两阶段式抽取和分类，首先通过序列标注的方式定位属性词和观点词，然后进行属性集情感分类；
前沿方案：基于UIE的情感分析方案采用 Prompt Learning 的方式进行情感信息抽取，精度更高。支持语句级和属性级情感分析，解决同义属性聚合、隐性观点抽取难点，并提供可视化分析能力。

详细使用说明请参考情感分析，更多：文章解读。

🎙️ 智能语音指令解析

集成了PaddleSpeech和百度开放平台的的语音识别和UIE通用信息抽取等技术，打造智能一体化的语音指令解析系统范例，该方案可应用于智能语音填单、智能语音交互、智能语音检索等场景，提高人机交互效率。

详细使用说明请参考智能语音指令解析。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

applications

applications

README.md

产业级端到端系统范例

1、简介

2、基于 Pipelines 构建产业范例，加速落地