去除页眉页脚的工作 #249

lbboier · 2024-01-13T03:41:23Z

我之前实习时做了pdf转txt的工作，其中pdf转word使用的该库（pdf2docx），然后word转txt是手写的。也在很大程度上实现了去除页眉页脚，但仅仅能满足于输出端是txt（不提取多列的表格）。在我实习期间处理了500w+本的pdf转txt，并在公司内部上线了部署服务。我走后接手这个工作的实习生又进行了优化，具体改进我没问。
我想看看大家对这个需求大不大，我可以选择新建一个开源库或者在pdf2docx提一个pr。希望有需求的可以在下方留言

parksmallfish · 2024-01-16T08:55:39Z

请问是什么思路呢？我尝试用文本相似性仅去除了一部分页眉页脚

dothinking · 2024-01-16T10:22:21Z

我之前实习时做了pdf转txt的工作，其中pdf转word使用的该库（pdf2docx），然后word转txt是手写的。也在很大程度上实现了去除页眉页脚，但仅仅能满足于输出端是txt（不提取多列的表格）。在我实习期间处理了500w+本的pdf转txt，并在公司内部上线了部署服务。我走后接手这个工作的实习生又进行了优化，具体改进我没问。我想看看大家对这个需求大不大，我可以选择新建一个开源库或者在pdf2docx提一个pr。希望有需求的可以在下方留言

目前页眉页脚都被当成正文处理，很多人都对识别页眉页脚这个功能提出了期待。欢迎分享识别页眉页脚的思路，或者直接提PR。

nunamia · 2024-03-26T06:08:21Z

使用layoutlmv3,可以识别出页眉，页脚的blocks，然后过滤掉区域即可

lbboier · 2024-03-26T07:27:12Z

使用layoutlmv3,可以识别出页眉，页脚的blocks，然后过滤掉区域即可

pdf情况太复杂了，我去年也尝试过直接页眉页脚的区域（每页的上面和下面，检测文本变化，然后去除block），但是效果很不好。你有测试出比较好的效果吗？最好数据量大一点的

dothinking added the question discussion label Jan 16, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

去除页眉页脚的工作 #249

去除页眉页脚的工作 #249

lbboier commented Jan 13, 2024

parksmallfish commented Jan 16, 2024 •

edited

Loading

dothinking commented Jan 16, 2024

nunamia commented Mar 26, 2024

lbboier commented Mar 26, 2024

去除页眉页脚的工作 #249

去除页眉页脚的工作 #249

Comments

lbboier commented Jan 13, 2024

parksmallfish commented Jan 16, 2024 • edited Loading

dothinking commented Jan 16, 2024

nunamia commented Mar 26, 2024

lbboier commented Mar 26, 2024

parksmallfish commented Jan 16, 2024 •

edited

Loading