根据标签识别PDF文本分组-Java 学习之路

我正在从一大堆PDF文档中提取信息 . 在这些文件中，有多种格式的信息，包括正常段落和更多“结构化”数据，其中信息由空白区域传达 .

例如，有时这些报告中的“表格”将采用以下格式：

Key Key Key

Value Value

而有时则会是：

Key 值

现在我正在使用PDFMiner来提取文本，但它通常只适用于一种格式（垂直或水平） . 我'm differentiating the formats is by the font size and the white space (ie Normally the value is a smaller font than the key). I'的主要方式也试过使用 teseract-py 但遇到了类似的问题 .

有关如何正确处理这些方案的任何建议？我想提取键/值关系 .

根据标签识别PDF文本分组

相关问题