我正在从一大堆PDF文档中提取信息 . 在这些文件中,有多种格式的信息,包括正常段落和更多“结构化”数据,其中信息由空白区域传达 .

例如,有时这些报告中的“表格”将采用以下格式:

Key Key Key

Value Value

而有时则会是:

Key

Key

Key

现在我正在使用PDFMiner来提取文本,但它通常只适用于一种格式(垂直或水平) . 我'm differentiating the formats is by the font size and the white space (ie Normally the value is a smaller font than the key). I'的主要方式也试过使用 teseract-py 但遇到了类似的问题 .

有关如何正确处理这些方案的任何建议?我想提取键/值关系 .