我正在从一大堆PDF文档中提取信息 . 在这些文件中,有多种格式的信息,包括正常段落和更多“结构化”数据,其中信息由空白区域传达 .
例如,有时这些报告中的“表格”将采用以下格式:
Key Key Key
Value Value
而有时则会是:
Key 值
Key 值
Key 值
现在我正在使用PDFMiner来提取文本,但它通常只适用于一种格式(垂直或水平) . 我'm differentiating the formats is by the font size and the white space (ie Normally the value is a smaller font than the key). I'的主要方式也试过使用 teseract-py
但遇到了类似的问题 .
有关如何正确处理这些方案的任何建议?我想提取键/值关系 .