如何确保大型HDF5中的唯一行

提问于 2024-06-02T13:57:34+08:00

浏览次

2

我正在努力在HDF5表中实现一组相对较大（5,000,000且不断增长）的时间序列数据 . 我需要一种方法来每天删除重复数据，每天一次“运行” . 由于我的数据检索过程目前存在，因此在数据检索过程中写入重复项要比确保没有重复项更容易 .

从pytable中删除重复的最佳方法是什么？我的所有阅读都指向我将整个表导入到pandas中，并获得一个唯一值的数据框，并通过在每次运行数据时重新创建表来将其写回磁盘 . 这似乎与pytables相反，并且我不知道整个数据集将有效地适应内存 . 我应该补充说，它是两列定义唯一记录 .

没有可重现的代码，但任何人都可以给我pytables数据管理建议吗？

非常感谢...

1 回答

4

看到这个相关的问题：finding a duplicate in a hdf5 pytable with 500e6 rows

为什么你说这是'与pytables相反'？完全可以存储重复项 . 用户对此负责 .

你也可以试试这个：merging two tables with millions of rows in python，你使用的合并函数只是 drop_duplicates() .

回复于 2024-06-02T13:57:34+08:00

相关问题