首页 文章
  • 2 votes
     answers
     views

    ModuleNotFoundError:没有名为'pandas'的模块

    我正在按照实用的机器学习教程,我已经停留在第二个视频上了 . https://www.youtube.com/watch?v=JcI5Vnw0b2c&t=195s import pandas as pd import Quandl df = Quandl.get('WIKI/GOOGL') print(df.head()) 当我运行与视频中的人相同的代码时,我得到的是“Modu...
  • 1 votes
     answers
     views

    按分类变量分组的箱图

    将pandas用于大型数据集,我已经将其缩减为我需要的信息 . 基本上我想根据他们的帖子中使用的主题标签的数量来绘制来自两个不同国家的用户的朋友数量的分布,作为并排的箱图(我称之为分组的箱图) . 6,我将此视为一个分类变量) . 这导致在同一帧中总共2 * 6 = 12个箱图,以便于比较 . 我做了一些研究,我知道df.boxplot(by ='x'),但这并不能说明比较这两个国家的额外水平 ...
  • 27 votes
     answers
     views

    在numpy数组中转发NaN值的最有效方法

    示例问题 举个简单的例子,考虑如下定义的numpy数组 arr : import numpy as np arr = np.array([[5, np.nan, np.nan, 7, 2], [3, np.nan, 1, 8, np.nan], [4, 9, 6, np.nan, np.nan]]) 其中 arr 在控制台输出中如下...
  • 3 votes
     answers
     views

    Scipy稀疏矩阵作为DataFrame列

    我正在开发基于pandas DataFrame对象的工具 . 我希望将scipy稀疏矩阵作为DataFrame的列保留,而不是将其逐行转换为dtype('O')的list / numpy数组 . 下面的代码段不起作用,因为pandas将矩阵视为标量,并建议添加索引 . 当在矩阵中的行索引上提供pd.RangeIndex时,对于数据帧中的每一行重复矩阵(因为pandas认为它是标量) . ma = ...
  • 1 votes
     answers
     views

    Pymc线性回归起始问题(缩放输入参数?)

    跟着this example使用PYMC3进行非常简单的贝叶斯线性回归(学习,我希望)我得到了最初的例子来运行但是然后尝试使用我自己的数据并得到: ValueError: Optimization error: max, logp or dlogp at max have non-finite values. Some values may be outside of distribution ...
  • 2 votes
     answers
     views

    python中的回归系数计算

    我有一个Dataframe和一个活动的输入文本文件.Dataframe是通过pandas生成的 . 我想用下面的公式找出每个术语的回归系数Y = C1aX1a C1bX1b ... C2aX2a C2bX2b .... C0, 其中Y是活动Cna,残差选择a在位置n的回归系数,X虚拟变量编码(xna = 1或0)对应于位置n处残差选择a的存在与否,以及C0的平均值活动 . 我的数据框看起来很喜欢 ...
  • 4 votes
     answers
     views

    使用PYMC3回归

    我在这里发布了一个IPython笔记本http://nbviewer.ipython.org/gist/dartdog/9008026 我通过标准Statsmodels OLS和PYMC3与Pandas提供的数据一起工作,顺便说一下,这部分工作得很好 . 我看不出如何从PYMC3中获得更多标准参数?这些示例似乎只是使用OLS来绘制基本回归线 . 看来PYMC3模型数据应该能够给出回归线的参数吗?除...
  • 0 votes
     answers
     views

    Python - 识别数据框中的非ascii字符

    Goal :需要一个进程来识别各种csv文件中的非ascii字符 我有一些数据中包含非ascii字符的csv文件(例如,数千个中的一个或两个员工ID将具有随机的非ascii字符) . 我想识别这些用于清理,但是当我尝试读取csv时我得到一个unicode错误,我认为这是由于非ascii字符相同 . emp_id列通常是一个数字,我在这个例子中将它转换为字符串,因为我正在使用的函数不适用于整数 ....
  • 0 votes
     answers
     views

    删除文本Pandas系列中的URL和转换特殊字符

    我有一个数据集 . 它是数据碎片,非常混乱,它包含ASCII码,HTML和URL . 我试图在它上面运行'langdetect',以便我按语言分开 . 但是,它不断抛出我认为是由数据集中的HTML和特殊字符等引起的错误 . 当我执行NLP时,我需要保留/恢复文本的标点符号 . 我有两个问题,我正在努力解决: 如何在pandas系列中转换ASCII代码,这些代码在抓取到关联的char期间出现,因...
  • 0 votes
     answers
     views

    替换python中的非ascii空格字符(pandas)

    我正在研究从excel电子表格中提取的一些识别号码 . 它们是数字和字符串的混合体 . (手动维护excel表)我把它加载到pandas中并注意到数据中的一些空格 . 我在我的df上运行了一个过滤器,但只有两行 . 所以,我进去运行这段代码: for i in exceldata['CL ID #']: print(repr(str(i))) 我得到了一些奇怪的结果 . 似乎空间根本不...
  • 3 votes
     answers
     views

    什么时候使用train_test_split的scikit学习

    我有一个有19个功能的数据集 . 现在我需要做缺失值插补,然后使用scikit的OneHOtEncoder对分类变量进行编码,然后运行机器学习算法 . 我的问题是我应该在使用scikit的train_test_split方法完成上述所有操作之前拆分此数据集,还是首先应该拆分为train和test,然后对每组数据进行拆分,并进行缺失值和编码 . 我担心的是,如果我首先拆分,然后对得到的两个集进行缺失...
  • 11 votes
     answers
     views

    基于列的sklearn分层抽样

    我有一个包含亚马逊评论数据的相当大的CSV文件,我将其读入大熊猫数据框 . 我想将数据分成80-20(训练测试),但在这样做时我想确保分割数据按比例代表一列(类别)的值,即所有不同类别的评论都存在于列车中并按比例测试数据 . 数据如下所示: **ReviewerID** **ReviewText** **Categories** **ProductId** ...
  • 0 votes
     answers
     views

    Pandas to_csv导出在数据帧中给出错误的值

    我正在使用熊猫,并已导入两个csv . df1是 df2是 df2的数据类型是 当我在df1和df2上做一些操作时: df3= pd.merge(df1, df2, how='left', on=['Origin City Code', 'DC']) 然后将其导出到csv df3.to_csv("test.CSV") 那么“Volume”栏下所有值的总和与原始df2列...
  • 2 votes
     answers
     views

    Spark DataFrame如何处理大于内存的Pandas DataFrame

    我现在正在学习Spark,它似乎是Pandas Dataframe的大数据解决方案,但我有这个问题让我不确定 . 目前我使用HDF5存储大于内存的Pandas数据帧 . HDF5是一个很棒的工具,它允许我对pandas数据帧进行分块 . 因此,当我需要对大型Pandas数据帧进行处理时,我将以块的形式进行处理 . 但是Pandas不支持分布式处理,而HDF5仅适用于单个PC环境 . 使用Spar...
  • 5 votes
     answers
     views

    Python scipy - 指定自定义离散分布

    我使用scipy.stats的各种连续分布(例如norm) . 所以如果我想找到P(Z <0.5),我会这样做: from scipy.stats import norm norm(0, 1).cdf(0.5) # Z~N(0,1) 是否有工具(scipy.stats或statsmodels或其他)可用于描述离散分布,然后计算CDF / CMF等?我可以自己编写代码,但我想知道是否存在某...
  • 11 votes
     answers
     views

    从Oracle读取包含数百万行的大表并写入HDF5

    我正在使用具有数百万行和100列的Oracle数据库 . 我试图使用带有索引的某些列的pytables将这些数据存储在HDF5文件中 . 我将在pandas DataFrame中读取这些数据的子集并执行计算 . 我尝试过以下方法: 下载表,使用实用程序到csv文件中,使用pandas通过chunk读取csv文件块,并使用 pandas.HDFStore 附加到HDF5表 . 我创建了一个dtype...
  • 2 votes
     answers
     views

    如何确保大型HDF5中的唯一行

    我正在努力在HDF5表中实现一组相对较大(5,000,000且不断增长)的时间序列数据 . 我需要一种方法来每天删除重复数据,每天一次“运行” . 由于我的数据检索过程目前存在,因此在数据检索过程中写入重复项要比确保没有重复项更容易 . 从pytable中删除重复的最佳方法是什么?我的所有阅读都指向我将整个表导入到pandas中,并获得一个唯一值的数据框,并通过在每次运行数据时重新创建表来将其写回...
  • 2 votes
     answers
     views

    Pandas,包含不同数字列的大文件,在内存中附加

    我想在hdf5文件中维护一个大的PyTable . 通常,当新数据出现时,我会附加到现有表: store = pd.HDFStore(path_to_dataset, 'a') store.append("data", newdata) store.close() 但是,如果旧存储数据的列和传入的新数据的列部分仅重叠,则返回以下错误: Exception: c...
  • 11 votes
     answers
     views

    Julia Dataframes与Python大熊猫

    我目前正在使用python pandas 并想知道是否有办法将数据从pandas输出到julia Dataframes ,反之亦然 . (我想你可以用 Pycall 从Julia调用python,但我不确定它是否适用于数据帧)有没有办法从python调用Julia并让它接收 panda 的数据帧? (不保存为像csv这样的其他文件格式) 除了非常大的数据集和运行具有许多循环(如神经网络)的东...
  • 10 votes
     answers
     views

    Pandas to_csv()减慢了保存大型数据帧的速度

    我遇到了一个问题,即使用 to_csv() 函数将pandas数据帧保存到csv文件需要将近一个小时的时间 . 我正在使用带有pandas(0.19.1)的anaconda python 2.7.12 . import os import glob import pandas as pd src_files = glob.glob(os.path.join('/my/path', "*...
  • 2 votes
     answers
     views

    如何从熊猫中读取HDF表?

    我有一个 my_file.h5 文件,据推测,它包含HDF5格式的数据(PyTables) . 我尝试使用pandas读取此文件: import pandas as pd store = pd.HDFStore('my_file.h5') 然后我尝试使用 store 对象: print store 结果我得到: Traceback (most recent call last): File...
  • 0 votes
     answers
     views

    内存使用情况阅读熊猫数据帧

    我甚至从txt或HDF5格式读取文件到pandas中的数据帧时遇到一些问题,因为存储为txt并使用read_table读取的大约200 mb字符串的txt文件导致大约600 Mb的内存消耗 . 如果我将数据帧附加到HDFStore,那么该文件也大约为200 MB . 这是我如何阅读文件 datatypes=[('FIELD1','S13'),('FIELD2','S3'),('FIELD3','S...
  • 5 votes
     answers
     views

    使用pytables或pandas删除表或节点后释放hdf5磁盘内存

    我正在使用带有pandas / pytables的HDFStore . 删除表或对象后,hdf5文件大小不受影响 . 当将额外的对象添加到存储中时,似乎此空间会被重用,但如果浪费大的空间则可能会出现问题 . 我没有在pandas或pytables API中找到任何可能用于恢复hdf5内存的命令 . 您知道在hdf5文件中改进数据管理的任何机制吗?
  • 3 votes
     answers
     views

    写入hdf时的Pandas / Pytable内存开销

    我使用pandas和hdf5文件来处理大量数据(例如10GB甚至更多) . 我想使用表格格式,以便在阅读时能够有效地查询数据 . 但是,当我想将数据写入hdf存储(使用DataFrame.to_hdf())时,它会产生巨大的内存开销 . 请考虑以下示例: import pandas as pd import numpy as np from random import sample nrows ...
  • 2 votes
     answers
     views

    阅读Pandas HDFStore时出错(使用PyTables)

    我有一个pandas HDFStore对象(pandas使用PyTables实现HDF5,如果这是相关的)与 mydata DataFrame( store["mydata"] = mydata ),并有一些代码定期将数据附加到 mydata DataFrame . 当我尝试访问该HDFStore时,我收到此错误 . //anaconda/lib/python2.7/sit...
  • 0 votes
     answers
     views

    是否有Pandas DataFrame实现从HDF5文件中的表中加载延迟记录?

    我正在尝试将数百万现有的HDF5文件转换为Parquet格式 . 问题是输入和输出都不能适合内存,所以我需要以块的形式处理输入数据(HDF5文件中的表)的方法,并且在某种程度上让Pandas DataFrame在从fastparquet write function读取时懒洋洋地加载这些块 . Pandas read_hdf()和HDF5Store的select确实将chunksize作为参数,但...
  • 1 votes
     answers
     views

    将一组非线性方程组解为一个数组

    我正在尝试解决两个方程的交集: y=Rx^1.75 和 y=ax^2+bx+c 用于我的数据帧中的所有行(大约100K行) . R,a,b,c 的每个值对于每一行是不同的 . 我可以通过遍历数据帧并为每一行调用 fsolve() 逐个解决它们(如下所示),但我想知道是否有更好的方法来执行此操作 . My question is :是否可以将其转换为数组计算,即一次解决所有行?关于如何更快地完成...
  • 3 votes
     answers
     views

    mac上的“SSL:CERTIFICATE_VERIFY_FAILED”错误

    我本来想解决[SSL:CERTIFICATE_VERIFY_FAILED]问题,因为我使用mac和python 3,很多人说我应该运行/ Applications / Python \ 3.6 / Install \ Certificates.command 但在我运行certificates.command后,我似乎没有工作,终端告诉我很多错误 并且[SSL:CERTIFICATE_VERIFY...
  • 48 votes
     answers
     views

    用pandas DataFrame中的逗号将数字字符串转换为float

    我有一个DataFrame包含数字作为字符串与数千标记的逗号 . 我需要将它们转换为浮点数 . a = [['1,200', '4,200'], ['7,000', '-0.03'], [ '5', '0']] df=pandas.DataFrame(a) 我猜我需要使用locale.atof . 确实 df[0].apply(locale.atof) 按预期工作 . 我得到了一系列花车 . ...
  • 0 votes
     answers
     views

    在python中什么格式是dtype(S3)?

    在matplotlib散点图中为size参数指定pandas dataframe列时出现以下错误: “根据规则'safe',无法将数组数据从dtype('S3')转换为dtype('float64')” 有问题的列是float64 . 我之前从未听说过dtype('S3') .

热门问题