-
0 votesanswersviews
多元线性回归处理NA
我是统计世界的新手,所以一些简单的建议将被承认...... 我在R中有一个数据框 Ganeeshan Year General OBC SC ST VI VacancySC VacancyGen VacancyOBC Banks Participated VacancyST VacancyHI 1 2016 52.5 52.5 41.75 31.50 ... -
2 votesanswersviews
R和Python中的线性回归 - 在同一问题上的结果不同
我正在训练我在py中学习我的数据技能,这是我在R中学到的 . 虽然,我对一个简单的线性回归有疑问 气候变化数据:[link here] Python脚本 import os import pandas as pd import statsmodels.api as sm train = df[df.Year>=2006] X = train[['MEI', 'CO2', 'CH4',... -
-2 votesanswersviews
如何将我的机器学习模型用作api?
假设我在数据集上创建了机器学习预测模型,我训练了它,得到了一些结果,现在我想用它来预测我从用户那里得到的一些新数据 . 每个人都说要将它部署到AWS,Microsoft Azure等,但我只想将它用于我的研究目的,如何创建我的机器学习模型的简单API? -
5 votesanswersviews
在Keras中使用sample_weight进行序列标记
我正在研究不 balancer 类的顺序标签问题,我想使用 sample_weight 来解决不 balancer 问题 . 基本上如果我训练模型大约10个时代,我会得到很好的结果 . 如果我训练更多的时代, val_loss 不断下降,但我的结果更糟 . 我猜测模型只是检测到更多的优势类而不利于较小的类 . 该模型有两个输入,用于字嵌入和字符嵌入,输入是从0到6的7个可能类之一 . 使用填充时,... -
2 votesanswersviews
在scikit-learn中使用多标记随机森林进行无标签分配的样本
我正在使用Scikit-Learn的RandomForestClassifier来预测多个文档标签 . 每个文档都有50个功能,没有任何文档缺少任何功能,每个文档至少有一个与之关联的标签 . clf = RandomForestClassifier(n_estimators=20).fit(X_train,y_train) preds = clf.predict(X_test) 但是,我注意到,... -
0 votesanswersviews
Sklearn的模型在Python中使用很少的数据需要花费太多时间
我一直在使用sklearn的模型(SVM,Logistic回归,MLP,......)直到昨天我没有任何问题,但我不知道为什么,目前当我尝试适合模型时,这需要夸大其词多少时间 . 例如,对于具有6个特征的551个样本,尝试使用多项式内核拟合支持向量机并改变参数: C = 1.00度= 1.00 Coef = 0.000 Gamma = 0.25 15.124秒 . C = 1.00度= 1... -
1 votesanswersviews
基于列数据类型对spark数据帧(在sparklyr中)进行子集化的最佳方法是什么
我正在将一堆列转换为虚拟变量 . 我想从数据框中删除原始分类变量 . 我正在努力弄清楚如何在闪闪发光中做到这一点 . 它在dplyr中很简单,但dplyr功能在sparklyr中不起作用 . 例如: 首先创建一个spark数据帧: ###create dummy data to figure out how model matrix formulas work in sparklyr v1 <... -
0 votesanswersviews
如何通过分类器获得前5个主题的精确度?
我有22465个测试文档,我将其分为88个不同的主题 . 我使用predict_proba来获得前5个预测主题 . 那么如何打印这5个主题的精度呢? 为了准确,我正在做的事情: model1 = LogisticRegression() model1 = model1.fit(matrix, labels) y_train_pred = model1.predict_log_proba(matr... -
0 votesanswersviews
如何在Scikitlearn Randomforest Model python 3中处理看不见的测试数据
我有一个数据集,其中包含14列和111256行 . 最后一列包含id,将用作目标列(Y) . 使用Train后,测试拆分scikitlearn树分类器实现 . 来自sklearn.ensemble import RandomForestClassifier forest = RandomForestClassifier(n_estimators = 100)forest = forest.fit... -
2 votesanswersviews
scikit-learn RandomForestClassifier中的特征重要性和森林结构如何相关?
以下是使用Iris数据集的问题的简单示例 . 当我试图理解如何计算特征重要性以及在使用 export_graphviz 可视化估算器的森林时这是如何可见时,我感到困惑 . 这是我的代码: import pandas as pd import numpy as np from sklearn.datasets import load_iris import matplotlib.pyplot as ... -
2 votesanswersviews
非负矩阵分解中的等级预测
我正在使用矩阵分解来跟踪此博客http://www.quuxlabs.com/blog/2010/09/matrix-factorization-a-simple-tutorial-and-implementation-in-python/(此处附加矩阵)以进行评级预测 . 最初我们有一个稀疏的用户电影矩阵R. 然后,我们应用MF算法以创建新矩阵R',其是2矩阵P(UxK)和Q(DxK)的乘积 ... -
2 votesanswersviews
计算线性指数Tensorflow
下午好 . 我继续遇到通过索引更新张量流中的随机元素的问题 . 我想随机选择索引(例如,一半),然后设置为零元素对应于那些索引 . 这是有问题的部分: with tf.variable_scope("foo", reuse=True): temp_var = tf.get_variable("W") size_2a = tf.get_vari... -
2 votesanswersviews
完全在RAM磁盘上运行Google Compute Engine VM实例
我正在尝试开发一个数据探索环境,用于重复处理“小数据”(10 - 30 GB) . 可靠性和稳定性不是这些轻量级环境的关注点(基本上只包含Jupyter,Julia,Python和R,以及一些软件包) . 相反,我希望最大限度地提高性能,而我正在使用的数据集足够小以适应内存 . 有没有办法可以将Linux映像直接启动到Google Compute Engine上的RAM中,完全绕过SSD? 谷... -
-1 votesanswersviews
当用户在闪亮的应用程序 - R语言上更改输入时,如何在侧栏面板上添加更改
我希望你的第一个闪亮的应用程序, 实际上我想在用户更改选择输入时在侧栏面板上添加一些更改 . 例如,对于我的以下代码: 当用户选择choice3时,我想要闪亮的显示4文件输入,使用户能够添加4个文件,当用户选择复杂或super_complex时,默认将是2个文件输入, 我怎么能在R中应用它? Ui.R library(shiny) library(shinythemes) library(read... -
0 votesanswersviews
从存储在数据帧列中的多个URL中提取数据
我想从多个URL中提取数据,但URL位于数据框的列中 . 我尝试使用下面的代码进行数据提取,但没有运气 . from urllib.request import urlopen,Request link = data.column1 f = urlopen(link) myfile = f.read() print(myfile) 表明: AttributeError:'Series'对象没有... -
-1 votesanswersviews
python检测多类不 balancer 或 balancer 数据集
通过pandas计算每个类的值,我可以知道每个类的分布和计数 . 但是,由于我想做一篇研究论文,我希望能够准确地检测出给定数据集的 balancer 或不 balancer . 我怎么能在python中实现这一点?是否有特定的配方?或者我们可以通过计算(我现在的方式)来判断? P.S . :我知道我可以从这个领域的论文中查看数据集,但是,我找到了来自Kaggle或UCI的数据集,这些数据集并不那... -
6 votesanswersviews
机器学习的现实世界的例子? [关闭]
最近我正在由Andrew Ng教授在Coursera学习机器学习课程 . 完成本课程后,我了解了机器学习算法的基础知识,但我有以下问题: 我在哪里可以找到真实世界的机器学习用例? 工业/ 生产环境 机器中使用了哪些工具或框架学习项目? 如何在 生产环境 中使用或部署机器学习模型? 如何成为数据科学家?或者接下来我该怎么办? 任何建议,书籍,课程或教程链接将受到高度赞赏 . -
0 votesanswersviews
Xgboost预测模型缺少假期
我正在 Build 一个预测系统,以预测在给定时间点断开连接的有线电视用户数量 . 我正在使用Python,并且在我尝试的不同模型中,XGBoost表现最佳 . 我有一个自我参照系统,它以移动的窗口方式工作,例如,当我用完实际,我开始使用我的滞后预测数字 . 为了 Build 预测系统,我使用了前800天的滞后(一天断开连接),移动平均线,比率,季节性,年,月,日,周等指标 . 但是,假期,哪里有... -
97 votesanswersviews
我在哪里调用Keras中的BatchNormalization函数?
如果我想在Keras中使用BatchNormalization函数,那么我是否只需要在开头调用它一次? 我为它阅读了这个文档:http://keras.io/layers/normalization/ 我不知道我应该把它称之为什么 . 以下是我的代码试图使用它: model = Sequential() keras.layers.normalization.BatchNormalization(e... -
0 votesanswersviews
使用Vowpal Wabbit的一对一逻辑回归分类器
我正在尝试一对一的逻辑回归,根据使用vowpal wabbit的文本按主题类别对编辑文章进行分类 . 当我尝试使用用于训练的相同数据对新文章进行预测时,我的结果很差,但是我会期望由于过度拟合而产生不切实际的好结果 . 在这种情况下,我实际上想要过度拟合,因为我想验证我正确使用vowpal wabbit . 我的模型正在接受关于这样的示例的训练,其中每个特征是文章中的单词,并且每个标签是类别的标识符... -
1 votesanswersviews
python pandas循环追加数据帧
我正在尝试创建一个循环来分析时间序列数据,并在单独的pandas数据帧中平均每天“数据” . 现在如果我编制一些假的时间序列数据来获得一个有效的程序: import pandas as pd import numpy as np time = pd.date_range('6/28/2013', periods=2000, freq='5min') data = pd.Series(np.ran... -
0 votesanswersviews
将数据分组为训练和测试数据,保持比率
我有虹膜数据集(可以在这里找到:https://www.kaggle.com/uciml/iris),我应该将其分成测试和训练集 . 但是,我需要拆分它,以便训练和测试集中的类分布与完整数据集中的类分布相同 . 我已经在这个问题中看到了最佳答案:how to split a dataset into training and validation set keeping ratio between... -
1 votesanswersviews
未能忽略我的文件列表中的NA
我的目录中有一个文件列表(从1到332) . file1对应于id1,file2对应于id2,依此类推 . 每个文件包含4列,我必须通过忽略NA来计算第2列的总和和长度(标记为“污染物”) . 我已经尝试了一切:!is.na(文件),na.rm = TRUE,省略...当我想要1:100或1:60(从值1到另一个值)的总和和长度时它起作用,但是从70:72开始它不起作用 . 我无法指出问题所在 ... -
0 votesanswersviews
AWS:从dynamodb到redshift的数据转换[关闭]
我有一个日常的日志表(每天大约10米输入)存储在DynamoDB中 . 为了进行分析,我需要将它转移到Redshift中 . 此外,我需要通过解析字符串(nvarchar(250))从现有列中创建新列 . 我的想法是使用COPY命令并将数据从DynamoDB传输到Redshift,然后使用UDF创建新列 . 这种方法的问题在于它需要花费大量时间来完成(两个部分)并且它一直失败(查询状态为ABORT... -
3 votesanswersviews
Python Pandas - 使用前一列的值向前填充整行
熊猫开发的新手 . 如何使用之前看到的列中包含的值转发填充DataFrame? 自包含的例子: import pandas as pd import numpy as np O = [1, np.nan, 5, np.nan] H = [5, np.nan, 5, np.nan] L = [1, np.nan, 2, np.nan] C = [5, np.nan, 2, np.nan] times... -
2 votesanswersviews
多季节性Python中的时间序列分析
我有一个每日时间序列数据集,我正在使用Python SARIMAX方法来预测未来 . 但我不知道如何在python中编写代码多个季节性的代码 . 据我所知,SARIMAX只负责一个季节性,但我想检查每周,每月和每季度的季节性 . 我知道要捕捉星期几的季节性,我应该创建6个虚拟变量,要捕获每月的季节性,创建30个虚拟变量,并且要捕获一年中的月份,创建11个虚拟变量 . 但我不知道如何将它与Pytho... -
0 votesanswersviews
对相同的数据,不同的测试进行生存分析 - 一个拒绝但另一个没有
在这里's a link to the dataset I'米正在调查:https://github.com/kaizhang/dataset/blob/master/data/survival/leukemia.csv 我想在生存分析中测试维持组与非维持组之间差异的统计学显着性 . 这是Kaplan-Meier图,显示了两组事件发生概率的分布 . 可以清楚地观察到,维持组中的受试者平均存活时间长... -
2 votesanswersviews
我应该如何使用Azure机器学习训练我的火车模型(多个或单个)?
我正在研究我的论文(通过让他们学习使交通信号灯系统更有效地工作),在我研究的第一部分,即如何预测未来十五分钟的交通强度,我必须预测交通(汽车)交叉口每条车道的强度 . 上图是一个真实交叉点的草图,有12个不同的车道,其中我有历史强度数据 . 我想通过预测接下来15分钟每条车道的强度来使用回归模型算法 . 我生成的数据集是一个CSV文件,其中包含 Headers 中的所有通道以及Xth-15分钟(... -
1 votesanswersviews
如何在Scikit-learn中使用稀疏矩阵 Build 多项式特征
我正在使用Scikit-learn将我的火车数据转换为多项式特征,然后将其拟合到线性模型中 . model = Pipeline([('poly', PolynomialFeatures(degree=3)), ('linear', LinearRegression(fit_intercept=False))]) model.fit(X, y) 但它会引发错误 Typ... -
0 votesanswersviews
使用现有的dataframe列pandas创建新的数据帧
我在数据帧中有以下数据结构 . 我想创建一个新的数据帧,以某种方式表示 newDF将有列Year,DF1,DF2,DF3 列应包含W下的数据 我做了:pd.concat([DF1 ['W'],DF2 ['W'],DF3 ['W']],轴= 1,键= ['DF1','DF2','DF3'] ) 我得到了结果,但不知道如何才能得到年份数据 . DF1 Year Conf W L T...