Java 学习之路

0 votes

answers

views

多元线性回归处理NA

我是统计世界的新手，所以一些简单的建议将被承认...... 我在R中有一个数据框 Ganeeshan Year General OBC SC ST VI VacancySC VacancyGen VacancyOBC Banks Participated VacancyST VacancyHI 1 2016 52.5 52.5 41.75 31.50 ...

r linear-regression data-science
2 votes

answers

views

R和Python中的线性回归 - 在同一问题上的结果不同

我正在训练我在py中学习我的数据技能，这是我在R中学到的 . 虽然，我对一个简单的线性回归有疑问气候变化数据：[link here] Python脚本 import os import pandas as pd import statsmodels.api as sm train = df[df.Year>=2006] X = train[['MEI', 'CO2', 'CH4',...

python r statistics linear-regression data-science
-2 votes

answers

views

如何将我的机器学习模型用作api？

假设我在数据集上创建了机器学习预测模型，我训练了它，得到了一些结果，现在我想用它来预测我从用户那里得到的一些新数据 . 每个人都说要将它部署到AWS，Microsoft Azure等，但我只想将它用于我的研究目的，如何创建我的机器学习模型的简单API？

python api machine-learning scikit-learn data-science
5 votes

answers

views

在Keras中使用sample_weight进行序列标记

我正在研究不 balancer 类的顺序标签问题，我想使用 sample_weight 来解决不 balancer 问题 . 基本上如果我训练模型大约10个时代，我会得到很好的结果 . 如果我训练更多的时代， val_loss 不断下降，但我的结果更糟 . 我猜测模型只是检测到更多的优势类而不利于较小的类 . 该模型有两个输入，用于字嵌入和字符嵌入，输入是从0到6的7个可能类之一 . 使用填充时，...

python deep-learning keras data-science
2 votes

answers

views

在scikit-learn中使用多标记随机森林进行无标签分配的样本

我正在使用Scikit-Learn的RandomForestClassifier来预测多个文档标签 . 每个文档都有50个功能，没有任何文档缺少任何功能，每个文档至少有一个与之关联的标签 . clf = RandomForestClassifier(n_estimators=20).fit(X_train,y_train) preds = clf.predict(X_test) 但是，我注意到，...

machine-learning scikit-learn random-forest data-science multilabel-classification
0 votes

answers

views

Sklearn的模型在Python中使用很少的数据需要花费太多时间

我一直在使用sklearn的模型（SVM，Logistic回归，MLP，......）直到昨天我没有任何问题，但我不知道为什么，目前当我尝试适合模型时，这需要夸大其词多少时间 . 例如，对于具有6个特征的551个样本，尝试使用多项式内核拟合支持向量机并改变参数： C = 1.00度= 1.00 Coef = 0.000 Gamma = 0.25 15.124秒 . C = 1.00度= 1...

python scikit-learn svm data-science bigdata
1 votes

answers

views

基于列数据类型对spark数据帧（在sparklyr中）进行子集化的最佳方法是什么

我正在将一堆列转换为虚拟变量 . 我想从数据框中删除原始分类变量 . 我正在努力弄清楚如何在闪闪发光中做到这一点 . 它在dplyr中很简单，但dplyr功能在sparklyr中不起作用 . 例如：首先创建一个spark数据帧： ###create dummy data to figure out how model matrix formulas work in sparklyr v1 &lt...

r apache-spark machine-learning data-science sparklyr
0 votes

answers

views

如何通过分类器获得前5个主题的精确度？

我有22465个测试文档，我将其分为88个不同的主题 . 我使用predict_proba来获得前5个预测主题 . 那么如何打印这5个主题的精度呢？为了准确，我正在做的事情： model1 = LogisticRegression() model1 = model1.fit(matrix, labels) y_train_pred = model1.predict_log_proba(matr...

python machine-learning scikit-learn data-science
0 votes

answers

views

如何在Scikitlearn Randomforest Model python 3中处理看不见的测试数据

我有一个数据集，其中包含14列和111256行 . 最后一列包含id，将用作目标列（Y） . 使用Train后，测试拆分scikitlearn树分类器实现 . 来自sklearn.ensemble import RandomForestClassifier forest = RandomForestClassifier（n_estimators = 100）forest = forest.fit...

python machine-learning scikit-learn random-forest data-science
2 votes

answers

views

scikit-learn RandomForestClassifier中的特征重要性和森林结构如何相关？

以下是使用Iris数据集的问题的简单示例 . 当我试图理解如何计算特征重要性以及在使用 export_graphviz 可视化估算器的森林时这是如何可见时，我感到困惑 . 这是我的代码： import pandas as pd import numpy as np from sklearn.datasets import load_iris import matplotlib.pyplot as ...

machine-learning scikit-learn random-forest data-science ensemble-learning
2 votes

answers

views

非负矩阵分解中的等级预测

我正在使用矩阵分解来跟踪此博客http://www.quuxlabs.com/blog/2010/09/matrix-factorization-a-simple-tutorial-and-implementation-in-python/（此处附加矩阵）以进行评级预测 . 最初我们有一个稀疏的用户电影矩阵R. 然后，我们应用MF算法以创建新矩阵R'，其是2矩阵P（UxK）和Q（DxK）的乘积 ...

data-science collaborative-filtering matrix-factorization
2 votes

answers

views

计算线性指数Tensorflow

下午好 . 我继续遇到通过索引更新张量流中的随机元素的问题 . 我想随机选择索引（例如，一半），然后设置为零元素对应于那些索引 . 这是有问题的部分： with tf.variable_scope("foo", reuse=True): temp_var = tf.get_variable("W") size_2a = tf.get_vari...

python numpy machine-learning tensorflow data-science
2 votes

answers

views

完全在RAM磁盘上运行Google Compute Engine VM实例

我正在尝试开发一个数据探索环境，用于重复处理“小数据”（10 - 30 GB） . 可靠性和稳定性不是这些轻量级环境的关注点（基本上只包含Jupyter，Julia，Python和R，以及一些软件包） . 相反，我希望最大限度地提高性能，而我正在使用的数据集足够小以适应内存 . 有没有办法可以将Linux映像直接启动到Google Compute Engine上的RAM中，完全绕过SSD？谷...

google-cloud-platform google-compute-engine data-science ramdisk
-1 votes

answers

views

当用户在闪亮的应用程序 - R语言上更改输入时，如何在侧栏面板上添加更改

我希望你的第一个闪亮的应用程序，实际上我想在用户更改选择输入时在侧栏面板上添加一些更改 . 例如，对于我的以下代码：当用户选择choice3时，我想要闪亮的显示4文件输入，使用户能够添加4个文件，当用户选择复杂或super_complex时，默认将是2个文件输入，我怎么能在R中应用它？ Ui.R library(shiny) library(shinythemes) library(read...

r shiny data-science shiny-server shiny-reactivity
0 votes

answers

views

从存储在数据帧列中的多个URL中提取数据

我想从多个URL中提取数据，但URL位于数据框的列中 . 我尝试使用下面的代码进行数据提取，但没有运气 . from urllib.request import urlopen,Request link = data.column1 f = urlopen(link) myfile = f.read() print(myfile) 表明： AttributeError：'Series'对象没有...

python pandas dataframe web-scraping data-science
-1 votes

answers

views

python检测多类不 balancer 或 balancer 数据集

通过pandas计算每个类的值，我可以知道每个类的分布和计数 . 但是，由于我想做一篇研究论文，我希望能够准确地检测出给定数据集的 balancer 或不 balancer . 我怎么能在python中实现这一点？是否有特定的配方？或者我们可以通过计算（我现在的方式）来判断？ P.S . ：我知道我可以从这个领域的论文中查看数据集，但是，我找到了来自Kaggle或UCI的数据集，这些数据集并不那...

python machine-learning data-science
6 votes

answers

views

机器学习的现实世界的例子？ [关闭]

最近我正在由Andrew Ng教授在Coursera学习机器学习课程 . 完成本课程后，我了解了机器学习算法的基础知识，但我有以下问题：我在哪里可以找到真实世界的机器学习用例？工业/ 生产环境机器中使用了哪些工具或框架学习项目？如何在生产环境中使用或部署机器学习模型？如何成为数据科学家？或者接下来我该怎么办？任何建议，书籍，课程或教程链接将受到高度赞赏 .

machine-learning data-science
0 votes

answers

views

Xgboost预测模型缺少假期

我正在 Build 一个预测系统，以预测在给定时间点断开连接的有线电视用户数量 . 我正在使用Python，并且在我尝试的不同模型中，XGBoost表现最佳 . 我有一个自我参照系统，它以移动的窗口方式工作，例如，当我用完实际，我开始使用我的滞后预测数字 . 为了 Build 预测系统，我使用了前800天的滞后（一天断开连接），移动平均线，比率，季节性，年，月，日，周等指标 . 但是，假期，哪里有...

machine-learning regression forecasting data-science xgboost
97 votes

answers

views

我在哪里调用Keras中的BatchNormalization函数？

如果我想在Keras中使用BatchNormalization函数，那么我是否只需要在开头调用它一次？我为它阅读了这个文档：http://keras.io/layers/normalization/ 我不知道我应该把它称之为什么 . 以下是我的代码试图使用它： model = Sequential() keras.layers.normalization.BatchNormalization(e...

python neural-network keras data-science
0 votes

answers

views

使用Vowpal Wabbit的一对一逻辑回归分类器

我正在尝试一对一的逻辑回归，根据使用vowpal wabbit的文本按主题类别对编辑文章进行分类 . 当我尝试使用用于训练的相同数据对新文章进行预测时，我的结果很差，但是我会期望由于过度拟合而产生不切实际的好结果 . 在这种情况下，我实际上想要过度拟合，因为我想验证我正确使用vowpal wabbit . 我的模型正在接受关于这样的示例的训练，其中每个特征是文章中的单词，并且每个标签是类别的标识符...

machine-learning data-science vowpalwabbit
1 votes

answers

views

python pandas循环追加数据帧

我正在尝试创建一个循环来分析时间序列数据，并在单独的pandas数据帧中平均每天“数据” . 现在如果我编制一些假的时间序列数据来获得一个有效的程序： import pandas as pd import numpy as np time = pd.date_range('6/28/2013', periods=2000, freq='5min') data = pd.Series(np.ran...

python pandas loops data-science
0 votes

answers

views

将数据分组为训练和测试数据，保持比率

我有虹膜数据集（可以在这里找到：https://www.kaggle.com/uciml/iris），我应该将其分成测试和训练集 . 但是，我需要拆分它，以便训练和测试集中的类分布与完整数据集中的类分布相同 . 我已经在这个问题中看到了最佳答案：how to split a dataset into training and validation set keeping ratio between...

split dataset data-science python-iris iris-dataset
1 votes

answers

views

未能忽略我的文件列表中的NA

我的目录中有一个文件列表（从1到332） . file1对应于id1，file2对应于id2，依此类推 . 每个文件包含4列，我必须通过忽略NA来计算第2列的总和和长度（标记为“污染物”） . 我已经尝试了一切：！is.na（文件），na.rm = TRUE，省略...当我想要1：100或1:60（从值1到另一个值）的总和和长度时它起作用，但是从70:72开始它不起作用 . 我无法指出问题所在 ...

r data-science
0 votes

answers

views

AWS：从dynamodb到redshift的数据转换[关闭]

我有一个日常的日志表（每天大约10米输入）存储在DynamoDB中 . 为了进行分析，我需要将它转移到Redshift中 . 此外，我需要通过解析字符串（nvarchar（250））从现有列中创建新列 . 我的想法是使用COPY命令并将数据从DynamoDB传输到Redshift，然后使用UDF创建新列 . 这种方法的问题在于它需要花费大量时间来完成（两个部分）并且它一直失败（查询状态为ABORT...

amazon-web-services amazon-dynamodb amazon-redshift data-science
3 votes

answers

views

Python Pandas - 使用前一列的值向前填充整行

熊猫开发的新手 . 如何使用之前看到的列中包含的值转发填充DataFrame？自包含的例子： import pandas as pd import numpy as np O = [1, np.nan, 5, np.nan] H = [5, np.nan, 5, np.nan] L = [1, np.nan, 2, np.nan] C = [5, np.nan, 2, np.nan] times...

python pandas dataframe data-science data-cleaning
2 votes

answers

views

多季节性Python中的时间序列分析

我有一个每日时间序列数据集，我正在使用Python SARIMAX方法来预测未来 . 但我不知道如何在python中编写代码多个季节性的代码 . 据我所知，SARIMAX只负责一个季节性，但我想检查每周，每月和每季度的季节性 . 我知道要捕捉星期几的季节性，我应该创建6个虚拟变量，要捕获每月的季节性，创建30个虚拟变量，并且要捕获一年中的月份，创建11个虚拟变量 . 但我不知道如何将它与Pytho...

python time-series data-science dummy-variable arima
0 votes

answers

views

对相同的数据，不同的测试进行生存分析 - 一个拒绝但另一个没有

在这里's a link to the dataset I'米正在调查：https://github.com/kaizhang/dataset/blob/master/data/survival/leukemia.csv 我想在生存分析中测试维持组与非维持组之间差异的统计学显着性 . 这是Kaplan-Meier图，显示了两组事件发生概率的分布 . 可以清楚地观察到，维持组中的受试者平均存活时间长...

machine-learning statistics data-science
2 votes

answers

views

我应该如何使用Azure机器学习训练我的火车模型（多个或单个）？

我正在研究我的论文（通过让他们学习使交通信号灯系统更有效地工作），在我研究的第一部分，即如何预测未来十五分钟的交通强度，我必须预测交通（汽车）交叉口每条车道的强度 . 上图是一个真实交叉点的草图，有12个不同的车道，其中我有历史强度数据 . 我想通过预测接下来15分钟每条车道的强度来使用回归模型算法 . 我生成的数据集是一个CSV文件，其中包含 Headers 中的所有通道以及Xth-15分钟（...

machine-learning regression prediction data-science azure-machine-learning
1 votes

answers

views

如何在Scikit-learn中使用稀疏矩阵 Build 多项式特征

我正在使用Scikit-learn将我的火车数据转换为多项式特征，然后将其拟合到线性模型中 . model = Pipeline([('poly', PolynomialFeatures(degree=3)), ('linear', LinearRegression(fit_intercept=False))]) model.fit(X, y) 但它会引发错误 Typ...

scikit-learn sparse-matrix data-science polynomials sklearn-pandas
0 votes

answers

views

使用现有的dataframe列pandas创建新的数据帧

我在数据帧中有以下数据结构 . 我想创建一个新的数据帧，以某种方式表示 newDF将有列Year，DF1，DF2，DF3 列应包含W下的数据我做了：pd.concat（[DF1 ['W']，DF2 ['W']，DF3 ['W']]，轴= 1，键= ['DF1'，'DF2'，'DF3'] ）我得到了结果，但不知道如何才能得到年份数据 . DF1 Year Conf W L T...

pandas dataframe data-science

热门问题