-
1 votesanswersviews
Scikit Learn - 随机森林:如何处理连续特征?
Random Forest接受数值数据 . 通常将具有文本数据的特征转换为数字类别,并且连续数字数据按原样馈送而不进行离散化 . RF如何处理连续数据以创建节点?它会在内部存储连续数值数据吗?或将每个数据视为离散级别 . 例如:我想将数据集(在对文本特征进行分类之后)提供给RF . RF如何处理连续数据?在喂食之前,是否建议将连续数据(在这种情况下为经度和纬度)进行离散化?或者这样做的信息丢失... -
1 votesanswersviews
在随机森林回归器中处理缺失的分类特征值的指南
在使用Random Forest Regressor(或任何集成学习者)时,处理缺失的分类特征值的一般准则是什么?我知道scikit learn具有估算缺失值(数值)的函数(如均值...策略或接近度) . 但是,如何处理缺失的分类 Value :像工业(石油,计算机,汽车, None ),专业(学士,硕士,博士, None ) . 任何建议表示赞赏 . -
5 votesanswersviews
Python Scikit随机森林回归错误
我正在尝试从csv加载训练和测试数据,在scikit / sklearn中运行随机森林回归器,然后预测测试文件的输出 . TrainLoanData.csv文件包含5列;第一列是输出,接下来的4列是功能 . TestLoanData.csv包含4列 - 功能 . 当我运行代码时,我收到错误: predicted_probs = ["%f" % x[1] for x in pr... -
38 votesanswersviews
sklearn随机森林可以直接处理分类功能?
假设我有一个分类特征,颜色,它取值 ['red','blue','green','orange'], 我想用它来预测随机森林里的东西 . 如果我对它进行单热编码(即我将其更改为四个虚拟变量),我如何告诉sklearn这四个虚拟变量实际上是一个变量?具体来说,当sklearn随机选择要在不同节点使用的特征时,它应该包括红色,蓝色,绿色和橙色虚拟对象,或者它不应包括任何一个 . 我听说没有办法做到这一... -
4 votesanswersviews
特征重要性结果在R和sklearn随机森林回归中有所不同
我正在研究回归问题,并且一直在使用R randomForest包以及python sklearn random forest regression估算器 . R包可以通过两种不同的方式计算特征重要性分数: 第一个度量是根据置换OOB数据计算的:对于每个树,记录数据的袋外部分的预测误差(分类的错误率,回归的MSE) . 然后在置换每个预测变量之后完成相同的操作 . 然后将两者之间的差异在所有树上进... -
4 votesanswersviews
如何处理Spark中最新的随机森林中的分类功能?
在随机森林的Mllib版本中,有可能使用参数 categoricalFeaturesInfo 指定具有名义特征的列(数值但仍然是分类变量)?ML随机森林是什么?在使用VectorIndexer的用户指南there is an example中,也可以转换向量中的分类要素,但是它写的是"Automatically identify categorical features, and ind... -
1 votesanswersviews
使用具有重要性/ varImp函数的随机森林和因子变量进行特征选择
为了构建分类模型,我试图从数据集中选择最重要的功能 .我的数据包含混合属性(数字和分类) . 我计划在应用Random forest从数据中选择要素后,在R中应用 (importance or varImp) 函数,以提高模型的准确性 . 我的问题是: Can I apply Random forest directly on the data without transformation ste... -
0 votesanswersviews
除了Bag Of Words(TF-IDF)之外,将文本特征转换为数字特征的方法有哪些?
这些天我一直在从事自然语言处理 . 我的目的是根据一些标准对罗马剧本中的多语言句子中的不同单词进行分类 . 因此,我需要一个分类器 . 毫无疑问,有很多 . 但由于我的特征不是数字而是文本,并且大多数分类器如支持向量机(SVM)输入数字特征,我寻找一些方法将我的文本特征转换为数字特征 . 虽然使用术语频率和反文档频率(TF-IDF)的Bag Of Words的概念是用于此目的的通用方法,但我的一个... -
10 votesanswersviews
使用GridSearchCV的随机森林 - param_grid出错
我试图用GridSearchCV创建一个随机森林模型,但我得到一个与param_grid有关的错误:"ValueError: Invalid parameter max_features for estimator Pipeline. Check the list of available parameters with `estimator.get_params().keys()&qu... -
-1 votesanswersviews
随机森林:用于识别特定正确预测记录的R代码
使用简单的示例数据集“iris”,使用“trainData”训练随机森林模型,使用“testData”预测/分类物种 . # 1 - Create a Random Forest Model. iris.rf <- randomForest(Species ~ ., data=trainData) # 2 - Predict using Model and Test data set ... -
2 votesanswersviews
R随机森林无监督
我试图通过在无监督模式下实现随机森林来检测异常值 . 这是我正在使用的数据集: 数据集:https://gist.github.com/k2xl/5cd9a048ae153275f9c7 如果你观察到,有一行有值: XKTVEQAX 570 12980.5 clothing store 数量远远超过其他值,因此我期望在随机林输出中检测到这个数量 . library(randomForest... -
2 votesanswersviews
在再次加载h2o随机森林模型对象后无法对测试数据进行评分
我在 R 中使用 h2o 包来构建随机森林模型 . 我的任务要求我在以后重复评分测试数据,所以我保存随机森林模型对象如下 . save("D:/model_random_forest.RData") 为了对数据进行评分,我稍后在内存中再次加载模型对象,如下所示 load("D:/model_random_forest.RData") 但是当我得分时使用 ... -
1 votesanswersviews
Weka 3.7.11中的随机树用于数值属性的分裂标准是什么?
我正在使用来自Weka 3.7.11的RandomForest,而后者正在装袋Weka的RandomTree . 我的输入属性是数字,输出属性(标签)也是数字 . 在训练RandomTree时,为树的每个节点随机选择K个属性 . 尝试基于这些属性的若干分裂,并选择“最佳”分裂 . Weka如何确定这个(数字)案例中最好的分裂? 对于名义属性,我认为Weka正在使用基于条件熵的informatio... -
4 votesanswersviews
scikit中的分裂者学习决策树
我试图理解scikit learn中决策树分割器的实现 . 但是我已经坚持了它开始找到最佳分割的点 . 需要帮助来理解其中正在发生的算法 . 我需要从第352行(在这个文件[https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/tree/_splitter.pyx)中理解的代码,它基本上构建了决策树的核心 -
3 votesanswersviews
Scikit-learn,随机森林 - 每棵树包含多少个样本?
在scikit-learn的RandomForestClassifier中,没有设置来指定每棵树应该构建多少个样本 . 也就是说,从数据中随机拉出以构建每个树的子集应该有多大 . 我很难找到默认情况下有多少样本scikit-learn pulls . 有人知道吗? -
9 votesanswersviews
使用scikit-learn并行生成随机森林
主要问题:如何在python和scikit-learn中组合不同的randomForests? 我目前正在使用R中的randomForest包来使用弹性贴图reduce生成randomforest对象 . 这是为了解决分类问题 . 由于我的输入数据太大而无法放入一台机器的内存中,因此我将数据采样为较小的数据集并生成包含较小树集的随机林对象 . 然后,我使用修改的组合函数将不同的树组合在一起,以创建... -
1 votesanswersviews
在scikit-learn中实现R随机森林特征重要性得分
我正在尝试为sklearn中的随机森林回归模型实现R的特征重要性评分方法;根据R的文档: 第一个度量是根据置换OOB数据计算的:对于每个树,记录数据的袋外部分的预测误差(分类的错误率,回归的MSE) . 然后在置换每个预测变量之后完成相同的操作 . 然后将两者之间的差异在所有树上进行平均,并通过差异的标准偏差进行归一化 . 如果变量的差异的标准偏差等于0,则不进行除法(但在这种情况下平均值几乎总... -
7 votesanswersviews
scikit-learn(python)中的 balancer 随机森林
我想知道在scikit-learn软件包的最新版本中是否有 balancer 随机森林(BRF)的实现 . BRF用于不 balancer 数据的情况 . 它可以作为普通RF工作,但是对于每次自举迭代,它通过欠采样来 balancer 普遍性类 . 例如,给定两个类N0 = 100,N1 = 30个实例,在每个随机抽样中,它从第一个类中抽取(替换)30个实例,从第二个类抽取相同数量的实例,即它在... -
3 votesanswersviews
如何在Scikit-Learn中的随机森林分类器中设置子样本大小?特别是对于不 balancer 的数据
目前,我正在Sklearn中为我的不 balancer 数据实现RandomForestClassifier . 我不太清楚RF在Sklearn中的工作方式 . 以下是我的担忧如下: 根据文件,似乎没有办法为每个树木学习者设置子样本大小(即小于原始数据大小) . 但实际上,在随机森林算法中,我们需要获得每个树的样本子集和特征子集 . 我不确定我们能通过Sklearn实现这一目标吗?如果有,怎么样... -
0 votesanswersviews
如果使用Scikit-Learn库的RandomForestRegressor我们有多个输出,计算分裂的杂质是如何减少的?
我正在使用scikit-learn库(python 3.x)的RandomForestRegressor类,我知道在决策树中测量分割质量的函数是方差减少(mse) . 鉴于RandomForestRegressor类支持多个输出,我的问题是:在这个特定类中多个输出的情况下,如何计算拆分的质量? 通过读取定义分裂标准的类的源代码,我会说树中分裂的杂质减少被计算为所有输出变量的平均杂质减少 . 因此,... -
1 votesanswersviews
scikit-learn ExtraTreeClassifier和RandomForestClassifier的图表
我试图制作一些图表来说明scikit-learn中RandomForestClassifier和ExtraTreeClassifier之间的区别 . 我想我可能已经弄明白但我不确定 . 以下是我的代码,用于拟合和绘制虹膜数据集: import numpy as np from sklearn.datasets import load_iris from sklearn.externals.six ... -
7 votesanswersviews
使用多个分类器时 - 如何测量整体的性能? [SciKit学习]
我有一个分类问题(预测一个序列是否属于一个类),我决定使用多种分类方法,以帮助过滤掉误报 . (问题出在生物信息学 - 将蛋白质序列分类为神经肽前体序列 . 如果有人感兴趣,and the code used to generate features and to train a single predictor) . 现在,分类器具有大致相似的性能指标(在10倍CV的训练集上具有83-94%的准... -
2 votesanswersviews
神经网络 - 使用不 balancer 的数据集
我正在研究一个带有2个标签的分类问题:0和1.我的训练数据集是一个非常不 balancer 的数据集(考虑到我的问题,测试集也是如此) . 不 balancer 数据集的比例为1000:4,标签“0”比标签“1”多出250倍 . 但是,我有很多训练样本:大约2300万 . 所以我应该为标签'1'获得大约10万个样本 . 考虑到我有大量的训练样本,我没有考虑SVM . 我还读到了随机森林的SMOTE... -
1 votesanswersviews
R中的随机森林(多标签分类)
我对R很新,试图实现随机森林算法 . 我的培训和测试集有60种格式的功能: Train: feature1,feature2 .. feature60,Label Test: FileName,feature1,feature2 ... feature60 火车样本 mov-mov,or-or,push-push,or-mov,sub-sub,mov-or,sub-mov,xor-or,cal... -
3 votesanswersviews
Scikit-学习predict_proba的RandomForestClassifier输出
我有一个数据集,我分成两个用于训练和测试随机森林分类器与scikit学习 . 我有87个 class 和344个样本 . 大多数情况下, predict_proba 的输出是一个三维数组 (87, 344, 2) (它实际上是 (344, 2) 的87个 numpy.ndarray 的 (344, 2) 元素) . 有时,当我选择不同的样本子集进行训练和测试时,我只得到一个二维数组 (87, 34... -
0 votesanswersviews
为什么scikit的RandomForestClassifier在显式设置中学习不确定?
我想知道为什么我使用scikit-learn在Python中创建的RandomForestClassifiers在重复学习同一数据集时会产生不同的结果 . 有人可以向我解释一下吗? 我的代码的相关部分是这样的: from sklearn.ensemble import RandomForestClassifier as RFC RFC(n_estimators=100, max_features=... -
4 votesanswersviews
RF:一个级别的OOB精度高,另一个级别的精度非常低,具有大的不 balancer 性
我是随机森林分类器的新手 . 我用它来分类有两个类的数据集 . - 功能数量为512. - 数据比例为1:4 . 即,75%的数据来自第一类,25%来自第二类 . - 我正在使用500棵树 . 分类器产生的袋外误差为21.52% . 第一类的每类错误(由训练数据的75%表示)为0.0059 . 虽然第二类的分类错误非常高:0.965 . 我正在寻找这种行为的解释,如果你有建议提高第二类的准确... -
2 votesanswersviews
R中随机森林中的二元分类或未知类
有没有办法在随机森林中引入“未知”类别或进行二元分类? 我想将数据提供给随机森林,如果投票百分比超过70%,我只想分类 . 我总共有6个类别,所以我最初做的是创建一个随机森林,并且截止值自动默认为 c(16.6, 16.6, 16.6, 16.6, 16.6, 16.6) . 这是相当低的,所以相反,我想要: 为每个类别(共6个)创建一个随机森林,它使用二进制分类(它属于类别或不属于 - 因... -
0 votesanswersviews
如何将随机森林预测概率转换为单一的分类响应?
我有许多大的随机森林分类模型(每个运行时间约60分钟),用于使用type =“prob”选项预测栅格 . 我很满意光栅输出(每个x类作为光栅堆栈的概率) . 但是,我想要一种简单的方法来将这些概率(具有x层的光栅堆栈,其中x是类的数量)转换为简单的一层分类(即仅获胜者,没有概率) . 这相当于type =“response” . 这是一个简单的例子(不是栅格,但仍然适用): library(ran... -
-1 votesanswersviews
无监督分类:为数据分配类[关闭]
我有一组来自钻孔的数据,它包含每2米不同地质力学特性的信息 . 我正在尝试创建地质力学域,并将每个点分配给不同的域 . 我试图使用随机森林分类,并且不确定如何将proximty矩阵(或randomForest函数的任何结果)与标签相关联 . 到目前为止我的简陋代码如下: dh <- read.csv("gt_1_classification.csv", header = ...