-
18 votesanswersviews
如何从scikit-learn解释决策树
从scikit-learn了解决策树的结果我有两个问题 . 例如,这是我的决策树之一: 我的问题是如何使用树? 第一个问题是:如果样本满足条件,则进入 LEFT 分支(如果存在),否则进入 RIGHT . 在我的情况下,如果样本有X [7]> 63521.3984 . 然后样品将进入绿色框 . 正确? 第二个问题是:当样本到达叶节点时,我怎么知道它属于哪个类别?在这个例子中,我有三个类别要... -
3 votesanswersviews
在决策树中为每个数据点查找相应的叶节点(scikit-learn)
我正在使用python 3.4中的scikit-learn包中的决策树分类器,我想为每个输入数据点获取相应的叶节点id . 例如,我的输入可能如下所示: array([[ 5.1, 3.5, 1.4, 0.2], [ 4.9, 3. , 1.4, 0.2], [ 4.7, 3.2, 1.3, 0.2]]) 我们假设相应的叶节点分别为16,5和45 .... -
2 votesanswersviews
在scikit-learn中获取DecisionTreeRegressor的叶节点处的值分布
默认情况下,scikit-learn DecisionTreeRegressor返回给定叶节点中训练集中所有目标值的均值 . 但是,我有兴趣从我的训练集中找回落入预测叶节点的目标值列表 . 这将允许我量化分布,并计算其他指标,如标准偏差 . 这可能是使用scikit-learn吗? -
1 votesanswersviews
获取叶子节点(随机森林)的决策路径中的所有功能
我只使用2个决策树在虹膜数据集上有一个简单的随机森林分类器的示例代码 . 此代码最好在jupyter笔记本中运行 . # Setup %matplotlib inline import matplotlib.pyplot as plt from sklearn.datasets import load_iris from sklearn.cross_validation import train_... -
6 votesanswersviews
scikit-learn在哪里保存树结构中每个叶节点的决策标签?
我已经使用scikit-learn训练了一个随机的森林模型,现在我想将它的树结构保存在文本文件中,以便我可以在其他地方使用它 . 根据this link,树对象由许多并行数组组成,每个数组都包含有关树的不同节点的一些信息(例如,左子,右子,它检查的特征,......) . 但是,似乎没有关于每个叶节点对应的类标签的信息!在上面的链接中提供的示例中甚至没有提到它 . 有谁知道scikit-learn... -
0 votesanswersviews
Scikit-学习决策路径
我按照以下URL来预测特定样本的决策树中的路径http://scikit-learn.org/stable/auto_examples/tree/plot_unveil_tree_structure.html#给出的代码与示例IRIS数据集一起工作正常 . 我试图进一步调整它以预测一个简单样本的路径,我想用于我使用的数据集与下面的代码 import numpy as np from sklear... -
4 votesanswersviews
有没有办法在决策树的每个叶子下面获取样本?
我使用数据集训练了决策树 . 现在我想看看哪些样本落在树的哪个叶子下面 . 从这里我想要红色圆圈样本 . 我正在使用Python的Sklearn的决策树实现 . -
0 votesanswersviews
决策树的背景是什么?
我想弄清楚决策树背景中发生了什么 . 我理解决策树的分类问题,但我不理解决策树的回归问题 . 使用决策树的回归问题的背景是什么? 例如,在简单数据中, (x1,x2,x3标签,y输出) 3.2,4.7,5.3,13.2 2.1,3.9,6.7,12.7 2.4,3.8,5.5,11.7 2.7,3.9,5.8,12.4 如何绘制决策树?如何确定树的每个节点的规则以及叶节点值是什么? -
7 votesanswersviews
使用rpart在回归树中搜索相应的节点
我对R很新,我遇到了一个非常愚蠢的问题 . 我正在使用 rpart 包校准回归树,以便进行一些分类和一些预测 . 由于R,校准部件易于操作且易于控制 . #the package rpart is needed library(rpart) # Loading of a big data file used for calibration my_data <- read.csv("... -
1 votesanswersviews
构建决策树
在构建决策树时,在每个节点处,我们选择最佳特征,然后选择该特征的最佳分割位置 . 但是,当当前节点/集中的样本的最佳特征的所有值均为0时,我该怎么办?所有样本都被分组到一侧(<= 0分支),并且发生无限循环 . 例如: #left: 1500, #right: 0 然后, #left: 1500, #right: 0 等等... 仅供参考,我遵循以下伪代码 . GrowTree(S) i... -
1 votesanswersviews
决策树二进制分类器快捷方式(排序)
通常,在决策树的每个节点处,我们考虑每个特征的所有特征和所有分裂点 . 我们计算整个节点的熵与潜在左右分支的熵的加权平均值之间的差异,并且选择给出我们最大熵降的特征分裂feature_value作为该特定节点的分裂标准 . 有人可以解释为什么上述过程需要(2 ^ m -2)/ 2在每个节点尝试 for each feature ,其中m是节点上不同feature_values的数量,与 tryin... -
-7 votesanswersviews
在决策树中称量样本
我已经构建了一个决策树,可以对每个样本进行相等加权 . 现在构建一个决策树,它给不同的样本赋予不同的权重 . 我需要做的唯一改变是在计算信息增益之前找到预期的熵 . 我有点困惑如何继续,PLZ解释.... 例如:考虑一个包含p个正节点和n个负节点的节点 . 所以节点熵将是 -p/(p+n)log(p/(p+n)) -n/(p+n)log(n/(p+n)) . 现在,如果发现拆分以某种方式将父节点... -
0 votesanswersviews
决策树分裂
我有以下数据集用于预测团队是否赢得游戏,其中每行对应一个训练示例,每列对应一个特定的特征 . 我希望决策树根据每个列中的每个特征使用拆分来确定最终的回归值: Train= [['0' '0' '1' '-1' '8' '-9'] ['-15' '0' '0' '18' '7' '11'] ['-8' '0' '0' '8' '2' '6'] ... ['11' '0' '2' '-15... -
0 votesanswersviews
u'DecisionTreeClassifier被赋予输入无效的标签列标签,没有指定的类数 . 请参见StringIndexer
#Load the CSV file into a RDD irisData = sc.textFile("/home/infademo/surya/iris.csv") irisData.cache() irisData.count() #Remove the first line (contains headers) dataLin... -
1 votesanswersviews
Weka 3.7.11中的随机树用于数值属性的分裂标准是什么?
我正在使用来自Weka 3.7.11的RandomForest,而后者正在装袋Weka的RandomTree . 我的输入属性是数字,输出属性(标签)也是数字 . 在训练RandomTree时,为树的每个节点随机选择K个属性 . 尝试基于这些属性的若干分裂,并选择“最佳”分裂 . Weka如何确定这个(数字)案例中最好的分裂? 对于名义属性,我认为Weka正在使用基于条件熵的informatio... -
4 votesanswersviews
scikit中的分裂者学习决策树
我试图理解scikit learn中决策树分割器的实现 . 但是我已经坚持了它开始找到最佳分割的点 . 需要帮助来理解其中正在发生的算法 . 我需要从第352行(在这个文件[https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/tree/_splitter.pyx)中理解的代码,它基本上构建了决策树的核心 -
0 votesanswersviews
决策树中的特征重要性,离散化和标准
我正在使用数字功能,我想在sklearn中使用决策树分类器来查找要素重要性 . 因此,如果我选择用于分裂的熵标准,则使用信息增益作为分割数据的杂质的度量 . 我猜,这相当于Fayyad和Irani二元离散化 . 最后,分类器返回一个名为“feature importances”的属性 . 功能重要性 . 功能越高,功能越重要 . 特征的重要性计算为该特征带来的标准的(标准化的)总减少量 . 它也... -
7 votesanswersviews
在python中的scikit-learn决策树中只使用一个属性
我正在使用scikit-learn python模块创建一个决策树,它的工作就像一个魅力 . 我想再做一件事 . 使树仅在属性上拆分一次 . 这背后的原因是因为我非常奇怪的数据集 . 我使用嘈杂的数据集,我对噪音也很感兴趣 . 我的课程结果是二进制的,比如[, - ] . 我有一堆属性,数字大多在(0,1)范围内 . 当scikit-learn创建树时,它会多次分割属性,以使树“更好” . 我知道... -
0 votesanswersviews
为什么我们选择熵增益作为决策树学习的标准而不是降低错误率作为标准?
我一直在关注ML course by Tom Mitchel并且在决策树(DT)学习中,选择 Entropy Gain 作为选择特征/参数 x_i 作为DT自上而下增长中另一个特征的子项的判定标准 . 我们选择DT的目标始终是通过最小化错误率来避免 overfitting ; then why don't we use error rate as a ruling criteria for fe... -
25 votesanswersviews
帮助了解交叉验证和决策树
我一直在阅读决策树和交叉验证,我理解这两个概念 . 但是,我无法理解交叉验证,因为它与决策树有关 . 基本上,交叉验证允许您在数据集相对较小时在培训和测试之间切换,以最大化您的错误估计 . 一个非常简单的算法是这样的: 决定你想要的折叠次数(k) 将数据集细分为k个折叠 使用k-1折叠训练集来构建树 . 使用测试集估计树中错误的统计信息 . 保存结果以供日后使用 重复步骤3... -
1 votesanswersviews
使用fitctree训练具有不 balancer 训练集的更敏感模型
我正在尝试在MATLAB中构建一个用于二进制分类的决策树 . 我为每个实例提供了4个功能 . 正类中有大约25,000个实例,负类中有350,000个实例 . 我已经尝试在分类学习器应用程序和使用fitctree中构建分类器,但两者似乎只是将所有内容都标识为否定类 . 我猜测MATLAB正在构造树以产生最高的“准确度” . 有没有办法将决策树构建为更敏感的模型? (即,而不是“准确性”,我可以使用... -
0 votesanswersviews
Spark的火花决策树
我正在通过以下网站阅读决策树分类部分 . http://spark.apache.org/docs/latest/mllib-decision-tree.html 我在我的笔记本电脑中构建了示例代码并尝试了解它's output. but I couldn' t了解了一下 . 以下是代码,sample_libsvm_data.txt可以在https://github.com/apache/spa... -
4 votesanswersviews
scikit learn - 在决策树中进行特征重要性计算
我试图了解如何计算sci-kit学习中的决策树的特征重要性 . 之前已经问过这个问题,但我无法重现算法提供的结果 . 例如: from StringIO import StringIO from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier from sklearn.tree.e... -
0 votesanswersviews
GradientBoostingTree在scikit-learn中使用软标签进行培训?
我正在重建一篇论文 . 他们训练 Gradient Boosting Regression Trees given the input X and soft targets y_s 以最小的均方误差得到最终输出y . 关于论文,他们使用scitkit-learn包实现了所有基于决策树的方法,没有任何修改 . 这就是我想要做的 . 如果你已经知道解决方案我会很高兴听到,否则这是我的想法:为简化假设我... -
2 votesanswersviews
使用BaggingClassifier时打印决策树和feature_importance
在scikit learn中使用DecisionTreeClassifier时,可以轻松获取决策树和重要功能 . 但是,如果我和装袋功能,例如BaggingClassifier,我无法获得它们 . 由于我们需要使用BaggingClassifier来拟合模型,因此我无法返回与DecisionTreeClassifier相关的结果(打印树(图形),feature_importances_,...) ... -
-1 votesanswersviews
特征与树木森林的重要性
我试图找出我的功能的重要性,并想了解树林如何运作?根据我的理解,它使决策树和条形图显示该特征解释了多少方差,这反过来显示了特征的重要性 . 我还想看看图表末尾的线条是什么意思? 链接到方法:http://scikit-learn.org/stable/auto_examples/ensemble/plot_forest_importances.html#sphx-glr-auto-examples... -
1 votesanswersviews
scikit学习决策树导出graphviz - 决策树中的错误类名
我在决策树中从“scikit learn / decision tree / export graphviz”得到了错误的类名 . 该计划如下: import matplotlib.pyplot as plt import matplotlib.image as img import pydot from sklearn import tree digital_table = [[0, 0], ... -
-1 votesanswersviews
Python scikit-learn:如何将决策树叶转换为虚拟变量?
我正在使用scikit-learn DecisionTreeClassifier来构建决策树 . 假设给定的决策树具有6个叶/终端节点(A,B,C,D,E和F) . 我现在想要分配编码的原始记录,以确定它们属于哪个叶子/终端节点(将其视为特征工程的一种形式) . 我不想直接对记录进行评分,而是将各种树的虚拟变量集合构建到特征工程管道中 . 有谁知道这样做的简单方法? -
27 votesanswersviews
在scikit-learn中可视化决策树
我正在尝试使用Python中的scikit-learn设计一个简单的决策树(我在Windows操作系统上使用Anaconda的Ipython Notebook和Python 2.7.3),并将其可视化如下: from pandas import read_csv, DataFrame from sklearn import tree from os import system data = re... -
4 votesanswersviews
了解export_graphviz的决策树输出
问题设置:我有一个不 balancer 的数据集,其中98%的数据属于A类,2%属于B类 . 我训练了一个DecisionTreeClassifier(来自sklearn),class_weights设置为与以下设置 balancer : dtc_settings = { 'criterion': 'entropy', 'min_samples_split': 100, '...