首页 文章
  • 1 votes
     answers
     views

    使用特定大小的组进行聚类

    是否有任何类型的聚类算法专注于形成特定大小的聚类?这可以被认为是一种分组算法而不是聚类算法 . 基本上,给定n个数据点和特定大小为k的固定组,基于某些分类器找到点到集合的最佳分布,这将有希望最小化给定组中每个点的分类器的距离 . 这个问题似乎与集群问题非常相似,但主要区别在于我们关注特定的集群大小,但不关心集群的数量 .
  • 2 votes
     answers
     views

    群集分配重新映射

    我有来自UCI机器学习库的测试分类数据集,这些数据集已标记 . 我正在剥离标签并使用数据来对一些聚类算法进行基准测试,然后我计划使用外部验证方法 . 我将使用不同的初始配置运行算法,例如50次,然后取平均值 . 对于50次迭代,算法标记具有不同数字的单个群集的数据点 . 因为在每次运行中集群标签都可以更改,因为每次迭代可能会有稍微不同的集群分配,如何以某种方式将每个集群重新映射到一个统一编号 . ...
  • 1 votes
     answers
     views

    属于不同类的点的唯一聚类算法

    我有点(属于图像的特征向量)属于不同的类(我的数据库中有类,这些点分布在它们之间),并且要形成的簇的数量是未知的 . 我正在寻找的是一种聚类算法,它将聚集这些点,使得形成的聚类具有来自每个类的 unique 点 . 通过唯一,我的意思是群集中没有两个点属于同一个类 . 也就是说,如果我有5个类,那么每个集群应该只有5个点;每个来自不同的 class . 在此之后,我想在形成的簇中搜索最密集的簇,...
  • -2 votes
     answers
     views

    3D空间中的球体聚类点

    存在3D空间,限制为立方体,边缘= 2000 . 坐标系的中心是点(0; 0; 0),因此最大/最小坐标值为1000 / -1000 . 在位于立方体中的K球内部产生了10000个离散均匀分布的点 . 每个球体的半径(R)为250 . 球体中心位于不小于2 * R的距离 . 需要确定哪个点与哪个球体相关 . 输入:10000个结构的数组,如: struct Point { ...
  • 1 votes
     answers
     views

    以离散属性值为条件对观察进行分组

    每个观察我有3个离散属性 . 如果对于2个观察值,这些属性中至少有2个采用相同的值,那么我想将它们组合在一起(实际上总是最多2个属性是相同的) . 我的想法是 Build 一个分组矩阵 . 每行和每列代表一个观察 . 行和列的交叉表示两个观测值的"similarity",如果至少两个属性值相同,则应采用值 TRUE ,否则为 FALSE . 这是我所做的可重复的示例( a ,...
  • 2 votes
     answers
     views

    如何识别每个群集中的序列?

    使用作为 TraMineR 的一部分的生物燃料数据集: library(TraMineR) data(biofam) lab <- c("P","L","M","LM","C","LC","LMC","D") biofam.seq &...
  • 26 votes
     answers
     views

    重新排序矩阵元素以反映naiive python中的列和行聚类

    我正在寻找一种在矩阵行上分别执行聚类的方法,而不是在其列上,重新排序矩阵中的数据以反映聚类并将它们放在一起 . 聚类问题很容易解决,树形图创建也是如此(例如在this blog或"Programming collective intelligence"中) . 但是,如何重新排序数据仍然不清楚 . 最后,我正在寻找一种使用朴素Python创建类似于下图的方法(使用任何&quot...
  • 4 votes
     answers
     views

    模糊分组,对相似词进行分组

    这个问题在此之前被问到过 What is a good strategy to group similar words? 但没有明确的答案如何“分组”项目 . 基于difflib的解决方案基本上是搜索,对于给定项目,difflib可以从列表中返回最相似的单词 . 但是如何将它用于分组呢? 我想减少 ['ape', 'appel', 'apple', 'peach', 'puppy'] 至 ['a...
  • 7 votes
     answers
     views

    将单词聚类成组

    这是一个家庭作业问题 . 我有一个充满文字的巨大文件 . 我的挑战是将这些单词分类为充分代表单词的不同组/群 . 我处理它的策略是使用K-Means算法,如您所知,采用以下步骤 . 为整个组生成k随机方法 通过将每个单词与最近的平均值相关联来创建K个群集 计算每个集群的质心,这成为新的意思 重复步骤2和步骤3,直到达到某个基准/收敛 . 从理论上讲,我有点得到它,但并不完全 ....
  • 11 votes
     answers
     views

    在python中通过它们的接近度聚类值(机器学习?)[重复]

    这个问题在这里已有答案: Cluster one-dimensional data optimally? [closed] 3个答案 1D Number Array Clustering [duplicate] 2个答案 我有一个在一组对象上运行的算法 . 该算法产生一个得分值,用于指示集合中元素之间的差异 . 排序后的输出是这样的: [1,1,5,6,1,5,10,22,23,23,...
  • 13 votes
     answers
     views

    新闻文章的集群

    我的场景非常简单:我有一堆新闻文章(目前约为1k),我知道有些文章涉及相同的故事/主题 . 我现在想根据共享的故事/主题对这些文章进行分组,即基于它们的相似性 . 到目前为止,我所做的是应用基本的NLP技术,包括删除词和删除词 . 我还计算了每篇文章的tf-idf向量,并且还可以基于这些tf-idf向量计算例如余弦相似度 . 但现在随着文章的分组我有点挣扎 . 我看到两种主要方式 - 可能是相关的...
  • 396 votes
     answers
     views

    R中的聚类分析:确定最佳聚类数

    作为R的新手,我不太确定如何选择最佳数量的聚类来进行k均值分析 . 绘制下面数据的子集后,适合多少个群集?如何进行聚类dendro分析? n = 1000 kk = 10 x1 = runif(kk) y1 = runif(kk) z1 = runif(kk) x4 = sample(x1,length(x1)) y4 = sample(y1,length(y1)) randOb...
  • 2 votes
     answers
     views

    Python中的层次聚类凸壳

    我正在使用层次聚类来尝试可视化已被展平为二维的大量数据 . 我想要做的是创建一个可视化,允许我通过将簇作为其组成点的凸包来查看层次结构中不同高度的数据 . 这个问题中最棘手的部分是我需要一种能够在向上移动层次结构时有效地合并对簇的凸包的算法 . 我已经看到很多用于计算O(n log n)时间点的凸包的算法,但在这种情况下似乎更有效地利用问题的子结构,但我是不确定如何 . Edit: 有关更多信息,...
  • 3 votes
     answers
     views

    在Matlab中标记自组织 Map 的情节图(已编辑)

    我想标记神经网络工具箱中找到的虹膜数据集的plothitmap plotsomhits(net,inputs) . 我该怎么做我希望类标签叠加在plothitmap上 . 任何想法?它看起来像这样: 有可能吗?谢谢 .
  • 3 votes
     answers
     views

    聚类计数值

    我有一个表,其中包含每个组内每个变量的计数 . Age var1 var2 var3 var4 10 0 200 0 100 20 180 500 200 300 30 0 80 0 60 40 150 10 90 20 我正在尝试使用R创建热图 . 在热图的结果中,列的顺序与它们在数据中的顺序相同 . 我需要安排/聚集这些列,使具有相似值...
  • 1 votes
     answers
     views

    R- R中的连续K均值聚类操作

    假设我们在10个葡萄酒样本(行)上有一个包含5个化学测量值(例如,var1,var2,var3,var4,var5)的10x5数据集 . 我们希望使用k均值聚类基于化学测量对葡萄酒样品进行聚类 . 这样做很容易 . 但是,我想进行连续聚类,首先使用单个化学测量对葡萄酒样品进行聚类,然后使用var1,var2,var3,var4和var5(所有一元,二元,三元,四元和所有组合)的所有组合执行聚类操作...
  • 1 votes
     answers
     views

    在poLCA R包中找到最佳的LCA模型

    我正在使用PoLCA R软件包进行LCA分析,但分析结果自三天后才开始(它还没有找到最好的模型),偶尔会出现以下错误:“警告:迭代完成,最大可能没有找到” . 所以我在35个潜班上取消了这个过程 . 我正在分析16个变量(所有这些变量都是分类的)和36036行数据 . 当我在Boruta软件包中测试16个变量的变量重要性时,所有16个变量都很重要,因此我在使用poLCA的LCA分析中使用了所有16...
  • 0 votes
     answers
     views

    igraph无效顶点Id

    我正在尝试使用以下代码运行igraph的快速贪婪社区检测算法: G = Graph() L = [] V = [] for row in cr: try: l = [] source = int((row[0]).strip()) target = int((row[1]).strip()) weight = int((r...
  • 1 votes
     answers
     views

    R中的Louvain社区检测使用igraph - 边缘和顶点格式

    我有一个得分的相关矩阵,我想在igraph中使用Louvain方法进行社区检测,在R.我使用 cor2dist 将相关矩阵转换为距离矩阵,如下所示: distancematrix <- cor2dist(correlationmatrix) 这给出了距离0-2的400 x 400矩阵 . 然后我使用以下方法从http://kateto.net/networks-r-igraph(第3.1节)...
  • 4 votes
     answers
     views

    R中的聚类和热图

    我是R的新手,我正在尝试在数据表上进行一些聚类,其中行表示单个对象,列表示已为这些对象测量的特征 . 我已经完成了一些聚类教程,但我得到了一些输出,但是,我在聚类后获得的热图与根据同一数据表与另一个程序生成的热图完全不对应 . 虽然该程序的热图确实表明了对象之间标记表达的明显差异,但我的热图并没有显示出太大的差异,我无法识别热图上的任何聚类(即颜色)图案,它似乎只是一个随机混乱的集合颜色彼此接近(...
  • 1 votes
     answers
     views

    热图,多种变量类型,R中的缩放

    基本上我想知道我是否可以生成热图,其中色标基于每列中的值范围 . 该解决方案不一定必须进行任何聚类或产生树状图 . 我有一个包含各种不同类型变量的数据框 . 有些是连续的,有些则是虚拟变量,或者是序数 . 我知道我需要将数据作为数字传递给任何群集函数,并且daisy()函数是这里聚类的最佳选择 . 我想生成一个热图,就像使用heatmap和heatmap.2生成的热图一样,但是缩放会导致可视化中出...
  • -4 votes
     answers
     views

    什么是最小化因变量的st偏差的适当方法(例如聚类?)

    我坚持最小化因变量的st偏差是以天为单位的时差 . 意思是好的,但偏差很可怕 . 通过自变量尝试聚类并注意到非常不同的聚类 . 现在,想知道:1)我如何将这种知识从聚类应用到自变量?事实是它没有包含在初始聚类分析中,因为我知道它依赖于其他分析 . 2)鉴于我知道时差的变量是依赖的,我是否应该使用簇数变量进行聚类,这是我初始聚类分析的结果?这会有帮助吗? 3)除了聚类之外是否有任何其他技术可以帮助...
  • 4 votes
     answers
     views

    使用树状图和样品标签绘制热图

    使用 made4 的 heatmap 函数,我从示例文件中创建了这个热图树形图: data(khan) heatplot(khan$train[1:30,], lowcol="blue", highcol="red") 如何在热图的边缘为样本添加一组标签,如下图所示? 在这种情况下,标签是与热图第一列和顶行相邻的正方形,用于表示每个样本的标签,以便可以看...
  • 4 votes
     answers
     views

    如何根据定义的组为树形图的标签着色? (在R中)

    我在R中有一个24行和10,000列的数字矩阵 . 该矩阵的行名基本上是文件名,我从中读取了对应于24行中每一行的数据 . 除此之外,我有一个单独的因子列表,包含24个entires,指定24个文件所属的组 . 有3组 - 醇类,碳氢化合物和酯类 . 它们所属的名称和相应组如下所示: > MS.mz [1] "int-354.19" "int-361.35&qu...
  • 1 votes
     answers
     views

    集群文档Lucene

    我想实现一个聚类算法并在Lucene中实现它 . 为此,我需要表示文档的tf-idf术语向量,因此我可以用与表示文档相同的方式表示质心,找到文档和聚类之间的相似性,并通过计算其新特征值来更新质心 . 但是我怎么能在Lucene之上做到这一点? 我甚至可以获得tf-idf吗? 我知道每个文档中的术语频率都会被保存,但这是否意味着我需要为每个术语“手动”计算idf?以及如何使矢量然后使用它们进行聚类 ...
  • 0 votes
     answers
     views

    用于分类和聚类的特征之间的关系

    我是机器学习的新手,我有以下问题 . 假设我已经对某些数据实施了分类算法,并认识到分类算法的最佳特征组合 . 如果有一天我从同一资源中获取数据,而这些资源缺乏先前分类任务中的目标特征,我可以使用最佳功能组合直接分类到聚类任务吗? (我知道我可以使用我训练的模型来预测数据的目标,但我只是想知道分类和聚类算法之间的最佳特征组合是否相同) 我搜索了网站和我认识的任何资源,但我找不到我的问题的答案,有人可...
  • 1 votes
     answers
     views

    给定一个单词列表,如何开发一种语法分组的算法方法?

    我正在使用Google Places API,它们包含97个不同位置的list . 我想将位置列表减少到较少数量的位置,因为其中许多位置是可分组的 . 例如, atm 和 bank 成 financial ; temple , church , mosque , synagogue 成 worship ; school , university 成 education ; subway_st...
  • 3 votes
     answers
     views

    除了Levenshtein之外,对于有序字集和随后的聚类,更好的距离度量

    我试图解决一个问题,包括比较大量的单词集,每个单词集包含一组单词(大约600,非常高维度!)的大量有序数量的单词,用于相似性,然后将它们聚类成不同的分组 . 解决方案需要尽可能无人监督 . 数据看起来像 [Apple,Banana,Orange ......][Apple,Banana,Grape ......][果冻,茴香,橘子......][草莓,香蕉,橙...]...等等 每组中单词的顺序很...
  • 0 votes
     answers
     views

    在数据/群集中查找公共组

    Grouping Data 我有一组项目,我想根据它们通常一起显示的方式进行细分 . 例如,如果我有以下数据: {a:1, b:1, c:0, d:0} {a:1, b:1, c:0, d:0} {a:1, b:1, c:1, d:0} {a:0, b:0, c:1, d:1} 我们可以将a和b组合在一起,因为它们总是具有相同的值 . C和D各自都在他们自己的集群中,因此我们最终得到3个集群,...
  • 0 votes
     answers
     views

    对具有最小尺寸的组中的项目进行最佳分组/聚类

    我正在寻找一种解决以下问题的算法: 给定:一组项目及其相似度矩阵 . 目标:将这些项目分组为最小尺寸m的"clusters" 条件: 数据集中没有类似集群的结构,如Figure 1所示 无论如何,组中的项目应该彼此相似 . 因此,全球相似性将很高 . 动机不是识别好的聚类,而是将数据集分成高相似性和最小尺寸的组 . 在medoids周围进行分区并不是开箱...

热门问题