首页 文章
  • 0 votes
     answers
     views

    为什么MapReduce Job没有完全加载附加文件?

    我有一个将数据流传输到HDFS接收器(附加到同一文件)的水槽,我可以“猫”并从HDFS中看到它 . 但是,MapReduce作业仅获取已刷新的第一批(bacthSize = 100) . 其余的都没有被拿起来,虽然我可以看看剩下的 . 当文件滚动(关闭)后执行MapRecue作业时,它会拾取所有数据 . 你知道为什么MR工作无法找到批次的其余部分,即使它存在 .
  • 1 votes
     answers
     views

    将数据加载到Hadoop中

    我试图找出这两个问题的正确答案,这两个问题都涉及将数据加载到我在网上找到的Hadoop,作为我研究Hadoop开发的材料和案例研究的一部分 . 第一个问题是: You have user profile records in your OLPT database, that you want to join with web logs you have already ingested into ...
  • 1 votes
     answers
     views

    提交jar时Scala-Spark NullPointerError,而不是shell

    我的火花作业引发了一个我无法追查的空指针异常 . 当我打印潜在的空变量时,它们都填充在每个工作者身上 . 我的数据不包含空值,因为同一作业在spark shell中有效 . 下面是作业的执行功能,然后是错误消息 . 函数中未定义的所有辅助方法都是在spark作业对象的主体内定义的,所以我认为闭包不是问题所在 . override def execute(sc:SparkContext) = { ...
  • 1 votes
     answers
     views

    集群中MapReduce和Spark作业的资源分配

    我无法理解为Map Reduce和Spark作业分配资源的内部机制 . 在同一个集群中,我们可以运行Map Reduce和Spark作业,但是对于运行map reduce作业,内部资源管理器会将可用资源(如数据节点和任务跟踪器)分配给作业 . 在内部工作我需要的'N'数量的映射器和减速器 . 当涉及Spark上下文时,它需要工作节点和执行程序(内部JVM)来计算程序 . 这是否意味着Map Red...
  • 0 votes
     answers
     views

    hadoop mapreduce工作卡在 Map 上0%减少0%

    按照单节点集群上hadoop设置的文档,我安装了hadoop,然后当我尝试运行其中一个示例时,这个过程似乎陷入了 Map 0%在 running 状态下减少0% . 我的系统规格是1TB物理内存,8GB RAM,4核 . mapred-site.xml 是: <property> <name>yarn.nodemanager.resource.memory-mb</...
  • 0 votes
     answers
     views

    mapreduce job:在调用reducer时不调用Mapper

    我有四个类,MapperOne,ReducerOne,MapperTwo,ReducerTwo . 我想要一个链 . MapperOne - > ReducerOne - >输出文件生成,输入到MapperTwo - > MapperTwo - > ReducerTwo - >最终输出文件 . 我的驾驶员课程代码: public class StockDr...
  • 0 votes
     answers
     views

    MapReduce错误类型不匹配:我正在尝试编写一个程序来查找最大值 . 从CSV文件,但我得到密钥不匹配

    程序从CSV文件中存在的数十亿个数字中找到最大值 . package org.devender; import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.ap...
  • 6 votes
     answers
     views

    使用java 5的0.20.2 API hadoop版本

    我已经开始尝试在java 1.5.0_14中实现MapReduce算法的maven项目 . 我选择了0.20.2 API hadoop版本 . 在pom.xml中,我正在使用以下依赖项: <依赖> < groupId>org.apache.hadoop< /groupId> < artifactId>hadoop-core< /ar...
  • 0 votes
     answers
     views

    maven上最新版本的mapreduce libs

    我使用默认的maven archtype在eclipse中创建了一个简单的java项目 . 然后我添加了junit和hadoop-core依赖项 . maven上最新版本的hadoop-core是 - group id: org.apache.hadoop artifact id: hadoop-core version: 1.2.1 看起来像这是在2013年7月发布 . 信息 - http...
  • 1 votes
     answers
     views

    用于hadoop mapreduce的 jar

    我正在关注Apache给出的this hadoop mapreduce tutorial . 那里给出的Java代码使用这些Apache-hadoop类: import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; im...
  • 0 votes
     answers
     views

    MapReduce的Hadoop Maven依赖项

    我试图在单节点集群中编写mapreduce程序(hadoop 2.4) . 我在maven中央存储库中找到了hadoop的maven依赖项 . http://mvnrepository.com/artifact/org.apache.hadoop 哪个所有这些依赖项都是必要的(包括在pom.xml中)来编写map-reduce程序? 谢谢 !
  • 0 votes
     answers
     views

    使用CqlStorageHandler进行Hive和Cassandra集成

    我引用了这个git项目,用于使用hive table集成cassandra数据 . 我将相应的cassandra jar复制到hive lib文件夹中 . 但是在对cassandra运行查询时,我收到以下错误 . 请帮我解决 . https://github.com/milliondreams/hive/tree/cas-support-cql/cassandra-handler hive>...
  • 25 votes
     answers
     views

    大型机器学习[关闭]

    我需要在一个大数据集(10-100亿条记录)上运行各种机器学习技术 . 问题主要是文本挖掘/信息提取,包括各种内核技术但不限于它们(我们使用一些贝叶斯方法,自举,渐变提升,回归树 - 许多不同的问题和解决方法) 什么是最好的实施?我在ML方面经验丰富,但是对于大型数据集没有多少经验 . 是否有任何可扩展和可定制的机器学习库利用MapReduce基础设施强烈偏好c,但Java和python都可以使用...
  • 3 votes
     answers
     views

    Spark on yarn jar上传问题

    我正在尝试使用spark over yarn运行一个简单的Map / Reduce java程序(CentOS上的Cloudera Hadoop 5.2) . 我试过这2种不同的方式 . 第一种方式如下: YARN_CONF_DIR=/usr/lib/hadoop-yarn/etc/hadoop/; /var/tmp/spark/spark-1.4.0-bin-hadoop2.4/bin/spa...
  • 0 votes
     answers
     views

    Google Cloud 端平台上的预定mapreduce工作

    我正在开发一个基本上 stores user event logs in a database and shows insights about user action 的node.js应用程序 . 要实现此事件,必须使用 Mapreduce 作业进行分析,该作业将运行 once a day automatically (每晚) . 我完全迷失了,因为有几种技术,如果不使用命令行就找不到办法,也没...
  • 70 votes
     answers
     views

    集成测试Hive作业

    我正在尝试使用Hive Thrift和JDBC接口编写一个非平凡的Hive作业,而我在设置一个像样的JUnit测试时遇到了麻烦 . 非平凡,我的意思是这项工作至少会产生一个MapReduce阶段,而不是只处理Metastore . 测试应该启动一个Hive服务器,将一些数据加载到一个表中,在该表上运行一些非平凡的查询,并检查结果 . 我根据Spring reference连接了一个Spring上下...
  • 12 votes
     answers
     views

    Python中的分布式单元测试和代码覆盖

    我目前的项目的单元测试的代码覆盖率为100% . 我们的持续集成服务不允许开发人员在没有100%覆盖的情况下推送代码 . 随着项目的不断发展,有足够的时间来运行完整的测试套件 . 虽然开发人员通常会运行与他们正在更改的代码相关的测试子集,但他们通常会在提交到CI之前执行最后一次完整运行,而CI服务器本身也会运行完整的测试套件 . 单元测试本质上是高度可并行化的,因为它们是从测试到测试的独立和无状态...
  • 0 votes
     answers
     views

    Hadoop内存使用情况:减少容器运行超出物理内存限制

    我有简单的映射器和简单的reducer(它是由一个字段连接两个大表): protected void reduce(StringLongCompositeKey key, Iterable<Text> values, Context context) throws IOException, InterruptedException {} foreach...
  • 0 votes
     answers
     views

    在Hadoop-2.6.0中,容器因虚拟内存不足而被杀死

    我正在尝试在hadoop上实现jcuda代码,并且它在本地模式下工作,但是当我在hadoop集群上运行作业时,它给了我一个错误:容器在这里被杀死是特定的错误报告: 16/04/29 10:18:07 INFO mapreduce.Job:任务ID:attempt_1461835313661** r_000009_2,状态:FAILED容器[pid = 19894,containerID = con...
  • 8 votes
     answers
     views

    为什么YARN java堆空间内存错误?

    我想尝试在YARN中设置内存,所以我将尝试在yarn-site.xml和mapred-site.xml上配置一些参数 . 顺便说一句,我使用hadoop 2.6.0 . 但是,当我做mapreduce工作时,我收到一个错误 . 它像这样说: 15/03/12 10:57:23 INFO mapreduce.Job: Task Id : attempt_1426132548565_0001_m_00...
  • 0 votes
     answers
     views

    如何在hadoop YARN多节点集群上配置内存和vcore?

    我想在多节点集群上实现hadoop YARN,所以我想问一下 . 我应该只在master(namenode)上写一下yarn-site.xml和mapred-site.xml中的内存和vcore配置,还是应该在具有相同配置的slave(datanode)上写它? 谢谢....
  • 10 votes
     answers
     views

    如何根据MapReduce2中的vcores和内存创建容器?

    我有一个由1个master(namenode,secondarynamenode,resourcemanager)和2个slave(datanode,nodemanager)组成的小集群 . 我已经设置了master的yarn-site.xml: yarn.scheduler.minimum-allocation-mb :512 yarn.scheduler.maximum-allocat...
  • 3 votes
     answers
     views

    为什么YARN不能要求超过32个核心来运行工作?

    设置: 节点数:3 核心数:每台机器32个核心 RAM:每台机器410GB Spark版本:1.2.0 Hadoop版本:2.4.0(Hortonworks) 目标: I want to run a Spark job with more than 32 executor cores. 问题: 当我为Spark作业请求超过32个执行程序核心时,我收到以下错误: Unca...
  • -1 votes
     answers
     views

    ApplicationMaster - 对于在YARN中运行的不同类型的应用程序,它是否不同?

    我正在努力了解YARN,并了解了 ApplicationMaster 这个术语以及其他术语 . 据我所知,在Hadoop 1.x中只有MR可以运行,但随着需求的增长,YARN被创建为可以运行不同类型的作业,例如MR Job,Spark based jobs等 . 我的问题是: 每种类型的作业(MR,Spark等)都有自己的ApplicationMaster,也就是说,对于MR有一种Applicat...
  • 0 votes
     answers
     views

    C#Map使用“{”减少失败响应状态代码不表示成功:403(禁止) . “}有时401:需要凭据

    在 mscorlib.dll 中发生 System.AggregateException 类型的未处理异常 内部异常: {"Response status code does not indicate success: 403 (Forbidden)."} 有时会得到: {"Response status code does not indicate success:...
  • 1 votes
     answers
     views

    如何解决预期的org.apache.hadoop.io.Text,在mapreduce作业中收到org.apache.hadoop.io.LongWritable

    我正在尝试写一个可以从youtube数据集中分析一些信息的工作 . 我相信我已经在驱动程序类中正确设置了 Map 中的输出键,但我仍然得到上述错误我发布代码和异常这里, Mapper public class YouTubeDataMapper extends Mapper<LongWritable,Text,Text,IntWritable>{ private static fin...
  • 1 votes
     answers
     views

    MongoDB基于_id计算每分钟新文档的数量

    我想创建一个关于每分钟存储多少新文档的统计信息 . 由于具有标准ObjectID的_id字段已经包含文档创建的时间戳,我认为应该可以以某种方式使用它 . 在Stackoverflow上,我找到了以下映射缩减代码,以便在创建数据的专用字段时完成它 Map-Reduce count number of documents in each minute MongoDB map = function() ...
  • 2 votes
     answers
     views

    在hadoop中运行工作 - 错误

    我正在尝试在hadoop ~ $ Desktop/HadoopProject2016.jar input output 运行一个程序,我一直在 this error : 线程“main”中的异常java.lang.UnsupportedClassVersionError:hadoop_project_16 / AggregateJob:java.lang.ClassLoader.defineC...
  • 1 votes
     answers
     views

    运行map时出错会减少R中的作业

    我刚开始集成RHadoop . 它是与Hadoop集成的R-studio服务器,但是在运行map-reduce作业时遇到错误 . 当我运行下面的代码行 . library(rmr2) a <- to.dfs(seq(from=1, to=500, by=3), output="/user/hduser/num") *b <- mapreduce(input=a, m...
  • 0 votes
     answers
     views

    完成33%后猪 Map 减少工作失败

    我正在apache pig中运行group by子句,它正在创建map reduce工作,它在1/3完成后失败 . 无论如何我可以解决这个问题,因为日志没有给出任何失败的原因 . 我正在寻找以下任何一个 .1.找到确切错误的一些方法(即内存错误,数据类型错误等)2.任何使日志更加冗长以在屏幕上写入更多错误消息的方法 . 2016-04-03 22:59:40,252 [main] INFO or...

热门问题