Java 学习之路

0 votes

answers

views

为什么MapReduce Job没有完全加载附加文件？

我有一个将数据流传输到HDFS接收器（附加到同一文件）的水槽，我可以“猫”并从HDFS中看到它 . 但是，MapReduce作业仅获取已刷新的第一批（bacthSize = 100） . 其余的都没有被拿起来，虽然我可以看看剩下的 . 当文件滚动（关闭）后执行MapRecue作业时，它会拾取所有数据 . 你知道为什么MR工作无法找到批次的其余部分，即使它存在 .

hadoop mapreduce flume flume-ng
1 votes

answers

views

将数据加载到Hadoop中

我试图找出这两个问题的正确答案，这两个问题都涉及将数据加载到我在网上找到的Hadoop，作为我研究Hadoop开发的材料和案例研究的一部分 . 第一个问题是： You have user profile records in your OLPT database, that you want to join with web logs you have already ingested into ...

hadoop mapreduce apache-pig sqoop flume
1 votes

answers

views

提交jar时Scala-Spark NullPointerError，而不是shell

我的火花作业引发了一个我无法追查的空指针异常 . 当我打印潜在的空变量时，它们都填充在每个工作者身上 . 我的数据不包含空值，因为同一作业在spark shell中有效 . 下面是作业的执行功能，然后是错误消息 . 函数中未定义的所有辅助方法都是在spark作业对象的主体内定义的，所以我认为闭包不是问题所在 . override def execute(sc:SparkContext) = { ...

scala apache-spark mapreduce
1 votes

answers

views

集群中MapReduce和Spark作业的资源分配

我无法理解为Map Reduce和Spark作业分配资源的内部机制 . 在同一个集群中，我们可以运行Map Reduce和Spark作业，但是对于运行map reduce作业，内部资源管理器会将可用资源（如数据节点和任务跟踪器）分配给作业 . 在内部工作我需要的'N'数量的映射器和减速器 . 当涉及Spark上下文时，它需要工作节点和执行程序（内部JVM）来计算程序 . 这是否意味着Map Red...

hadoop apache-spark mapreduce yarn
0 votes

answers

views

hadoop mapreduce工作卡在 Map 上0％减少0％

按照单节点集群上hadoop设置的文档，我安装了hadoop，然后当我尝试运行其中一个示例时，这个过程似乎陷入了 Map 0％在 running 状态下减少0％ . 我的系统规格是1TB物理内存，8GB RAM，4核 . mapred-site.xml 是： <property> <name>yarn.nodemanager.resource.memory-mb</...

mapreduce yarn hadoop2
0 votes

answers

views

mapreduce job：在调用reducer时不调用Mapper

我有四个类，MapperOne，ReducerOne，MapperTwo，ReducerTwo . 我想要一个链 . MapperOne - > ReducerOne - >输出文件生成，输入到MapperTwo - > MapperTwo - > ReducerTwo - >最终输出文件 . 我的驾驶员课程代码： public class StockDr...

hadoop mapreduce
0 votes

answers

views

MapReduce错误类型不匹配：我正在尝试编写一个程序来查找最大值 . 从CSV文件，但我得到密钥不匹配

程序从CSV文件中存在的数十亿个数字中找到最大值 . package org.devender; import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.ap...

hadoop compilation mapreduce
6 votes

answers

views

使用java 5的0.20.2 API hadoop版本

我已经开始尝试在java 1.5.0_14中实现MapReduce算法的maven项目 . 我选择了0.20.2 API hadoop版本 . 在pom.xml中，我正在使用以下依赖项： <依赖> < groupId>org.apache.hadoop< /groupId> < artifactId>hadoop-core< /ar...

java maven hadoop mapreduce
0 votes

answers

views

maven上最新版本的mapreduce libs

我使用默认的maven archtype在eclipse中创建了一个简单的java项目 . 然后我添加了junit和hadoop-core依赖项 . maven上最新版本的hadoop-core是 - group id: org.apache.hadoop artifact id: hadoop-core version: 1.2.1 看起来像这是在2013年7月发布 . 信息 - http...

java eclipse maven mapreduce
1 votes

answers

views

用于hadoop mapreduce的 jar

我正在关注Apache给出的this hadoop mapreduce tutorial . 那里给出的Java代码使用这些Apache-hadoop类： import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; im...

java hadoop jar mapreduce
0 votes

answers

views

MapReduce的Hadoop Maven依赖项

我试图在单节点集群中编写mapreduce程序（hadoop 2.4） . 我在maven中央存储库中找到了hadoop的maven依赖项 . http://mvnrepository.com/artifact/org.apache.hadoop 哪个所有这些依赖项都是必要的（包括在pom.xml中）来编写map-reduce程序？谢谢！

maven hadoop mapreduce
0 votes

answers

views

使用CqlStorageHandler进行Hive和Cassandra集成

我引用了这个git项目，用于使用hive table集成cassandra数据 . 我将相应的cassandra jar复制到hive lib文件夹中 . 但是在对cassandra运行查询时，我收到以下错误 . 请帮我解决 . https://github.com/milliondreams/hive/tree/cas-support-cql/cassandra-handler hive>...

hadoop mapreduce cassandra hive bigdata
25 votes

answers

views

大型机器学习[关闭]

我需要在一个大数据集（10-100亿条记录）上运行各种机器学习技术 . 问题主要是文本挖掘/信息提取，包括各种内核技术但不限于它们（我们使用一些贝叶斯方法，自举，渐变提升，回归树 - 许多不同的问题和解决方法）什么是最好的实施？我在ML方面经验丰富，但是对于大型数据集没有多少经验 . 是否有任何可扩展和可定制的机器学习库利用MapReduce基础设施强烈偏好c，但Java和python都可以使用...

java c++ machine-learning mapreduce text-mining
3 votes

answers

views

Spark on yarn jar上传问题

我正在尝试使用spark over yarn运行一个简单的Map / Reduce java程序（CentOS上的Cloudera Hadoop 5.2） . 我试过这2种不同的方式 . 第一种方式如下： YARN_CONF_DIR=/usr/lib/hadoop-yarn/etc/hadoop/; /var/tmp/spark/spark-1.4.0-bin-hadoop2.4/bin/spa...

java hadoop mapreduce apache-spark
0 votes

answers

views

Google Cloud 端平台上的预定mapreduce工作

我正在开发一个基本上 stores user event logs in a database and shows insights about user action 的node.js应用程序 . 要实现此事件，必须使用 Mapreduce 作业进行分析，该作业将运行 once a day automatically （每晚） . 我完全迷失了，因为有几种技术，如果不使用命令行就找不到办法，也没...

hadoop mapreduce google-bigquery google-cloud-platform google-cloud-dataproc
70 votes

answers

views

集成测试Hive作业

我正在尝试使用Hive Thrift和JDBC接口编写一个非平凡的Hive作业，而我在设置一个像样的JUnit测试时遇到了麻烦 . 非平凡，我的意思是这项工作至少会产生一个MapReduce阶段，而不是只处理Metastore . 测试应该启动一个Hive服务器，将一些数据加载到一个表中，在该表上运行一些非平凡的查询，并检查结果 . 我根据Spring reference连接了一个Spring上下...

java testing hadoop mapreduce hive
12 votes

answers

views

Python中的分布式单元测试和代码覆盖

我目前的项目的单元测试的代码覆盖率为100％ . 我们的持续集成服务不允许开发人员在没有100％覆盖的情况下推送代码 . 随着项目的不断发展，有足够的时间来运行完整的测试套件 . 虽然开发人员通常会运行与他们正在更改的代码相关的测试子集，但他们通常会在提交到CI之前执行最后一次完整运行，而CI服务器本身也会运行完整的测试套件 . 单元测试本质上是高度可并行化的，因为它们是从测试到测试的独立和无状态...

python unit-testing mapreduce code-coverage distributed
0 votes

answers

views

Hadoop内存使用情况：减少容器运行超出物理内存限制

我有简单的映射器和简单的reducer（它是由一个字段连接两个大表）： protected void reduce(StringLongCompositeKey key, Iterable<Text> values, Context context) throws IOException, InterruptedException {} foreach...

java hadoop mapreduce
0 votes

answers

views

在Hadoop-2.6.0中，容器因虚拟内存不足而被杀死

我正在尝试在hadoop上实现jcuda代码，并且它在本地模式下工作，但是当我在hadoop集群上运行作业时，它给了我一个错误：容器在这里被杀死是特定的错误报告： 16/04/29 10:18:07 INFO mapreduce.Job：任务ID：attempt_1461835313661** r_000009_2，状态：FAILED容器[pid = 19894，containerID = con...

hadoop mapreduce jcuda
8 votes

answers

views

为什么YARN java堆空间内存错误？

我想尝试在YARN中设置内存，所以我将尝试在yarn-site.xml和mapred-site.xml上配置一些参数 . 顺便说一句，我使用hadoop 2.6.0 . 但是，当我做mapreduce工作时，我收到一个错误 . 它像这样说： 15/03/12 10:57:23 INFO mapreduce.Job: Task Id : attempt_1426132548565_0001_m_00...

java hadoop mapreduce heap yarn
0 votes

answers

views

如何在hadoop YARN多节点集群上配置内存和vcore？

我想在多节点集群上实现hadoop YARN，所以我想问一下 . 我应该只在master（namenode）上写一下yarn-site.xml和mapred-site.xml中的内存和vcore配置，还是应该在具有相同配置的slave（datanode）上写它？谢谢....

hadoop configuration mapreduce core yarn
10 votes

answers

views

如何根据MapReduce2中的vcores和内存创建容器？

我有一个由1个master（namenode，secondarynamenode，resourcemanager）和2个slave（datanode，nodemanager）组成的小集群 . 我已经设置了master的yarn-site.xml： yarn.scheduler.minimum-allocation-mb ：512 yarn.scheduler.maximum-allocat...

hadoop mapreduce yarn
3 votes

answers

views

为什么YARN不能要求超过32个核心来运行工作？

设置：节点数：3 核心数：每台机器32个核心 RAM：每台机器410GB Spark版本：1.2.0 Hadoop版本：2.4.0（Hortonworks）目标： I want to run a Spark job with more than 32 executor cores. 问题：当我为Spark作业请求超过32个执行程序核心时，我收到以下错误： Unca...

hadoop mapreduce apache-spark yarn
-1 votes

answers

views

ApplicationMaster - 对于在YARN中运行的不同类型的应用程序，它是否不同？

我正在努力了解YARN，并了解了 ApplicationMaster 这个术语以及其他术语 . 据我所知，在Hadoop 1.x中只有MR可以运行，但随着需求的增长，YARN被创建为可以运行不同类型的作业，例如MR Job，Spark based jobs等 . 我的问题是：每种类型的作业（MR，Spark等）都有自己的ApplicationMaster，也就是说，对于MR有一种Applicat...

apache-spark hadoop mapreduce yarn hadoop2
0 votes

answers

views

C＃Map使用“{”减少失败响应状态代码不表示成功：403（禁止） . “}有时401：需要凭据

在 mscorlib.dll 中发生 System.AggregateException 类型的未处理异常内部异常： {"Response status code does not indicate success: 403 (Forbidden)."} 有时会得到： {"Response status code does not indicate success:...

azure hadoop mapreduce hdinsight bigdata
1 votes

answers

views

如何解决预期的org.apache.hadoop.io.Text，在mapreduce作业中收到org.apache.hadoop.io.LongWritable

我正在尝试写一个可以从youtube数据集中分析一些信息的工作 . 我相信我已经在驱动程序类中正确设置了 Map 中的输出键，但我仍然得到上述错误我发布代码和异常这里， Mapper public class YouTubeDataMapper extends Mapper<LongWritable,Text,Text,IntWritable>{ private static fin...

java hadoop mapreduce
1 votes

answers

views

MongoDB基于_id计算每分钟新文档的数量

我想创建一个关于每分钟存储多少新文档的统计信息 . 由于具有标准ObjectID的_id字段已经包含文档创建的时间戳，我认为应该可以以某种方式使用它 . 在Stackoverflow上，我找到了以下映射缩减代码，以便在创建数据的专用字段时完成它 Map-Reduce count number of documents in each minute MongoDB map = function() ...

mongodb mapreduce
2 votes

answers

views

在hadoop中运行工作 - 错误

我正在尝试在hadoop ~ $ Desktop/HadoopProject2016.jar input output 运行一个程序，我一直在 this error ：线程“main”中的异常java.lang.UnsupportedClassVersionError：hadoop_project_16 / AggregateJob：java.lang.ClassLoader.defineC...

java hadoop mapreduce runtime-error
1 votes

answers

views

运行map时出错会减少R中的作业

我刚开始集成RHadoop . 它是与Hadoop集成的R-studio服务器，但是在运行map-reduce作业时遇到错误 . 当我运行下面的代码行 . library(rmr2) a <- to.dfs(seq(from=1, to=500, by=3), output="/user/hduser/num") *b <- mapreduce(input=a, m...

r hadoop mapreduce hadoop-streaming rhadoop
0 votes

answers

views

完成33％后猪 Map 减少工作失败

我正在apache pig中运行group by子句，它正在创建map reduce工作，它在1/3完成后失败 . 无论如何我可以解决这个问题，因为日志没有给出任何失败的原因 . 我正在寻找以下任何一个 .1.找到确切错误的一些方法（即内存错误，数据类型错误等）2.任何使日志更加冗长以在屏幕上写入更多错误消息的方法 . 2016-04-03 22:59:40,252 [main] INFO or...

hadoop mapreduce apache-pig

热门问题