首页 文章
  • 1 votes
     answers
     views

    hadoop datanode机架感知设置

    我正在构建一个hadoop集群 . 我有3个机架,每个机架包含几个虚拟机 . 如何配置hadoop以让它具有机架感知功能?有人建议使用“topology.script.file.name”来设置脚本吗? 你能写一个这样做的工作实例吗? 例如: rack1: 192.168.1.1, 192.168.1.2, 192.168.1.3 rack2: 192.168.1.4, 192.168.1.5,...
  • 0 votes
     answers
     views

    Hadoop:File ...只能复制到0个节点,而不是1个

    我试图在8节点IB(OFED-1.5.3-4.0.42)集群上部署Hadoop-RDMA并遇到以下问题(a.k.a File ...只能复制到0个节点,而不是1个): frolo@A11:~/hadoop-rdma-0.9.8> ./bin/hadoop dfs -copyFromLocal ../pg132.txt /user/frolo/input/pg132.txt Warning: ...
  • 6 votes
     answers
     views

    使用Java读取远程HDFS文件

    我在使用简单的Hadoop安装时遇到了一些麻烦 . 我已经下载了hadoop 2.4.0并安装在一个CentOS Linux节点(虚拟机)上 . 我已经为apache站点(http://hadoop.apache.org/docs/r2.4.0/hadoop-project-dist/hadoop-common/SingleCluster.html)上描述的具有伪分发的单个节点配置了hadoop ...
  • 0 votes
     answers
     views

    “只能在Hadoop中复制到0个节点,而不是1”

    在尝试将一些文件添加到hdfs时,我遇到了一个着名的“只能在我的单节点Hadoop安装中复制到0个节点,而不是1”错误: $ hdfs dfs -mkdir -p /grep/in $ hdfs dfs -put /hadoop_install_location/etc/hadoop/* /grep/in/ 第一个命令运行正常,第二个命令运行异常: at org.apache.hadoop.h...
  • 2 votes
     answers
     views

    适用于Hadoop的Hadoop 2.4.1和Google Cloud Storage连接器

    我正在尝试使用Google的Hadoop Cloud 存储连接器在Hadoop上运行Oryx:https://cloud.google.com/hadoop/google-cloud-storage-connector 我更喜欢将Hadoop 2.4.1与Oryx一起使用,所以我使用hadoop2_env.sh设置我在谷歌计算引擎上创建的hadoop集群,例如: .bdutil -b <BU...
  • 1 votes
     answers
     views

    在奴隶机器数据节点打开但是它使用命令“hdfs hdfsadmin -report”抛出错误?

    hduser @ master-virtual-machine:/ usr / local / hadoop / etc / hadoop $ jps 5934 Jps 3490 SecondaryNameNode 3678 ResourceManager 5108 NameNode hduser @ master-virtual-machine:/ usr / local / hadoop / ...
  • 0 votes
     answers
     views

    Hadoop多节点集群设置

    我试图在hadoop中设置多节点集群我如何获得0个数据节点作为活动数据节点,我的hdfs显示0字节的分配 但是nodemanager守护进程正在datanode上运行 masters:masterhost1 172.31.100.3(也作为辅助名称节点)namenode datahost1 172.31.100.4 #datanode datanode的日志如下: `STARTUP_MSG:bu...
  • 1 votes
     answers
     views

    Hadoop CDH . 文件只能复制到0个节点而不是minReplication(= 1)

    我有72台机器的集群的问题 . 其中60个是HOT存储,12个是COLD . 当我试图将数据放入COLD Hive表 sometimes 时出现错误: Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.hadoop.ipc.RemoteException(java.io.IOException): Fil...
  • 2 votes
     answers
     views

    AWS EMR - 如何扩展hdfs容量

    我们的集群运行时有2个核心节点,dfs容量很小,需要增加 . 我向核心节点实例添加了一个500GB的新卷,并将其挂载到/ mnt1并更新了主节点和核心节点中的hdfs-site.xml . <property> <name>dfs.datanode.dir</name> <value>/mnt/hdfs,/mnt/hdfs1</...
  • 3 votes
     answers
     views

    Hadoop Map减少散列程序

    我在Hadoop中编写了一个Map Reduce程序,用于散列文件的所有记录,并将hased值作为附加属性附加到每个记录,然后输出到Hadoop文件系统这是我编写的代码 public class HashByMapReduce { public static class LineMapper extends Mapper<Text, Text, Text, Text> { pr...
  • 1 votes
     answers
     views

    用于减速器功能的一个键的多个输出,Hadoop

    我需要做的是做一些麻烦,就是为一个键输出两个值作为reduce函数的输出 . reduce函数以Id的形式和与该Id相关联的整数列表接收数据 . 它需要输出Id,列表中整数的平均值和列表的长度 . 但是,reduce函数的实现应该具有 OutputCollector <Text, IntWritable> 作为参数,该参数明确地将与每个键相关联的输出的数量限制为1 . 在这方面的任何...
  • 0 votes
     answers
     views

    在MapReduce作业的Reducer中通过Text输入值多次迭代

    我在HDFS上有 two very large datasets (表格) . 我想在某些列上使用 join them ,然后在某些列上使用 group them ,然后在某些列上使用 perform some group functions . My steps are: 1-创建两个作业 . 2-在第一个作业中,在映射器中将每个数据集的行读取为映射输入值,并将连接列的值作为映射输出键和剩...
  • 0 votes
     answers
     views

    复合键变了,Hadoop Map-Reduce?

    我刚刚开始学习hadoop,并使用自定义分区器和比较器运行hadoop map-reduce程序 . 我面临的问题是主要和次要排序没有在复合键上完成,更多 - 在一个复合键的一部分上正在与其他compsite-key部分进行更改 . 例如,我在mapper中创建以下键 key1 -> tagA,1 key2 -> tagA,1 key3 -> tagA,1 key4 -&gt...
  • 0 votes
     answers
     views

    Reducer多次接收相同的值而不是预期的输入

    在我的本地hadoop环境中编写map-reduce作业时,我遇到了Reducer没有收到我期望的值的问题 . 我将问题抽象为以下内容: 我用10行创建一个任意输入文件,让map方法执行10次 . 在映射器中,我创建一个调用计数,并将此计数值作为值写入输出,如果值为偶数,则为0作为键,如果值为奇数,则为1作为键,即以下(键,值)对: (1,1),(0,2),(1,3),(0,4),(1,5)等 我...
  • 1 votes
     answers
     views

    输出键,值对如何使1小时内的时间在使用Python的MapReduce中的reducer中结束?

    我有一种情况需要使用以下格式处理非常大的文本文件: ID \t time \t duration \t Description \t status 我想利用MapReduce来帮助我处理这个文件 . 我知道MapReduce基于键值对工作 . Mapper将输出键和一些值,MapReduce将确保所有相同的键最终在1个reducer中 . 我想在减速器中最终得到的行是时间在1小时之内 . 然后...
  • 1 votes
     answers
     views

    如果值为空,如何忽略Map-Reduce中的键值对?

    我有一个制表符分隔的输入文件,我在Map-Reduce中读取2列 . 1列是键,另一列是值 . 所以我的要求是,如果值为空,即它包含空格或制表符或任何其他字符,即使该键也不应该被处理到reducer . 整体而言,它应该丢弃该记录并获取具有值的下一条记录 . 编写了以下代码,但它不起作用 . 它执行所有记录 . 它不会过滤任何东西 . public static class Map extend...
  • 0 votes
     answers
     views

    弹性搜索索引没有核心地看到所有数据类型

    我有弹性搜索的问题 . 当我从hadoop导入elasticsearch中的数据时,我的字段温度被定义为十进制但在kibana中,而elasticsearch被视为文本 . bellow is the definition of the source table create external table api_measurements(device int,time timestamp,lat...
  • 0 votes
     answers
     views

    如何在hadoop中设置默认java opts而不在运行时重叠

    我打算在运行YARN应用程序时将默认gc收集器设置为 -XX:+UseSerialGC . 我试图在hadoop-env.sh中设置此参数,既不是 HADOOP_OPTS 也不是 HADOOP_CLIENT_OPTS 它是否有效: //hadoop-env.sh export HADOOP_OPTS="$HADOOP_OPTS -Dmapreduce.map.java.opts='-X...
  • 0 votes
     answers
     views

    在Hadoop 2.7.2(CentOS 7)群集中,Datanode启动但未连接到namenode

    我安装了一个三节点hadoop集群 . 主节点和从节点分别启动,但datanode未显示在namenode webUI中 . datanode的日志文件显示以下错误: 2016-06-18 21:23:53,980 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: namenode/192.168.1.100:9000....
  • 0 votes
     answers
     views

    我的datanode没有在hadoop 2.7.3多节点中启动

    我的datanode没有启动hadoop 2.7.3多节点(1master,2个slave) 这是我的配置文件: core-site.xml(在主服务器和从服务器中) <configuration> <property> <name>hadoop.tmp.dir</name> <value>/app/hadoop/tmp&lt...
  • 0 votes
     answers
     views

    mapreduce作业上的容器启动异常

    我已经设置了一个带有一个主节点和3个数据节点的hadoop集群 . 当我尝试在主节点上运行mapreduce作业时,我收到以下错误: 18/05/23 19:22:59 INFO mapreduce.Job: Task Id : attempt_1527096061793_0001_m_000000_0, Status : FAILED Exception from container-launc...
  • 0 votes
     answers
     views

    我遇到了这个错误:YarnProtos $ ApplicationIdProto覆盖了最终方法getUnknownFields . ()Lcom / google / protobuf / UnknownFieldSet;

    我正在使用giraph-1.2作为我的计算机科学硕士论文 . 我在本地电脑上使用this configuration成功配置并运行了giraph-1.2和hadoop-2.5.1以及伪分布式模式的纱线 . 在伪分布式模式下,我使用以下参数启动我的giraph程序: [giraph MY_JAR.jar SUPERSTEP0_CLASS -ca giraph.master.observers=MY_...
  • 0 votes
     answers
     views

    master在datanode上运行是否正确?

    我正在使用带有纱线轮廓的giraph-1.3 . 为了开始,我在ec2集群上配置了1个namenode和2个datanode . 我的应用程序正常工作,因为我在日志(和输出目录)中看到了预期的输出 . 我用“-w 2”参数启动了giraph,因为我有两个datanode . 在datanode1的用户日志中,我找到了第一个worker的日志 .在datanode2的用户日志中,我也发现了第二个 W...
  • 0 votes
     answers
     views

    我无法访问Hadoop Web界面(DataNode,ResourceManager)

    我用 pseudo-distributed mode 安装了Hadoop 3.1.1 . 我试图访问Hadoop Web界面,并且NameNode( Server's public IP:9870 )和JobHistoryServer( public IP:19888 )UI打开得很好,但DataNode( public IP:9864 ),ResourceManager( public IP:8...
  • 0 votes
     answers
     views

    Giraph的估计集群堆xxxxMBs要求大于当前可用的0MB集群堆 . 中止工作

    我必须使用20台c3.8xlarge机器,每台机器有60 GB RAM和32 CPU) . 我阻止了这个问题:"Giraph's estimated cluster heap xxxxMBs ask is greater than the current available cluster heap of 0MB. Aborting Job" . 我在上一篇文章Giraph's...
  • 0 votes
     answers
     views

    使用“添加文件”部分(shell脚本)时,Hortonworks Hue Oozie流式处理作业失败

    我安装了HDP 2.x和hue . (2位房东) 我需要解决这个问题,因为我是oozie工作流程的新手 . 我在这里按照示例:http://www.oraclealchemist.com/news/hadoop-streaming-hue-oozie-workflows-hive/如果我只在相应路径的所有主机中都有mapper和reducer,那么它的工作正常 . 我看到oozie的ambari...
  • 1 votes
     answers
     views

    如何使用hue接口将Java Action作为oozie工作流运行

    我创建了一个java main方法的测试可执行jar,它接受args [0] = Hadoop . java程序接受此参数并将以下字符串写入文本文件中; “currentTimeStamp / t欢迎来到Hadoop !! / n”100,000次 . 我使用hue接口为java动作创建了一个oozie-workflow . 请参阅下面的workflow.xml . 然而,oozie-workf...
  • 1 votes
     answers
     views

    使用Java API将数据上载到HDFS

    我现在已经搜索了一段时间,似乎没有一个解决方案适合我 . 非常简单 - 我想使用Java API将数据从本地文件系统上传到HDFS . Java程序将在已配置为通过shell(即 hdfs dfs -ls 等)与远程Hadoop集群通信的主机上运行 . 我在我的项目中包含了以下依赖项: hadoop-core:1.2.1 hadoop-common:2.7.1 hadoop-hdfs:2.7.1...
  • 3 votes
     answers
     views

    Oozie:从Oozie <java>行动中启动Map-Reduce?

    我正在尝试使用 &lt;java&gt; 操作在Oozie工作流中执行Map-Reduce任务 . O 'Reilley' s Apache Oozie(Islam and Srinivasan 2015)指出: 虽然不推荐,但可以使用Java操作来运行Hadoop MapReduce作业,因为MapReduce作业毕竟只是Java程序 . 调用的主类可以是Hadoop MapReduce驱动程...
  • 2 votes
     answers
     views

    Hive与MySQL的连接:用户'hive' @ 'localhost' hive拒绝访问

    我在CentOS上设置了Hive,我在同一台服务器上安装了hadoop,hive和MySQL . 我还在mySQL和用户ID上设置了Metastore数据库 - hive可以访问数据库 . 我有以下问题 - 错误消息如下 . 有人可以帮助解决这个问题吗? 展示数据库; FAILED:元数据错误:MetaException(消息:得到异常:org.apache.hadoop.hive.metas...

热门问题