首页 文章
  • 0 votes
     answers
     views

    hadoop with yarn resourcemanager和nodemanager命令未找到

    在此先感谢您的帮助 ! 当我启动%HADOOP_HOME%\ sbin目录\启动dfs.cmd,它的工作原理,然后当我做%HADOOP_HOME%\ sbin目录\启动yarn.cmd这是行不通的,它打开两个窗口说:“命令的ResourceManager找不到”和“命令”nodemanager“找不到 . 我一直在努力解决这个问题,但没有找到任何解决办法,并尝试了很多东西 . 这是我的yarn-s...
  • 0 votes
     answers
     views

    通过几个Hadoop安装重用HDFS存储

    是否可以将HDFS存储重用于两个或更多Hadoop安装?或者说换句话说,复制NameNode状态 . 我想构建一个小型展示Hadoop集群(3-5个节点),我希望能够使用几个Hadoop发行版(至少Hortonworks和Cloudera) . 我还没有决定,如何同时安装它们似乎也是一个挑战,但目前我想决定 - 是否有可能将存储在HDFS中的数据重用于不同的集群(物理上使用相同的硬盘) )? 为简...
  • 1 votes
     answers
     views

    在其他应用程序访问数据时替换HDFS文件

    我一直在研究刷新HDFS文件的方法,而其他消费者/应用程序访问数据 . 我有一个HDFS目录,其中的文件可供用户访问,我需要每天更换最新的传入数据,我的刷新过程只有几秒/毫秒 . 但仍然面临的挑战是,由于此刷新过程,已经读取此数据以进行分析的作业将受到影响 . 我刷新文件的方法不是将spark作业结果数据写入用户访问的实际数据位置,而是首先将数据写入临时位置,然后用hdfs文件替换API替换 . ...
  • 0 votes
     answers
     views

    Hadoop集群kerberized时无法访问HDFS

    我成功地对测试Hortonworks集群进行了测试 . Ambari为服务创建了关键标记,它们都已启动 . 名称节点有HA . 备用namenode启动速度很快,Active namenode需要更长时间 . Namenode UI显示一切正确 . 可以使用kerberos登录 . Namenodes是nn1.zim.com和 nn2.zim.com 这个问题可能有什么问题?以hdfs身份登...
  • 1 votes
     answers
     views

    Flume HDFS-200附加

    页面https://cwiki.apache.org/confluence/display/FLUME/Getting+Started表示HDFS接收器支持附加但我无法找到有关如何启用它的任何信息,每个示例都在滚动文件上 . 所以,如果可能的话,我会很感激有关如何将水槽附加到现有文件的任何信息 Update 可以将所有滚动属性设置为0,这将使得水槽写入单个文件,但它不会关闭文件,并且新记录对其他进...
  • 2 votes
     answers
     views

    将数据下沉到hdfs时,配置flume不生成.tmp文件

    我正在使用flume将数据从服务器日志传输到hdfs . 但是当数据流入hdfs时,它首先创建.tmp文件 . 配置中是否有一种方法可以隐藏.tmp文件,或者可以通过附加a来更改名称 . 在前 . 我的收集代理文件看起来像 - ## TARGET AGENT ## ## configuration file location: /etc/flume/conf ## START Agent: fl...
  • 1 votes
     answers
     views

    Flume Kafka HDFS:拆分消息

    我有以下flume代理配置来读取来自kafka源的消息并将它们写回HDFS接收器 tier1.sources = source1 tier 1.channels = channel1 tier1.sinks = sink1 tier1.sources.source1.type = org.apache.flume.source.kafka.KafkaSource tier1.sources.s...
  • 1 votes
     answers
     views

    只有一个文件来自kafka的hdfs与flume

    我正试图通过flume将数据放入kafka的hdfs中 . kafka_producer每10秒发送一条消息 . 我要在hdfs上的一个文件中收集所有消息 . 这是我使用的水槽的配置,但它在hdfs上存储了许多文件(一个用于消息): agent1.sources.kafka-source.type = org.apache.flume.source.kafka.KafkaSource agent...
  • 1 votes
     answers
     views

    如何使用Flume将数据实时写入HDFS?

    我正在使用Flume将传感器数据存储在HDFS中 . 一旦通过MQTT接收数据 . 订阅者将数据以JSON格式发布到Flume HTTP侦听器 . 它目前工作正常,但问题是水槽不写入HDFS文件,直到我停止它(或文件的大小达到128MB) . 我正在使用Hive在读取时应用模式 . 不幸的是,生成的hive表只包含1个条目 . 这是正常的,因为Flume没有将新的数据写入文件(由Hive加载) ....
  • 11 votes
     answers
     views

    如何配置Tensorflow服务以从HDFS服务模型?

    我正在尝试使用Tensorflow服务项目从HDFS中提供Tensorflow模型 . 我正在运行tensorflow服务docker容器标签1.10.1 https://hub.docker.com/r/tensorflow/serving 我可以在https://github.com/tensorflow/serving/blob/628702e1de1fa3d679369e9546e7d74...
  • 0 votes
     answers
     views

    使用Scala编写HDFS输出文件

    我正在尝试使用Scala编写HDFS输出文件,我收到以下错误: 线程“main”中的异常org.apache.spark.SparkException:任务不能在org.apache.spark.uark.ClosureCleaner $ .org的org.apache.spark.util.ClosureCleaner $ .ensureSerializable(ClosureCleaner.s...
  • 0 votes
     answers
     views

    容器以非零退出代码137退出

    回溯(最近一次调用最后一次):文件"/home/hdp-credit/yinzhichao/analysis_data/src/imei_mate_mobile.py",第93行,在main()文件"/home/hdp-credit/yinzhichao/analysis_data/src/imei_mate_mobile.py",第89行,在main co...
  • 14 votes
     answers
     views

    apache spark - 检查文件是否存在

    我是新手,我有一个问题 . 我有一个两步过程,第一步是将SUCCESS.txt文件写入HDFS上的某个位置 . 我的第二步是一个spark作业,必须在开始处理数据之前验证该SUCCESS.txt文件是否存在 . 我检查了spark API并没有找到任何检查文件是否存在的方法 . 任何想法如何处理这个? 我找到的唯一方法是sc.textFile(hdfs:///SUCCESS.txt).count(...
  • 0 votes
     answers
     views

    从IDE内部运行时的Hadoop路径异常

    Edit: IDE is Intellij IDEA OS: Mac OS X Lion Hadoop: 1.2.1 编辑:如果文件路径存在于当前文件系统位置,则此方法有效 . 因此,问题就变成了如何在从IDE运行时使用hdfs . 从IDE(Intellij IDEA)内部运行获取异常,请参见下文: 在程序参数中我指定'输入输出' 当然,HDFS中存在“输入”,其中包含...
  • 0 votes
     answers
     views

    将新的namenode数据目录添加到现有集群

    为了将新的NameNode数据目录(dfs.name.dir,dfs.namenode.name.dir)正确添加到现有 生产环境 群集,我需要遵循哪些步骤?我已将新路径添加到hdfs-site.xml文件中以逗号分隔的列表中,但是当我尝试启动namenode时,我收到以下错误: 目录/ data / nfs / dfs / nn处于不一致状态:存储目录不存在或无法访问 . 在我的情况下,我已...
  • 3 votes
     answers
     views

    如何使用Pig将数据存储在HDFS上的多个分区文件中

    我有一个猪工作,分析大量的日志文件,并生成一组属性和一袋具有这些属性的ID之间的关系 . 我想将这种关系存储在HDFS上,但我希望以一种友好的方式对其他Hive / Pig / MapReduce作业进行操作,以便对数据或数据的子集进行操作而无需完全摄取我的猪工作的输出,因为这是一个大量的数据 . 例如,如果我的关系的架构是这样的: relation: {group: (attr1: long,a...
  • 0 votes
     answers
     views

    Hive,HDFS数据到本地系统并返回

    我是Hadoop管理的新手:) 我有一个8个节点的Apache Hadoop 2.4.1集群,使用16TB DFS(在任何xml文件中找不到复制因子),带有MySQL Metastore的Hive 0.13 . Objective :将群集上的数据备份到NFS驱动器,卸载群集,安装其他一些发行版(Cloudera,Hortonworks)并将数据从NFS驱动器重新加载到此新群集 . 有两个956G...
  • 3 votes
     answers
     views

    将Solr HDFS数据复制到另一个群集

    我有一个solr cloud(v 4.10)安装,位于Cloudera(CDH 5.4.2)HDFS之上,有3个solr实例,每个实例托管一个每个内核的分片 . 我正在寻找一种方法来逐步将solr数据从我们的 生产环境 集群复制到我们的开发集群 . 有3个核心,但我只对复制其中一个感兴趣 . 我曾尝试使用Solr复制 - 备份和还原,但似乎没有将任何内容加载到开发群集中 . http://host...
  • 7 votes
     answers
     views

    具有Docker的多节点Hadoop集群

    我正在基于 Docker 的环境中规划多节点 Hadoop 群集的阶段 . 所以它应该基于轻量级易用的虚拟化系统 . 当前架构(关于文档)包含1个主节点和3个从节点 . 该主机使用 HDFS 文件系统和 KVM 进行虚拟化 . 整个 Cloud 由 Cloudera Manager 管理 . 此群集上安装了多个Hadoop模块 . 还有一个 NodeJS 数据上传服务 . 这次我应该以 Docke...
  • 1 votes
     answers
     views

    Cloudera到HDP SOLR(版本5.5.2)数据迁移|在solr Cloud 上恢复后无法更新solr索引

    SOLR版本 - 5.5.2 我的项目要求是将solu Cloud 索引从cloudera集群转移到HDP集群 . 数据量很大( 生产环境 中有10亿个索引记录),因此重新编制索引不是一种选择 . 我们尝试过solr还原和备份API,但数据在 Cloud 上不可见 . 请检查我们是否遗漏了以下任何步骤==> 1) Allowed snapshot (Cloudera集群):sudo -...
  • 17 votes
     answers
     views

    有0个数据节点在运行,并且在此操作中不排除任何节点

    我已经 Build 了一个多节点Hadoop集群 . NameNode和Secondary namenode在同一台机器上运行,集群只有一个Datanode . 所有节点都在Amazon EC2计算机上配置 . 以下是主节点上的配置文件: masters 54.68.218.192 (public IP of the master node) slaves 54.68.169.62 (publ...
  • 0 votes
     answers
     views

    无法使用gethue / hue docker镜像配置HDFS地址

    我试图从gethue / hue获得Hue docker图像,但它似乎忽略了我给他的配置,并且总是在localhost上寻找HDFS而不是我要求他寻找的docker容器 . 这是一些背景: 我正在使用以下docker compose来启动HDFS集群: hdfs-namenode: image: bde2020/hadoop-namenode:1.1.0-hadoop2.7.1-jav...
  • -1 votes
     answers
     views

    从pyspark工作人员访问HDFS / Hadoop api

    我需要从pyspark worker 中读取/扫描/写入hdfs文件 . 请注意,以下api不适用,因为它们用于 driver : sc.textFile() sc.saveAsParquetFile() 等等 最好不要涉及其他第三方库(例如pyhadoop) . 一种选择是掏出例如 os.system('hdfs dfs -ls %(hdfsPath)s' %locals()) 但有没有更...
  • 0 votes
     answers
     views

    纱线在节点上分配太多的vcores

    我在yarn-site.xml中将最大分配vcores设置为1,将物理核心数设置为2.所有节点都相同 . 但是,有些人,YARN会为一个节点分配3个容器 . 它报告该节点上有-1个vcores . 最终发生的事情是nodemanager关闭该节点,并且作业失败 . 你如何阻止YARN过度分配vcores?还有其他节点可用,使用0个vcores . 我已经指定了可以分配的最小和最大vcores数量以...
  • 4 votes
     answers
     views

    使用Hadoop 2.7.4资源问题配置Yarn

    我按照tutorial配置了hadoop 2.7.4 . DataNode,NameNode和SecondaryNameNode正常工作 . 但是当我运行yarn时,NodeManager会关闭以下消息 org.apache.hadoop.yarn.exceptions.YarnRuntimeException:org.apache.hadoop.yarn.exceptions.YarnRun...
  • 1 votes
     answers
     views

    docker中的纱线 - __spark_libs__.zip不存在

    我查看了this StackOverflow帖子,但他们没有帮助我 . I am trying to get Yarn working on an existing cluster. So far we have been using spark standalone manger as our resource allocator and it has been working as expec...
  • 0 votes
     answers
     views

    如何获得自定义Nagios插件以使用NRPE?

    我有一个没有互联网访问权限的系统,我想安装一些Nagios监控服务/插件 . 我安装了NRPE(Nagios Remote Plugin Executor),我可以看到其中定义的命令,如 check_users , check_load , check_zombie_procs 等 . command[check_users]=/usr/lib/nagios/plugins/check_users...
  • 1 votes
     answers
     views

    即使json数据包含架构和有效负载字段,kafka connect hdfs sink连接器也会失败

    我正在尝试使用kafka connect hdfs sink connector将json数据从kafka移动到hdfs . 即使kafka中的json数据具有架构和有效负载,kafka connect任务也会因错误而失败 org.apache.kafka.connect.errors.DataException: JsonConverter with schemas.enable require...
  • 0 votes
     answers
     views

    sqoop ERROR [main] tool.ImportTool

    嗨,当我尝试将MySql表导入hdfs时,我收到一个错误: sqoop import --connect jdbc:mysql://dba-virtual-machine/test --username socio --table textlines --columns line --target-dir /textlines 2014-06-16 07:43:24,308 INFO [main...
  • 0 votes
     answers
     views

    Sqoop出口工作失败

    无法将HDFS内容导出到oracle DB . Oracle: create table DB1.T1 ( id1 number, id2 number ); Hive: create table DB1.T1 ( id1 int, id2 int ); insert into table values(0,...

热门问题