-
0 votesanswersviews
运行spark ETL时saveAsTextFile出现间歇性问题
我们有一个包含大约40列和4000万条记录的数据框 . 当我们在数据帧上运行saveAsTextFile(s3://)以触发DAG执行时,作业将失败 intermittently 并出现以下错误 . DAG涉及多个连接,联合和过滤器转换,saveAsTextFile是唯一会触发DAG执行的操作 . 有人可以帮助理解我如何调试这个 . 作业在启用了自动缩放的专用EMR群集上运行 . org.ap... -
1 votesanswersviews
Flink EMR安装
我是flink并尝试在EMR集群上部署它的新手 . 我使用了3个节点集群(1个主节点和2个从节点)及其默认配置 . 我没有进行任何配置更改并坚持使用默认配置 . 我很想知道以下几点: 主站和从站如何相互通信,因为我没有在主节点的conf / slave中提到任何IP? 我可以在主节点(Path:/ usr / lib / flink)中看到flink库,但在slave节点中找不到flink... -
0 votesanswersviews
Amazon EMR作业,包含许多json文件作为输入
我正在python中编写一个hadoop流应用程序来运行EMR . EMR作业的输入是S3存储桶中的文件目录,每个存储桶都是包含单个json对象的json文件 . 我希望映射器对每个json文件进行操作,一次一个,并生成一个(键,值)对,如下所示: Map : {'name':'foo','request':'bar'} - >('name',{'request':'bar'}) 降... -
0 votesanswersviews
AWS EMR - 使用Cloudera Teradata连接器导入Sqoop无法以AVRO格式加载数据
我在EMR集群上安装了cloudera sqoop teradata连接器,并尝试以avro格式导入数据 . 但是我的sqoop作业失败了以下错误 . 我在这个问题上需要你的帮助 . 我正在使用Sqoop 1.4.6版本和Teradata驱动程序14.0版本 . 通过将一些博客复制到avro jars下面的/ usr / lib / sqoop / lib / avro-mapred-1.7.... -
2 votesanswersviews
AWS EMR - 如何扩展hdfs容量
我们的集群运行时有2个核心节点,dfs容量很小,需要增加 . 我向核心节点实例添加了一个500GB的新卷,并将其挂载到/ mnt1并更新了主节点和核心节点中的hdfs-site.xml . <property> <name>dfs.datanode.dir</name> <value>/mnt/hdfs,/mnt/hdfs1</... -
2 votesanswersviews
亚马逊EMR:Pyspark有奇怪的依赖问题
我一直遇到在EMR集群上运行pyspark作业的问题,所以我登录到主节点并直接在那里运行spark-submit 我有一个python文件,我提交给pyspark,在这个文件中我有: import subprocess from pyspark import SparkContext, SparkConf import boto3 from boto3.s3.transfer import S3T... -
0 votesanswersviews
pyspark模块在spark正在使用的python实例中不可用
我正在使用我自己没有在AWS中设置的EMR . 我试图理解Python解释器火花正在使用什么,在我的.bashrc中我有以下设置 export PYSPARK_PYTHON=/mnt/anaconda/bin/python 当我运行spark-submit命令时,我使用sys.executable打印到python解释器的路径,这确实是它使用的解释器 . 但是,当我专门去那个文件夹时,用 ./py... -
1 votesanswersviews
在亚马逊EMR上用蟒蛇激发火花深度学习的外部 jar
我一直在努力让我的EMR集群上的火花深度学习库能够与Python 2.7并行读取图像 . 我一直在寻找这个问题已经有一段时间了,我未能找到解决方案 . 我尝试在conf中为sparksession设置不同的配置设置,并且在尝试创建SparkSession对象时出现以下错误 ERROR SparkContext:91 - Error initializing SparkContext. org.ap... -
0 votesanswersviews
将Spark作业提交到Amazon EMR
我即将尝试EMR,现在就开始通过文档 . 我对提交过程感到有些困惑 . 1) Where are the spark Libraries 从Spark文档中我们发现: - spark.yarn.jars: 包含要分发到YARN容器的Spark代码的库列表 . 默认情况下,YARN上的Spark将使用本地安装的Spark jar,但Spark jar也可以位于HDFS上的世界可读位置 . 这允许YA... -
5 votesanswersviews
处理Spark中的大型gzip压缩文件
我有一个来自s3的大型(大约85 GB压缩)gzip压缩文件,我正在尝试使用AWS EMR上的Spark处理(现在有一个m4.xlarge主实例和两个m4.10xlarge核心实例,每个实例都有一个100 GB的EBS卷) . 我知道gzip是一种不可拆分的文件格式,并且应该重新对压缩文件进行重新分区,因为Spark最初给出了一个带有一个分区的RDD . 但是,做完之后 scala> va... -
1 votesanswersviews
pyspark csv |镶木地板写入失败java.io.IOException:文件已经存在
我有一份工作,每次迭代后写入s3 . 我正在使用csv格式(.gzip) . 即使我覆盖了该位置,第一次迭代后作业也会失败,抛出该文件存在的错误 . 我尝试追加,但仍然遇到同样的问题 . 代码如下所示: vdna_report_table_tmp.coalesce(2).write.save(path='s3://analyst-adhoc/elevate/tempData/VDNA_BRANDS... -
3 votesanswersviews
GroupBy DataFrame的操作在spark 2.0中花费了大量时间
在我的一个火花工作(EMR 5.0.0上的2.0)中,我有大约5GB的数据被交叉连接30行(数据大小几MB) . 我还需要分组 . 我注意到我花了很多时间(一个m3.xlarge主节点和六个m3.2xlar核心节点大约需要4个小时) . 通过处理总共花费2小时,并且另外花费2小时将数据写入s3 . 所花的时间对我来说并不是很令人印象深刻 . 我尝试在网上搜索,发现这个链接说groupBy带来很多改... -
0 votesanswersviews
EMR:如何将Spark与Hive集成?
使用EMR集群,我创建了一个映射到DynamoDB表的外部Hive表(超过8亿行) . 它运作良好,我可以通过蜂巢进行查询和插入 . 如果我通过Hive中的hash_key尝试查询条件,我会在几秒钟内得到结果 . 但是使用SparkSQL和enableHiveSupport(访问Hive)通过spark-submit执行相同的查询它没有完成 . 似乎从Spark它正在对表进行全面扫描 . 我尝试了... -
0 votesanswersviews
错误的FS加载json与来自s3的火花
我正在尝试用spark加载geojson文件和magellan library我的加载代码是: val polygons = spark.read.format("magellan").option("type", "geojson").load(inJson) 其中inJson是我在s3上的json的路径:s3n://bucket-n... -
2 votesanswersviews
Amazon EMR 5.0上的spark-submit executor-memory问题
我启动了这样的Python Spark程序: /usr/lib/spark/bin/spark-submit \ --master yarn \ --executor-memory 2g \ --driver-memory 2g \ --num-executors 2 --executor-cores 4 \ my_spark_program.py 我收到错误: 所需的... -
8 votesanswersviews
如何在Amazon EMR上查找spark主URL
我是新手,并试图在版本为1.3.1的Amazon集群上安装spark . 当我做 SparkConf sparkConfig = new SparkConf().setAppName("SparkSQLTest").setMaster("local[2]"); 它对我有用,但我知道这是为了测试目的我可以设置本地[2] 当我尝试使用群集模式时,我将其更改为 ... -
3 votesanswersviews
Spark 2.3.1 AWS EMR不返回某些列的数据,但仍适用于Athena / Presto和Spectrum
我在AWS EMR上使用Spark 2.3.1上的PySpark(Python 2.7.14) spark = SparkSession \ .builder \ .appName("Python Spark SQL data source example") \ .config("hive.metastore.client.factory.c... -
5 votesanswersviews
结构化流媒体赢得了't write DF to file sink citing /_spark_metadata/9.compact doesn't存在
我正在EMR 5.11.1,Spark 2.2.1中构建一个Kafka摄取模块 . 我的目的是使用结构化流来消费Kafka主题,进行一些处理,并以镶木地板格式存储到EMRFS / S3 . 控制台接收器按预期工作,文件接收器不起作用 . 在 spark-shell : val event = spark.readStream.format("kafka") .option(&q... -
0 votesanswersviews
无法测试来自Spark的S3支持的Hbase
我写了一个简单的程序来读取HBase中的数据,该程序在HDFS支持的Cloudera中找到 . 但是在使用S3测试EMR上的数据时获得异常 . // Spark conf SparkConf sparkConf = new SparkConf().setMaster("local[4]").setAppName("My App"); ... -
1 votesanswersviews
Spark DataFrame行数在运行之间不一致
当我在EMR上运行我的spark作业(版本2.1.1)时,每次运行会在数据帧上计算不同的行数 . 我首先从s3读取数据到4个不同的数据帧,这些计数总是一致的,然后在加入数据帧之后,连接的结果具有不同的计数 . 之后我也会过滤结果,每次运行时也有不同的计数 . 变化很小,1-5行差异,但它仍然是我想要了解的东西 . 这是加入的代码: val impJoinKey = Seq("iid&qu... -
0 votesanswersviews
纱线容器,火花 Actuator 和EMR中可用节点之间的关系是什么?
假设我有一个拥有1个主节点,3个核心节点和5个任务节点的集群 . 如果我在YARN集群模式下运行spark作业,驱动程序将在主节点上运行(主节点也可以运行执行程序吗?),每个容器可以有X个执行程序 . 我有3 5 = 8个容器吗?或者只有3个容器,因为只有核心节点可以存储数据? 另外,如果我有两个同时运行的spark作业,每个节点有2个独立的容器,每个spark作业有1个,或者2个spark jo... -
2 votesanswersviews
如何使用AWS Glue / Spark将在S3中分区和拆分的CSV转换为分区和拆分Parquet
在AWS Glue的目录中,我有一个外部表定义了分区,在S3中看起来大致如此,并且每天添加新日期的分区: s3://my-data-lake/test-table/ 2017/01/01/ part-0000-blah.csv.gz . . part-8000-blah.csv.gz 2017/01/02/ ... -
0 votesanswersviews
弹性映射减少JSON导出到DynamoDB错误AttributeValue可能不包含空字符串
我正在尝试使用来自S3中包含稀疏字段的JSON文件的EMR作业来导入数据,例如一个ios_os字段和android_os但只有一个包含数据 . 有时数据为空,有时它是一个空字符串,当尝试插入DynamoDB时我收到错误(虽然我能够插入一些稀疏填充的记录): “AttributeValue可能不包含空字符串”{“created_at_timestamp”:1358122714,...,“data”... -
3 votesanswersviews
hadoop流式传输确保每个减速器一个键
我有一个映射器,在处理数据时,将输出分为3种不同的类型(类型是输出键) . 我的目标是通过reducer创建3个不同的csv文件,每个文件包含一个带有 Headers 行的键的所有数据 . 键值可以更改,并且是文本字符串 . 现在,理想情况下,我希望有3个不同的reducer,每个reducer只有一个键,它的整个值列表 . 除此之外,这似乎不起作用,因为键不会映射到特定的reducer . 其他... -
1 votesanswersviews
pyspark saveAsTextFile适用于python 2.7但不适用于3.4
我在Amazon EMR集群上运行pyspark . 我有一个非常简单的测试脚本,看看我是否可以使用spark-submit将数据写入s3 ... from pyspark import SparkContext sc = SparkContext() numbers = sc.parallelize(range(100)) numbers.saveAsTextFile("s3n://m... -
2 votesanswersviews
添加python包以在aws EMR中使用spark
我刚刚开始使用AWS EMR作为测试的一部分 - 我已经创建了一个启动文件来使用我的EMR实例上的pip安装特定的python包 . 我知道这是非常基本的 . bash脚本包含 #!/bin/bash set -e pip install typing --user 但是,当我提交python脚本作为一个步骤时,我收到以下错误 Traceback(最近调用最后一次):文件“py-calcul... -
1 votesanswersviews
在亚马逊emr上运行时要指定为spark master的内容
Spark有native support by EMR . 使用EMR Web界面创建新群集时,可以添加一个自定义步骤,该步骤将在群集启动时执行Spark应用程序,基本上是群集启动后的自动spark-submit . 我一直在想如何在启动EMR集群并通过指定的EMR步骤提交jar文件时,如何在应用程序中为SparkConf指定主节点? 事先不可能知道集群主机的IP,如果我手动启动集群然后在调用sp... -
3 votesanswersviews
Spark作业提交:AWS EMR步骤或命令行spark-submit
我正在使用yarn作为主集群部署模式运行AWS EMR集群 . 我阅读的所有教程都使用AWS CLI在所谓的“Spark Steps”中运行spark-submit,使用类似于以下的命令: aws emr add-steps --cluster-id j-2AXXXXXXGAPLF --steps Type=Spark,Name="Spark Program",ActionOn... -
1 votesanswersviews
在EMR上引发JAR时引发ClassNotFoundException
我正在使用eclipse / Maven创建一个JAR并在EMR上运行它 这是我的pom.xml文件 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocatio... -
0 votesanswersviews
如何激发提交作业到其他集群上的纱线?
我有一个安装了spark的docker容器,我正在尝试使用marathon将作业提交到其他集群上的yarn . docker容器具有yarn和hadoop conf dir的导出值,yarn文件还包含emr master ip的正确地址,但我不确定它作为localhost的位置? ENV YARN_CONF_DIR="/opt/yarn-site.xml" ENV HADOO...