Java 学习之路

0 votes

answers

views

运行spark ETL时saveAsTextFile出现间歇性问题

我们有一个包含大约40列和4000万条记录的数据框 . 当我们在数据帧上运行saveAsTextFile（s3：//）以触发DAG执行时，作业将失败 intermittently 并出现以下错误 . DAG涉及多个连接，联合和过滤器转换，saveAsTextFile是唯一会触发DAG执行的操作 . 有人可以帮助理解我如何调试这个 . 作业在启用了自动缩放的专用EMR群集上运行 . org.ap...

apache-spark rdd emr amazon-emr
1 votes

answers

views

Flink EMR安装

我是flink并尝试在EMR集群上部署它的新手 . 我使用了3个节点集群（1个主节点和2个从节点）及其默认配置 . 我没有进行任何配置更改并坚持使用默认配置 . 我很想知道以下几点：主站和从站如何相互通信，因为我没有在主节点的conf / slave中提到任何IP？我可以在主节点（Path：/ usr / lib / flink）中看到flink库，但在slave节点中找不到flink...

apache-flink amazon-emr
0 votes

answers

views

Amazon EMR作业，包含许多json文件作为输入

我正在python中编写一个hadoop流应用程序来运行EMR . EMR作业的输入是S3存储桶中的文件目录，每个存储桶都是包含单个json对象的json文件 . 我希望映射器对每个json文件进行操作，一次一个，并生成一个（键，值）对，如下所示： Map ： {'name'：'foo'，'request'：'bar'} - >（'name'，{'request'：'bar'}）降...

python json hadoop amazon-s3 amazon-emr
0 votes

answers

views

AWS EMR - 使用Cloudera Teradata连接器导入Sqoop无法以AVRO格式加载数据

我在EMR集群上安装了cloudera sqoop teradata连接器，并尝试以avro格式导入数据 . 但是我的sqoop作业失败了以下错误 . 我在这个问题上需要你的帮助 . 我正在使用Sqoop 1.4.6版本和Teradata驱动程序14.0版本 . 通过将一些博客复制到avro jars下面的/ usr / lib / sqoop / lib / avro-mapred-1.7....

teradata sqoop cloudera amazon-emr connector
2 votes

answers

views

AWS EMR - 如何扩展hdfs容量

我们的集群运行时有2个核心节点，dfs容量很小，需要增加 . 我向核心节点实例添加了一个500GB的新卷，并将其挂载到/ mnt1并更新了主节点和核心节点中的hdfs-site.xml . <property> <name>dfs.datanode.dir</name> <value>/mnt/hdfs,/mnt/hdfs1</...

hadoop hdfs emr amazon-emr datanode
2 votes

answers

views

亚马逊EMR：Pyspark有奇怪的依赖问题

我一直遇到在EMR集群上运行pyspark作业的问题，所以我登录到主节点并直接在那里运行spark-submit 我有一个python文件，我提交给pyspark，在这个文件中我有： import subprocess from pyspark import SparkContext, SparkConf import boto3 from boto3.s3.transfer import S3T...

python amazon-web-services pyspark emr amazon-emr
0 votes

answers

views

pyspark模块在spark正在使用的python实例中不可用

我正在使用我自己没有在AWS中设置的EMR . 我试图理解Python解释器火花正在使用什么，在我的.bashrc中我有以下设置 export PYSPARK_PYTHON=/mnt/anaconda/bin/python 当我运行spark-submit命令时，我使用sys.executable打印到python解释器的路径，这确实是它使用的解释器 . 但是，当我专门去那个文件夹时，用 ./py...

python apache-spark pyspark amazon-emr
1 votes

answers

views

在亚马逊EMR上用蟒蛇激发火花深度学习的外部 jar

我一直在努力让我的EMR集群上的火花深度学习库能够与Python 2.7并行读取图像 . 我一直在寻找这个问题已经有一段时间了，我未能找到解决方案 . 我尝试在conf中为sparksession设置不同的配置设置，并且在尝试创建SparkSession对象时出现以下错误 ERROR SparkContext:91 - Error initializing SparkContext. org.ap...

python-2.7 amazon-web-services apache-spark amazon-emr apache-spark-2.1.1
0 votes

answers

views

将Spark作业提交到Amazon EMR

我即将尝试EMR，现在就开始通过文档 . 我对提交过程感到有些困惑 . 1) Where are the spark Libraries 从Spark文档中我们发现： - spark.yarn.jars: 包含要分发到YARN容器的Spark代码的库列表 . 默认情况下，YARN上的Spark将使用本地安装的Spark jar，但Spark jar也可以位于HDFS上的世界可读位置 . 这允许YA...

apache-spark amazon-emr
5 votes

answers

views

处理Spark中的大型gzip压缩文件

我有一个来自s3的大型（大约85 GB压缩）gzip压缩文件，我正在尝试使用AWS EMR上的Spark处理（现在有一个m4.xlarge主实例和两个m4.10xlarge核心实例，每个实例都有一个100 GB的EBS卷） . 我知道gzip是一种不可拆分的文件格式，并且应该重新对压缩文件进行重新分区，因为Spark最初给出了一个带有一个分区的RDD . 但是，做完之后 scala> va...

apache-spark gzip amazon-emr
1 votes

answers

views

pyspark csv |镶木地板写入失败java.io.IOException：文件已经存在

我有一份工作，每次迭代后写入s3 . 我正在使用csv格式（.gzip） . 即使我覆盖了该位置，第一次迭代后作业也会失败，抛出该文件存在的错误 . 我尝试追加，但仍然遇到同样的问题 . 代码如下所示： vdna_report_table_tmp.coalesce(2).write.save(path='s3://analyst-adhoc/elevate/tempData/VDNA_BRANDS...

csv pyspark amazon-emr
3 votes

answers

views

GroupBy DataFrame的操作在spark 2.0中花费了大量时间

在我的一个火花工作（EMR 5.0.0上的2.0）中，我有大约5GB的数据被交叉连接30行（数据大小几MB） . 我还需要分组 . 我注意到我花了很多时间（一个m3.xlarge主节点和六个m3.2xlar核心节点大约需要4个小时） . 通过处理总共花费2小时，并且另外花费2小时将数据写入s3 . 所花的时间对我来说并不是很令人印象深刻 . 我尝试在网上搜索，发现这个链接说groupBy带来很多改...

apache-spark spark-dataframe emr amazon-emr
0 votes

answers

views

EMR：如何将Spark与Hive集成？

使用EMR集群，我创建了一个映射到DynamoDB表的外部Hive表（超过8亿行） . 它运作良好，我可以通过蜂巢进行查询和插入 . 如果我通过Hive中的hash_key尝试查询条件，我会在几秒钟内得到结果 . 但是使用SparkSQL和enableHiveSupport（访问Hive）通过spark-submit执行相同的查询它没有完成 . 似乎从Spark它正在对表进行全面扫描 . 我尝试了...

apache-spark hive amazon-dynamodb amazon-emr
0 votes

answers

views

错误的FS加载json与来自s3的火花

我正在尝试用spark加载geojson文件和magellan library我的加载代码是： val polygons = spark.read.format("magellan").option("type", "geojson").load(inJson) 其中inJson是我在s3上的json的路径：s3n：//bucket-n...

hadoop apache-spark amazon-s3 geospatial amazon-emr
2 votes

answers

views

Amazon EMR 5.0上的spark-submit executor-memory问题

我启动了这样的Python Spark程序： /usr/lib/spark/bin/spark-submit \ --master yarn \ --executor-memory 2g \ --driver-memory 2g \ --num-executors 2 --executor-cores 4 \ my_spark_program.py 我收到错误：所需的...

apache-spark amazon-ec2 amazon-emr
8 votes

answers

views

如何在Amazon EMR上查找spark主URL

我是新手，并试图在版本为1.3.1的Amazon集群上安装spark . 当我做 SparkConf sparkConfig = new SparkConf().setAppName("SparkSQLTest").setMaster("local[2]"); 它对我有用，但我知道这是为了测试目的我可以设置本地[2] 当我尝试使用群集模式时，我将其更改为 ...

apache-spark spark-streaming amazon-emr
3 votes

answers

views

Spark 2.3.1 AWS EMR不返回某些列的数据，但仍适用于Athena / Presto和Spectrum

我在AWS EMR上使用Spark 2.3.1上的PySpark（Python 2.7.14） spark = SparkSession \ .builder \ .appName("Python Spark SQL data source example") \ .config("hive.metastore.client.factory.c...

apache-spark amazon-emr
5 votes

answers

views

结构化流媒体赢得了't write DF to file sink citing /_spark_metadata/9.compact doesn't存在

我正在EMR 5.11.1，Spark 2.2.1中构建一个Kafka摄取模块 . 我的目的是使用结构化流来消费Kafka主题，进行一些处理，并以镶木地板格式存储到EMRFS / S3 . 控制台接收器按预期工作，文件接收器不起作用 . 在 spark-shell ： val event = spark.readStream.format("kafka") .option(&q...

apache-spark amazon-s3 amazon-emr spark-structured-streaming
0 votes

answers

views

无法测试来自Spark的S3支持的Hbase

我写了一个简单的程序来读取HBase中的数据，该程序在HDFS支持的Cloudera中找到 . 但是在使用S3测试EMR上的数据时获得异常 . // Spark conf SparkConf sparkConf = new SparkConf().setMaster("local[4]").setAppName("My App"); ...

apache-spark amazon-s3 hbase amazon-emr
1 votes

answers

views

Spark DataFrame行数在运行之间不一致

当我在EMR上运行我的spark作业（版本2.1.1）时，每次运行会在数据帧上计算不同的行数 . 我首先从s3读取数据到4个不同的数据帧，这些计数总是一致的，然后在加入数据帧之后，连接的结果具有不同的计数 . 之后我也会过滤结果，每次运行时也有不同的计数 . 变化很小，1-5行差异，但它仍然是我想要了解的东西 . 这是加入的代码： val impJoinKey = Seq("iid&qu...

scala apache-spark emr amazon-emr
0 votes

answers

views

纱线容器，火花 Actuator 和EMR中可用节点之间的关系是什么？

假设我有一个拥有1个主节点，3个核心节点和5个任务节点的集群 . 如果我在YARN集群模式下运行spark作业，驱动程序将在主节点上运行（主节点也可以运行执行程序吗？），每个容器可以有X个执行程序 . 我有3 5 = 8个容器吗？或者只有3个容器，因为只有核心节点可以存储数据？另外，如果我有两个同时运行的spark作业，每个节点有2个独立的容器，每个spark作业有1个，或者2个spark jo...

apache-spark yarn amazon-emr
2 votes

answers

views

如何使用AWS Glue / Spark将在S3中分区和拆分的CSV转换为分区和拆分Parquet

在AWS Glue的目录中，我有一个外部表定义了分区，在S3中看起来大致如此，并且每天添加新日期的分区： s3://my-data-lake/test-table/ 2017/01/01/ part-0000-blah.csv.gz . . part-8000-blah.csv.gz 2017/01/02/ ...

amazon-web-services apache-spark amazon-emr aws-glue
0 votes

answers

views

弹性映射减少JSON导出到DynamoDB错误AttributeValue可能不包含空字符串

我正在尝试使用来自S3中包含稀疏字段的JSON文件的EMR作业来导入数据，例如一个ios_os字段和android_os但只有一个包含数据 . 有时数据为空，有时它是一个空字符串，当尝试插入DynamoDB时我收到错误（虽然我能够插入一些稀疏填充的记录）： “AttributeValue可能不包含空字符串”{“created_at_timestamp”：1358122714，...，“data”...

hadoop hive amazon-dynamodb amazon-emr
3 votes

answers

views

hadoop流式传输确保每个减速器一个键

我有一个映射器，在处理数据时，将输出分为3种不同的类型（类型是输出键） . 我的目标是通过reducer创建3个不同的csv文件，每个文件包含一个带有 Headers 行的键的所有数据 . 键值可以更改，并且是文本字符串 . 现在，理想情况下，我希望有3个不同的reducer，每个reducer只有一个键，它的整个值列表 . 除此之外，这似乎不起作用，因为键不会映射到特定的reducer . 其他...

hadoop amazon-emr hadoop-streaming
1 votes

answers

views

pyspark saveAsTextFile适用于python 2.7但不适用于3.4

我在Amazon EMR集群上运行pyspark . 我有一个非常简单的测试脚本，看看我是否可以使用spark-submit将数据写入s3 ... from pyspark import SparkContext sc = SparkContext() numbers = sc.parallelize(range(100)) numbers.saveAsTextFile("s3n://m...

python amazon-web-services apache-spark pyspark amazon-emr
2 votes

answers

views

添加python包以在aws EMR中使用spark

我刚刚开始使用AWS EMR作为测试的一部分 - 我已经创建了一个启动文件来使用我的EMR实例上的pip安装特定的python包 . 我知道这是非常基本的 . bash脚本包含 #!/bin/bash set -e pip install typing --user 但是，当我提交python脚本作为一个步骤时，我收到以下错误 Traceback（最近调用最后一次）：文件“py-calcul...

apache-spark amazon-emr
1 votes

answers

views

在亚马逊emr上运行时要指定为spark master的内容

Spark有native support by EMR . 使用EMR Web界面创建新群集时，可以添加一个自定义步骤，该步骤将在群集启动时执行Spark应用程序，基本上是群集启动后的自动spark-submit . 我一直在想如何在启动EMR集群并通过指定的EMR步骤提交jar文件时，如何在应用程序中为SparkConf指定主节点？事先不可能知道集群主机的IP，如果我手动启动集群然后在调用sp...

apache-spark amazon-emr
3 votes

answers

views

Spark作业提交：AWS EMR步骤或命令行spark-submit

我正在使用yarn作为主集群部署模式运行AWS EMR集群 . 我阅读的所有教程都使用AWS CLI在所谓的“Spark Steps”中运行spark-submit，使用类似于以下的命令： aws emr add-steps --cluster-id j-2AXXXXXXGAPLF --steps Type=Spark,Name="Spark Program",ActionOn...

amazon-web-services apache-spark yarn amazon-emr
1 votes

answers

views

在EMR上引发JAR时引发ClassNotFoundException

我正在使用eclipse / Maven创建一个JAR并在EMR上运行它这是我的pom.xml文件 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocatio...

java scala hadoop apache-spark amazon-emr
0 votes

answers

views

如何激发提交作业到其他集群上的纱线？

我有一个安装了spark的docker容器，我正在尝试使用marathon将作业提交到其他集群上的yarn . docker容器具有yarn和hadoop conf dir的导出值，yarn文件还包含emr master ip的正确地址，但我不确定它作为localhost的位置？ ENV YARN_CONF_DIR="/opt/yarn-site.xml" ENV HADOO...

apache-spark hadoop yarn amazon-emr

热门问题