Java 学习之路

8 votes

answers

views

如何在Spark 2.1中保存分区的镶木地板文件？

我试图测试如何使用Spark 2.1在HDFS 2.7中写入数据 . 我的数据是一个简单的虚拟值序列，输出应该由属性：id和key分区 . // Simple case class to cast the data case class SimpleTest(id:String, value1:Int, value2:Float, key:Int) // Actual data to be ...

scala apache-spark apache-spark-sql parquet
1 votes

answers

views

Spark 2.3.0 SQL无法将数据插入到hive hbase表中

使用与hive 2.2.0集成的Spark 2.3 thriftserver . 从火花直线跑 . 尝试将数据插入hive hbase表（以hbase作为存储的hive表） . 插入hive本地表是可以的 . 插入hive hbase表时，会抛出以下异常： ClassCastException：无法将org.apache.hado. at org.apache.spark.executor.Ex...

apache-spark hive apache-spark-sql hbase
4 votes

answers

views

为什么AWS Glue上的Spark-XML因AbstractMethodError而失败？

我有一个用Python编写的AWS Glue作业，它引入了spark-xml库（通过Dependent jars路径） . 我正在使用spark-xml_2.11-0.2.0.jar . 当我尝试将我的DataFrame输出到XML时，我收到一个错误 . 我正在使用的代码是： applymapping1.toDF().repartition(1).write.format("com.da...

python apache-spark apache-spark-sql aws-glue apache-spark-xml
3 votes

answers

views

Scala - Spark在Dataframe中检索，具有最大值的行，列名称

我有一个DataFrame： name column1 column2 column3 column4 first 2 1 2.1 5.4 test 1.5 0.5 0.9 3.7 choose 7 2.9 9.1 2.5 我想要一个带有包含列的新数据框，列名称包...

scala apache-spark apache-spark-sql
4 votes

answers

views

根据列值对火花数据帧进行分区？

我有一个来自sql源的数据框，如下所示： User(id: Long, fname: String, lname: String, country: String) [1, Fname1, Lname1, Belarus] [2, Fname2, Lname2, Belgium] [3, Fname3, Lname3, Austria] [4, Fname4, Lname4, Australia...

scala apache-spark apache-spark-sql
119 votes

answers

views

如何在Spark SQL的DataFrame中更改列类型？

假设我做的事情如下： val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year:...

scala apache-spark apache-spark-sql
31 votes

answers

views

过滤DataFrame的最有效方法是什么

...通过检查列的值是否在 seq 中 .也许我不是很好解释，我基本上想要这个（用常规SQL来表达）： DF_Column IN seq ？首先，我使用 broadcast var （我放置seq）， UDF （执行检查）和 registerTempTable .问题是我没有测试它，因为我遇到了known bug，显然只有在使用带有ScalaIDE的 registerTempTable 时才出...

apache-spark apache-spark-sql
18 votes

answers

views

根据日期过滤火花数据帧

我有一个数据帧 date, string, string 我想在某段时间之前选择日期 . 我试过以下没有运气 data.filter(data("date") < new java.sql.Date(format.parse("2015-03-14").getTime)) 我收到一条错误说明以下内容 org.apache.spark.sql.Ana...

apache-spark apache-spark-sql
57 votes

answers

views

在Apache Spark中将Dataframe的列值提取为List

我想将数据帧的字符串列转换为列表 . 我可以从 Dataframe API找到的是RDD，所以我尝试先将其转换回RDD，然后将 toArray 函数应用于RDD . 在这种情况下，长度和SQL工作就好了 . 但是，我从RDD得到的结果在每个元素周围都有方括号，如 [A00001] . 我想知道是否有适当的方法将列转换为列表或删除方括号的方法 . 任何建议，将不胜感激 . 谢谢！

scala apache-spark apache-spark-sql
6 votes

answers

views

Spark如何并行处理1TB文件？

Imaginary problem 一个巨大的CSV日志文件，假设大小为1 TB，该文件位于USB驱动器上该日志包含世界各地用户的活动日志，我们假设该行包含50列，其中包含Country . 我们希望每个国家/地区的行数按降序排列 . 让我们假设Spark集群有足够的RAM节点来处理内存中的整个1TB（20个节点，4个核心CPU，每个节点有64GB RAM） My Poorm...

apache-spark parallel-processing apache-spark-sql spark-dataframe
-1 votes

answers

views

根据列spark数据帧获取重复的行[重复]

这个问题在这里已有答案： Spark: subtract two DataFrames 3个答案我试图根据列ID删除重复的行 . 如何获取具有重复“id”的已删除数据？这是我一直在努力的代码 . val datatoBeInserted = data.select("id", "is_enabled", "code", "...

scala apache-spark apache-spark-sql
6 votes

answers

views

使用Scala在Spark DataFrame中重用JSON中的Schema

我有一些像这样的JSON数据： {"gid":"111","createHour":"2014-10-20 01:00:00.0","revisions":[{"revId":"2","modDate":"2014-11-20 0...

json scala apache-spark apache-spark-sql spark-dataframe
0 votes

answers

views

在spark数据帧上应用操作时出错

我是Spark框架的新手，并在我的本地机器上处理一些（〜）小任务来练习 . 我的任务如下：我在S3中存储了365个压缩的csv文件，其中包含每日日志 . 我想构建一整年的数据框架 . 我的方法是从存储桶中检索密钥，构建每日数据帧，将它们统一到月份数据帧中，为它们执行相同操作，并获得一整年的数据帧作为回报 . 这对我检索的一些样本数据起了作用 . 在构建DataFrame之前，我解压缩了文件，将未压...

apache-spark pyspark apache-spark-sql
2 votes

answers

views

如何更改DataFrame的架构（以修复某些嵌套字段的名称）？

我有一个问题，当我们将一个Json文件加载到Spark中时，将其存储为Parquet，然后尝试从Impala访问Parquet文件; Impala抱怨列的名称，因为它们包含在SQL中非法的字符 . JSON文件的一个“功能”是它们没有预定义的架构 . 我希望Spark创建模式，然后我必须修改具有非法字符的字段名称 . 我的第一个想法是在DataFrame中的字段名称上使用 withColumnRe...

scala apache-spark apache-spark-sql
3 votes

answers

views

Spark将csv列中的空值视为null数据类型

我的spark应用程序读取csv文件，使用sql将其转换为不同的格式，并将结果数据帧写入不同的csv文件 . 例如，我输入csv如下： Id|FirstName|LastName|LocationId 1|John|Doe|123 2|Alex|Doe|234 我的转变是： Select Id, FirstName, LastName, Locat...

apache-spark-sql spark-dataframe
4 votes

answers

views

scala中两个数据帧的模式比较

我正在尝试编写一些测试用例来验证源（.csv）文件和目标（hive表）之间的数据 . 其中一个验证是表的结构验证 . 我已将.csv数据（使用已定义的模式）加载到一个数据框中，并将hive表数据提取到另一个数据框中 .当我现在尝试比较两个数据帧的模式时，它返回false . 不知道为什么 . 对此有什么想法吗？ source dataframe schema: scala> res39.pr...

scala apache-spark-sql schema
0 votes

answers

views

从JSon File动态生成模式

需要你的帮助来定义一个动态模式，其中包含来自输入元数据JSon文件的字段和数据类型.Below是JSon文件 [ { "trim": true, "name": "id", "nullable": true, "id": null, "posit...

scala apache-spark pyspark apache-spark-sql
0 votes

answers

views

在读取CSV文件时支持SparkSQL中的Map数据类型

我有一个CSV文件，其中包含各自列中的Map类型数据和Array类型数据 . 我试图在SparkSQL中创建一个数据框，但它会抛出一个错误，说不支持的类型映射和数组 . 我在Spark 1.6.3和Spark 2.2.1中尝试过这个 . 这是代码： Spark1.6.3： pyspark --packages com.databricks:spark-csv_2.10:1.5.0 from...

apache-spark-sql pyspark-sql
0 votes

answers

views

pyspark使用模式将csv文件加载到数据框中

我是pyspark的新手，在Spark版本2.2.0和Python版本2.7.12上使用pyspark 我试图将2个.csv文件（具有多于1个 Headers 行）读入具有已知模式的2个不同数据帧并执行比较操作 . 我不确定是否有任何最佳/更好的方法来创建模式文件（包括列名，数据类型，可空性）并在pyspark程序中引用它以加载到数据帧中 . 我为第一个文件编码如下：创建一个yaml文件来存...

pyspark apache-spark-sql
-1 votes

answers

views

Spark SQL Java GenericRowWithSchema无法强制转换为java.lang.String

我有一个应用程序试图从集群目录中读取一组csv并使用Spark将它们写为镶木地板文件 . SparkSession sparkSession = createSession(); JavaRDD<Row> entityRDD = sparkSession.read() .csv(dataCluster + "measures/measures-...

java apache-spark apache-spark-sql parquet mapr
3 votes

answers

views

为什么简单的计算 - 没有任何聚合或连接 - 导致在Spark SQL中使用OOME？

鉴于中等复杂的sql - 执行聚合（ collect_list 和 set_of_strings ）以及 join - 没有错误，事实上表现良好（快速）： select size(set_of_strings(tps)) tpss, size(tps) tps, tp, size(set_of_strings(fps)) fpss, size(fps) fps, fp, ...

sql scala apache-spark apache-spark-sql
12 votes

answers

views

遇到丢失的功能时，Apache Spark会抛出NullPointerException

在为要素中的字符串列编制索引时，我对PySpark有一个奇怪的问题 . 这是我的tmp.csv文件： x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1e2e,4.3,1 我在'x0'有一个缺失值 . 首先，我正在使用pyspark_csv将数据从...

python apache-spark apache-spark-sql pyspark apache-spark-ml
0 votes

answers

views

Spark工作在两个不同的HDFS环境中工作

我有一个要求，我需要编写一个spark作业来连接Prod（Source-Hive）Server A并将数据导入Local（Temp hive服务器）进行转换并将其加载回TargetProd（Server B）在早期的情况下，我们将目标数据库作为Oracle，因此我们使用如下所示，这将覆盖表 AAA.write.format（“jdbc”） . option（“url”，“jdbc：oracle：...

apache-spark hadoop hive apache-spark-sql
-1 votes

answers

views

迭代保存到Pyspark中的新DataFrame

我正在基于3种不同的PySpark DataFrame进行计算 . 这个脚本在它执行计算的意义上工作，但是，我努力与所述计算的结果一起正常工作 . import sys import numpy as np from pyspark import SparkConf, SparkContext, SQLContext sc = SparkContext("local") sql...

apache-spark pyspark apache-spark-sql spark-dataframe pyspark-sql
10 votes

answers

views

文本列上的Pyspark DataFrame UDF

我正在尝试在PySpark DataFrame中做一些NLP文本清理一些Unicode列 . 我已经尝试过Spark 1.3,1.5和1.6，似乎无法让事情在我的生活中发挥作用 . 我也尝试过使用Python 2.7和Python 3.4 . 我已经创建了一个非常简单的udf，如下所示，它应该为新列中的每个记录返回一个字符串 . 其他函数将操作文本，然后将更改的文本返回到新列中 . import ...

python apache-spark pyspark apache-spark-sql pyspark-sql
36 votes

answers

views

将pyspark字符串转换为日期格式

我有一个日期pyspark数据帧，其字符串列的格式为 MM-dd-yyyy ，我试图将其转换为日期列 . 我试过了： df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() 我得到一串空值 . 有人可以帮忙吗？

apache-spark pyspark apache-spark-sql pyspark-sql
10 votes

answers

views

如何使用pyspark从某些字段分组的给定数据集中获取max（date）？

我有数据框中的数据如下： datetime | userId | memberId | value | 2016-04-06 16:36:... | 1234 | 111 | 1 2016-04-06 17:35:... | 1234 | 222 | 5 2016-04-06 17:50:... | 1234 | 111 ...

sql apache-spark pyspark apache-spark-sql pyspark-sql
0 votes

answers

views

如何在pyspark数据帧中返回Null值的行？

我试图从pyspark数据帧获取具有空值的行 . 在pandas中，我可以在数据帧上使用isnull（）来实现这一点 df = df[df.isnull().any(axis=1)] 但是在PySpark的情况下，当我在命令下运行它时会显示Attributeerror： df.filter(df.isNull()) AttributeError：'DataFrame'对象没有属性'isNull...

python pyspark apache-spark-sql bigdata pyspark-sql
-1 votes

answers

views

Pyspark：在Pyspark数据框中选择语句

我正在寻找一种方法来改善我的pyspark脚本的性能 . 目前我通过编写sql语句来实现结果，但需要一点时间 . 我来自数据库背景，最近在编码方面我很幸运 . 我需要你的帮助样本数据： NoOfSegments,SegmentID,Country 3,2,Bangalore 3,2,Bangalore 3,3,Delhi 3,2,Delhi 3,3,Delhi 3,1,Pune 3,3,Bang...

apache-spark pyspark apache-spark-sql pyspark-sql
1 votes

answers

views

从Spark 1.6升级到2.1 - 不兼容的类更改错误

我正在从Spark 1.6升级到2.1版本（HortonWorks Distribution） . 下面解释 Stage 1 和第2阶段情景，第1阶段成功执行， Stage 2 失败 . Stage 1 Spark 1.6.3的POM xml依赖项（工作正常）是， scala tools version 2.10 scala version 2.10.5 scala compiler versio...

scala apache-spark apache-spark-sql scala-collections

热门问题