-
8 votesanswersviews
如何在Spark 2.1中保存分区的镶木地板文件?
我试图测试如何使用Spark 2.1在HDFS 2.7中写入数据 . 我的数据是一个简单的虚拟值序列,输出应该由属性:id和key分区 . // Simple case class to cast the data case class SimpleTest(id:String, value1:Int, value2:Float, key:Int) // Actual data to be ... -
1 votesanswersviews
Spark 2.3.0 SQL无法将数据插入到hive hbase表中
使用与hive 2.2.0集成的Spark 2.3 thriftserver . 从火花直线跑 . 尝试将数据插入hive hbase表(以hbase作为存储的hive表) . 插入hive本地表是可以的 . 插入hive hbase表时,会抛出以下异常: ClassCastException:无法将org.apache.hado. at org.apache.spark.executor.Ex... -
4 votesanswersviews
为什么AWS Glue上的Spark-XML因AbstractMethodError而失败?
我有一个用Python编写的AWS Glue作业,它引入了spark-xml库(通过Dependent jars路径) . 我正在使用spark-xml_2.11-0.2.0.jar . 当我尝试将我的DataFrame输出到XML时,我收到一个错误 . 我正在使用的代码是: applymapping1.toDF().repartition(1).write.format("com.da... -
3 votesanswersviews
Scala - Spark在Dataframe中检索,具有最大值的行,列名称
我有一个DataFrame: name column1 column2 column3 column4 first 2 1 2.1 5.4 test 1.5 0.5 0.9 3.7 choose 7 2.9 9.1 2.5 我想要一个带有包含列的新数据框,列名称包... -
4 votesanswersviews
根据列值对火花数据帧进行分区?
我有一个来自sql源的数据框,如下所示: User(id: Long, fname: String, lname: String, country: String) [1, Fname1, Lname1, Belarus] [2, Fname2, Lname2, Belgium] [3, Fname3, Lname3, Austria] [4, Fname4, Lname4, Australia... -
119 votesanswersviews
如何在Spark SQL的DataFrame中更改列类型?
假设我做的事情如下: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year:... -
31 votesanswersviews
过滤DataFrame的最有效方法是什么
...通过检查列的值是否在 seq 中 .也许我不是很好解释,我基本上想要这个(用常规SQL来表达): DF_Column IN seq ? 首先,我使用 broadcast var (我放置seq), UDF (执行检查)和 registerTempTable .问题是我没有测试它,因为我遇到了known bug,显然只有在使用带有ScalaIDE的 registerTempTable 时才出... -
18 votesanswersviews
根据日期过滤火花数据帧
我有一个数据帧 date, string, string 我想在某段时间之前选择日期 . 我试过以下没有运气 data.filter(data("date") < new java.sql.Date(format.parse("2015-03-14").getTime)) 我收到一条错误说明以下内容 org.apache.spark.sql.Ana... -
57 votesanswersviews
在Apache Spark中将Dataframe的列值提取为List
我想将数据帧的字符串列转换为列表 . 我可以从 Dataframe API找到的是RDD,所以我尝试先将其转换回RDD,然后将 toArray 函数应用于RDD . 在这种情况下,长度和SQL工作就好了 . 但是,我从RDD得到的结果在每个元素周围都有方括号,如 [A00001] . 我想知道是否有适当的方法将列转换为列表或删除方括号的方法 . 任何建议,将不胜感激 . 谢谢! -
6 votesanswersviews
Spark如何并行处理1TB文件?
Imaginary problem 一个巨大的CSV日志文件,假设大小为1 TB,该文件位于USB驱动器上 该日志包含世界各地用户的活动日志,我们假设该行包含50列,其中包含Country . 我们希望每个国家/地区的行数按降序排列 . 让我们假设Spark集群有足够的RAM节点来处理内存中的整个1TB(20个节点,4个核心CPU,每个节点有64GB RAM) My Poorm... -
-1 votesanswersviews
根据列spark数据帧获取重复的行[重复]
这个问题在这里已有答案: Spark: subtract two DataFrames 3个答案 我试图根据列ID删除重复的行 . 如何获取具有重复“id”的已删除数据?这是我一直在努力的代码 . val datatoBeInserted = data.select("id", "is_enabled", "code", "... -
6 votesanswersviews
使用Scala在Spark DataFrame中重用JSON中的Schema
我有一些像这样的JSON数据: {"gid":"111","createHour":"2014-10-20 01:00:00.0","revisions":[{"revId":"2","modDate":"2014-11-20 0... -
0 votesanswersviews
在spark数据帧上应用操作时出错
我是Spark框架的新手,并在我的本地机器上处理一些(〜)小任务来练习 . 我的任务如下:我在S3中存储了365个压缩的csv文件,其中包含每日日志 . 我想构建一整年的数据框架 . 我的方法是从存储桶中检索密钥,构建每日数据帧,将它们统一到月份数据帧中,为它们执行相同操作,并获得一整年的数据帧作为回报 . 这对我检索的一些样本数据起了作用 . 在构建DataFrame之前,我解压缩了文件,将未压... -
2 votesanswersviews
如何更改DataFrame的架构(以修复某些嵌套字段的名称)?
我有一个问题,当我们将一个Json文件加载到Spark中时,将其存储为Parquet,然后尝试从Impala访问Parquet文件; Impala抱怨列的名称,因为它们包含在SQL中非法的字符 . JSON文件的一个“功能”是它们没有预定义的架构 . 我希望Spark创建模式,然后我必须修改具有非法字符的字段名称 . 我的第一个想法是在DataFrame中的字段名称上使用 withColumnRe... -
3 votesanswersviews
Spark将csv列中的空值视为null数据类型
我的spark应用程序读取csv文件,使用sql将其转换为不同的格式,并将结果数据帧写入不同的csv文件 . 例如,我输入csv如下: Id|FirstName|LastName|LocationId 1|John|Doe|123 2|Alex|Doe|234 我的转变是: Select Id, FirstName, LastName, Locat... -
4 votesanswersviews
scala中两个数据帧的模式比较
我正在尝试编写一些测试用例来验证源(.csv)文件和目标(hive表)之间的数据 . 其中一个验证是表的结构验证 . 我已将.csv数据(使用已定义的模式)加载到一个数据框中,并将hive表数据提取到另一个数据框中 .当我现在尝试比较两个数据帧的模式时,它返回false . 不知道为什么 . 对此有什么想法吗? source dataframe schema: scala> res39.pr... -
0 votesanswersviews
从JSon File动态生成模式
需要你的帮助来定义一个动态模式,其中包含来自输入元数据JSon文件的字段和数据类型.Below是JSon文件 [ { "trim": true, "name": "id", "nullable": true, "id": null, "posit... -
0 votesanswersviews
在读取CSV文件时支持SparkSQL中的Map数据类型
我有一个CSV文件,其中包含各自列中的Map类型数据和Array类型数据 . 我试图在SparkSQL中创建一个数据框,但它会抛出一个错误,说不支持的类型映射和数组 . 我在Spark 1.6.3和Spark 2.2.1中尝试过这个 . 这是代码: Spark1.6.3: pyspark --packages com.databricks:spark-csv_2.10:1.5.0 from... -
0 votesanswersviews
pyspark使用模式将csv文件加载到数据框中
我是pyspark的新手,在Spark版本2.2.0和Python版本2.7.12上使用pyspark 我试图将2个.csv文件(具有多于1个 Headers 行)读入具有已知模式的2个不同数据帧并执行比较操作 . 我不确定是否有任何最佳/更好的方法来创建模式文件(包括列名,数据类型,可空性)并在pyspark程序中引用它以加载到数据帧中 . 我为第一个文件编码如下: 创建一个yaml文件来存... -
-1 votesanswersviews
Spark SQL Java GenericRowWithSchema无法强制转换为java.lang.String
我有一个应用程序试图从集群目录中读取一组csv并使用Spark将它们写为镶木地板文件 . SparkSession sparkSession = createSession(); JavaRDD<Row> entityRDD = sparkSession.read() .csv(dataCluster + "measures/measures-... -
3 votesanswersviews
为什么简单的计算 - 没有任何聚合或连接 - 导致在Spark SQL中使用OOME?
鉴于中等复杂的sql - 执行聚合( collect_list 和 set_of_strings )以及 join - 没有错误,事实上表现良好(快速): select size(set_of_strings(tps)) tpss, size(tps) tps, tp, size(set_of_strings(fps)) fpss, size(fps) fps, fp, ... -
12 votesanswersviews
遇到丢失的功能时,Apache Spark会抛出NullPointerException
在为要素中的字符串列编制索引时,我对PySpark有一个奇怪的问题 . 这是我的tmp.csv文件: x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1e2e,4.3,1 我在'x0'有一个缺失值 . 首先,我正在使用pyspark_csv将数据从... -
0 votesanswersviews
Spark工作在两个不同的HDFS环境中工作
我有一个要求,我需要编写一个spark作业来连接Prod(Source-Hive)Server A并将数据导入Local(Temp hive服务器)进行转换并将其加载回TargetProd(Server B) 在早期的情况下,我们将目标数据库作为Oracle,因此我们使用如下所示,这将覆盖表 AAA.write.format(“jdbc”) . option(“url”,“jdbc:oracle:... -
-1 votesanswersviews
迭代保存到Pyspark中的新DataFrame
我正在基于3种不同的PySpark DataFrame进行计算 . 这个脚本在它执行计算的意义上工作,但是,我努力与所述计算的结果一起正常工作 . import sys import numpy as np from pyspark import SparkConf, SparkContext, SQLContext sc = SparkContext("local") sql... -
10 votesanswersviews
文本列上的Pyspark DataFrame UDF
我正在尝试在PySpark DataFrame中做一些NLP文本清理一些Unicode列 . 我已经尝试过Spark 1.3,1.5和1.6,似乎无法让事情在我的生活中发挥作用 . 我也尝试过使用Python 2.7和Python 3.4 . 我已经创建了一个非常简单的udf,如下所示,它应该为新列中的每个记录返回一个字符串 . 其他函数将操作文本,然后将更改的文本返回到新列中 . import ... -
36 votesanswersviews
将pyspark字符串转换为日期格式
我有一个日期pyspark数据帧,其字符串列的格式为 MM-dd-yyyy ,我试图将其转换为日期列 . 我试过了: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() 我得到一串空值 . 有人可以帮忙吗? -
10 votesanswersviews
如何使用pyspark从某些字段分组的给定数据集中获取max(date)?
我有数据框中的数据如下: datetime | userId | memberId | value | 2016-04-06 16:36:... | 1234 | 111 | 1 2016-04-06 17:35:... | 1234 | 222 | 5 2016-04-06 17:50:... | 1234 | 111 ... -
0 votesanswersviews
如何在pyspark数据帧中返回Null值的行?
我试图从pyspark数据帧获取具有空值的行 . 在pandas中,我可以在数据帧上使用isnull()来实现这一点 df = df[df.isnull().any(axis=1)] 但是在PySpark的情况下,当我在命令下运行它时会显示Attributeerror: df.filter(df.isNull()) AttributeError:'DataFrame'对象没有属性'isNull... -
-1 votesanswersviews
Pyspark:在Pyspark数据框中选择语句
我正在寻找一种方法来改善我的pyspark脚本的性能 . 目前我通过编写sql语句来实现结果,但需要一点时间 . 我来自数据库背景,最近在编码方面我很幸运 . 我需要你的帮助 样本数据: NoOfSegments,SegmentID,Country 3,2,Bangalore 3,2,Bangalore 3,3,Delhi 3,2,Delhi 3,3,Delhi 3,1,Pune 3,3,Bang... -
1 votesanswersviews
从Spark 1.6升级到2.1 - 不兼容的类更改错误
我正在从Spark 1.6升级到2.1版本(HortonWorks Distribution) . 下面解释 Stage 1 和第2阶段情景,第1阶段成功执行, Stage 2 失败 . Stage 1 Spark 1.6.3的POM xml依赖项(工作正常)是, scala tools version 2.10 scala version 2.10.5 scala compiler versio...