-
0 votesanswersviews
Spark没有注册输出操作,因此无需执行,但我正在写入文件
val sc = new SparkContext(conf) val streamContext = new StreamingContext(sc, Seconds(1)) val log = Logger.getLogger("sqsLog") val sqs = streamContext.receiverStream(new SQSReceiver("q... -
0 votesanswersviews
当Spark Read从文件系统进入驱动程序时?
我想知道当Spark摄取数据时,数据是在驱动程序中被摄取并发送给工作者,Spark是否指示节点从文件系统中读取数据? 我知道在火花流中,使用kafka源,显然,工作节点从kafka读取 . 但是,当从文件系统中读取时,我不确定它是如何工作的 . 情况1 A - 从文件系统读取时假设文件系统是HDFS A.1 - 驱动程序是否读取文件并将数据传输给工作人员或者是否让工作人员读取文件A.2 -... -
4 votesanswersviews
Spark:在分区拼花数据中读取DateType列时出错
我在S3中使用nyc_date以 s3://mybucket/mykey/nyc_date=Y-m-d/*.gz.parquet 格式分区的镶木地板数据 . 我有一个DateType列 event_date ,当我尝试从S3读取并使用EMR写入hdfs时,由于某种原因抛出此错误 . from pyspark.sql import SparkSession spark = SparkSession... -
1 votesanswersviews
Apache Spark镶木地板分区
我试图使用日期作为分区键在Amazon S3镶木地板文件夹中保存DataFrame . 我每天都在加载数据 . 我第一次保存它时看到分区文件夹(即“txDate = 20160714”) . 当我处理下一个文件时,它们都转到"txDate=HIVE_DEFAULT_PARTITION":see parquet Hive partitions txDate是int 我正在使用Da... -
0 votesanswersviews
Amazon EMR作业,包含许多json文件作为输入
我正在python中编写一个hadoop流应用程序来运行EMR . EMR作业的输入是S3存储桶中的文件目录,每个存储桶都是包含单个json对象的json文件 . 我希望映射器对每个json文件进行操作,一次一个,并生成一个(键,值)对,如下所示: Map : {'name':'foo','request':'bar'} - >('name',{'request':'bar'}) 降... -
0 votesanswersviews
Amazon S3下载:直接iOS或Web服务节点Js . ?
我正在创建一个连接到后端Node js Web服务的ios应用程序 . 应用程序允许用户上传通过AFnetworking和我的节点js后端处理的图片到mysql(文件路径)和亚马逊S3(实际图像) . 但是,为了将照片下载到uitableview中,我想知道通过后期请求处理下载是否更好,并从后端返回图片或处理客户端上的所有内容并加载图片使用aws-sdk . 当然,我首先从mysql数据库中获取对... -
0 votesanswersviews
Apache Camel - 基于body聚合消息
我目前正在使用apache camel来使用SQS消息,一切都运行正常 . 作为一个项目的一部分,我在上传文件时使用S3通知事件 . 文件上传到可预测的S3密钥 - (<type>/<account-id>/<id>/<file>) . 在处理时,我使用camel将消息聚合到一个交换中(等待10条消息,或者在1秒后超时) . 我想知道但是,是否... -
1 votesanswersviews
如何为GO服务器安装GoCD-S3-Artifacts
我想将GO-CD的S3插件安装到我的GO服务器上 . 我在http://www.go.cd/community/plugins.html上找到"S3 artifacts poller",但"Download"链接对jar包没有任何意义 . 文档再次没有说明如何下载 jar . http://ind9.github.io/gocd-s3-artifacts... -
4 votesanswersviews
从Amazon S3到Redshift / Redshift解决方案的数据导入速度
有谁知道从Amazon S3到Redshift的复制速度有多快? 我只想每天使用RedShift大约一个小时,以便在Tabelau报告上运行更新 . 正在运行的查询始终位于同一个数据库中,但我需要每晚运行它们以记录当天发布的新数据 . 我不想让一个集群全天候运行一天只能使用一小时,但我能看到这样做的唯一方法是每晚将整个数据库导入Redshift(我认为你不能暂停或暂停群集 . 我不知道复制速度是多... -
34 votesanswersviews
亚马逊红移:批量插入与来自s3的COPYing
我有一个红色群集,我用于一些分析应用程序 . 我有传入的数据,我想添加到 clicks 表 . 让's say I have ~10 new '点击'我想要存储的每一秒 . 如果可能,我希望我的数据尽快在红移中可用 . 根据我的理解,由于柱状存储,插入性能很差,因此您必须按批次插入 . 我的工作流程是将点击数存储在redis中,每分钟,我都会将redis中的~600次点击作为批量插入红色 . 我必... -
6 votesanswersviews
如何实时加载到Amazon Redshift?
我们正在评估Amazon Redshift的实时数据仓库 . 数据将通过Java服务进行流式处理和处理,并应存储在数据库中 . 我们逐行(实时)处理,每个事务只插入一行 . What is best practice for real time data loading to Amazon Redshift? 我们应该使用JDBC并执行 INSERT INTO 语句,还是尝试使用Kinesis F... -
0 votesanswersviews
Redshift中的增量加载
我们目前正致力于将数据加载到Redshift中 . 我们这里有不同的场景 . 如果OLTP数据库是驻留在本地的SQL Server,那么我们可以考虑像Attunity这样的工具,它可以帮助通过S3将数据加载到Redshift . CDC中的关联性很聪明,可识别读取事务日志的更改,并可相应地对目标应用更改 . 但是这种工具在ETL过程中应用转换逻辑很差 . Attunity不是SSIS或ODI的... -
0 votesanswersviews
复制错误从S3加载Amazon Redshift
对AWS和RedShift来说很新,所以请慢点 . 我正在试图弄清楚如何将我上传到S3的csv文件中的数据加载到Redshift集群中 . 我已经设法创建了所需的表,但是当我尝试运行Copy命令将S3中的数据加载到表中时(使用SQLWorkbench),我收到以下错误; 无效操作:S3ServiceException:您尝试访问的存储区必须使用指定的 endpoints 进行寻址 . 请将以后的... -
1 votesanswersviews
仅备份从DynamoDB到S3的新记录并将其加载到RedShift中
我看到类似的问题已经存在: Backup AWS Dynamodb to S3 Copying only new records from AWS DynamoDB to AWS Redshift Loading data from Amazon dynamoDB to redshift 不幸的是,他们中的大多数已经过时(因为亚马逊引入了新的服务)和/或有不同的答案 . 在我的情况下,我有两个数据... -
0 votesanswersviews
Amazon Redshift框架(Oracle数据仓库迁移)
我们目前正计划将50 TB的Oracle数据仓库迁移到Amazon Redshift . 来自不同OLTP数据源的数据首先在Oracle临时数据库中暂存,然后再加载到数据仓库中 . 目前,数据已在临时数据库中使用大量PL / SQL存储过程进行转换,并加载到数据仓库中 . OLTP数据源1 - > JMS(MQ)实时 - > Oracle STG Database --> O... -
0 votesanswersviews
S3或DynamoDb用于用户存储?
我想在无服务器架构中使用AWS Lambda和Cognito,并且好奇的是人们想要将S3存储桶用于用户数据存储而不是DynamoDb?什么是利弊? -
3 votesanswersviews
创建与MS SQL Server RDS的Glue连接的问题
我在这里阅读了所有已回答的问题,其中5个 . 所有这些都是关于可用的AWS产品现已过时的 . 因此,作为AWS的新手,我想知道如何解决我的问题,或者仅使用AWS解决方案解决问题的最佳方法是什么 . 我想避开任何第三方 . 我知道我会引用我用Google搜索的一种方法,但只是引用它 . 无论如何,我有一个目标要实现,这基本上取代了我的SQL Server 2012集成服务,只使用AWS产品 . 现在... -
0 votesanswersviews
AWS lambda使用DynamoDB中的数据编辑html模板
我试图将从DynamoDB数据库检索到的数据插入存储在S3上的HTML模板(基本上填写HTML表单上的空白) . 我不是很精通JavaScript,所以我不确定从哪里开始 . 到目前为止,我已经能够从S3检索HTML文档并转换为UTF8字符串...这可能没有必要,但我只是练习与Lambda谈论S3 . 我是否需要使用第三方库以使HTML包含我可以更改的变量?或者我可以以某种方式更改ID'd ref... -
2 votesanswersviews
dynamodb vs aws s3用于时间序列数据
我的数据模型如下:时间戳,值 这当前存储在s3中的csv文件中,客户端下载并使用它将值附加到某些数据上,模型:Timestamp,name 最终文件是时间戳,名称,值 将所有数据模型存储在dynamodb表中并通过时间戳查找每个数据模型会更快吗? 我的问题是我们会查找100-20k的记录,我不确定发电机会如何处理 . 如果整个文件位于客户端,大约3MB,那么可以在本地完成 . 此文件现在为3MB,... -
0 votesanswersviews
通过Spark和Glue将部分关系S3数据移植到Redshift中
我应该在此前提到我正在为我的AWS账户使用增强型VPC路由,这是使用传统的S3到Redshift查询的precludes me: “您的群集无法启用增强型VPC路由 . (使用Spectrum)” 我的理解是,AWS Redshift是一种高辛烷值的Postgres-as-a-service,针对大数据量的极快读取进行了优化 . 因此,如果您有很多想要查询/分析的关系数据,那么Redshif... -
0 votesanswersviews
将input_file_path参数提供给Glue控制台的 Binders
我想传递一个s3文件名作为input_file_path,我想从Glue console执行作业 . 是否可以通过AWS Glue控制台提供input_file_path参数? -
1 votesanswersviews
在S3中逐步向Parquet表添加数据
我想在S3上的Parquet中保留我的日志数据的副本,以进行临时分析 . 我主要通过Spark与Parquet合作,并且似乎只提供通过 SQLContext.parquetFile() 和 SQLContext.saveAsParquetFile() 读取和写入整个表的操作 . 有没有办法将数据添加到现有的Parquet表而不编写全新的副本,特别是当它存储在S3中时? 我知道我可以为更新创建单独的... -
0 votesanswersviews
Pyspark无法使用协议s3a,s3n和s3从s3读取avro文件
尝试使用路径协议从s3读取avro文件时://bucket/prefix/filename.avro 使用协议s3,s3a或s3n时出现这种错误: 得到错误:在get_return_value py4j中输入文件“/usr/local/spark-2.2.1-bin-hadoop2.7/python/lib/py4j-0.10.4-src.zip/py4j/protocol.py”,第319行 .... -
17 votesanswersviews
使用Spark通过s3a将镶木地板文件写入s3非常慢
我正在尝试使用 Spark 1.6.1 将 parquet 文件写入 Amazon S3 . 我正在生成的小 parquet 是 ~2GB 曾经写过's not that much data. I' m试图证明 Spark 作为我可以使用的平台 . 基本上我要做的是设置 star schema 和 dataframes ,然后我'm going to write those tables out... -
3 votesanswersviews
没有扩展名的PySpark S3 Gzip文件
我试图通过PySpark从S3读取一堆gzip压缩文件 . 通常textFile或spark-csv会自动解压缩gzips,但我正在使用的文件没有.gz扩展名,因此最终会被压缩后读入 . 有数百万个文件,它们由另一个团队拥有,并且每天都会更新多次 . 有没有办法强制告诉textFile或spark-csv API的压缩风格?或者还有其他方法可以复制和重命名文件吗? -
3 votesanswersviews
使用AWS Lambda读取存储在S3中的Parquet文件(Python 3)
我正在尝试使用AWS Lambda在S3中加载,处理和编写Parquet文件 . 我的测试/部署过程是: https://github.com/lambci/docker-lambda作为模拟Amazon环境的容器,因为需要安装本机库(numpy等) . 此过程生成一个zip文件:http://docs.aws.amazon.com/lambda/latest/dg/with-s3-exa... -
5 votesanswersviews
使用Snappy压缩的Parquet格式的Redshift COPY命令
我在HDFS中有数据集,它采用镶木地板格式,并且有snappy作为压缩编解码器 . 就我的研究而言,目前Redshift只接受带有gzip,lzo压缩编解码器的纯文本,json,avro格式 . 或者,我正在将镶木地板格式转换为纯文本,并使用Pig脚本将snappy编解码器更改为gzip . 目前有没有办法直接从镶木地板文件加载数据到Redshift? -
2 votesanswersviews
使用Snappy压缩以ORC格式编写Spark数据帧
我成功地读取了存储在S3中的文本文件,并使用Spark数据帧以ORC格式将其写回S3 . - inputDf.write().orc(outputPath);我无法做的是使用snappy压缩转换为ORC格式 . 我已经尝试在写入时给出选项,因为将编解码器设置为snappy但Spark仍然正常编写ORC . 如何使用Spark Dataframes通过Snappy压缩到S3来实现ORC格式的写... -
0 votesanswersviews
AWS - 私有EC2(新弗吉尼亚州)和S3(孟买) - 列表问题
创建了私有EC2实例,为S3创建了一个VPC endpoints (com.amazonaws.us-east-1.s3),我能够获取在us-east-1区域中存在的S3存储桶文件 . aws s3 ls s3://usbastiontesting --recursive 我在孟买地区有一个S3存储桶,无论如何我可以从私有EC2实例(弗吉尼亚州北部)获取这些文件吗? 在命令下面使用,但它不是取文... -
216 votesanswersviews
REST身份验证方案的安全性
背景: 我正在为REST Web服务设计身份验证方案 . 这并非“真正”需要安全(它更像是一个个人项目),但我希望尽可能安全地将其作为锻炼/学习体验 . 我不想使用SSL,因为我不想要麻烦,而且主要是设置它的费用 . 这些SO问题对我开始特别有用: RESTful Authentication Best Practices for securing a REST API / web ser...