-
0 votesanswersviews
Wildfly找不到cassandra jdbc驱动程序
我有问题将我的cassandraDB连接到wildfly . 我正在使用Cassandra 3.0.9和wildfly 10.1.0.Final . 当我启动wildfly服务器时,它会给我一个这样的错误: ERROR [org.jboss.as.controller.management-operation](控制器启动线程)WFLYCTL0013:操作(“添加”)失败 - 地址:([(“su... -
20 votesanswersviews
Spark,Hadoop和Cassandra之间的关系是什么?
我的理解是Spark是Hadoop的替代品 . 但是,在尝试安装Spark时,安装页面会要求安装现有的Hadoop . 我无法找到任何澄清这种关系的东西 . 其次,Spark显然与Cassandra和Hive有良好的连接 . 两者都有sql风格的界面 . 但是,Spark有自己的sql . 为什么人们会使用Cassandra / Hive而不是Spark的原生sql?假设这是一个没有现有安装的全新... -
3 votesanswersviews
使用Spark Streaming填充的Cassandra表上的Spark SQL
我有一个Spark Streaming进程实时填充Cassandra表 . 我想在该Cassandra表上进行查询,以便访问底层数据 . CQL的语法非常有限(条件有限,没有分组),所以我想在它上面使用Spark SQL . 但是一旦我加载数据框,它就不会看到底层数据的任何变化 . 如何不断保持刷新数据帧,以便他们始终看到数据更改? 斯尔詹 -
1 votesanswersviews
考虑从MySQL切换到Cassandra或MongoDB以获取ad-hoc元数据[关闭]
我考虑从SQL切换到NoSQL,我有点沮丧 . 我是一名自学者,在考虑一个包含大量ad-hoc元数据的项目时,精通MySQL,寻找潜在的替代方案 . 我已经做了很多关于趋势NoSQL替代品的研究,但我不确定他们是否值得转换 . 大多数讨论都是关于我无法考虑的主题,例如可扩展性和性能(这样做会是一个梦想 . )通过一些背景信息,也许有人可以帮助我 . 现在我正在考虑以典型的第3范式形式设置MySQL... -
1 votesanswersviews
当Cassandra集群中的节点达到极限时该怎么办?
我正在研究Cassandra,并正在为我正在进行的项目 Build 一个集群 . 考虑这个例子:假设我设置了一个5节点集群,每个集群有200 GB的空间 . 这相当于总共1000 gb(约1 TB)的空间 . 假设我的分区在群集中平均分配,我可以轻松添加节点并实现线性可伸缩性 . 但是,如果这5个节点开始接近SSD限制200 gb怎么办?在这种情况下,我可以添加5个节点,现在分区将分成10个节点 ... -
1 votesanswersviews
对大数据架构的建议:mongodb spark
我需要实现一个大数据存储处理系统 . 数据每天都在增加(大约每天最多5000万行),数据符合大约10个字段(日期,数字,文本,ID)的非常简单的JSON文档 . 然后可以在线查询数据(如果可能),在文档的某些字段(日期范围查询,ID等)上进行任意分组 . 我正在考虑使用MongoDB集群存储所有这些数据并为我需要查询的字段构建索引,然后在apache Spark集群中处理数据(主要是简单的聚合排序... -
13 votesanswersviews
比较Cassandra的CQL与Spark / Shark查询与Hive / Hadoop(DSE版本)
我想听听您对CQL和内存查询引擎Spark / Shark使用的想法和经验 . 据我所知,CQL处理器在每个节点上的Cassandra JVM中运行 . 与Cassandra集群连接的Shark / Spark查询处理器在一个独立的集群中运行 . 此外,Datastax拥有Cassandra的DSE版本,允许部署Hadoop / Hive . 问题是在哪个用例中我们会选择一个特定的解决方案而不是另... -
1 votesanswersviews
如何每15分钟自动在Spark SQL或Scala Shell上运行命令?
我在Cassandra中有一些动态的数据,我在火花分析模式下运行DSE 4.5 . 因为如果我缓存,我无法让我的RDD与底层数据库保持同步,我需要有一些后台进程来连续生成我的RDD并从DB收集最新的 . 我如何自动执行以便在Scala Shell中每15分钟运行以下命令? (我是scala的新手) 从cassandra表A创建RDD 转换它 保存到Cassandra表B. 或者,我... -
1 votesanswersviews
如何设置cassandra和spark
我的目标是在同一个Cassandra节点上运行Spark worker,并为Spark master提供一个单独的节点 . 现在,我正在尝试Datastax . 在安装Cassandra datastax期间,我可以选择3种不同的节点类型 - Cassandra,搜索和分析 . 在我的3节点集群上,我应该选择2个节点上的事务节点类型和1个节点类型进行分析(Spark master)吗?如何在Ca... -
2 votesanswersviews
Spark Master不以DSE 4.7和OpsCenter 5.1.3开头
我最近从Datastax 4.6.3 => 4.7升级,现在我无法运行Spark . 问题似乎是Spark Master未正确配置 . 我使用OpsCenter 5.1.3,并启动了一个三节点Analytics集群 . 奇怪的是,节点最初的设置SPARK_ENABLED = 0,我必须手动将其设置为1 . 但是,现在没有正确配置spark master . 在/var/log/cassand... -
4 votesanswersviews
在C *侧过滤 - 按下过滤器/从Spark查询范围查询到C *
我使用datastax / spark-cassandra-connector和C *表填充1B行(datastax-enterprise dse 4.7.0)来处理spark 1.2.1 . 我需要执行范围过滤器/查询时间戳参数 . 如果不加载整个1B行表来激活内存(可能需要几个小时才能完成)并且几乎将查询推回到C *,最好的方法是什么? 使用带有JoinWithCassandraTable的r... -
1 votesanswersviews
使用JDBC(例如Squirrel SQL)使用Spark SQL查询Cassandra
我有一个Cassandra集群,它有一个共同定位的Spark集群,我可以通过编译它们,复制它们并使用./spark-submit脚本来运行通常的Spark作业 . 我编写了一个小作业,接受SQL作为命令行参数,将其作为Spark SQL提交给Spark,Spark针对Cassandra运行该SQL并将输出写入csv文件 . 现在我觉得我正在绕圈试图弄清楚是否可以直接在JDBC连接中通过Spark ... -
2 votesanswersviews
使用IN作为复合分区键时,Spark-Cassandra非常慢
我有一个带有复合分区键的cassandra表(time_bucket timestamp,node int) . time_bucket值是插入数据的时间,秒数转换为00,节点值范围为0到100 火花作业每分钟都会从表格中获取数据 . 该表包含近2500万条记录,每分钟都会添加记录 . 如果我的spark作业每次运行时都选择所有记录,则作业将在2分钟内完成 . 但如果我查询使用: s c.ca... -
1 votesanswersviews
使用Spark SQL在Cassandra表上运行复杂的SQL查询
在这里我用Cassandra-spark连接器设置了Cassandra和Spark . 我可以使用Scala创建RDD . 但我想在Cassandra表上使用Spark SQL运行复杂的SQL查询(聚合/分析函数/窗口函数),你能帮忙我该怎么办? getting error like this 以下是使用的查询:sqlContext.sql(“”“CREATE TEMPORARY TABLE wo... -
3 votesanswersviews
使用Datastax Spark Cassandra Connector将PairDStram写入cassandra
我需要使用Java和Datastax Spark Cassandra Connector将我的过滤流的数据写入cassandra . 我跟着datastax java documentation . 该文档解释了如何将编写RDD写入cassandra,而不是如何编写Dstream . 我需要能够保存一个PairDStream,我不知道该怎么做,因为所有的例子都是用scala编写的 . 我需要在ja... -
1 votesanswersviews
使用spark streaming将json插入cassandra表
我正在使用spark streaming将一些数据从kafka中提取到cassandra中 . 来自kafka的数据是json格式,看起来像这样 {“message”:“从kafka appender测试异常”,“loggerName”:“com ... KafkaAppenderTest”,“params”:null,“complete”:“假例外”} 这是我从kafka消息创建流的代码 J... -
3 votesanswersviews
从spark Actuator 查询cassandra
我有一个kafka的流媒体应用程序,我想知道是否有办法从 Map 功能中进行范围查询? 我按照时间范围和密钥对来自kafka的消息进行分组,然后根据我想将数据从cassandra拉入该dstream的时间范围和密钥 . 就像是: lookups .map(lookup => ((lookup.key, lookup.startTime, lookup.endTime), lookup))... -
0 votesanswersviews
Spark Cassandra Connector中的错误查询错误处理
我有一个Spark Streaming应用程序,它有多个数据流(DStreams),它们写在同一个Cassandra表中 . 在大量随机数据上测试我的应用程序时,我收到来自Spark Cassandra Connector的错误,该错误对于调试几乎没有帮助 . 错误如下所示: java.util.concurrent.ExecutionException: com.datastax.driver.... -
0 votesanswersviews
如何在Windows中使用Scala将Cassandra与Spark连接起来
我正在尝试使用Scala连接Spark和Cassandra,如此处所述http://www.planetcassandra.org/blog/kindling-an-introduction-to-spark-with-cassandra/我在 Headers 下的步骤中遇到错误: “将连接器加载到Spark Shell:” val test_spark_rdd = sc.cassandraTab... -
1 votesanswersviews
使用Spark将数据从文件加载到Cassandra表中
我是Cassandra Spark的新手,并尝试使用Spark master Cluster将数据从File加载到Cassandra Table . 我按照以下链接中给出的步骤操作 http://docs.datastax.com/en/datastax_enterprise/4.7/datastax_enterprise/spark/sparkImportTxtCQL.html 在步骤8中,数据... -
2 votesanswersviews
使用Cassandra的Spark任务
我是Spark和Cassandra的新手 . 我们在Cassandra上使用Spark来读取数据,因为我们需要使用非主键列来读取数据 . 一个观察结果是,火花作业的任务数量增加了数据增长 . 因此,我们在获取数据时面临很多延迟 . 火花工作任务数量增加的原因是什么? 用Cassandra提高Spark性能应该考虑什么? 请建议我 . 谢谢,Mallikarjun -
0 votesanswersviews
将Kafka主题的数据保存到Cassandra
我正在学习Spark流媒体,并试图将使用spark-streaming和Cassandra Spark连接器从Kafka主题收到的样本库存数据(只是像“MSFT:28.29”这样的字符串)保存到Cassandra . 没有保存到Cassandra我的代码工作正常(从Kafka获取数据并进行一些简单的统计计算) . 配置Cassandra并 Build 连接 . 但是,如果我在处理之前尝试添加以下行... -
7 votesanswersviews
无法在spark-cassandra-connector中更改身份验证
我正在创建一个Spark-Cassandra应用程序(Spark 1.6.0和spark-cassandra-connector 1.6.0-M1),其中我要求多个用户输入他们的Cassandra属性,如主机,用户名,密码,Keyspace,表等 . 要动态更改上述属性并从Cassandra表创建数据框,我用Google搜索并找到了一些信息 http://www.russellspitzer.co... -
0 votesanswersviews
向cassandra插入数据的Spark作业在客户端模式下工作,而不是在集群中工作
我有一个火花流媒体工作,在客户端模式下工作得非常好 . 它从Kafka读取数据,处理它,并插入到Cassandra . 当我将部署模式更改为群集时,应用程序正在运行,但数据不会刷新到Cassandra . 我检查了所有日志,但没有错误 . 无论如何,在WEB UI中,我发现了一些非常有趣的问题: 看起来流中的所有批次都没有完成,它们都是活跃的! 那可能是什么问题呢? EDITED 这是一些代码 v... -
0 votesanswersviews
Spark-Cassandra连接器数据读取
我在每个节点机器上都有带有Spark worker的Cassandra节点集群 . 对于通信我正在使用Datastax Spark-Cassasndra连接器 . Datastax连接器是否具有由同一台机器中的工作者从Cassandra节点读取数据的优化,或者在机器之间存在一些数据流? -
3 votesanswersviews
Kafka-> Spark-> Cassandra强制数据局部性
我有一个流式处理过程,它从Kafka读取数据,使用Spark处理它并将数据写入Cassandra . 这将在具有3-5个节点的集群上运行 . 我的计划是在集群的每个节点上部署spark,kafka和cassandra . 我想尽可能地强制执行数据局部性,并且我的意思是每个Spark节点从Kafka读取数据 ONLY on that node ,在本地处理它(我的管道中没有改组转换),并写入 Cas... -
1 votesanswersviews
Spark(SQL /结构化流)Cassandra - PreparedStatement
我实时使用Spark Structured Streaming进行机器学习,我希望在我的Cassandra集群中存储预测 . 由于我处于流式上下文中,每秒执行多次相同的请求,因此必须使用PreparedStatement进行强制优化 . 在cassandra spark驱动程序(https://github.com/datastax/spark-cassandra-connector)中没有办法使... -
2 votesanswersviews
找不到Spark,Cassandra Keyspace
我试图从cassandra键空间读取数据但是当尝试使用pyspark访问它时,Keyspace不可见 . 它在使用DataStax spark shell =>时有效 ubuntu@ip-172-31-60-229:~$ sudo dse -u xxxx -p xxxxx spark --conf spark.driver.cores=4 The log file is at /home/u... -
2 votesanswersviews
Spark SQL和Cassandra JOIN
我的Cassandra架构包含一个表,其中包含一个时间戳的分区键,以及一个作为聚类键的 parameter 列 . 每个分区包含10k行 . 这是以每秒1个分区的速率记录数据 . 另一方面,用户可以定义“数据集”,我有另一个表,其中包含作为分区键的“数据集名称”和一个聚类列,它是一个引用另一个表的时间戳(因此“数据集”是一个列表分区键) . 当然,我想做的事情看起来像Cassandra的反模式,因... -
0 votesanswersviews
Spark-Cassandra:如何有效地限制分区
经过几天的考虑,我仍然坚持这个问题:我有一个表,其中“timestamp”是分区键 . 该表包含数十亿行 . 我还有“timeseries”表,其中包含与特定测量过程相关的时间戳 . 使用Spark我想分析大表的内容 . 当然,进行全表扫描效率不高,并且在时间序列表中进行相当快速的查找,我应该只能定位10k分区 . 实现这一目标的最有效方法是什么? SparkSQL是否足够智能以优化这样的功能 s...