Java 学习之路

0 votes

answers

views

Wildfly找不到cassandra jdbc驱动程序

我有问题将我的cassandraDB连接到wildfly . 我正在使用Cassandra 3.0.9和wildfly 10.1.0.Final . 当我启动wildfly服务器时，它会给我一个这样的错误： ERROR [org.jboss.as.controller.management-operation]（控制器启动线程）WFLYCTL0013：操作（“添加”）失败 - 地址：（[（“su...

jdbc cassandra wildfly-10
20 votes

answers

views

Spark，Hadoop和Cassandra之间的关系是什么？

我的理解是Spark是Hadoop的替代品 . 但是，在尝试安装Spark时，安装页面会要求安装现有的Hadoop . 我无法找到任何澄清这种关系的东西 . 其次，Spark显然与Cassandra和Hive有良好的连接 . 两者都有sql风格的界面 . 但是，Spark有自己的sql . 为什么人们会使用Cassandra / Hive而不是Spark的原生sql？假设这是一个没有现有安装的全新...

hadoop cassandra apache-spark apache-spark-sql
3 votes

answers

views

使用Spark Streaming填充的Cassandra表上的Spark SQL

我有一个Spark Streaming进程实时填充Cassandra表 . 我想在该Cassandra表上进行查询，以便访问底层数据 . CQL的语法非常有限（条件有限，没有分组），所以我想在它上面使用Spark SQL . 但是一旦我加载数据框，它就不会看到底层数据的任何变化 . 如何不断保持刷新数据帧，以便他们始终看到数据更改？斯尔詹

apache-spark cassandra apache-spark-sql spark-streaming
1 votes

answers

views

考虑从MySQL切换到Cassandra或MongoDB以获取ad-hoc元数据[关闭]

我考虑从SQL切换到NoSQL，我有点沮丧 . 我是一名自学者，在考虑一个包含大量ad-hoc元数据的项目时，精通MySQL，寻找潜在的替代方案 . 我已经做了很多关于趋势NoSQL替代品的研究，但我不确定他们是否值得转换 . 大多数讨论都是关于我无法考虑的主题，例如可扩展性和性能（这样做会是一个梦想 . ）通过一些背景信息，也许有人可以帮助我 . 现在我正在考虑以典型的第3范式形式设置MySQL...

mysql mongodb cassandra key-value nosql
1 votes

answers

views

当Cassandra集群中的节点达到极限时该怎么办？

我正在研究Cassandra，并正在为我正在进行的项目 Build 一个集群 . 考虑这个例子：假设我设置了一个5节点集群，每个集群有200 GB的空间 . 这相当于总共1000 gb（约1 TB）的空间 . 假设我的分区在群集中平均分配，我可以轻松添加节点并实现线性可伸缩性 . 但是，如果这5个节点开始接近SSD限制200 gb怎么办？在这种情况下，我可以添加5个节点，现在分区将分成10个节点 ...

database cassandra
1 votes

answers

views

对大数据架构的建议：mongodb spark

我需要实现一个大数据存储处理系统 . 数据每天都在增加（大约每天最多5000万行），数据符合大约10个字段（日期，数字，文本，ID）的非常简单的JSON文档 . 然后可以在线查询数据（如果可能），在文档的某些字段（日期范围查询，ID等）上进行任意分组 . 我正在考虑使用MongoDB集群存储所有这些数据并为我需要查询的字段构建索引，然后在apache Spark集群中处理数据（主要是简单的聚合排序...

mongodb apache-spark cassandra hbase scalability
13 votes

answers

views

比较Cassandra的CQL与Spark / Shark查询与Hive / Hadoop（DSE版本）

我想听听您对CQL和内存查询引擎Spark / Shark使用的想法和经验 . 据我所知，CQL处理器在每个节点上的Cassandra JVM中运行 . 与Cassandra集群连接的Shark / Spark查询处理器在一个独立的集群中运行 . 此外，Datastax拥有Cassandra的DSE版本，允许部署Hadoop / Hive . 问题是在哪个用例中我们会选择一个特定的解决方案而不是另...

cassandra hive cql apache-spark shark-sql
1 votes

answers

views

如何每15分钟自动在Spark SQL或Scala Shell上运行命令？

我在Cassandra中有一些动态的数据，我在火花分析模式下运行DSE 4.5 . 因为如果我缓存，我无法让我的RDD与底层数据库保持同步，我需要有一些后台进程来连续生成我的RDD并从DB收集最新的 . 我如何自动执行以便在Scala Shell中每15分钟运行以下命令？（我是scala的新手）从cassandra表A创建RDD 转换它保存到Cassandra表B. 或者，我...

cassandra apache-spark
1 votes

answers

views

如何设置cassandra和spark

我的目标是在同一个Cassandra节点上运行Spark worker，并为Spark master提供一个单独的节点 . 现在，我正在尝试Datastax . 在安装Cassandra datastax期间，我可以选择3种不同的节点类型 - Cassandra，搜索和分析 . 在我的3节点集群上，我应该选择2个节点上的事务节点类型和1个节点类型进行分析（Spark master）吗？如何在Ca...

cassandra apache-spark datastax apache-spark-sql
2 votes

answers

views

Spark Master不以DSE 4.7和OpsCenter 5.1.3开头

我最近从Datastax 4.6.3 => 4.7升级，现在我无法运行Spark . 问题似乎是Spark Master未正确配置 . 我使用OpsCenter 5.1.3，并启动了一个三节点Analytics集群 . 奇怪的是，节点最初的设置SPARK_ENABLED = 0，我必须手动将其设置为1 . 但是，现在没有正确配置spark master . 在/var/log/cassand...

cassandra apache-spark datastax datastax-enterprise
4 votes

answers

views

在C *侧过滤 - 按下过滤器/从Spark查询范围查询到C *

我使用datastax / spark-cassandra-connector和C *表填充1B行（datastax-enterprise dse 4.7.0）来处理spark 1.2.1 . 我需要执行范围过滤器/查询时间戳参数 . 如果不加载整个1B行表来激活内存（可能需要几个小时才能完成）并且几乎将查询推回到C *，最好的方法是什么？使用带有JoinWithCassandraTable的r...

mysql cassandra apache-spark datastax-enterprise spark-cassandra-connector
1 votes

answers

views

使用JDBC（例如Squirrel SQL）使用Spark SQL查询Cassandra

我有一个Cassandra集群，它有一个共同定位的Spark集群，我可以通过编译它们，复制它们并使用./spark-submit脚本来运行通常的Spark作业 . 我编写了一个小作业，接受SQL作为命令行参数，将其作为Spark SQL提交给Spark，Spark针对Cassandra运行该SQL并将输出写入csv文件 . 现在我觉得我正在绕圈试图弄清楚是否可以直接在JDBC连接中通过Spark ...

apache-spark cassandra apache-spark-sql spark-cassandra-connector
2 votes

answers

views

使用IN作为复合分区键时，Spark-Cassandra非常慢

我有一个带有复合分区键的cassandra表（time_bucket timestamp，node int） . time_bucket值是插入数据的时间，秒数转换为00，节点值范围为0到100 火花作业每分钟都会从表格中获取数据 . 该表包含近2500万条记录，每分钟都会添加记录 . 如果我的spark作业每次运行时都选择所有记录，则作业将在2分钟内完成 . 但如果我查询使用： s c.ca...

apache-spark cassandra datastax-enterprise spark-cassandra-connector
1 votes

answers

views

使用Spark SQL在Cassandra表上运行复杂的SQL查询

在这里我用Cassandra-spark连接器设置了Cassandra和Spark . 我可以使用Scala创建RDD . 但我想在Cassandra表上使用Spark SQL运行复杂的SQL查询（聚合/分析函数/窗口函数），你能帮忙我该怎么办？ getting error like this 以下是使用的查询：sqlContext.sql（“”“CREATE TEMPORARY TABLE wo...

scala apache-spark cassandra apache-spark-sql
3 votes

answers

views

使用Datastax Spark Cassandra Connector将PairDStram写入cassandra

我需要使用Java和Datastax Spark Cassandra Connector将我的过滤流的数据写入cassandra . 我跟着datastax java documentation . 该文档解释了如何将编写RDD写入cassandra，而不是如何编写Dstream . 我需要能够保存一个PairDStream，我不知道该怎么做，因为所有的例子都是用scala编写的 . 我需要在ja...

java cassandra apache-spark spark-streaming
1 votes

answers

views

使用spark streaming将json插入cassandra表

我正在使用spark streaming将一些数据从kafka中提取到cassandra中 . 来自kafka的数据是json格式，看起来像这样 {“message”：“从kafka appender测试异常”，“loggerName”：“com ... KafkaAppenderTest”，“params”：null，“complete”：“假例外”} 这是我从kafka消息创建流的代码 J...

cassandra spark-streaming spark-cassandra-connector
3 votes

answers

views

从spark Actuator 查询cassandra

我有一个kafka的流媒体应用程序，我想知道是否有办法从 Map 功能中进行范围查询？我按照时间范围和密钥对来自kafka的消息进行分组，然后根据我想将数据从cassandra拉入该dstream的时间范围和密钥 . 就像是： lookups .map(lookup => ((lookup.key, lookup.startTime, lookup.endTime), lookup))...

apache-spark cassandra spark-streaming spark-cassandra-connector
0 votes

answers

views

Spark Cassandra Connector中的错误查询错误处理

我有一个Spark Streaming应用程序，它有多个数据流（DStreams），它们写在同一个Cassandra表中 . 在大量随机数据上测试我的应用程序时，我收到来自Spark Cassandra Connector的错误，该错误对于调试几乎没有帮助 . 错误如下所示： java.util.concurrent.ExecutionException: com.datastax.driver....

apache-spark cassandra spark-streaming spark-cassandra-connector
0 votes

answers

views

如何在Windows中使用Scala将Cassandra与Spark连接起来

我正在尝试使用Scala连接Spark和Cassandra，如此处所述http://www.planetcassandra.org/blog/kindling-an-introduction-to-spark-with-cassandra/我在 Headers 下的步骤中遇到错误： “将连接器加载到Spark Shell：” val test_spark_rdd = sc.cassandraTab...

windows scala cassandra apache-spark
1 votes

answers

views

使用Spark将数据从文件加载到Cassandra表中

我是Cassandra Spark的新手，并尝试使用Spark master Cluster将数据从File加载到Cassandra Table . 我按照以下链接中给出的步骤操作 http://docs.datastax.com/en/datastax_enterprise/4.7/datastax_enterprise/spark/sparkImportTxtCQL.html 在步骤8中，数据...

linux scala cassandra apache-spark datastax-enterprise
2 votes

answers

views

使用Cassandra的Spark任务

我是Spark和Cassandra的新手 . 我们在Cassandra上使用Spark来读取数据，因为我们需要使用非主键列来读取数据 . 一个观察结果是，火花作业的任务数量增加了数据增长 . 因此，我们在获取数据时面临很多延迟 . 火花工作任务数量增加的原因是什么？用Cassandra提高Spark性能应该考虑什么？请建议我 . 谢谢，Mallikarjun

count cassandra apache-spark task
0 votes

answers

views

将Kafka主题的数据保存到Cassandra

我正在学习Spark流媒体，并试图将使用spark-streaming和Cassandra Spark连接器从Kafka主题收到的样本库存数据（只是像“MSFT：28.29”这样的字符串）保存到Cassandra . 没有保存到Cassandra我的代码工作正常（从Kafka获取数据并进行一些简单的统计计算） . 配置Cassandra并 Build 连接 . 但是，如果我在处理之前尝试添加以下行...

cassandra apache-kafka spark-streaming spark-cassandra-connector
7 votes

answers

views

无法在spark-cassandra-connector中更改身份验证

我正在创建一个Spark-Cassandra应用程序（Spark 1.6.0和spark-cassandra-connector 1.6.0-M1），其中我要求多个用户输入他们的Cassandra属性，如主机，用户名，密码，Keyspace，表等 . 要动态更改上述属性并从Cassandra表创建数据框，我用Google搜索并找到了一些信息 http://www.russellspitzer.co...

apache-spark cassandra apache-spark-sql spark-cassandra-connector
0 votes

answers

views

向cassandra插入数据的Spark作业在客户端模式下工作，而不是在集群中工作

我有一个火花流媒体工作，在客户端模式下工作得非常好 . 它从Kafka读取数据，处理它，并插入到Cassandra . 当我将部署模式更改为群集时，应用程序正在运行，但数据不会刷新到Cassandra . 我检查了所有日志，但没有错误 . 无论如何，在WEB UI中，我发现了一些非常有趣的问题：看起来流中的所有批次都没有完成，它们都是活跃的！那可能是什么问题呢？ EDITED 这是一些代码 v...

apache-spark cassandra spark-streaming spark-cassandra-connector
0 votes

answers

views

Spark-Cassandra连接器数据读取

我在每个节点机器上都有带有Spark worker的Cassandra节点集群 . 对于通信我正在使用Datastax Spark-Cassasndra连接器 . Datastax连接器是否具有由同一台机器中的工作者从Cassandra节点读取数据的优化，或者在机器之间存在一些数据流？

apache-spark cassandra spark-cassandra-connector
3 votes

answers

views

Kafka-> Spark-> Cassandra强制数据局部性

我有一个流式处理过程，它从Kafka读取数据，使用Spark处理它并将数据写入Cassandra . 这将在具有3-5个节点的集群上运行 . 我的计划是在集群的每个节点上部署spark，kafka和cassandra . 我想尽可能地强制执行数据局部性，并且我的意思是每个Spark节点从Kafka读取数据 ONLY on that node ，在本地处理它（我的管道中没有改组转换），并写入 Cas...

apache-spark cassandra apache-kafka spark-streaming spark-cassandra-connector
1 votes

answers

views

Spark（SQL /结构化流）Cassandra - PreparedStatement

我实时使用Spark Structured Streaming进行机器学习，我希望在我的Cassandra集群中存储预测 . 由于我处于流式上下文中，每秒执行多次相同的请求，因此必须使用PreparedStatement进行强制优化 . 在cassandra spark驱动程序（https://github.com/datastax/spark-cassandra-connector）中没有办法使...

apache-spark cassandra spark-streaming spark-dataframe spark-cassandra-connector
2 votes

answers

views

找不到Spark，Cassandra Keyspace

我试图从cassandra键空间读取数据但是当尝试使用pyspark访问它时，Keyspace不可见 . 它在使用DataStax spark shell =>时有效 ubuntu@ip-172-31-60-229:~$ sudo dse -u xxxx -p xxxxx spark --conf spark.driver.cores=4 The log file is at /home/u...

apache-spark cassandra pyspark datastax datastax-enterprise
2 votes

answers

views

Spark SQL和Cassandra JOIN

我的Cassandra架构包含一个表，其中包含一个时间戳的分区键，以及一个作为聚类键的 parameter 列 . 每个分区包含10k行 . 这是以每秒1个分区的速率记录数据 . 另一方面，用户可以定义“数据集”，我有另一个表，其中包含作为分区键的“数据集名称”和一个聚类列，它是一个引用另一个表的时间戳（因此“数据集”是一个列表分区键） . 当然，我想做的事情看起来像Cassandra的反模式，因...

apache-spark cassandra apache-spark-sql
0 votes

answers

views

Spark-Cassandra：如何有效地限制分区

经过几天的考虑，我仍然坚持这个问题：我有一个表，其中“timestamp”是分区键 . 该表包含数十亿行 . 我还有“timeseries”表，其中包含与特定测量过程相关的时间戳 . 使用Spark我想分析大表的内容 . 当然，进行全表扫描效率不高，并且在时间序列表中进行相当快速的查找，我应该只能定位10k分区 . 实现这一目标的最有效方法是什么？ SparkSQL是否足够智能以优化这样的功能 s...

apache-spark cassandra pyspark apache-spark-sql spark-cassandra-connector

热门问题