Java 学习之路

1 votes

answers

views

Flink Kafka：为什么我会丢失消息？

我写了一个非常简单的Flink流媒体作业，它使用 FlinkKafkaConsumer082 从Kafka获取数据 . protected DataStream<String> getKafkaStream(StreamExecutionEnvironment env, String topic) { Properties result = new Properties(); ...

bigdata apache-kafka apache-flink
2 votes

answers

views

ScalaSpark - 使用键和值列表创建一对RDD

我有一个包含以下数据的日志文件： 1,2008-10-23 16:05:05.0,\N,Donald,Becton,2275 Washburn Street,Oakland,CA,94660,5100032418,2014-03-18 13:29:47.0,2014-03-18 13:29:47.0 2,2008-11-12 03:00:01.0,\N,Donna,Jones,3885 Ellio...

scala apache-spark bigdata
0 votes

answers

views

键/值对RDD

我对键/值对RDD有疑问 . 我在 C:/download/input 文件夹中有五个文件，其中包含电影中的对话框作为文件内容，如下所示： movie_horror_Conjuring.txt movie_comedy_eurotrip.txt movie_horror_insidious.txt movie_sci-fi_Interstellar.txt movie_horror_evildea...

scala apache-spark bigdata
0 votes

answers

views

WebHDFS在Hortonworks中出错

在设置历史服务器和配置单元服务器时，webHDFS在REST API中给出以下错误 . curl -sS -L -w '%{http_code}' -X PUT -T /usr/hdp/2.3.4.0-3485/hadoop/mapreduce.tar.gz 'http://ambari1.devcloud.247-inc.net:50070/webhdfs/v1/hdp/apps/2.3.4.0...

rest hadoop hdfs hortonworks-data-platform bigdata
1 votes

answers

views

性能从多个并行线程读取大型数据集

我正在研究.Net开发的遗传机器学习项目（而不是Matlab - My Norm） . 我不是专业.net编码器，所以借口任何noobish实现 . 该项目本身是巨大的所以我不会厌倦你的全部细节，但基本上人口神经网络（如决策树）的每一个都在一个问题域进行评估，在这种情况下使用感知输入流 . 允许人口中表现最佳的人群繁殖和生产环境后代（继承父母双方的倾向），表现不佳的人群被杀死或繁殖出来 ....

c# machine-learning bigdata
0 votes

answers

views

Kafka流 - 第一个例子WordCount在第一圈没有正确计算

我正在学习Kafka Streams，我对Java 8中的第一个WordCount示例有疑问，取自文档 . 使用最新版本的kafka流，Kafka Connect和WordCount lambda表达式示例 . 我按照以下步骤操作：我在Kafka中创建一个输入主题，并输出一个输入主题 . 启动应用程序流，然后通过从.txt文件中插入一些单词来上传输入主题在第一个计数中，在输出主题中，我看到正确分...

apache-kafka apache-kafka-streams apache-kafka-connect bigdata
0 votes

answers

views

错误：java hadoop中预期的<identifier>

我正在为一个字数hadoop编译一个java文件，但是当它编译它时会抛出一个错误： CountBook.java:33：错误：预期public void reduce（Text_key，Iteratorvalues，OutputCollectoroutput，Reporter reporter）抛出IOException 这是我的代码 public class CountBook { ...

java hadoop mapreduce java-7 bigdata
2 votes

answers

views

与hive2的jdbc连接错误

我正在尝试使用jdbc测试与hive2的连接 . 但我得到一个身份验证失败的错误，其中凭据是正确的 . 我得到的错误是： java -cp . ：/ users / apps / ewbeiu / wbeeappp / HiveJdbcClient / * HiveJdbcClient SLF4J：无法加载类“org.slf4j.impl.StaticLoggerBinder” . SLF4J...

java jdbc hive odbc bigdata
3 votes

answers

views

哪个版本的cqlsh与Cassandra 2.1.9兼容？

我面临着问题populate_io_cache_on_flush is not a column defined in this metadata中提到的同样问题 . 根据answer在第answer的第2条评论中指定的解决方案，我需要 "Use the same client library than the server is. i.e. after a ubuntu updates...

cassandra bigdata cqlsh nosql
0 votes

answers

views

德鲁伊 Kafka 摄取（暗示-2.2.3）：kafka错误NoReplicaOnlineException

我使用Druid Kafka Indexing服务从Kafka加载我自己的流 . 我使用Load from Kafka tutorial来实现它 . Kafka默认设置为全部（仅从tgz中提取） . 当我用空数据启动 imply-2.2.3 （德鲁伊）时（在 var 删除文件夹之后）一切正常 . 但是当我停止 Kafka 2.11-0.10.2.0 并再次启动它时发生错误和德鲁伊 Kafka 摄入...

java indexing apache-kafka druid bigdata
0 votes

answers

views

Druid.io：通过Kafka（Druid Kafka索引服务）的流更新/覆盖现有数据

我正在使用 Druid Kafka indexing service从Kafka加载流 . 但是我上传的数据总是被更改，所以我需要重新加载它，并且如果数据已经加载则避免重复和冲突 . 我在德鲁伊研究关于Updating Existing Data的文档 . 但有关Hadoop Batch Ingestion的所有信息，Lookups . 是否有可能在Kafka流期间更新现有的德鲁伊数据？换句话...

java apache-kafka bigdata etl druid
3 votes

answers

views

在存储在硬盘驱动器上的非常大的数据集上训练SVM

存在一个非常大的自己收集的大小为 [2000000 12672] 的数据集，其中行显示实例数和列数，即要素数 . 此数据集占用本地硬盘上的 ~60 Gigabyte . 我想在此数据集上训练线性SVM . 问题是我只有 8 Gigabyte of RAM! 所以我无法加载所有数据一次 . 有没有解决方案来训练这个大型数据集上的SVM？生成数据集是我自己的愿望，目前是HDF5格式 . 谢谢

r machine-learning bigdata svm libsvm
40 votes

answers

views

推荐用于R中非常大的数据集处理和机器学习的软件包

似乎R真的设计用于处理它可以完全拉入内存的数据集 . 对于无法拉入内存的超大型数据集，建议使用哪些R软件包进行信号处理和机器学习？如果R只是错误的方法，我会接受其他强大的免费建议（例如scipy，如果有一些很好的方法来处理非常大的数据集）

r machine-learning signal-processing bigdata
1 votes

answers

views

Spark启动的执行程序多于指定的

我正在使用Pyspark在独立（客户端）模式下运行Spark 1.5.1 . 我正在尝试开始一个似乎内存繁重的工作（在python中，因此它不应该是执行程序 - 内存设置的一部分） . 我正在使用96核和128 GB RAM的机器上进行测试 . 我有一个master和worker正在运行，开始使用/ sbin中的start-all.sh脚本 . 这些是我在/ conf中使用的配置文件 . 火花de...

apache-spark memory-management pyspark distributed-computing bigdata
2 votes

answers

views

有没有办法在Spark中捕获执行程序被杀死的异常？

在执行我的Spark程序期间，有时（它的原因对我来说仍然是个谜）纱线杀死容器（ Actuator ），给出了超出内存限制的消息 . 虽然Spark通过生成一个新容器重新执行任务，但我的程序确实恢复了 . 但是，在我的程序中，任务还会在磁盘上创建一些中间文件 . 当一个容器被杀死时，这些文件就会被遗忘 . 有没有办法我可以捕获执行程序 - 作为异常被杀死，以便我可以删除留下的中间文件 . 显然，异常...

apache-spark bigdata yarn
5 votes

answers

views

R使用列表列重新融合data.table

我有一个大的（数百万行）融化了 data.table ，通常在 variable 和 value 列中展开 melt 样式 . 我需要以宽泛的形式转换表（滚动变量） . 问题是数据表还有一个名为 data 的列表列，我需要保留它 . 这使得无法使用 reshape2 因为 dcast 无法处理非原子列 . 因此，我需要自己卷起来 . 由于列表列，previous question关于使用熔化数据表...

r data.table bigdata reshape
0 votes

answers

views

dplyr，lapply或Map来识别来自一个data.frame的信息并将其放入另一个[duplicate]

这个问题在这里已有答案： How to join (merge) data frames (inner, outer, left, right) 13个答案 edit: 对不起，我不是故意转发一个问题 . 我遇到的问题不仅仅是连接两个表，而是连接两个表，两个表中的列不完全相同（我更新了示例数据来说明这一点） . 也就是说，我想使用Every.Student.In.The.Country $ F...

r dictionary dplyr lapply bigdata
2 votes

answers

views

在配置单元中通过Java创建数据库时权限被拒绝错误

我试图使用java在hive中创建数据库 . 但是我在运行代码时遇到了这个错误：线程“main”中的异常java.sql.SQLException：处理语句时出错：FAILED：执行错误，从org.apache.hadoop.hive.ql.exec.DDLTask返回代码1 . MetaException（消息：得到异常：org.apache.hadoop.security.AccessC...

hadoop jdbc hive bigdata
0 votes

answers

views

Parquet Exception：parquet.format.converter.ParquetMetadataConverter中的java.lang.NullPointerException

我正在尝试使用Spark阅读镶木地板文件 . Spark版本是1.3.0 . 当我尝试阅读时，我得到以下异常 . 任何帮助都非常感谢 . CDH版本：5.4.3 在parquet.format.converter.ParquetMetadataConverter.readParquetMetadata的parquet.format.converter.ParquetMetadataConver...

hadoop apache-spark parquet bigdata
1 votes

answers

views

cassandra机架和复制因素

我有2个CASSANDRA DC DC1 +-----+ |RAC1 | +-----+ |node1| +-----+ |node2| +-----+ |node3| +-----+ |node4| +-----+ DC2 +-----+-----+-----+ |RAC1 |RAC2 |RAC3 | +-----+-----+-----+ |node1|node1|node1| ...

nosql cassandra bigdata cql3
5 votes

answers

views

如何从cassandra表中流式传输数据？

我想从一个实时更新的cassandra表中流式传输数据 . 是的，它是一个数据库但是有办法做到这一点吗？如果是这样，保留偏移或我可以使用哪些CQL查询？

cassandra streaming spark-streaming spring-xd bigdata
3 votes

answers

views

连接到Apache Zookeeper的Apache Kafka使用者客户端：EndOfStreamException

尝试使用Zookeer独立（3.4.5）从Kafka（2.9.2-0.8.1）“消费”消息时出错 . 您可以在下面看到源代码以及Zookeeper中的错误消息和日志文件 . 我不确定Java库是否不兼容，因为我通过Maven添加了依赖性kafka_0.9.2（0.8.1），它自动解决了zkclient（0.3）和zookeeper（3.3.4）的依赖关系 . 消费者源代码： import java...

maven-2 cluster-computing bigdata apache-zookeeper apache-kafka
1 votes

answers

views

大型稀疏矩阵到三角矩阵R

我在R中有一个非常大的（大约9100万个非零条目）sparseMatrix（）看起来像： > myMatrix a b c a . 1 2 b 1 . . c 2 . . 我想将它转换为三角形矩阵（上部或下部），但是当我尝试myMatrix = myMatrix * lower.tri（myMatrix）时，会出现一个错误，即lower.tri（）的“问题太大” . 想知道是否有...

r matrix sparse-matrix bigdata triangular
1 votes

answers

views

如何获取大型文本文件的统计信息

我有一个大型（~100,000,000行）文本文件的集合，格式如下： 0.088293 1.3218e-32 2.886e-07 2.378e-02 21617 28702 0.111662 1.1543e-32 3.649e-07 1.942e-02 93804 95906 0.137970 1.2489e-32 4.509...

python numpy awk bigdata
-1 votes

answers

views

如何在大文件中有效地处理插入或删除？

Insert 和 Delete 是在文件中间添加和删除某些数据的操作，文件大小已更改 . 对于由普通文本编辑器编辑的小文本文件，例如记事本，vim，emacs，整个文本文件由原子操作重写 . 具体地说，当插入或删除某些内容（不在文件尾部）编辑文本文件时，首先，从文件头部到插入或删除数据的内容被复制到新文件中;然后，复制插入的数据（删除操作省略此步骤）;最后，从插入/删除位置到结尾的数据被复制到新文...

filesystems storage bigdata
0 votes

answers

views

使用xamarin ios单视图应用程序无法向服务器发送大json（内置字节数组）

我无法从xamarin ios单视图应用程序向服务器ASP .NET发送大量数据（内置字节数组的json） . 我的模型（在ios应用程序和服务器上相同） public class VirtualTourDataModel { public string VTName { get; set; } public List<ViewPoint> ViewPoints { g...

ios json xamarin bigdata
3 votes

answers

views

（R错误）错误：内存耗尽（达到限制？）

我正在使用大数据，我有一个70GB的JSON文件 . 我正在使用jsonlite库将文件加载到内存中 . 我已经尝试过AWS EC2 x1.16large机器（976 GB RAM）来执行此加载，但是在加载1,116,500条记录后，R中断了错误： Error: cons memory exhausted (limit reached?) . 考虑到我没有足够的RAM，我试着在一台更大的EC2机...

r bigdata
1 votes

answers

views

Analytics / Big Data软件产品的UI设计

我正在为我的大学最终项目 Build 一个大数据项目 . 我的后端准备好了，现在我需要专注于UI开发 . 由于我不是网络专家，但想学习，我会问这个问题 . How do I learn about UI design for Analytics / Big Data software projects . 我用Google搜索了相同的各种设计，但没有任何令人兴奋的事情 . 请提供您的建议或指向一...

user-interface bigdata
0 votes

answers

views

大数据中数据工程的定义[已结束]

我完全理解这个问题可能会被关闭，因为它可能更像是一个意见，而不是一个客观答案的实际技术问题 . 但是，我想问一下，如果有人可以提供帮助并提供良好的回应 . 我认为以一种简洁的方式定义你做的事情是很重要的，所以就这样了 . Q: If you are asked, "what's Data Engineering?" what would your definition be? ...

bigdata
1 votes

answers

views

使用OSB代理处理大数据

我创建了一个OSB代理服务（消息服务），它使用MFL文件加载数据 . 数据格式为： 1/1/2007;00:11:00;2.500;0.000;242.880;10.200;0.000;0.000;0.000; 1/1/2007;00:12:00;2.494;0.000;242.570;10.200;0.000;0.000;0.000; 所有数据记录是：2075259 文件（.txt或.data...

oracle soa osb oracle-fusion-middleware bigdata

热门问题