-
1 votesanswersviews
Flink Kafka:为什么我会丢失消息?
我写了一个非常简单的Flink流媒体作业,它使用 FlinkKafkaConsumer082 从Kafka获取数据 . protected DataStream<String> getKafkaStream(StreamExecutionEnvironment env, String topic) { Properties result = new Properties(); ... -
2 votesanswersviews
ScalaSpark - 使用键和值列表创建一对RDD
我有一个包含以下数据的日志文件: 1,2008-10-23 16:05:05.0,\N,Donald,Becton,2275 Washburn Street,Oakland,CA,94660,5100032418,2014-03-18 13:29:47.0,2014-03-18 13:29:47.0 2,2008-11-12 03:00:01.0,\N,Donna,Jones,3885 Ellio... -
0 votesanswersviews
键/值对RDD
我对键/值对RDD有疑问 . 我在 C:/download/input 文件夹中有五个文件,其中包含电影中的对话框作为文件内容,如下所示: movie_horror_Conjuring.txt movie_comedy_eurotrip.txt movie_horror_insidious.txt movie_sci-fi_Interstellar.txt movie_horror_evildea... -
0 votesanswersviews
WebHDFS在Hortonworks中出错
在设置历史服务器和配置单元服务器时,webHDFS在REST API中给出以下错误 . curl -sS -L -w '%{http_code}' -X PUT -T /usr/hdp/2.3.4.0-3485/hadoop/mapreduce.tar.gz 'http://ambari1.devcloud.247-inc.net:50070/webhdfs/v1/hdp/apps/2.3.4.0... -
1 votesanswersviews
性能从多个并行线程读取大型数据集
我正在研究.Net开发的遗传机器学习项目(而不是Matlab - My Norm) . 我不是专业.net编码器,所以借口任何noobish实现 . 该项目本身是巨大的所以我不会厌倦你的全部细节,但基本上人口神经网络(如决策树)的每一个都在一个问题域进行评估,在这种情况下使用感知输入流 . 允许人口中表现最佳的人群繁殖和 生产环境 后代(继承父母双方的倾向),表现不佳的人群被杀死或繁殖出来 .... -
0 votesanswersviews
Kafka流 - 第一个例子WordCount在第一圈没有正确计算
我正在学习Kafka Streams,我对Java 8中的第一个WordCount示例有疑问,取自文档 . 使用最新版本的kafka流,Kafka Connect和WordCount lambda表达式示例 . 我按照以下步骤操作:我在Kafka中创建一个输入主题,并输出一个输入主题 . 启动应用程序流,然后通过从.txt文件中插入一些单词来上传输入主题 在第一个计数中,在输出主题中,我看到正确分... -
0 votesanswersviews
错误:java hadoop中预期的<identifier>
我正在为一个字数hadoop编译一个java文件,但是当它编译它时会抛出一个错误: CountBook.java:33:错误:预期public void reduce(Text_key,Iteratorvalues,OutputCollectoroutput,Reporter reporter)抛出IOException 这是我的代码 public class CountBook { ... -
2 votesanswersviews
与hive2的jdbc连接错误
我正在尝试使用jdbc测试与hive2的连接 . 但我得到一个身份验证失败的错误,其中凭据是正确的 . 我得到的错误是: java -cp . :/ users / apps / ewbeiu / wbeeappp / HiveJdbcClient / * HiveJdbcClient SLF4J:无法加载类“org.slf4j.impl.StaticLoggerBinder” . SLF4J... -
3 votesanswersviews
哪个版本的cqlsh与Cassandra 2.1.9兼容?
我面临着问题populate_io_cache_on_flush is not a column defined in this metadata中提到的同样问题 . 根据answer在第answer的第2条评论中指定的解决方案,我需要 "Use the same client library than the server is. i.e. after a ubuntu updates... -
0 votesanswersviews
德鲁伊 Kafka 摄取(暗示-2.2.3):kafka错误NoReplicaOnlineException
我使用Druid Kafka Indexing服务从Kafka加载我自己的流 . 我使用Load from Kafka tutorial来实现它 . Kafka默认设置为全部(仅从tgz中提取) . 当我用空数据启动 imply-2.2.3 (德鲁伊)时(在 var 删除文件夹之后)一切正常 . 但是当我停止 Kafka 2.11-0.10.2.0 并再次启动它时发生错误和德鲁伊 Kafka 摄入... -
0 votesanswersviews
Druid.io:通过Kafka(Druid Kafka索引服务)的流更新/覆盖现有数据
我正在使用 Druid Kafka indexing service从Kafka加载流 . 但是我上传的数据总是被更改,所以我需要重新加载它,并且如果数据已经加载则避免重复和冲突 . 我在德鲁伊研究关于Updating Existing Data的文档 . 但有关Hadoop Batch Ingestion的所有信息,Lookups . 是否有可能在Kafka流期间更新现有的德鲁伊数据? 换句话... -
3 votesanswersviews
在存储在硬盘驱动器上的非常大的数据集上训练SVM
存在一个非常大的自己收集的大小为 [2000000 12672] 的数据集,其中行显示实例数和列数,即要素数 . 此数据集占用本地硬盘上的 ~60 Gigabyte . 我想在此数据集上训练线性SVM . 问题是我只有 8 Gigabyte of RAM! 所以我无法加载所有数据一次 . 有没有解决方案来训练这个大型数据集上的SVM?生成数据集是我自己的愿望,目前是HDF5格式 . 谢谢 -
40 votesanswersviews
推荐用于R中非常大的数据集处理和机器学习的软件包
似乎R真的设计用于处理它可以完全拉入内存的数据集 . 对于无法拉入内存的超大型数据集,建议使用哪些R软件包进行信号处理和机器学习? 如果R只是错误的方法,我会接受其他强大的免费建议(例如scipy,如果有一些很好的方法来处理非常大的数据集) -
1 votesanswersviews
Spark启动的执行程序多于指定的
我正在使用Pyspark在独立(客户端)模式下运行Spark 1.5.1 . 我正在尝试开始一个似乎内存繁重的工作(在python中,因此它不应该是执行程序 - 内存设置的一部分) . 我正在使用96核和128 GB RAM的机器上进行测试 . 我有一个master和worker正在运行,开始使用/ sbin中的start-all.sh脚本 . 这些是我在/ conf中使用的配置文件 . 火花de... -
2 votesanswersviews
有没有办法在Spark中捕获执行程序被杀死的异常?
在执行我的Spark程序期间,有时(它的原因对我来说仍然是个谜)纱线杀死容器( Actuator ),给出了超出内存限制的消息 . 虽然Spark通过生成一个新容器重新执行任务,但我的程序确实恢复了 . 但是,在我的程序中,任务还会在磁盘上创建一些中间文件 . 当一个容器被杀死时,这些文件就会被遗忘 . 有没有办法我可以捕获执行程序 - 作为异常被杀死,以便我可以删除留下的中间文件 . 显然,异常... -
5 votesanswersviews
R使用列表列重新融合data.table
我有一个大的(数百万行)融化了 data.table ,通常在 variable 和 value 列中展开 melt 样式 . 我需要以宽泛的形式转换表(滚动变量) . 问题是数据表还有一个名为 data 的列表列,我需要保留它 . 这使得无法使用 reshape2 因为 dcast 无法处理非原子列 . 因此,我需要自己卷起来 . 由于列表列,previous question关于使用熔化数据表... -
0 votesanswersviews
dplyr,lapply或Map来识别来自一个data.frame的信息并将其放入另一个[duplicate]
这个问题在这里已有答案: How to join (merge) data frames (inner, outer, left, right) 13个答案 edit: 对不起,我不是故意转发一个问题 . 我遇到的问题不仅仅是连接两个表,而是连接两个表,两个表中的列不完全相同(我更新了示例数据来说明这一点) . 也就是说,我想使用Every.Student.In.The.Country $ F... -
2 votesanswersviews
在配置单元中通过Java创建数据库时权限被拒绝错误
我试图使用java在hive中创建数据库 . 但是我在运行代码时遇到了这个错误: 线程“main”中的异常java.sql.SQLException:处理语句时出错:FAILED:执行错误,从org.apache.hadoop.hive.ql.exec.DDLTask返回代码1 . MetaException(消息:得到异常:org.apache.hadoop.security.AccessC... -
0 votesanswersviews
Parquet Exception:parquet.format.converter.ParquetMetadataConverter中的java.lang.NullPointerException
我正在尝试使用Spark阅读镶木地板文件 . Spark版本是1.3.0 . 当我尝试阅读时,我得到以下异常 . 任何帮助都非常感谢 . CDH版本:5.4.3 在parquet.format.converter.ParquetMetadataConverter.readParquetMetadata的parquet.format.converter.ParquetMetadataConver... -
1 votesanswersviews
cassandra机架和复制因素
我有2个CASSANDRA DC DC1 +-----+ |RAC1 | +-----+ |node1| +-----+ |node2| +-----+ |node3| +-----+ |node4| +-----+ DC2 +-----+-----+-----+ |RAC1 |RAC2 |RAC3 | +-----+-----+-----+ |node1|node1|node1| ... -
5 votesanswersviews
如何从cassandra表中流式传输数据?
我想从一个实时更新的cassandra表中流式传输数据 . 是的,它是一个数据库但是有办法做到这一点吗?如果是这样,保留偏移或我可以使用哪些CQL查询? -
3 votesanswersviews
连接到Apache Zookeeper的Apache Kafka使用者客户端:EndOfStreamException
尝试使用Zookeer独立(3.4.5)从Kafka(2.9.2-0.8.1)“消费”消息时出错 . 您可以在下面看到源代码以及Zookeeper中的错误消息和日志文件 . 我不确定Java库是否不兼容,因为我通过Maven添加了依赖性kafka_0.9.2(0.8.1),它自动解决了zkclient(0.3)和zookeeper(3.3.4)的依赖关系 . 消费者源代码: import java... -
1 votesanswersviews
大型稀疏矩阵到三角矩阵R
我在R中有一个非常大的(大约9100万个非零条目)sparseMatrix()看起来像: > myMatrix a b c a . 1 2 b 1 . . c 2 . . 我想将它转换为三角形矩阵(上部或下部),但是当我尝试myMatrix = myMatrix * lower.tri(myMatrix)时,会出现一个错误,即lower.tri()的“问题太大” . 想知道是否有... -
1 votesanswersviews
如何获取大型文本文件的统计信息
我有一个大型(~100,000,000行)文本文件的集合,格式如下: 0.088293 1.3218e-32 2.886e-07 2.378e-02 21617 28702 0.111662 1.1543e-32 3.649e-07 1.942e-02 93804 95906 0.137970 1.2489e-32 4.509... -
-1 votesanswersviews
如何在大文件中有效地处理插入或删除?
Insert 和 Delete 是在文件中间添加和删除某些数据的操作,文件大小已更改 . 对于由普通文本编辑器编辑的小文本文件,例如记事本,vim,emacs,整个文本文件由原子操作重写 . 具体地说,当插入或删除某些内容(不在文件尾部)编辑文本文件时,首先,从文件头部到插入或删除数据的内容被复制到新文件中;然后,复制插入的数据(删除操作省略此步骤);最后,从插入/删除位置到结尾的数据被复制到新文... -
0 votesanswersviews
使用xamarin ios单视图应用程序无法向服务器发送大json(内置字节数组)
我无法从xamarin ios单视图应用程序向服务器ASP .NET发送大量数据(内置字节数组的json) . 我的模型(在ios应用程序和服务器上相同) public class VirtualTourDataModel { public string VTName { get; set; } public List<ViewPoint> ViewPoints { g... -
3 votesanswersviews
(R错误)错误:内存耗尽(达到限制?)
我正在使用大数据,我有一个70GB的JSON文件 . 我正在使用jsonlite库将文件加载到内存中 . 我已经尝试过AWS EC2 x1.16large机器(976 GB RAM)来执行此加载,但是在加载1,116,500条记录后,R中断了错误: Error: cons memory exhausted (limit reached?) . 考虑到我没有足够的RAM,我试着在一台更大的EC2机... -
1 votesanswersviews
Analytics / Big Data软件产品的UI设计
我正在为我的大学最终项目 Build 一个大数据项目 . 我的后端准备好了,现在我需要专注于UI开发 . 由于我不是网络专家,但想学习,我会问这个问题 . How do I learn about UI design for Analytics / Big Data software projects . 我用Google搜索了相同的各种设计,但没有任何令人兴奋的事情 . 请提供您的建议或指向一... -
0 votesanswersviews
大数据中数据工程的定义[已结束]
我完全理解这个问题可能会被关闭,因为它可能更像是一个意见,而不是一个客观答案的实际技术问题 . 但是,我想问一下,如果有人可以提供帮助并提供良好的回应 . 我认为以一种简洁的方式定义你做的事情是很重要的,所以就这样了 . Q: If you are asked, "what's Data Engineering?" what would your definition be? ... -
1 votesanswersviews
使用OSB代理处理大数据
我创建了一个OSB代理服务(消息服务),它使用MFL文件加载数据 . 数据格式为: 1/1/2007;00:11:00;2.500;0.000;242.880;10.200;0.000;0.000;0.000; 1/1/2007;00:12:00;2.494;0.000;242.570;10.200;0.000;0.000;0.000; 所有数据记录是:2075259 文件(.txt或.data...