首页 文章
  • 1 votes
     answers
     views

    如何解决文件中添加的Azure DataLakeStore文件内容处理?

    我上传了文本文件或图像文件或Zip文件到Azure Data Lake Store . 它已成功上传 . 但是,在文件中添加了一些内容之前 . 我使用Rest API上传了一个文件 . (在C#中使用HttpClient上传文件) 此类内容已添加到 --- b8b2dfc6-6128-43b5-8fb8-022820aedf02 Content-Disposition:form-data;命名...
  • 1 votes
     answers
     views

    Analysis Services Tabular 1400项目 - 不是有效的数据源 - ADLS数据源

    自2018年5月8日起,使用Microsoft Analysis Services Project扩展的Azure Data Lake Store数据源似乎存在问题 . 我们正在使用,Visual Studio 2017 15.7.1 Microsoft Analysis Services项目1.26扩展表格模型兼容级别1400 当我们尝试从现有项目中打开Model.bim时,我们得到以下错误 ....
  • 1 votes
     answers
     views

    Azure Data Lake存储和数据工厂 - 临时GUID文件夹和文件

    我正在使用Azure数据存储库(ADLS),该数据库由Azure数据工厂(ADF)管道定向,该管道从Blob存储读取并写入ADLS . 在执行期间,我注意到在输出ADLS中创建了一个在源数据中不存在的文件夹 . 该文件夹具有名称的GUID和其中的许多文件,以及GUID . 该文件夹是临时的,大约30秒后它就会消失 . 这是ADLS元数据索引的一部分吗?这是ADF在处理过程中使用的东西吗?虽然它出现...
  • 3 votes
     answers
     views

    Azure数据工厂管道ML

    我正在尝试在Azure数据工厂V1中执行管道,该管道将对文件执行Azure批处理执行 . 我使用blob存储作为输入和输出来实现它并且它工作 . 但是,我不是要将输入和输出更改为我的数据湖存储中的文件夹 . 当我尝试部署它时,它会给我以下错误: Entity provisioning failed: AzureML Activity 'MLActivity' specifies 'Datalake...
  • -3 votes
     answers
     views

    测试和部署Azure数据项目

    作为数据工程师和Azure开发人员,我喜欢在 Cloud 上自动化测试和部署 . 目前,我正在使用Azure数据工厂,Azure数据湖存储,Azure数据湖分析,SQL Server和PowerBI等多种天蓝资源 . 做一些研究我在微软网站上发现了一些与数据科学团队的DevOps相关的文章:Team Data Science Process for Developer Operations 除此之...
  • 0 votes
     answers
     views

    Azure数据湖分析空输出文件

    我需要帮助,无法看到此问题的问题:我正在使用Stream Analytics作业配置Azure Data Lake Store . 文件是制表符分隔的,作业正在运行而没有错误 . 我部署了一个Azure Data Lake Analytics服务来聚合这样的数据: @input = EXTRACT [applicationname] string, [clientip] stri...
  • 0 votes
     answers
     views

    Azure Data Lake暂停了U-SQL脚本中.NET程序集的使用

    尝试提交U-SQL作业时,刚从Azure Data Lake Analytics收到此消息 . 这种情况发生在每个人身上吗?这发生过吗? 说明我们暂时停止在U-SQL脚本中使用.NET程序集 . 您可以在几天内再次使用此类组件 . 所有其他U-SQL和Azure Data Lake功能都可供您使用 .
  • 1 votes
     answers
     views

    控制并行化

    我在行集上运行自定义处理器,似乎并行运行 . 底层的~1GB文本文件首先被读入通过循环法分区的表中 . 'Extract'在200个顶点上运行,但随后(在'Aggregate'节点下)处理[执行各种复杂计算]仅在2个顶点上发生,即使并行度参数远高于此值 . 是否需要使用特殊提示来指示编译器使用更多顶点?是否有一个函数或属性需要被覆盖以在此阶段设置并行性?
  • 5 votes
     answers
     views

    如何在Azure Data Lake中安排U-SQL查询?

    我想每天在azure数据湖中执行一个查询 . 我们可以在azure数据湖中安排U-SQL查询吗?
  • 1 votes
     answers
     views

    U-Sql是否支持游标迭代数据集并根据行值提取更多数据?

    Azure Data Lake Analytics和U-SQL是否支持脚本中的游标概念? 我有一个数据集,其中包含我想要提取的更多数据集的路径,我想将结果输出到单独的文件 . 目前,我似乎无法找到基于数据集内的值动态提取和输出数据的解决方案 .
  • 3 votes
     answers
     views

    我如何知道何时会在Azure数据湖分析中触发并行性?

    我有Azure数据湖分析工作,使用U-SQL用户定义的运算符处理存储在Azure数据湖商店中的大约380万条记录 . 在第一次运行时,我将并行度设置为等于10,在第二次运行时,我使用等于1的并行度 . 令人惊讶的是,我执行的工作持续时间相同(大约1.5小时) . 所以看起来我的工作没有触发并行性 . 是因为我使用了用户定义的运算符吗?我想知道如何确定何时会触发并行性以及何时不会触发并行性?
  • 1 votes
     answers
     views

    U-SQL作业不访问Azure SQL数据库

    我试图通过遵循this指南,使用Azure Data Lake分析从Azure SQL数据库中检索数据 . 我在Azure Data Lake分析上运行U-SQL作业并出现以下错误: 无法连接到数据源:'SampleSource',错误:登录请求的“无法打开服务器” . IP地址为'25 .66.9.211'的客户端不允许访问服务器 . 要启用访问,请使用Windows Azure管理门户或在...
  • 5 votes
     answers
     views

    Azure Spark SQL与U-SQL

    我有很多数据文件,最终会定期推送并存储在Azure Storage / Data Lake上 . 我想提供对此数据进行分析的能力,但后来我发现在Azure上有两种方法: U-SQL / Azure数据湖查询(可视化???) 在Azure和Zeppelin上使用Spark的Spark SQL 可以有人建议我何时使用这种方法中的哪一种?在我看来,两者都可以做类似的工作 .
  • 2 votes
     answers
     views

    我们怎样才能在基于时间戳作业的azure数据湖中的u-sql中获得动态输出文件名

    我们如何在执行作业时根据时间戳在azure数据湖中的u-sql中获得动态输出文件名 . 谢谢帮助 . 我的代码如下: OUTPUT @telDataResult TO @"wasb://blobcontainer@blobstorage.blob.core.windows.net/**yyyymmdd**_TelDataOutput.Csv" USI...
  • 0 votes
     answers
     views

    作业提交失败,用户<data lake analytics帐户名>没有子文件夹的权限

    作业提交失败,用户datalakeanalyticsaccountname没有Data Lake Analytics所需的/ system / path中子文件夹的权限 . 请从Data Lake Analytics Azure门户运行“添加用户向导”,或使用Azure PowerShell将用户访问权限授予Data Lake Store上的/ system /及其子项 . 数据工厂似乎将数据...
  • 1 votes
     answers
     views

    查询从单独环境复制的Hive中的ORC数据

    我通过Ambari使用Azure HDInsights,Azure Data Lake和Hive . 我正在 Build 一个测试环境 . 原始环境的数据以通过Hive加载的ORC文件的形式存储在Azure Data Lake中 . 我成功地通过Data Factory将原始Data Lake中的所有数据复制到测试Data Lake . 当我尝试在测试环境中创建我的Hive ORC表然后查询它们时...
  • 1 votes
     answers
     views

    U-SQL根据文件中的不同值将CSV文件拆分为多个文件

    我在Azure Data Lake Store中有数据,我使用U-SQL处理Azure Data Analytic Job中的数据 . 我有几个包含空间数据的CSV文件,类似于: File_20170301.csv longtitude| lattitude | date | hour | value1 ----------+-----------+------------...
  • 3 votes
     answers
     views

    U-SQL工作表现

    你能帮我完成工作表现吗?我用10个AU运行它 . 并且在最初的部分时间它们几乎全部被使用 . 但是从执行时间的后半段开始,它仅使用1个AU . 我在计划中看到一个超级变换仅由一个顶点组成,它看起来像是低估了执行计划(它只是假设) . 我正在尝试分析执行时间,但如果没有像HashCombine,HashCross等操作的技术描述那么很难...... 所以我的问题可以用它做一些事情(修改代码,添加提示...
  • 1 votes
     answers
     views

    从ADL表读取时优化数据提取

    我们使用循环分配方案在ADL表中插入数据 . 在另一项工作中,我们从表中提取三个不同分区的数据,并观察到分区的顶点数量不均匀 . 例如,在一个分区中,它为264 GB数据创建56个顶点,在另一个分区中,它为209 GB数据创建2个顶点 . 具有少量顶点的分区花费了大量时间来完成 . 在附图中,我不确定为什么SV5和SV3只有2个顶点 . 有没有办法优化这个并增加这些分区的顶点数? 这是表的脚本: ...
  • 2 votes
     answers
     views

    从U-SQL表加载数据时出现优化器内部错误

    有没有办法解决这个错误 . “CQO:内部错误 - 优化器内部错误 . 断言:a_drgcidChild-&gt; CLength()== UlSafeCLength(popMS-&gt; Pdrgcid())in rlstreamset.cpp:499” 从分区的U-SQL表加载数据时遇到此问题 . @myData = SELECT * FROM dbo.MyTable;
  • 1 votes
     answers
     views

    Azure Data Lake中的增量加载

    我有一个大blob存储,其中包含根据标识符在多个级别组织的日志文件:存储库,分支,内部版本号,构建步骤编号 . 这些是包含对象数组的JSON文件,每个对象都有 timestamp 和 entry 值 . 我已经实现了一个自定义提取器(扩展 IExtractor ),它接受一个输入流并产生许多纯文本行 . Initial load 现在我正在尝试将所有数据加载到ADL Store . 我创建了一个类...
  • 2 votes
     answers
     views

    并行识别最新记录

    我们使用U-SQL从一组.csv文件中提取传感器数据 . 每条记录包含传感器ID,测量时间和值,以及收到记录的时间: +----------+---------------------+------------------+---------------------+ | SensorID | MeasurementTime | MeasurementValue | Received...
  • 0 votes
     answers
     views

    USQL嵌套查询性能

    我有一个USQL查询,它可以在托管表中对400M记录自行运行 . 但是在开发期间,我不想一直对所有记录运行它,所以我弹出一个where子句,运行它来获取一小部分数据,并在大约2分钟内完成(@ 5 AU),写作在我的数据湖中将结果输出到tsv . 很高兴 . 但是,我现在想将它用作第二个查询和进一步处理的源 . 所以我使用原始的USQL创建一个视图(减去where子句) . 然后测试一个新脚本: '...
  • 2 votes
     answers
     views

    运行几个小时后,Azure数据工厂中的自定义活动失败

    我使用按需HDInsight群集在Azure数据工厂中运行自定义.Net活动 . 活动处理存储在Azure Blob中的XML文件,并将它们移动到Azure Data Lake Store . 执行28小时后失败,出现以下错误: “活动中出错:请求已中止:请求已取消..” 此活动运行没有可用的日志文件,上述错误不足以解决问题 . 我该如何解决这个问题?
  • 1 votes
     answers
     views

    Azure数据湖连接与数据工厂自定义活动

    我在azure数据工厂中遇到自定义活动的问题 . 我想连接到其中的azure数据湖 . 我正在使用以下命名空间: using Microsoft.Azure.Management.DataLake.Store; using Microsoft.IdentityModel.Clients.ActiveDirectory using Microsoft.Rest.Azure.Authenticatio...
  • 0 votes
     answers
     views

    Azure Data Lake:对Azure Data Lake Store的请求未经授权

    我们正在尝试将数据从Azure Table Storage移至Azure Data Lake . 所以我们创建了一个数据工厂(带有链接服务,数据集和管道) . Pipline是使用“复制操作”创建的 . 其中一个链接服务我们选择“Azure Data Lake Store”,我们授权配置,最终配置如下 { &quot;name&quot;: &quot;XXXXXStoreLinkedS...
  • 3 votes
     answers
     views

    在Azure Data Lake Analytics U-SQL中查询Windows Azure存储表

    我找到了使用EXTRACT FROM从Azure Data Lake Storage或Azure Storage Blob查询文件的文档,以及在数据源位置使用外部表查找SQL,Azure SQL数据库或Azure数据仓库的文档 . 但是,我找不到任何涉及Azure表存储的内容 . 我们在表格存储中有数据以原始形式访问,并且要求对此数据执行聚合,而Azure Data Lake Analytics似...
  • 0 votes
     answers
     views

    Azure Data lake存储 - 将JSON转换为CSV

    我们在Azure Data湖商店中拥有大小约为100 GB的JSON文件 . 我们需要将它们转换为CSV文件并保存到同一天蓝色数据湖商店中的不同文件夹 . 有哪些可用选项?
  • 4 votes
     answers
     views

    如何查询Azure Data Lake?

    来自数据库世界,当我们有与Data相关的东西时,我们使用ui工具来查询数据 . 无论大小 . 是否有类似SSMS,SQL WorkBench(For Big Data Redshift),Azure Data Lake的Athena(查询大数据S3)? 我看到Data Lake Analytics只查询数据并将其存储在文件中 . 无论如何通过UI工具或基于Web的工具查询Azure Data La...
  • 0 votes
     answers
     views

    Azure数据湖中的元数据

    我在C#中编写了一个Azure finction,它递归遍历数据湖并生成一个文件,其中包含datalake中所有文件和文件夹的元数据(文件名,路径,大小等) . 这需要相当长的一段时间,因为我们有很多文件和foders . 所以我只是想知道是否有一个元数据存储我们可以直接从中提取这些数据?我在考虑像SQL Server中的sys表这样的东西 . 提前致谢!

热门问题