Java 学习之路

0 votes

answers

views

美丽的汤和提取 Value

如果你能给我一些关于如何在使用beautifulsoup时获取“1723年6月16日”出生日期的指导，我会很感激 . 现在使用我的代码我已经设法 grab 你在下面看到的结果值，但我所需要的只是获取1723年6月16日的 Value . 任何建议？我的代码： birth = soup.find("table",{"class":"infobox...

python html beautifulsoup html-parsing
0 votes

answers

views

HtmlAgilityPack - 使用c＃解析带有cookie /标签的网站

当我想从网页获取数据时，我通常使用带有HtmlDocument对象的HtmlAgilityPack，该对象使用网站的主网址，然后使用主表的HtmlNode对象，例如我想从页面获取的所有数据并复制它的XPath进入输入 . 例： HtmlDocument hDocument = GetHtmlDocumentFromUrl("http://someweb.com"); HtmlN...

c# html-parsing html-agility-pack
1 votes

answers

views

使BeautifulSoup忽略脚本标记内的内容

我一直在尝试使用BeautifulSoup（3.1.0.1）来解析一个html页面，其中包含大量生成html内部标记的javascript . 一个示例片段如下所示： <html><head><body><div> <script type='text/javascript'> if(ii > 0) { html += '<...

python beautifulsoup html-parsing
4 votes

answers

views

如何使用BeautifulSoup（python）阻止在错误的HTML中关闭标签？

我自动将HTML页面的内容翻译成不同的语言，因此我必须从有时写得不好的不同HTML页面中提取所有文本节点（我无法编辑这些HTML） . 通过使用BeautifulSoup，我可以轻松地提取这些文本并将其替换为翻译，但是当我在这些操作后显示HTML时：html = BeautifulSoup（source_html） - 它有时会被破坏，因为BeautifulSoup会自动关闭标签（例如表标签在错误...

python parsing html-parsing beautifulsoup
2 votes

answers

views

BeautifulSoup - 如何在不打开标签和标签之前提取文本？

我是python和beautifulsoup的新手，花了不少时间试图弄清楚这个 .我想在没有类的 <div> 中提取三个特定的文本提取 .我想要的第一个文本提取是在 <a> 标记内，该标记位于 <h4> 标记内 . 我设法提取它 .第二个文本提取紧跟在结束h4标记 </h4> 之后，后跟一个 <br> 标记 .第二个文本提取紧跟在第二个文...

python html parsing beautifulsoup html-parsing
0 votes

answers

views

如何使用BeautifulSoup获取over-line标签内的内容

我想从HTML代码段中提取内容（“_ The_important_content_”），如下所示： <div class=" a:2 ...

beautifulsoup html-parsing
52 votes

answers

views

在python中解析HTML - lxml还是BeautifulSoup？哪种更好用于何种目的？

据我所知，Python中的两个主要HTML解析库是lxml和BeautifulSoup . 我选择了BeautifulSoup作为我正在研究的项目，但除了找到更容易学习和理解的语法之外，我选择了它 . 但是我看到很多人似乎都喜欢lxml而且我听说lxml更快 . 所以我想知道一个优于另一个的优点是什么？我什么时候想使用lxml？什么时候最好使用BeautifulSoup？还有其他值得考虑的图书馆吗...

python beautifulsoup html-parsing lxml
2 votes

answers

views

使用BeautifulSoup帮助在<pre>标签之间进行解析

我正在尝试使用BeautifulSoup和python从网站解析信息 . html如下所示 . 我希望我的解析数据看起来像： ID定义Lysine.biosynthesis - Burkholderia psuedomallei 17...其余数据位于类似位置（在"pre"标签内和"a"标签外 . 我怎样才能做到这一点？ <pre>ID ...

python html-parsing beautifulsoup
-1 votes

answers

views

Python BeautifulSoup解析特定文本

我正在解析一个html文件，我想找到它所说的"Smaller Reporting Company"文件的一部分，并且它旁边有一个"X"或Checkbox，或者它没有't. The checkbox is typically done with the Wingdings font or an ascii code. In the HTML below you...

python regex html-parsing beautifulsoup
0 votes

answers

views

使用BeautifulSoup在python中解析带有img标记的表

我正在使用BeautifulSoup来解析一个html页面 . 我需要处理页面中的第一个表 . 该表包含几行 . 然后每行包含一些'td'标记，其中一个'td'标记具有'img'标记 . 我想获得该表中的所有信息 . 但如果我打印那张 table ，我就不会't get any data related to the ' img'标签 . 我使用soap.findAll（“table”）来获取所有...

python html-parsing beautifulsoup
2 votes

answers

views

BeautifulSoup：在另一个标签后面添加标签文字

如何使用BeautifulSoup通过另一个标签查找标签？在这个例子中，我想得到例如'0993 999 999'，它位于另一个带有'Telefon：'文本的div后面的div中 . 我试图用它来得到它： print parsed.findAll('div',{'class':"dva" })[3].text 但它不能正常工作 . 我认为必须有一种方法可以告诉Beautiful...

python html beautifulsoup html-parsing
3 votes

answers

views

提取<div>标签BeautifulSoup之外的文本

所以我练习刮刮，我遇到了这样的事情： <div class="profileDetail"> <div class="profileLabel">Mobile : </div> 021 427 399 </div> 我需要 <div> 标签之外的数字：我的代码是： num =...

python html beautifulsoup html-parsing
0 votes

answers

views

在2标签beautifulsoup python之前解析

我想提取所有链接http://example.com/1并忽略带有beautifulsoup的2 <br><br> 标签后的所有链接 . <div class="compost"> <br><b><a target="_blank" href="http://example.com...

python beautifulsoup html-parsing
0 votes

answers

views

远程XML文件写得不好导致解析错误

我正在编写一个RSS类型的阅读器网页来解析一些游戏网站的信息 . 其中一个游戏RSS提要写得不好 . 他们没有费心将描述包装到CDATA中，而是使用simplexml_load_file解析错误 . 这是我写的解析它的函数： function displayAll($url) { $url = "https://www.game.com/newsfeed/rss.vm"; ...

php xml xml-parsing rss html-parsing
143 votes

answers

views

使用Python解析HTML

我正在寻找一个用于Python的HTML Parser模块，它可以帮助我以Python列表/字典/对象的形式获取标签 . 如果我有一份表格的文件： <html> <head>Heading</head> <body attr1='val1'> <div class='container'> <div id='...

python xml-parsing html-parsing
95 votes

answers

views

如果HTML解析不使用正则表达式，它们如何工作？

我每天都会看到问题，询问如何从某些HTML字符串中解析或提取某些内容，第一个答案/注释始终是“不要使用RegEx解析HTML，以免感到愤怒！” （有时省略最后一部分） . 这对我来说相当混乱，我一直认为，解析任何复杂字符串的最佳方法是使用正则表达式 . 那么HTML解析器如何工作呢？它不使用正则表达式来解析 . 使用正则表达式的一个特殊参数是，并不总是有一种解析替代方法（例如JavaScript，...

html regex parsing html-parsing
197 votes

answers

views

使用正则表达式解析HTML：为什么不呢？

似乎stackoverflow上的每个问题，其中提问者使用正则表达式从HTML中获取一些信息将不可避免地有一个“答案”，表示不使用正则表达式来解析HTML . 为什么不？我知道有像Beautiful Soup那样引用-inquote "real" HTML解析器，而且我很有用，但是如果你只是在做一些简单，快速或者肮脏的事情，那么为什么要在使用某些东西时如此复杂呢？几个正则表达式...

regex html-parsing
4 votes

answers

views

HTML到Excel格式转换 - 在同一单元格中的break和li

我在本周早些时候发布了一个关于HTML到Excel转换的问题，这对我很有用 . 我给出的示例宏代码很好地将代码从HTML格式转换为Excel单元格（感谢Siddharth Rout！） . 我现在遇到的问题似乎无法在任何地方找到答案，这与IE对象如何处理Excel中的段落，中断和列表项有关 . p，br和li将文本移动到原始单元格下方的单元格中，覆盖这些单元格中的任何数据 . 有没有办法让HTM...

excel vba excel-vba html-parsing
1951 votes

answers

views

你如何在PHP中解析和处理HTML / XML？

如何解析HTML / XML并从中提取信息？

php xml parsing xml-parsing html-parsing
1 votes

answers

views

不和谐和机器人制作：我似乎无法让我的机器人发布网络解析材料

第一篇文章！是的......所以 . 我制作机器人并遇到了麻烦 . 我似乎不能让我的机器人在调用我写的“stats”命令时在我的不和谐 Channels 中发布网络解析的资料 . 在调用命令时我得到“403未授权”！我试图显示一些统计数据 . 使用的python： import asyncio import datetime from difflib import SequenceMatcher ...

python beautifulsoup html-parsing bots discord
1 votes

answers

views

如何使用api将HTML转换为PPT文件？

我必须添加一个能够导出jsp（呈现为html页面）作为ppt文件的功能 . 之前使用poi将jsp导出为excel，使用iText导出为pdf . 我搜索了很多关于 html/jsp to ppt java api 的信息，但觉得很不走运 . 仅供参考，我已经将jsp转换为pdf，所以如果在java中有任何pdf到ppt转换器API，这也会有所帮助 . 请建议我任何关于 html/jsp to p...

java jsp html-parsing ms-office openoffice.org
1 votes

answers

views

c＃win8 HtmlAgilityPack麻烦

您好我想从一个网站解析地铁应用程序的HTML . 我看了一些关于HtmlAgilityPack的教程，我觉得它很容易 . 但是当我开始项目时，我看到HtmlAgilityPack库中没有包含一些方法或引用作为我观看的教程 . 示例：在教程视频中，它说： HtmlWeb web = new HtmlWeb（）; HtmlDocument doc = web.Load（“url”）; 在我的Ht...

c# html-parsing html-agility-pack
1 votes

answers

views

使用python beautifulsoup进行Web解析会产生不一致的结果

我试图解析this site的表 . 我正在使用蟒蛇美丽的汤来做到这一点 . 虽然它在我朋友的Windows机器上产生错误的输出's producing correct output in my Ubuntu 14.04 machine, it' . 我在这里粘贴代码片段： from bs4 import BeautifulSoup def buildURL(agi, families): ...

python html parsing beautifulsoup html-parsing
69 votes

answers

views

你能提供解析HTML的例子吗？

如何使用各种语言解析HTML并解析库？回答时：个别评论将链接到有关如何使用正则表达式解析HTML的问题的答案，作为展示正确行事方式的一种方式 . 为了保持一致性，我要求该示例解析锚文件中 href 的HTML文件 . 为了便于搜索此问题，我要求您遵循此格式语言：[语言名称] 图书馆：[图书馆名称] [example code] 请使库成为库文档的链接 . 如果您想提供除提取链接之外的示例...

html language-agnostic html-parsing
7 votes

answers

views

在HTML BeautifulSoup中按文本查找并替换

我正在尝试使用python和BeautifulSoup标记一个HTML文件（字面上用“mark”标签包装字符串） . 问题基本如下...... 说我有我原来的html文档： test = "<h1>oh hey</h1><div>here is some <b>SILLY</b> text</div>" ...

python regex html-parsing beautifulsoup lxml
0 votes

answers

views

无法让BeautifulSoup正确识别列（Python，xml（Excel web）html文件）

我正在使用这种格式的许多文件（删除样式html）： <html xmlns:x="urn:schemas-microsoft-com:office:excel"> <head> <meta name="Generator" content="SAS Software Version 9.3, see www.sa...

python parsing xml-parsing beautifulsoup html-parsing
0 votes

answers

views

与Python BeautifulSoup的HTML混淆

我在youtube上关注了newboston的教程，编译完代码后我没有错误 . 我正在尝试打印"Generic Line List"以及该列表后面的所有链接;可以在此链接的底部找到http://playrustwiki.com/wiki/List_of_Items import requests from bs4 import BeautifulSoup def trade_...

python-3.x web-scraping beautifulsoup html-parsing
0 votes

answers

views

使用beautifulsoup 4关闭格式错误的html中的<p>标签

我有一套不那么有效的html页面要刮掉 . 我需要的数据是“p”标签 . 但是，大多数都没有关闭： <p>Bla-bla-bla <p>bla bla <p>more bla-bla <p><span class="some_class">another bla</span> <p>just s...

python-3.x beautifulsoup html-parsing
0 votes

answers

views

使用BeautifulSoup或lxml解析和修改html . 使用一些html标记包围文本，该标记直接位于<body>标记下

我作为初学者在Python2.7工作 . 我想解析和修改一些html文件 . 为此，我使用Beautiful Soup和lxml也是一种选择 . 现在的问题是我可以通过修改html来包含带有一些html标签的文本 . 文本直接在'body'标签下，所以什么文本直接在body标签下我想修改html，以便我可以在我想要的标签下获取文本 . 所以我可以解析它并轻松找出这个文本的位置 . <html...

python html-parsing beautifulsoup lxml
1 votes

answers

views

如何获取音频/视频源WP REST API字段？

我在我的项目中使用WP REST API V2 . 发送Get请求获取帖子后，我看不到包含我的音频/视频wordpress帖子（youtube或soundcloud源）的字段 . 我想知道如何将（音频和视频帖子）的源字段包含在我的请求结果中 . 如果我的帖子是音频或视频帖子：这些帖子的源字段可以设置为soundcloud或youtube track url：我需要在获取请求的结果中获取这...

json wordpress rest html-parsing wordpress-rest-api

热门问题