-
0 votesanswersviews
美丽的汤和提取 Value
如果你能给我一些关于如何在使用beautifulsoup时获取“1723年6月16日”出生日期的指导,我会很感激 . 现在使用我的代码我已经设法 grab 你在下面看到的结果值,但我所需要的只是获取1723年6月16日的 Value . 任何建议? 我的代码: birth = soup.find("table",{"class":"infobox... -
0 votesanswersviews
HtmlAgilityPack - 使用c#解析带有cookie /标签的网站
当我想从网页获取数据时,我通常使用带有HtmlDocument对象的HtmlAgilityPack,该对象使用网站的主网址,然后使用主表的HtmlNode对象,例如我想从页面获取的所有数据并复制它的XPath进入输入 . 例: HtmlDocument hDocument = GetHtmlDocumentFromUrl("http://someweb.com"); HtmlN... -
1 votesanswersviews
使BeautifulSoup忽略脚本标记内的内容
我一直在尝试使用BeautifulSoup(3.1.0.1)来解析一个html页面,其中包含大量生成html内部标记的javascript . 一个示例片段如下所示: <html><head><body><div> <script type='text/javascript'> if(ii > 0) { html += '<... -
4 votesanswersviews
如何使用BeautifulSoup(python)阻止在错误的HTML中关闭标签?
我自动将HTML页面的内容翻译成不同的语言,因此我必须从有时写得不好的不同HTML页面中提取所有文本节点(我无法编辑这些HTML) . 通过使用BeautifulSoup,我可以轻松地提取这些文本并将其替换为翻译,但是当我在这些操作后显示HTML时:html = BeautifulSoup(source_html) - 它有时会被破坏,因为BeautifulSoup会自动关闭标签(例如表标签在错误... -
2 votesanswersviews
BeautifulSoup - 如何在不打开标签和标签之前提取文本?
我是python和beautifulsoup的新手,花了不少时间试图弄清楚这个 .我想在没有类的 <div> 中提取三个特定的文本提取 .我想要的第一个文本提取是在 <a> 标记内,该标记位于 <h4> 标记内 . 我设法提取它 .第二个文本提取紧跟在结束h4标记 </h4> 之后,后跟一个 <br> 标记 .第二个文本提取紧跟在第二个文... -
0 votesanswersviews
如何使用BeautifulSoup获取over-line标签内的内容
我想从HTML代码段中提取内容(“_ The_important_content_”),如下所示: <div class=" a:2 ... -
52 votesanswersviews
在python中解析HTML - lxml还是BeautifulSoup?哪种更好用于何种目的?
据我所知,Python中的两个主要HTML解析库是lxml和BeautifulSoup . 我选择了BeautifulSoup作为我正在研究的项目,但除了找到更容易学习和理解的语法之外,我选择了它 . 但是我看到很多人似乎都喜欢lxml而且我听说lxml更快 . 所以我想知道一个优于另一个的优点是什么?我什么时候想使用lxml?什么时候最好使用BeautifulSoup?还有其他值得考虑的图书馆吗... -
2 votesanswersviews
使用BeautifulSoup帮助在<pre>标签之间进行解析
我正在尝试使用BeautifulSoup和python从网站解析信息 . html如下所示 . 我希望我的解析数据看起来像: ID定义Lysine.biosynthesis - Burkholderia psuedomallei 17...其余数据位于类似位置(在"pre"标签内和"a"标签外 . 我怎样才能做到这一点? <pre>ID ... -
-1 votesanswersviews
Python BeautifulSoup解析特定文本
我正在解析一个html文件,我想找到它所说的"Smaller Reporting Company"文件的一部分,并且它旁边有一个"X"或Checkbox,或者它没有't. The checkbox is typically done with the Wingdings font or an ascii code. In the HTML below you... -
0 votesanswersviews
使用BeautifulSoup在python中解析带有img标记的表
我正在使用BeautifulSoup来解析一个html页面 . 我需要处理页面中的第一个表 . 该表包含几行 . 然后每行包含一些'td'标记,其中一个'td'标记具有'img'标记 . 我想获得该表中的所有信息 . 但如果我打印那张 table ,我就不会't get any data related to the ' img'标签 . 我使用soap.findAll(“table”)来获取所有... -
2 votesanswersviews
BeautifulSoup:在另一个标签后面添加标签文字
如何使用BeautifulSoup通过另一个标签查找标签?在这个例子中,我想得到例如'0993 999 999',它位于另一个带有'Telefon:'文本的div后面的div中 . 我试图用它来得到它: print parsed.findAll('div',{'class':"dva" })[3].text 但它不能正常工作 . 我认为必须有一种方法可以告诉Beautiful... -
3 votesanswersviews
提取<div>标签BeautifulSoup之外的文本
所以我练习刮刮,我遇到了这样的事情: <div class="profileDetail"> <div class="profileLabel">Mobile : </div> 021 427 399 </div> 我需要 <div> 标签之外的数字: 我的代码是: num =... -
0 votesanswersviews
在2标签beautifulsoup python之前解析
我想提取所有链接http://example.com/1并忽略带有beautifulsoup的2 <br><br> 标签后的所有链接 . <div class="compost"> <br><b><a target="_blank" href="http://example.com... -
0 votesanswersviews
远程XML文件写得不好导致解析错误
我正在编写一个RSS类型的阅读器网页来解析一些游戏网站的信息 . 其中一个游戏RSS提要写得不好 . 他们没有费心将描述包装到CDATA中,而是使用simplexml_load_file解析错误 . 这是我写的解析它的函数: function displayAll($url) { $url = "https://www.game.com/newsfeed/rss.vm"; ... -
143 votesanswersviews
使用Python解析HTML
我正在寻找一个用于Python的HTML Parser模块,它可以帮助我以Python列表/字典/对象的形式获取标签 . 如果我有一份表格的文件: <html> <head>Heading</head> <body attr1='val1'> <div class='container'> <div id='... -
95 votesanswersviews
如果HTML解析不使用正则表达式,它们如何工作?
我每天都会看到问题,询问如何从某些HTML字符串中解析或提取某些内容,第一个答案/注释始终是“不要使用RegEx解析HTML,以免感到愤怒!” (有时省略最后一部分) . 这对我来说相当混乱,我一直认为,解析任何复杂字符串的最佳方法是使用正则表达式 . 那么HTML解析器如何工作呢?它不使用正则表达式来解析 . 使用正则表达式的一个特殊参数是,并不总是有一种解析替代方法(例如JavaScript,... -
197 votesanswersviews
使用正则表达式解析HTML:为什么不呢?
似乎stackoverflow上的每个问题,其中提问者使用正则表达式从HTML中获取一些信息将不可避免地有一个“答案”,表示不使用正则表达式来解析HTML . 为什么不?我知道有像Beautiful Soup那样引用-inquote "real" HTML解析器,而且我很有用,但是如果你只是在做一些简单,快速或者肮脏的事情,那么为什么要在使用某些东西时如此复杂呢?几个正则表达式... -
4 votesanswersviews
HTML到Excel格式转换 - 在同一单元格中的break和li
我在本周早些时候发布了一个关于HTML到Excel转换的问题,这对我很有用 . 我给出的示例宏代码很好地将代码从HTML格式转换为Excel单元格(感谢Siddharth Rout!) . 我现在遇到的问题似乎无法在任何地方找到答案,这与IE对象如何处理Excel中的段落,中断和列表项有关 . p,br和li将文本移动到原始单元格下方的单元格中,覆盖这些单元格中的任何数据 . 有没有办法让HTM... -
1951 votesanswersviews
你如何在PHP中解析和处理HTML / XML?
如何解析HTML / XML并从中提取信息? -
1 votesanswersviews
不和谐和机器人制作:我似乎无法让我的机器人发布网络解析材料
第一篇文章!是的......所以 . 我制作机器人并遇到了麻烦 . 我似乎不能让我的机器人在调用我写的“stats”命令时在我的不和谐 Channels 中发布网络解析的资料 . 在调用命令时我得到“403未授权”!我试图显示一些统计数据 . 使用的python: import asyncio import datetime from difflib import SequenceMatcher ... -
1 votesanswersviews
如何使用api将HTML转换为PPT文件?
我必须添加一个能够导出jsp(呈现为html页面)作为ppt文件的功能 . 之前使用poi将jsp导出为excel,使用iText导出为pdf . 我搜索了很多关于 html/jsp to ppt java api 的信息,但觉得很不走运 . 仅供参考,我已经将jsp转换为pdf,所以如果在java中有任何pdf到ppt转换器API,这也会有所帮助 . 请建议我任何关于 html/jsp to p... -
1 votesanswersviews
c#win8 HtmlAgilityPack麻烦
您好我想从一个网站解析地铁应用程序的HTML . 我看了一些关于HtmlAgilityPack的教程,我觉得它很容易 . 但是当我开始项目时,我看到HtmlAgilityPack库中没有包含一些方法或引用作为我观看的教程 . 示例: 在教程视频中,它说: HtmlWeb web = new HtmlWeb(); HtmlDocument doc = web.Load(“url”); 在我的Ht... -
1 votesanswersviews
使用python beautifulsoup进行Web解析会产生不一致的结果
我试图解析this site的表 . 我正在使用蟒蛇美丽的汤来做到这一点 . 虽然它在我朋友的Windows机器上产生错误的输出's producing correct output in my Ubuntu 14.04 machine, it' . 我在这里粘贴代码片段: from bs4 import BeautifulSoup def buildURL(agi, families): ... -
69 votesanswersviews
你能提供解析HTML的例子吗?
如何使用各种语言解析HTML并解析库? 回答时: 个别评论将链接到有关如何使用正则表达式解析HTML的问题的答案,作为展示正确行事方式的一种方式 . 为了保持一致性,我要求该示例解析锚文件中 href 的HTML文件 . 为了便于搜索此问题,我要求您遵循此格式 语言:[语言名称] 图书馆:[图书馆名称] [example code] 请使库成为库文档的链接 . 如果您想提供除提取链接之外的示例... -
7 votesanswersviews
在HTML BeautifulSoup中按文本查找并替换
我正在尝试使用python和BeautifulSoup标记一个HTML文件(字面上用“mark”标签包装字符串) . 问题基本如下...... 说我有我原来的html文档: test = "<h1>oh hey</h1><div>here is some <b>SILLY</b> text</div>" ... -
0 votesanswersviews
无法让BeautifulSoup正确识别列(Python,xml(Excel web)html文件)
我正在使用这种格式的许多文件(删除样式html): <html xmlns:x="urn:schemas-microsoft-com:office:excel"> <head> <meta name="Generator" content="SAS Software Version 9.3, see www.sa... -
0 votesanswersviews
与Python BeautifulSoup的HTML混淆
我在youtube上关注了newboston的教程,编译完代码后我没有错误 . 我正在尝试打印"Generic Line List"以及该列表后面的所有链接;可以在此链接的底部找到http://playrustwiki.com/wiki/List_of_Items import requests from bs4 import BeautifulSoup def trade_... -
0 votesanswersviews
使用beautifulsoup 4关闭格式错误的html中的<p>标签
我有一套不那么有效的html页面要刮掉 . 我需要的数据是“p”标签 . 但是,大多数都没有关闭: <p>Bla-bla-bla <p>bla bla <p>more bla-bla <p><span class="some_class">another bla</span> <p>just s... -
0 votesanswersviews
使用BeautifulSoup或lxml解析和修改html . 使用一些html标记包围文本,该标记直接位于<body>标记下
我作为初学者在Python2.7工作 . 我想解析和修改一些html文件 . 为此,我使用Beautiful Soup和lxml也是一种选择 . 现在的问题是我可以通过修改html来包含带有一些html标签的文本 . 文本直接在'body'标签下,所以什么文本直接在body标签下我想修改html,以便我可以在我想要的标签下获取文本 . 所以我可以解析它并轻松找出这个文本的位置 . <html... -
1 votesanswersviews
如何获取音频/视频源WP REST API字段?
我在我的项目中使用WP REST API V2 . 发送Get请求获取帖子后,我看不到包含我的音频/视频wordpress帖子(youtube或soundcloud源)的字段 . 我想知道如何将(音频和视频帖子)的源字段包含在我的请求结果中 . 如果我的帖子是音频或视频帖子: 这些帖子的源字段可以设置为soundcloud或youtube track url: 我需要在获取请求的结果中获取这...