首页 \ 问答 \ Heritrix3.2.0能够抓取基于ajax的网站吗?(Is Heritrix3.2.0 able to crawl ajax-based web sites?)

Heritrix3.2.0能够抓取基于ajax的网站吗?(Is Heritrix3.2.0 able to crawl ajax-based web sites?)

是否可以使用Heritrix-3.2.0对基于ajax的网站进行爬网?


Is it possible to crawl ajax-based web sites using Heritrix-3.2.0?


原文:https://stackoverflow.com/questions/29458870
更新时间:2022-03-12 14:03

最满意答案

使用Element.text()方法

Element euro = doc.select("span[id~=yfs_l10_eurusd=x]").first();

value = euro.text();

Use the Element.text() method

Element euro = doc.select("span[id~=yfs_l10_eurusd=x]").first();

value = euro.text();

相关问答

更多
  • jsoup找不到[2023-08-23]

    用URL类,把网页内容读入,然后分割字符串,得到你想要的内容。 URL url =这个貌似挺难额,我不懂,等答案。 建议使用 jsoup ,一款java 强悍的,sCmYRF
  • JSoup非常易于使用,请看JSoup食谱中的这些例子: 这里 首先,您必须连接到您想要解析的网页: Document doc = Jsoup.connect("http://example.com/").get(); 然后,您可以使用JSoup选择器语法来选择页面元素。 例如,假设你想选择id属性设置为test的div标签的所有内容,你只需要使用: Elements divs = doc.select("div#test"); 要检索div,那么你可以使用下面的代码迭代它们: for (Element ...
  • 此代码不会编译,因为select()将返回一个Elements对象,而不是Element 。 Elements aElements = doc.select("a"); // Select all a-elements Elements bElements = doc.select("b"); // Select all b-elements 现在,您遍历找到的所有元素并按需要存储它们: for( Element element : aElements ) { postList.add(eleme ...
  • 我测试了你的代码,它应该可以正常工作......我想你的许可被放在了错误的地方。 它在清单中的应用程序定义之前进行: 这里是我的manifest文件的前几行代码: I tested your co ...
  • 您可以使用浏览器获取选择器 - 打开页面并按F12启动开发人员工具。 我使用的是FireFox,但对于其他浏览器也是如此 - 选择Inspector工具并选择元素选择器(FF - 最左边的工具)。 之后选择您想要获取的元素,浏览器将突出显示包含该元素的代码。 将鼠标放在highligthed代码上,右键单击它并选择Copy unique selector 。 现在,您可以将该选择器用于Jsoup代码。 You can get the selector with your browser - open the ...
  • 我的解决方案:使用yopmail而不是mailinator。 My solution: Use yopmail instead of mailinator.
  • 使用Element.text()方法 Element euro = doc.select("span[id~=yfs_l10_eurusd=x]").first(); value = euro.text(); Use the Element.text() method Element euro = doc.select("span[id~=yfs_l10_eurusd=x]").first(); value = euro.text();
  • 您无法使用Jsoup提交表单,而是在您手动提交表单时,监视浏览器上inspect元素的网络选项卡。 您会看到请求发送到哪个网址,哪种类型等。 我监视网络选项卡,发现当我查询约翰与类别,他们都发送HTTP请求到这个网址: http ://www.qatar.cmu.edu/?feed=directory&q=john&category=0&subcategory= & employeeType = 0&page = 1 。 它响应一个json对象。 你可以轻松解析 以下是获取搜索结果的json响应的示例代码: ...
  • 请检查一下。 Elements elements = doc.select("li div.product-description"); for (Element element : elements) { String title = element.select("a.product-name").first().attr("title"); String img = element.select("img").first().attr("src"); String hr ...
  • 第一个是不可能的,因为链接文档中没有 img标记。 你得到第二个元素与以下代码: Document doc = Jsoup.connect("http://solr.cbssports.com/solr/select/?q=fantasy%20Tom%20Brady") .timeout(30000) .get(); Element tomBrady = doc.select("str[name=content]:matchesOwn(12 Tom Brady, QB P ...

相关文章

更多

最新问答

更多
  • 您如何使用git diff文件,并将其应用于同一存储库的副本的本地分支?(How do you take a git diff file, and apply it to a local branch that is a copy of the same repository?)
  • 将长浮点值剪切为2个小数点并复制到字符数组(Cut Long Float Value to 2 decimal points and copy to Character Array)
  • OctoberCMS侧边栏不呈现(OctoberCMS Sidebar not rendering)
  • 页面加载后对象是否有资格进行垃圾回收?(Are objects eligible for garbage collection after the page loads?)
  • codeigniter中的语言不能按预期工作(language in codeigniter doesn' t work as expected)
  • 在计算机拍照在哪里进入
  • 使用cin.get()从c ++中的输入流中丢弃不需要的字符(Using cin.get() to discard unwanted characters from the input stream in c++)
  • No for循环将在for循环中运行。(No for loop will run inside for loop. Testing for primes)
  • 单页应用程序:页面重新加载(Single Page Application: page reload)
  • 在循环中选择具有相似模式的列名称(Selecting Column Name With Similar Pattern in a Loop)
  • System.StackOverflow错误(System.StackOverflow error)
  • KnockoutJS未在嵌套模板上应用beforeRemove和afterAdd(KnockoutJS not applying beforeRemove and afterAdd on nested templates)
  • 散列包括方法和/或嵌套属性(Hash include methods and/or nested attributes)
  • android - 如何避免使用Samsung RFS文件系统延迟/冻结?(android - how to avoid lag/freezes with Samsung RFS filesystem?)
  • TensorFlow:基于索引列表创建新张量(TensorFlow: Create a new tensor based on list of indices)
  • 企业安全培训的各项内容
  • 错误:RPC失败;(error: RPC failed; curl transfer closed with outstanding read data remaining)
  • C#类名中允许哪些字符?(What characters are allowed in C# class name?)
  • NumPy:将int64值存储在np.array中并使用dtype float64并将其转换回整数是否安全?(NumPy: Is it safe to store an int64 value in an np.array with dtype float64 and later convert it back to integer?)
  • 注销后如何隐藏导航portlet?(How to hide navigation portlet after logout?)
  • 将多个行和可变行移动到列(moving multiple and variable rows to columns)
  • 提交表单时忽略基础href,而不使用Javascript(ignore base href when submitting form, without using Javascript)
  • 对setOnInfoWindowClickListener的意图(Intent on setOnInfoWindowClickListener)
  • Angular $资源不会改变方法(Angular $resource doesn't change method)
  • 在Angular 5中不是一个函数(is not a function in Angular 5)
  • 如何配置Composite C1以将.m和桌面作为同一站点提供服务(How to configure Composite C1 to serve .m and desktop as the same site)
  • 不适用:悬停在悬停时:在元素之前[复制](Don't apply :hover when hovering on :before element [duplicate])
  • 常见的python rpc和cli接口(Common python rpc and cli interface)
  • Mysql DB单个字段匹配多个其他字段(Mysql DB single field matching to multiple other fields)
  • 产品页面上的Magento Up出售对齐问题(Magento Up sell alignment issue on the products page)