首页 \ 问答 \ pycharm写爬虫怎么看请求头

pycharm写爬虫怎么看请求头

更新时间：2023-11-14 11:11

最满意答案

urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响，可以使用下面的方式:
　　import urllib2
　　enable_proxy = True
　　proxy_handler = urllib2.ProxyHandler({"http" : 'IP:8080'})
　　null_proxy_handler = urllib2.ProxyHandler({})
　　if enable_proxy:
　　opener = urllib2.build_opener(proxy_handler)
　　else:
　　opener = urllib2.build_opener(null_proxy_handler)
　　urllib2.install_opener(opener)
　　这里要注意的一个细节，使用 urllib2.install_opener() 会设置 urllib2 的全局 opener 。这样后面的使用会很方便，但不能做更细粒度的控制，比如想在程序中使用两个不同的 Proxy 设置等。比较好的做法是不使用 install_opener 去更改全局的设置，而只是直接调用 opener 的 open 方法代替全局的 urlopen 方法。

其他回答

本帖最后由 crifan 于 2012-11-07 00:18 编辑

表面现象看起来是，你发送的地址给google服务器，但是此地址有问题，导致人家返回你错误，说是：
http error 302: the http server returned a redirect error that would lead to an infinite loop.

而此地址，看起来，你是从浏览器之类的地方，拷贝过来的。
但是，实际上，如果需要程序模拟此过程的话，需要找到此地址中的各种参数，即：
num=100
hl=zh-cn
newwindow=1
safe=strict
q=inurl%3aadmin_login.aspx
oq=inurl%3aadmin_login.aspx
gs_l=serp.3...125521.131943.0.132041.38.31.1.0.0.3.209.2367.23j3j1.27.0...0.0...1c.1.bvh-wnktkjg
中每个参数的值，是如何获得的，
然后再用程序去模拟过程，生成对应的参数，
然后才是去将此地址发送给人家的google的服务器，才能获得你所想要的结果的。

总之一句话，先要自己搞懂内部执行的过程，然后才是用程序模拟此过程。

相关问答

python urllib2 GET的问题[2022-05-20]

b =a.read 要加括号。 import urllib2 url="http://www.ceve-market.org/api/market/type/18.xml" a=urllib2.urlopen(url) b=a.read() print b
python3.4没有urllib2[2022-09-12]

是的python3里面把两个库合并了，需要改程序，但是改的可能很复杂，也可能比较简单，具体要看程序。建议找找看有没有python3的版本或者找别的类似程序吧
如何在Python中使用urllib2[2022-01-02]

urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响，可以使用下面的方式: 　　import urllib2 　　enable_proxy = True 　　proxy_handler = urllib2.ProxyHandler({"http" : 'IP:8080'}) 　　null_proxy_handler = urllib2.ProxyHandler({}) 　　if enable_proxy: 　　ope ...
与Python和urllib2的源接口(Source interface with Python and urllib2)[2023-04-17]

不幸的是，使用中的标准库模块堆栈（urllib2，httplib，套接字）的设计有点糟糕 - 在操作的关键点， HTTPConnection.connect （在httplib中）委托给socket.create_connection ，而socket.create_connection你在创建套接字实例sock和sock.connect调用之间没有“挂钩”，因为你在sock.bind之前插入sock.connect ，这就是你需要设置源IP的东西（我广泛传播因为没有以这种气密，过度封装的方式来设计抽象 - ...
Python urllib2保持活着(Python urllib2 with keep alive)[2023-07-08]

使用urlgrabber库。这包括支持HTTP 1.1和keepalive的urllib2的HTTP处理程序： >>> import urllib2 >>> from urlgrabber.keepalive import HTTPHandler >>> keepalive_handler = HTTPHandler() >>> opener = urllib2.build_opener(keepalive_handler) >>> urllib2.install_opener(opener) >>> ...
处理urllib2的超时？(Handling urllib2's timeout? - Python)[2021-10-14]

除了以下情况外，您很少需要使用的情况except: 。这样做可以捕获任何异常，这可能很难调试，并捕获异常，包括SystemExit和KeyboardInterupt ，这可能会让您的程序烦人使用.. 最简单的，你会抓住urllib2.URLError ： try: urllib2.urlopen("http://example.com", timeout = 1) except urllib2.URLError, e: raise MyException("There was an err ...
使用urllib2 for Python3 [关闭](Using urllib2 for Python3 [closed])[2024-01-28]

Python 3中的urllib2已分为几个模块： urllib2模块已经拆分为Python 3中名为urllib.request和urllib.error几个模块。将源代码转换为Python 3时， 2to3工具将自动调整导入。 urllib.request是您要用于发出HTTP请求的内容。或者，开源Requests库提供了一个更简单，更清晰的API，用于在Python 2和3中发出HTTP请求。 urllib2 in Python 3 has been split into several mod ...
方法不允许在Python 3中使用urllib2(Method Not Allowed In Python 3 using urllib2)[2023-10-28]

这个问题可能是HTTPError的重复。由于您的urlopen请求中没有指定User-Agent，因此您已被检测为bot。我可以建议不那么痛苦的“请求”库吗？ import requests from bs4 import BeautifulSoup #Specify some headers. urlopen uses "Python-urllib" as a header, which makes you seem like a bot. headers = {'User-Agent': 'Mozi ...
如何在Python中使用urlopen或urllib2避免基于国家/地区的重定向(How to avoid country-based redirects with urlopen or urllib2 in Python)[2022-04-11]

我会用mechanize， http：//wwwsearch.sourceforge.net/mechanize/ 你可以使用＃不处理刷新重定向br.set_handle_refresh（False）其中'br'是与打开的网页相关联的变量。 Mechanize也有代理支持 I would use mechanize, http://wwwsearch.sourceforge.net/mechanize/ And you can use # Don't handle Refresh redirection ...
无法在python中使用urllib2提交Web表单(Can't submit web form using urllib2 in python)[2022-08-06]

处理AJAX Web表单通常需要使用selenium以便Python在安装了JavaScript引擎的情况下驱动真正的Web浏览器。有些人也谈论phantomjs但我现在还不知道它的官方Python模块。也可以看看： Linux上无头，可编写脚本的Firefox / Webkit？ Handling AJAX web forms generally requires using selenium so that Python is driving a real web browser with a Ja ...