关于我们

质量为本、客户为根、勇于拼搏、务实创新

< 返回

使用爬虫遇到的一些问题

发布时间:2022-09-11 23:37:40

本博客会记录博主在使用爬虫过程中遇到的问题,不断更新,希望以后再遇到这些问题的时候,可以快速解决。

1、在爬取和讯博客的时候发现阅读数和评论数无法正常读取。通过抓包工具抓取到了阅读数和评论数的URL,但是复制到浏览器上打开发现一片空白。在抓包工具Raw里发现,有一项Refere,后面将此项加到headers信息里,数据可以正常显示出来了。代码如下:

import urllib.request

url='http://click.tool.hexun.com/click.aspx?articleid=116367158&blogid=19050645'

data={

"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36",
"Referer":"http://27783968.blog.hexun.com/116367158_d.html",

}

request=urllib.request.Request(url,headers = data)
data=urllib.request.urlopen(request).read().decode("utf-8","ignore")
print(data)

此次难点在于不熟悉urllib库是如何添加更多的请求信息到heagers里,在以上代码中,data里还可以添加更加多的请求,比如cookie等信息,记录此次代码的目的在于熟悉urllib.request.Reques的用法

另外有需要云服务器可以了解下风纳云fengnayun.com,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


/template/Home/Dawn/PC/Static

选择风纳云,也许是您成就一番大事业的开端

注册账号