博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
在scrapy框架下爬虫中如何实现翻页请求
阅读量:4455 次
发布时间:2019-06-07

本文共 1241 字,大约阅读时间需要 4 分钟。

通过scrapy.Request实现翻页请求:

scrapy.Request(url, callback=None, method='GET', headers=None, body=None, cookies=None, meta=None,                         encoding='utf-8', priority=0, dont_filter=False, errback=None, flags=None)

这里以爬取腾讯招聘网站的岗位信息为例制作一个爬虫进行翻页请求的实现

1 # -*- coding: utf-8 -*- 2 import scrapy 3  4  5 class HrSpider(scrapy.Spider): 6     name = 'Hr' 7     allowed_domains = ['tencent.com'] 8     start_urls = ['https://hr.tencent.com/position.php'] 9 10     def parse(self, response):11         tr_list=response.xpath("//table[@class='tablelist']/tr")[1:-1]12         for tr in tr_list:13             item={}14             item["title"]=tr.xpath("./td[1]/a/text()").extract_first()15             item["postion"]=tr.xpath("./td[2]/text()").extract_first()16             item["publish_date"]=tr.xpath("./td[5]/text()").extract_first()17             yield item18         #找到下一页的URL地址,实现翻页请求19         next_url=response.xpath("//a[@id='next']/@href").extract_first()20         if next_url !=" javascript:;":21             next_url="https://hr.tencent.com/"+next_url22             yield scrapy.Request(23                 next_url,24                 callback=self.parse25             )

 

转载于:https://www.cnblogs.com/zhiliang9408/p/10004157.html

你可能感兴趣的文章
HDU 吉哥系列故事——完美队形II 騰訊馬拉松初賽第二輪D題
查看>>
c++学习-继承
查看>>
[转]SQL Server 性能调优(io)
查看>>
设计模式学习-每日一记(6.原型模式)
查看>>
不已0开头的数字正则
查看>>
HTML撑起浮动子元素得父元素高度
查看>>
LeetCode--018--四数之和(java)
查看>>
Redis消息队列
查看>>
电商网站架构设计
查看>>
http://jingyan.baidu.com/article/4dc40848e7b69bc8d946f127.html
查看>>
WCF netTcp配置
查看>>
数据类型转换
查看>>
Nodejs学习笔记(2) 阻塞/非阻塞实例 与 Nodejs事件
查看>>
什么是FreeMaker
查看>>
设计模式学习笔记(总结篇:模式分类)
查看>>
TCP的三次握手/建立连接
查看>>
Python 教程阅读笔记(一):使用解释器
查看>>
运算符重载
查看>>
SDWebImage 新版接口使用方法
查看>>
DataTable导出为word,excel,html,csv,pdf,.txt
查看>>