注释:小码在这里以贝壳租房为例(贝壳租房:https://cd.zu.ke.com/zufang/pg)
画红线的地方就是小码要爬取的信息
一:引入requests模块和etree模块
注意:先安装才能使用哦,不然就报错啦,具体安装方式小码文章里面有,可供参考
二:假设要爬取1到4页的数据(小码在这里使用的是for循环遍历哦!)
然后回车,注意,这里不要自己去打空格什么的,python是很在意缩进的哦!
三:编辑url地址
1.header编写
在开发者模式中找到User-Agent并复制,详情可见小码的其他文章
2.代理ip设置(可有可无,建议要有)
3.url地址
4.获取以上内容
完整代码展示
四:检查状态码(我使用的if判断)
如果状态码为200,则说明此网页可以成功爬取,如果不是,则无法获取页面 {url} 的内容
五:编写爬取方式
1.编写处理页面内容的代码
selector = etree.HTML(repsonse.text)
news_text1 = selector.xpath(
'//*[@id="content"]/div[1]/div[1]/div/div/p[1]/a/text()|//*[@id="content"]/div[1]/div[1]/div/div/p[2]/a/text()|//*[@id="content"]/div[1]/div[1]/div/div/span/em/text()')
new_list2 = [element + '\n' if isinstance(element, int) else element for element in news_text1]
我使用了列表推导式来遍历原始列表中的每个元素。因为我获取的最后一个元素是价格,所以如果元素是数字(使用 isinstance(element, int)
判断),就在元素后面添加换行符 \n
,否则保留原样。最后,通过一个循环打印新列表,实现了在有数字时换行的效果。
2.打印新列表
for item in new_list2:
print(item, end='')
备注:我们使用循环来遍历1到4页的数据。在每次迭代中,我们构建具体页数的URL,并发送HTTP请求以获取页面内容。然后,我们可以使用 BeautifulSoup 或其他解析库来解析页面内容,并编写相应的代码来处理数据。如果需要在爬取过程中添加延时,可以使用 time.sleep()
方法来暂停一段时间。你可以根据实际情况对示例代码进行自定义和扩展。
六:最后,完整的代码展示
import requests
from lxml import etree
header={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36 Edg/117.0.2045.60'
}
for page in range(1,5): # 假设要爬取1到4页的数据
url = f'https://cd.zu.ke.com/zufang/pg{page}' # 替换成你要爬取的网址模板,使用适当的占位符来表示页数
# 发送HTTP请求获取页面内容
response = requests.get(url)
if response.status_code == 200:
repsonse = requests.get(url,headers=header,proxies=proxies)
# 在这里编写处理页面内容的代码
selector = etree.HTML(repsonse.text)
news_text1 = selector.xpath(
'//*[@id="content"]/div[1]/div[1]/div/div/p[1]/a/text()|//*[@id="content"]/div[1]/div[1]/div/div/p[2]/a/text()|//*[@id="content"]/div[1]/div[1]/div/div/span/em/text()')
new_list2 = [element + '\n' if isinstance(element, int) else element for element in news_text1]
# 打印新列表
for item in new_list2:
print(item, end='')
# print(new_list2)
else:
print(f'无法获取页面 {url} 的内容')