程序员都是单身狗?我有一句……,不知当讲不当讲

最新推荐文章于 2023-01-07 10:00:08 发布

主打Python

最新推荐文章于 2023-01-07 10:00:08 发布

阅读量5.9k

点赞数 168

分类专栏： python爬虫实例100条 xpath用法 csv保存方式文章标签：新星计划 python 爬虫 xpath csv

本文链接：https://blog.csdn.net/weixin_54733110/article/details/117360958

版权

程序员都是单身狗?我有一句……,不知当讲不当讲

程序员都是单身狗?我有一句：怎么可能！！！不存在的，程序员的套路你想象不到。。。
尽管大多网友认为程序员=单身狗但实际上,程序员们的处境往往是站在“撒狗粮”的那一方
程序员也有浪漫，也有爱情，程序员的恋爱也可以多点套路……
对于程序员喜欢的女神，程序员可以巧妙的获取女神的兴趣、爱好、购买风格、爱吃什么、爱喝什么……然后从这几个方面“下手”，女神还不是手到擒来，所以说程序员的套路你想象不到。

今天我就当回媒婆，给男性程序员来点福利。。。
今天目标爬取征婚网上呈现出来的女生信息保存成excel表格供大家筛选心仪的女生。。

全军出击，目标网址start_url

start_url = ‘https://www.csflhjw.com/zhenghun/34.html?page=1’

打开界面
在这里插入图片描述

鼠标右键打开检查，方框里为你一个文小姐的征婚信息。。由此判断出为同步加载

在这里插入图片描述

点击elements，定位图片地址，方框里为该女士的url地址及图片地址

在这里插入图片描述
可以看出该女士的url地址不全，之后在代码中要进行url的拼接，看一下翻页的url地址有什么变化
点击第2页
https://www.csflhjw.com/zhenghun/34.html?page=2
点击第3页
https://www.csflhjw.com/zhenghun/34.html?page=3
可以看出变化在最后
做一下fou循环格式化输出一下。。一共10页
在这里插入图片描述

代码解析： 1.获取所有的女士的url，xpath的路径就不详细说了。。

在这里插入图片描述

2.构造每一位女士的url地址

在这里插入图片描述

3.然后点开一位女士的url地址，用同样的方法，确定也为同步加载

在这里插入图片描述

4.之后就是女士url地址html的xpath提取，每个都打印一下，把不要的过滤一下

在这里插入图片描述

5.最后就是文件的保存

在这里插入图片描述
打印结果：

最后代码全解

# !/usr/bin/nev python
# -*-coding:utf8-*-

import requests, os, csv
from pprint import pprint
from lxml import etree

def main():
    for i in range(1, 11):
        start_url = 'https://www.csflhjw.com/zhenghun/34.html?page={}'.format(i)

        headers = {
   
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML,

最低0.47元/天解锁文章

主打Python

关注

168
点赞
踩
42

收藏

觉得还不错? 一键收藏
打赏
166
评论
程序员都是单身狗?我有一句……,不知当讲不当讲

程序员都是单身狗?我有一句……,不知当讲不当讲程序员都是单身狗?我有一句：怎么可能！！！不存在的，程序员的套路你想象不到。。。尽管大多网友认为程序员=单身狗但实际上,程序员们的处境往往是站在“撒狗粮”的那一方程序员也有浪漫，也有爱情，程序员的恋爱也可以多点套路……对于程序员喜欢的女神，程序员可以巧妙的获取女神的兴趣、爱好、购买风格、爱吃什么、爱喝什么……然后从这几个方面“下手”，女神还不是手到擒来，所以说程序员的套路你想象不到。今天我就当回媒婆，给男性程序员来点福利。。。今天目标爬取征婚网上
复制链接

扫一扫