Python爬虫
文章平均质量分 57
yeyu_xing
╔══╗ ♪
║██║ ♫
║ ( ● ) ♫
╚══╝♪ ♪
展开
-
爬取智联招聘上24座热门城市中Java招聘信息
一、确定URL及其传递的参数获取北京中Java的招聘信息url:获取上海中Java的招聘信息url:通过对比得知,url中传递了三个参数,jl代表城市的编号,kw代表职业,p代表当前在招聘页面的第几页二、判断数据是否动态显示执行以下代码后,然后在开发工具中打开浏览器查看页面import requestsfrom fake_useragent import UserAgentheaders = { 'User-Agent': UserAgent().random}url =原创 2021-01-27 17:55:23 · 910 阅读 · 0 评论 -
Scrapy爬取前程无忧
一、确定爬取内容并创建mysql表1、确定要爬取的url通过观察可以发现url为https://search.51job.com/list/000000,000000,0000,32,9,99,+,2,xxxx.html只要修改其中的xxxx,即可实现多网页爬取2、前程无忧的网页数据是由动态获取json数据,并由js变量接收,然后显示在网页中,因此爬取时需要解析script标签中的变量3、确定爬取字段,然后创建mysql表mysql表结构如下:二、scrapy项目爬取(一)、准备工作:原创 2021-01-25 04:27:10 · 4554 阅读 · 14 评论 -
爬取菜鸟教程
import requests # 用于请求和获取响应数据等from lxml import etree # 解析爬取到的HTML页面from fake_useragent import UserAgent # 生成请求头import os # 文件/目录方法from time import timestart_time = time()ua = UserAgent()headers = { 'User-Agent': ua.random # 生成随机请求头}url =原创 2021-01-21 21:32:57 · 1060 阅读 · 3 评论 -
Scrapy、pandas、cn2an与pymysql解决爬取小说的乱序问题
scrapy爬取小说时极易遇到章节混乱以及重复等问题。爬取小说主页,并获得各个章节,因为只是一个页面,因此不会遇到排序和重复问题,然后利用pandas库进行数据清洗,再利用DataFrame的to_csv进行存储自动对其进行标号,再利用scrapy框架对每个章节进行爬取的时候,在MySQL数据表的指定位置插入数据一、爬取并保存各章节目录,然后进行数据清洗网址分析:爬取并保存各章节目录:import requestsfrom lxml import etreefrom pandas import原创 2020-09-26 17:26:29 · 1644 阅读 · 0 评论 -
Python爬虫基础入门
爬取的网址:https://www.23hh.com/book/0/189/需求:获取小说的章节目录及其对应的章节内容需要的库:requests、BeautifulSoup和re,利用requests库发送浏览器请求,BeautifulSoup和re库对获取到的数据进行分析、提取。分别使用pip install requests和pip install BeautifulSoup4安装对网页源码进行分析:1、创建testcraw包2、创建craw_site.py文件import reque原创 2020-08-06 10:24:57 · 571 阅读 · 0 评论