python爬虫
weixin_44322234
这个作者很懒,什么都没留下…
展开
-
Python爬取研招网数据
一、爬虫定制部分# 导入相关的包import requestsimport lxml.htmlimport chardetimport pandas as pdimport numpy as np#请求头获取页面def get_page(url,headers): try: r=requests.get(url, headers=headers) r.raise_for_status() r.encoding=r.apparent_原创 2020-12-24 20:10:58 · 3634 阅读 · 9 评论 -
python 爬虫百度广告过滤系统
import reimport requestsimport stringimport jsonfrom lxml import etreefrom bs4 import BeautifulSoup# 定制请求头headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.122 Safari/537.36'}#请原创 2020-12-28 19:38:06 · 916 阅读 · 0 评论 -
python豆瓣图书top250+词云
# -*- coding: utf-8 -*-"""Created on Sun Dec 27 18:25:34 2020@author: David"""#导入相关的包from lxml import etreeimport requestsimport time #爬取数据写入文件douban=open(r'C:\Users\David\Desktop\douban.txt','a+',encoding='utf-8')for a in range(10): url =原创 2020-12-27 23:16:24 · 568 阅读 · 1 评论 -
python爬取”药智数据”网站下疾病分类与代码的所有疾病名称
整体代码如下:import requestsimport lxml.htmlimport chardetimport pymongo# MongoDB数据库初始化,小批量插入数据def mongodb(content_list): connection = pymongo.MongoClient() db = connection.Disease_classifica...原创 2020-04-29 21:19:25 · 1348 阅读 · 2 评论 -
python 小说爬取+HanLP分词+词云
# -*- coding: utf-8 -*-"""Created on Mon Dec 28 19:00:38 2020@author: David"""##########################################################''' 小说数据爬取部分'''import requestsimport parselfrom lxml import etreeimport requestsimport lxml.html#请求.原创 2020-12-31 11:28:35 · 469 阅读 · 0 评论 -
python 正则表达式
1、如何提取工资名称,以及工资金额? 如:上海正中能源科技有限公司 2.50万content = '''大数据项目经理(上海正中能源科技有限公司) 上海正中能源科技有限公司上海 2.50万/每月大数据项目经理(上海众调信息科技有限公司) 上海众调信息科技有限公司上海 1.8万/月大数据项目经理(03)(复深蓝软件) 上海复深蓝软件股份有限公司上海0.65万/每月393197-大数据精算团队主管(平安医疗健康管理股份有限公司) 平安医疗健康管理股份有限公司上海 3.3333万/月医疗大数据销售原创 2021-04-26 15:06:32 · 683 阅读 · 0 评论