自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 51job数据分析岗位信息爬取

对2022年51job招聘网站上数据分析岗应届生的招聘信息进行爬取 在爬取数据时,不登陆帐户cookie不会发生变化,不知道登陆后是否会发生变化。。。 下边是代码 导入需要的包 import requests from bs4 import BeautifulSoup import time import re import pandas as pd 用BS4对网页源代码进行解析,用正则表达式提取所需信息。 data = pd.DataFrame(columns=[['公司名称','公司地点','职位名

2021-11-20 20:35:18 2549

原创 python文本分析数据预处理—机械压缩去词

文本数据预处理步骤通常包括文本去重、机械压缩去词、短句删除等。其中机械压缩去词实际上要处理的语料就是语料中有连续累赘重复的部分,比如: ‘为什么为什么为什么安装费这么贵,毫无道理’ 。其中的为什么就是重复词对之后的分析无意义。 考虑到这类重复词一般出现在句首和句尾,因此只对开头和结尾的连续重复词进行机械压缩去词处理。 本代码是根据《python数据分析与挖掘实战》一书中给出的去词规则自行编写的,目前不能去除如‘哈哈今天天气真好’中的‘哈哈’这类句首叠词。下面给出去除句首重复词的代码 def forwa

2021-04-15 12:29:43 2240

原创 python抓取取微博评论简单示例

python抓取取微博评论简单示例 使用python中的requests以及re库对人民日报的一篇新冠疫苗文章前30页评论进行抓取。抓取微博评论使用的是微博的移动端网页。具体代码如下 import requests import re import time import pandas as pd data = pd.DataFrame(columns=['用户评论']) # 创建DataFrame用于存储评论 url = 'https://m.weibo.cn/comments/hotflow?'

2021-04-07 17:07:53 872 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除