- 博客(3)
- 收藏
- 关注
原创 51job数据分析岗位信息爬取
对2022年51job招聘网站上数据分析岗应届生的招聘信息进行爬取 在爬取数据时,不登陆帐户cookie不会发生变化,不知道登陆后是否会发生变化。。。 下边是代码 导入需要的包 import requests from bs4 import BeautifulSoup import time import re import pandas as pd 用BS4对网页源代码进行解析,用正则表达式提取所需信息。 data = pd.DataFrame(columns=[['公司名称','公司地点','职位名
2021-11-20 20:35:18
2549
原创 python文本分析数据预处理—机械压缩去词
文本数据预处理步骤通常包括文本去重、机械压缩去词、短句删除等。其中机械压缩去词实际上要处理的语料就是语料中有连续累赘重复的部分,比如: ‘为什么为什么为什么安装费这么贵,毫无道理’ 。其中的为什么就是重复词对之后的分析无意义。 考虑到这类重复词一般出现在句首和句尾,因此只对开头和结尾的连续重复词进行机械压缩去词处理。 本代码是根据《python数据分析与挖掘实战》一书中给出的去词规则自行编写的,目前不能去除如‘哈哈今天天气真好’中的‘哈哈’这类句首叠词。下面给出去除句首重复词的代码 def forwa
2021-04-15 12:29:43
2240
原创 python抓取取微博评论简单示例
python抓取取微博评论简单示例 使用python中的requests以及re库对人民日报的一篇新冠疫苗文章前30页评论进行抓取。抓取微博评论使用的是微博的移动端网页。具体代码如下 import requests import re import time import pandas as pd data = pd.DataFrame(columns=['用户评论']) # 创建DataFrame用于存储评论 url = 'https://m.weibo.cn/comments/hotflow?'
2021-04-07 17:07:53
872
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人