椰子树ae-CSDN博客

原创 51job数据分析岗位信息爬取

对2022年51job招聘网站上数据分析岗应届生的招聘信息进行爬取在爬取数据时，不登陆帐户cookie不会发生变化，不知道登陆后是否会发生变化。。。下边是代码导入需要的包import requests from bs4 import BeautifulSoupimport timeimport reimport pandas as pd用BS4对网页源代码进行解析，用正则表达式提取所需信息。data = pd.DataFrame(columns=[['公司名称','公司地点','职位名

2021-11-20 20:35:18 2550

原创 python文本分析数据预处理—机械压缩去词

文本数据预处理步骤通常包括文本去重、机械压缩去词、短句删除等。其中机械压缩去词实际上要处理的语料就是语料中有连续累赘重复的部分，比如：‘为什么为什么为什么安装费这么贵，毫无道理’ 。其中的为什么就是重复词对之后的分析无意义。考虑到这类重复词一般出现在句首和句尾，因此只对开头和结尾的连续重复词进行机械压缩去词处理。本代码是根据《python数据分析与挖掘实战》一书中给出的去词规则自行编写的，目前不能去除如‘哈哈今天天气真好’中的‘哈哈’这类句首叠词。下面给出去除句首重复词的代码def forwa

2021-04-15 12:29:43 2244

原创 python抓取取微博评论简单示例

python抓取取微博评论简单示例使用python中的requests以及re库对人民日报的一篇新冠疫苗文章前30页评论进行抓取。抓取微博评论使用的是微博的移动端网页。具体代码如下import requestsimport reimport timeimport pandas as pddata = pd.DataFrame(columns=['用户评论']) # 创建DataFrame用于存储评论url = 'https://m.weibo.cn/comments/hotflow?'

2021-04-07 17:07:53 873 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人