python
小李爱发呆
啥都不会的憨憨
展开
-
flask+python+mysql+网络爬虫
涉及flask+python+mysql+网络爬虫具体代码 在下面链接中 https://download.csdn.net/download/weixin_45899520/12914668原创 2020-10-08 17:40:01 · 506 阅读 · 0 评论 -
情感分析 中文分词 词频统计等附代码
对获取的评论匹配褒义词表 统计褒义词数量并且可以将统计的褒义词输出到文件中,同理贬义词也可以。包含去除停用词 结巴分词。 褒义词表可以下载 from collections import Counter import jieba #创建停用词list def stopwordslist(filepath): stopwords = [line.strip() for line in open(filepath, 'r',encoding='utf-8').readlines()]#这里打开文件时原创 2020-10-08 17:34:52 · 1172 阅读 · 1 评论 -
对含有中英文的文本去除停用词 结巴分词
对含有中英文的文本去除停用词 分词 这里的停用词表可以自己定义或者采用网上的 是文本分类 情感分析进行预处理的步骤 from collections import Counter import jieba **# jieba.load_userdict('userdict.txt') **# 创建停用词list**** def stopwordslist(filepath): stopwords = [line.strip() for line in open(filepath, 'r').rea原创 2020-10-08 17:13:33 · 1559 阅读 · 1 评论 -
爬取豆瓣top250电影每条电影的前n页评论,需要上一条博客代码里爬取的基本信息
#连接自己的数据库 电影基本数据库表已上传可以下载 或者自己根据上一条博客的代码爬取后存到自己的数据库 有整个项目的资源可以下载 已上传flask+… import pymysql import sys import requests import bs4 import re #连接 mysql,获取连接的对象 con = pymysql.connect(host='localhost', user='name', password='123456', port=3306, db='student原创 2020-10-08 17:00:49 · 554 阅读 · 0 评论 -
利用python的BeautifulSoup4库爬取豆瓣top250基本电影信息
利用python的BeautifulSoup4库爬取豆瓣top250基本电影信息 存在.txt文件中 ```python import requests import bs4 import re def open_url(url): #那么User-Agent到底是什么呢?User-Agent会告诉网站服务器,访问者是通过什么工具来请求的,如果是爬虫请求,一般会拒绝,如果是用户浏览器,就会应答 headers={'user-agent':'Mozilla/5.0 (Windows NT 10原创 2020-10-08 16:52:17 · 883 阅读 · 1 评论