zczczcc-CSDN博客

原创 CountVectorizer类和TfidfVectorizer类

sklearn中一般使用CountVectorizer和TfidfVectorizer这两个类来提取文本特征CountVectorizer类CountVectorizer 类会将文本中的词语转换为词频矩阵。也就是通过分词后将所有的文档中的全部词作为一个字典（就是类似于新华字典这种）。然后将每一行的词用0，1矩阵来表示。并且每一行的长度相同，长度为字典的长度，在词典中存在，置为1，否则，为0。参数解释from sklearn.feature_extraction.text import CountVe

2021-06-29 20:42:08 1043

原创 Python+Selenium爬取新浪微博数据

爬取新浪微博数据一级目录二级目录三级目录一级目录二级目录三级目录

2021-01-24 09:46:41 3144 1

原创 Python+Selenium爬取新浪微博评论数据

Python+Selenium爬取指定新浪微博的数据微博分析微博端类型Ajax动态加载数据选择爬取对象进行评论界面分析Python实现代码微博分析微博端类型首先找到一个待爬取的微博，需要注意的是，微博分为：微博网页端（http://weibo.com）如图1，微博手机端（http://m.weibo.cn)如图2以及微博移动端(http://weibo.cn)如图3。难度程度排序如下：网页端>手机端>移动端图一：（网页端）图二：（手机端）图三：（移动端）Ajax动态加载数据

2021-01-23 21:18:22 3246 5

原创 Python+Selenium爬取新浪微博数据时的用户模拟登陆

新浪微博用户模拟登录WebDriver基本元素定位方式xpath表达式定位selenium–操作滚动条driver.switch_to.frame用法Python代码实现模拟登陆的思路：1.采用webdriver的get方法打开网页2.选择用密码进行登陆（定位+点击）3.在input tag输入用户名及密码（定位+输入）4.登陆（定位+点击登陆按钮）WebDriver基本元素定位方式find_element_by_id() —采用id属性进行定位例如在百度页面中输入关键字进行搜索<s

2021-01-05 09:30:11 1442 3

原创 TensorFlow学习笔记2

TensorFlow实战2TensorFlow实现多层神经网络二级目录三级目录一级目录二级目录三级目录一级目录二级目录三级目录TensorFlow实现多层神经网络二级目录三级目录一级目录二级目录三级目录一级目录二级目录三级目录...

2020-12-26 11:50:48 217

原创机器学习基础知识学习笔记2

浏览次数和回复次数在日期上的同步分布

2020-12-25 21:32:29 355

原创哈工大停用词表+中文停用词表

内容：———》），）÷（１－”，），＝（：→℃ 和*一一~~~~'。『。一./- 』＝”【［＊］｝＞［⑤］］［①Ｄ］ｃ］昉＊//［］［②e］［②ｇ］＝｛}，也 'Ａ［①⑥］［②Ｂ］［①ａ］［④ａ］［①③］［③ｈ］③］１。 - ［②ｂ］'' ××× ［①⑧］０：２＝［［⑤ｂ］［②c］［④ｂ］［②③］［③ａ］［④ｃ］［①⑤］［①⑦］［①ｇ］∈［［①⑨］［①④］［①.

2020-12-01 11:46:23 1809 33

原创评论的回复次数随日期变化图

评论的回复次数随日期变化图 import matplotlib.pyplot as plt import pandas as pd data = pd.read_excel('CommentArea.xlsx') plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号 plt.rcParams['font.sans-serif'] = ['SimHei'] #字体参数 plt.figure(figsize=(15,15)) plt.titl

2020-11-30 18:56:18 340

原创列表转字符串/对其元素进行计数/字典转列表/将字符串列表转为数值列表

将由各个字符串组成的列表转为一个字符串a=['1','2','3','4']string=''.join((a))print(string)

2020-11-30 15:09:20 654

原创解决字典转DataFrame不等长的处理

字典转DataFrame报错原代码import pandas as pda=['1','2','3','4']b=['a','b','c']d={ '数字': a, '字母': b}c=pd.DataFrame(d)c.to_excel('1.xlsx')修改后代码import pandas as pda=['1','2','3','4']b=['a','b','c']d={ '数字': a, '字母': b}c = pd.DataFrame

2020-11-30 15:03:11 2007 1

原创新建一个新excel表并循环向表里追加数据

import xlrd #从excle里读数据import xlwt #创建新的表格写入数据import xlutils #往已有表格中追加数据#新建表123.xlsfilename = "123.xls"fileW = xlsxwriter.Workbook(filename)tableWrite = fileW.add_worksheet('Sheet1')tableWrite.write(0, 0, 'list1')tableWrite.write(0, 1, 'list2'

2020-11-30 14:52:29 508

原创文本挖掘和可视化案例：基于文本内容的垃圾短信分类

基于文本内容的垃圾短信分类总体流程数据展示数据抽取数据预处理数据清洗去除空格x序列x序列文本去重分词中文分词添词典去停用词去停用词绘制词云文本向量的表示One-Hot表达TF－IDF权重策略文本分类实例模型训练及评价二级目录三级目录总体流程数据展示观察数据，请思考：建模前需要对文本数据做哪些处理？需要怎么评价模型的好坏？数据抽取随机抽取上文的2W条文本处理后的数据的80%作为训练样本，其余作为测试集样本。数据预处理数据清洗去除空格x序列x序列即银行账户；电话、固话、QQ

2020-11-23 13:42:31 4552 19

原创机器学习基础知识学习笔记1

机器学习一. 机器学习基本概念二. 相关技术：1.回归分析(Regression Analysis)2.决策树(Decision Tree)3.人工神经网络(Artificial Neural Network)4. 最近邻算法（KNN）5.朴素贝叶斯分类(Naive Bayesian)6.聚类分析(Cluster Analysis)7.支持向量机(Support Vector Machine)一. 机器学习基本概念机器学习-致力于研究如何通过计算的手段，利用经验（历史数据）来改善系统自身的性能［机器学

2020-11-21 10:50:23 1079 2

原创 Python数据分析与应用学习笔记3

pandas统计分析基础一、读写不同数据源的数据读写数据库数据1.数据库数据读取2.数据库数据存储读写文本文件1.文本文件读取2.文本文件储存读写Excel文件1.Excel文件读取2.Excel文件储存二、DataFrame的常用操作基础属性查改增删DataFrame数据1.查看访问DataFrame中的数据2.更新修改DataFrame中的数据3.为DataFrame增添数据4.删除某列或某行数据三、使用分组聚合进行组内计算使用groupby方法拆分数据groupby方法的参数及其说明groupby对象

2020-11-19 10:30:55 400

zczczcc的博客

原创 CountVectorizer类和TfidfVectorizer类

原创 Python+Selenium爬取新浪微博数据

原创 Python+Selenium爬取新浪微博评论数据

原创 Python+Selenium爬取新浪微博数据时的用户模拟登陆

原创 TensorFlow学习笔记2

原创机器学习基础知识学习笔记2

原创哈工大停用词表+中文停用词表

原创评论的回复次数随日期变化图

原创列表转字符串/对其元素进行计数/字典转列表/将字符串列表转为数值列表

原创解决字典转DataFrame不等长的处理

原创新建一个新excel表并循环向表里追加数据

原创文本挖掘和可视化案例：基于文本内容的垃圾短信分类

原创机器学习基础知识学习笔记1

原创 Python数据分析与应用学习笔记3

原创 Python数据分析与应用学习笔记2

原创 Python数据分析与应用学习笔记1

原创 TensorFlow学习笔记1

原创 2009-2020年天猫“双十一”成交额统计情况

原创深度学习-卷积神经网络CNN学习笔记

原创自然语言处理+文本分类

原创爬取MOOC课程评论区的评论数据

空空如也

空空如也