数据分析
文章平均质量分 73
wx1871428
这个作者很懒,什么都没留下…
展开
-
python数据分析之航空公司客户价值分析
一.引言本篇文章是根据航空公司提供的乘客个人信息,通过建立合理的客户价值评估模型,对客户进行分群,比较分析不同客户群的特点和价值,来指定相应的营销策略,从而减少客户流失,挖掘出潜在客户,实现盈利。在这里是用K-means聚类方法来对乘客进行分群的。源数据部分如下图所示:各属性解释如下:![](https://img-blog.csdn.net/2018051615505298?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80Mj原创 2021-07-13 20:57:55 · 1348 阅读 · 0 评论 -
python数据分析之分类模型与回归模型-第七次笔记
python数据分析之分类模型与回归模型-第七次笔记1.分类模型– *1.1KNN 算法– *1.2朴素贝叶斯 算法– *1.3支持向量机SVM 算法– *1.4集成方法—随机森林算法– *1.5集成方法—Adaboost 算法– *1.6决策树2.回归模型– *2.1线性回归– *2.2岭回归– *2.3Lasso回归– *2.4逻辑回归– *2.5人工神经网络– *2.6GBDT,回归树和提升树提取数据 #提取训练集,验证集,测试集 比例为6:2:2原创 2021-07-13 20:22:56 · 685 阅读 · 1 评论 -
Python数据分析之NumPy库
NumPy库简介NumPy库使用Python进行科学计算,尤其是数据分析时,所用到的一个基础库。它是大量Python数学和科学计算包的基础,比如我们后面会讲到的pandas库就用到了NumPy。pandas库专门用于数据分析,充分借鉴了Python标准库NumPy的相关概念。而Python标准库所提供的内置工具对数据分析方面的大多数计算来说都过于简单而不够用。为了更好地理解和使用Python所有的科学计算包,尤其是Pands,需要先掌握Numpy库的用法,这样才能把pandas的用处发挥到极致。Num转载 2021-07-13 20:19:22 · 403 阅读 · 0 评论 -
python数据分析与挖掘学习笔记(7)-交通路标自动识别实战与神经网络算法
这一节主要涉及神经网络算法,由此展开交通路标自动识别的应用。交通路标的自动识别其实就是一个分类问题。对于分类问题,我们有很多的方法来实现,比如KNN,贝叶斯等。关键点在于图片转文本。本节采用人工神经网络算法来进行识别。人工神经网络(Artificial NeuralNetwork)是简称神经网络(NN),是基于生物学中神经网络的基本原理,在理解和抽象了人脑结构和外界刺激响应机制后,以网络拓扑知识为理论基础,模拟人脑的神经系统对复杂信息的处理机制的一种数学模型。其结构为:对于一系列输入变量(信号)原创 2021-07-13 20:12:16 · 627 阅读 · 0 评论 -
Python数据分析与挖掘实战总结第三章 数据探索第四章 数据预处理第五章 挖掘建模
Python数据分析与挖掘实战第三章 数据探索* 3.1 数据质量分析 * 3.1.1 缺失值分析 3.1.2 异常值分析3.2 数据特征分析 * 3.2.1 统计量分析 3.2.2 贡献度分析3.2.3 相关性分析3.2.4 统计特征函数3.2.5 绘图函数第四章 数据预处理* 4.1 数据清洗 * 4.1.1 缺失值处理 4.2 数据变换 * 4.1.1 数据归一化 4.1.2 数据离散化(聚类)4.3原创 2021-07-13 19:50:59 · 632 阅读 · 0 评论 -
Python数据分析与挖掘实战-基础篇总结(一)1、数据挖掘基础2、python数据分析简介3、数据探索
目录1、数据挖掘基础1.1 数据挖掘的基本任务:1.2数据挖掘建模过程:1.3常用的数据挖掘建模工具2、python数据分析简介2.1 python环境搭建2.2 python数据分析第三方库2.2.1 Numpy基本操作2.2.2 Pandas简单例子3、数据探索3.1 数据质量分析3.1.1 缺失值分析3.1.2 异常值分析3.1.3 一致性分析3.2 数据特征分析3.2.1 分布分析3.2.2 对比分析3.2.3 统计量分析3.2.4 周期性分析3.2.5 贡献原创 2021-07-13 19:50:19 · 1040 阅读 · 0 评论 -
Python数据分析与可视化(基础知识)Python基础
Python基础本文首先介绍一下做数据分析与可视化所必备的Python基础,涉及Python的组合数据类型、控制流以及常用的内置函数。数据类型我们将讨论数据处理常见的数据类型。Python中的列表Python中的字典Python中的集合Python中的列表列表是Python中常用的数据类型。列表中的元素是有序的,可变的,并且允许重复。我们可以用[]来创建一个列表。同时我们还可以对一个列表进行分割也就是进行切片。切片意味着提取列表的一部分。切片的时候,第一个数字包含在返回集中,最后一个数原创 2021-07-13 19:22:51 · 4782 阅读 · 0 评论 -
python数据分析与机器学习实战-专题视频课程
python数据分析与机器学习实战—79430人已学习课程介绍课程风格通俗易懂,真实案例实战。精心挑选真实的数据集为案例,通过python数据科学库numpy,pandas,matplot结合机器学习库scikit-learn完成一些列的机器学习案例。课程以实战为基础,所有课时都结合代码演示如何使用这些python库来完成一个真实的数据案例。算法与项目相结合,选择经典kaggle项目,从数据预处理开始一步步代码实战带大家入门机器学习。学习收益: 1.掌握Python数据科学工具包,包括矩阵数据处理原创 2021-07-13 19:22:03 · 232 阅读 · 0 评论 -
python数据分析小练习----科赛
_[ https://www.kesci.com/apps/home/project/5a8afe517f2d695222327e14](https://www.kesci.com/apps/home/project/5a8afe517f2d695222327e14) ___练习1-开始了解你的数据步骤6 数据集中有多少个列(columns): chipo . shape [ 1 ]步骤9 被下单数最多商品(item)是什么: chipo . item_name . value_counts ()原创 2021-07-13 18:58:20 · 4094 阅读 · 0 评论 -
Python数据分析(4)-numpy数组的属性操作1. ndarray的属性2. ndarray元素的属性3. ndarray元素的类型
numpy数组也就是ndarray,它的本质是一个对象,那么一定具有一些对象描述的属性,同时,它还有元素,其元素也有一些属性。本节主要介绍ndarray以及其元素的属性和属性的操作。1. ndarray的属性ndarray有两个属性:维度(ndim)和每个维度的大小shape(也就是每个维度元素的个数) import numpy as np a = np.arange(24) a.shape=(2,3,4) print('数组为:', a) print('数组原创 2021-07-12 15:12:34 · 350 阅读 · 0 评论 -
Python爬取房天下网站深圳房租信息入库并进行数据分析可视化
概述请求库:requestsHTML 解析:BeautifulSoup词云:wordcloud数据可视化:pyecharts数据库:MongoDB数据库连接:pymongo爬虫思路&&页面解析先爬取房某下深圳各个板块的数据,然后存进 MongoDB 数据库,最后再进行数据分析。![](https://img-blog.csdnimg.cn/20181211110713956.png?x-oss-process=image/watermark,type_ZmFuZ3p原创 2021-07-12 15:10:52 · 885 阅读 · 0 评论 -
python爬虫学习_电商数据分析
六月 北京 | 高性能计算之GPU CUDA培训**** 6月22-24日三天密集式学习 快速带你入门 阅读全文** > **正文共769,11图,预计阅读时间6分钟。通常我们在使用爬虫的时候会爬取很多数据,而这些数据里边什么是有用的数据,什么是没用的数据这个是值得我们关注的,在这一篇文章里,我们将通过一个简单的爬虫,来去简单介绍下如何使用python来去做数据分析。爬虫部分在这一篇文章中我们会以淘宝为例,爬取淘宝的店铺和商家信息,然后去进行分析,首先我们打开淘宝首页,搜索你想要查询.原创 2021-07-12 15:10:00 · 428 阅读 · 0 评论 -
Python爬虫实战+数据分析+数据可视化(前程无忧招聘信息)
一、爬虫部分爬虫说明:1、本爬虫是以面向对象的方式进行代码架构的2、本爬虫是通过将前程无忧网页转换成一定端来进行求职信息爬取的3、本爬虫爬取的数据存入到MongoDB数据库中4、爬虫代码中有详细注释代码展示 import time from pymongo import MongoClient import requests from lxml import html class JobSpider(): def __i原创 2021-07-12 15:09:13 · 3690 阅读 · 3 评论 -
python爬虫基础与数据分析及可视化基础一、Python基础二、Python爬虫三、数据分析基础四、数据可视化基础
python基础、爬虫、数据分析学习笔记一、Python基础* I. 基本数据类型 * i. int、float、str、bool数据类型的定义 ii. tuple(元组):iii. list(列表)iv. set(集合):v. dict(字典)II. 基本控制结构 * i. if-elif-else语句: ii. for语句:iii. while语句iv. in,and,or,break,contiue语句III. 函数定义:IV. 文件读取原创 2021-07-12 15:07:51 · 574 阅读 · 0 评论 -
Python金融大数据分析——第11章 统计学(1)正态性检验 笔记第11章 统计学
第11章 统计学11.1 正态性检验11.1.1 基准案例11.1.2 现实世界的数据第11章 统计学11.1 正态性检验可以说 , 正态分布是金融学中最重要的分布 , 也是金融理论的主要统计学基础之一。尤其是下面这些金融理论基础 , 在很大程度上依赖于股票市场收益的正态分布。投资组合理论当股票收益呈正态分布时,最优化投资组合可以在这样的环境中选择:只有平均收益和收益的方差(或者波动率)以及不同股票之间的协方差与投资决策(即最优化投资组合构成)相关。资本性资产定价模型同.原创 2021-07-12 15:02:50 · 577 阅读 · 1 评论 -
Python3数据分析处理库pandas
用pandas封装函数对数据进行读取,预处理,数据分析等操作。pandas库是基于numpy库编写的, 在命令行窗口安装完numpy后,安装pandas:pip install pandas。相关numpy库的内容参考 http://blog.csdn.net/cymy001/article/details/78163468通常需要pandas读取的数据文件的文本格式为.txt,.csv,.jsonpandas里定义的数据类型:(1.)object字符值(2.)int整型(3.)float浮点原创 2021-07-09 14:17:01 · 239 阅读 · 3 评论 -
Python_数据分析_numpy模块
numpy可以说是Python运用于人工智能和科学计算的一个重要基础,关于库的引入不做赘述,主要分享一些总结的numpy库的用法。1. numpy数组对象Numpy中的多维数组称为ndarray,这是Numpy中最常见的数组对象。ndarray对象通常包含两个部分:ndarray数据本身描述数据的元数据Numpy数组的优势Numpy数组通常是由相同种类的元素组成的,即数组中的数据项的类型一致。这样有一个好处,由于知道数组元素的类型相同,所以能快速确定存储数据所需空间的大小。Numpy数组原创 2021-07-09 14:02:05 · 144 阅读 · 3 评论 -
GIS基本理论之四:空间数据分析基本理论
GIS基本理论系列是在《地理信息系统原理和应用》读书报告基础上完成的,当作自己对GIS理论的一次复习回顾。空间信息分析的内容包括哪些操作?有哪些功能?空间信息分析通常是指 GIS 为用户提供的解决问题的方法。空间信息分析的基本方法包括以下一些内容:( 1 )空间信息量算:质心计算、几何量算、形态量算等( 2 )空间信息分类:主成分分析 (PCA) 、层次分析 (AHP) 、聚类分析、判别分析等( 3 )叠加分析:视觉信息复合;属性层叠合( 4 )网络分析:路径分原创 2021-07-08 12:10:56 · 6699 阅读 · 1 评论 -
Forest数据分析及可视化
Forest数据分析及可视化文章目录* Forest数据分析及可视化 * 说在前面 1.导入csv数据集2.分析种树种类3.分析种树标签4.种植树木的成功率5.基于周和月的种树时间分析6.总结附源代码说在前面这次python作业是数据分析及可视化,这里我采用的是一个APP “Forest” ,从软件中导出 “Plants of forest.csv”,这是csv格式的数据集Forest是一个让你规划时间,放下手机保持专注的APP,当需要专注的时候原创 2021-07-08 12:10:25 · 814 阅读 · 1 评论 -
flask + pyecharts 疫情数据分析 搭建交互式动态可视化疫情趋势分析、舆情监测平台(附代码实现)
该项目是浙江大学地理空间数据库课程作业8:空间分析中,使用 flask + pyecharts搭建的简单新冠肺炎疫情数据可视化交互分析平台的一部分,完整的实现包含疫情数据获取、态势感知、预测分析、舆情监测等任务;包含完整代码、数据集和实现的github地址: https://github.com/yunwei37/COVID-19-NLP-vis项目分析报告已部署到网页端,可点击 http://flask.yunwei123.tech/ 进行查看,数据已更新到6.17本项目采用flask作为原创 2021-07-08 12:10:02 · 1005 阅读 · 1 评论 -
flask + pyecharts 疫情数据分析 搭建交互式动态可视化新冠肺炎疫情地图(附代码实现)
该项目是浙江大学地理空间数据库课程作业8:空间分析中,使用 flask + pyecharts搭建的简单新冠肺炎疫情数据可视化交互分析平台的一部分,完整的实现包含疫情数据获取、态势感知、预测分析、舆情监测等任务;包含完整代码、数据集和实现的github地址: https://github.com/yunwei37/COVID-19-NLP-vis项目分析报告已部署到网页端,可点击 http://flask.yunwei123.tech/ 进行查看,数据已更新到6.17最终效果:动态交互展示原创 2021-07-08 12:08:52 · 961 阅读 · 0 评论 -
Excel自带数据分析工具
对于数据分析的初学者,有的时候并不需要去购买SPSS,或者苦学R语言等专业工具,Excel默认安装以后自带了数据分析和数据计算插件,只需要将插件激活,便可以进行方差分析、傅里叶分析、直方图绘制等等一系列专业的统计计算。以下是插件的激活方式:Excel中自带了数据分析工具,可以用于基础的数据统计和分析功能,只要在插件中进行选择即可,以Excel2013为例1、文件–>选项—>加载项2、管理下拉框中选择Excel加载项,点击“转到”3、勾选分析工具库、规划求解加载(Solver)项即可原创 2021-07-08 12:08:13 · 371 阅读 · 0 评论 -
Elastic Stack (ELK 5)- 运维数据分析系统概述简介安装配置 Elastic Stack 5.0总结
概述本文将简单介绍运维数据分析系统 Elastic Stack,并描述其基础部署过程。简介ELK(Elasticsearch + Logstash + Kibana)用于日志集中分析系统,Elasticsearch用于存储、搜索、分析数据,Logstash 用于接收并处理数据,Kibana 提供 Web UI 管理数据,客户端通过 Logstash-Forwarder将指定的日志数据传递数据给 ELK 系统,大体流程如下图:后来Elastic 团队收购了 Packetbeat 团队,就建立了原创 2021-07-08 12:07:43 · 3433 阅读 · 0 评论 -
CSDN爬虫(四)——博客专家(所有)爬取+数据分析
CSDN爬虫(四)——博客专家(所有)爬取+数据分析说明开发环境:jdk1.7+myeclipse10.7+win74bit+mysql5.5+webmagic0.5.2+jsoup1.7.2爬虫框架:webMagic建议:建议首先阅读webMagic的文档,再查看此系列文章,便于理解,快速学习: http://webmagic.io/ 开发所需jar下载(不包括数据库操作相关jar包): 点我下载 该系列文章会省略webMagic文档已经讲解过的相关知识。概述我们会从博客专家首页原创 2021-07-08 12:07:07 · 969 阅读 · 2 评论 -
ChIP-seq 数据分析1 ChIP-Seq技术2 ChIP-Seq数据分析
1 ChIP-Seq技术1.1 概念1.2 ChIP-seq技术原理2 ChIP-Seq数据分析2.1 数据下载2.2 质量控制(data_assess)2.3 比对到参考基因组(mapping_analysis)2.4 搜峰(Peak_calling)MACS22.4.1 MACS2 核心: callpeak 用法2.4.2 callpeak 结果文件说明2.4.3 bdg file → wig file2.5 峰注释(Peak_anno)ChIPseek.原创 2021-07-08 12:06:42 · 3261 阅读 · 0 评论 -
CentOS 6 64bit下,Python数据分析环境搭建
首先是基础环境安装: yum install zeromq-devel yum install gcc-gfortran yum install freetype-devel yum install libpng-devel yum install atlas-devel yum install bzip2-devel yum install tk-devel yum install tcl-devel # Use the s原创 2021-07-08 12:06:03 · 78 阅读 · 0 评论 -
CDA数据分析师 - 备考指南
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar原创 2021-07-08 12:04:52 · 765 阅读 · 0 评论 -
google play store的app数据分析
google play store app数据源 提取码: 38jkgoogle play store的app数据分析1. 加载数据加载数据分析使用的库加载数据前,先用文本编辑器简单浏览一下数据加载好数据之后,第一步先分别使用shape、head、count、describe和info方法看下数据 import numpy as np import pandas as pd import matplotlib.pyplot as plt # 加载文件原创 2021-07-07 10:17:47 · 1105 阅读 · 0 评论 -
hive实例-乘用车辆和商用车辆销售数据分析
数据源地址:http://pan.baidu.com/s/1cKsrKi1.准备数据源打开 上牌数–商用车销量数据样例.xlsx,另存为car.txt文件,打开car.txt,设置编码格式为UTF-8,保存并上传至master节点。2.创建car 数据库,建立car表,并上传数据create external table cars(province string, --省份month int, --月city string, --市county string, --区县year int,原创 2021-07-07 10:15:50 · 2074 阅读 · 1 评论 -
iris鸢尾花数据集最全数据分析写在前面本文介绍数据预处理
![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9hNENBY3JTUWw5ZmliUG1xbWZ6YTl1OW5WdHZzZTFCYWg0amsxS3o5Q2FwdXJzMGNtdmQ2MlBhajc0Q0p1YThDdm1GaEFORXVPQXRiU0hpYUxvZ0VXUk5RLzY0MD93eF9mbXQ9cG5n?x-oss-process=image/format,png)写在前面在写原创 2021-07-07 10:14:08 · 1905 阅读 · 0 评论 -
Kaggle PUBG吃鸡数据集--数据分析可视化PUBG数据集分析报告
PUBG数据集分析报告数据集分为两个部分数据集1:agg数据: 15 字段date: 时间game_size:队伍数量match_id:比赛match_mode: 对局模式(第一人称还是第三人称)party_size:组队模式(单人赛、双人赛、四人赛)player_assists:助攻次数player_dbno:击倒人数player_dist_ride:载具移动距离player_dist_walk:行走距离player_dmg:伤害数值player_kills:击杀人数pla原创 2021-07-07 10:12:17 · 2953 阅读 · 2 评论 -
kaggle TMDB5000电影数据分析和电影推荐模型数据分析相关函数解释参考文章:
数据来自kaggle上tmdb5000电影数据集,本次数据分析主要包括电影数据可视化和简单的电影推荐模型,如:1.电影类型分配及其随时间的变化2.利润、评分、受欢迎程度直接的关系3.哪些导演的电影卖座或较好4.最勤劳的演职人员5.电影关键字分析6.电影相似性推荐数据分析 import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt原创 2021-07-07 10:09:11 · 1405 阅读 · 1 评论 -
Kaggle经典数据分析项目:泰坦尼克号生存预测!1. 数据概述与可视化2. 数据预处理3. 模型训练4. 模型优化(调参)
↑↑↑关注后"星标"Datawhale每日干货 & 每月组队学习,不错过Datawhale干货作者:陈锴,中山大学,Datawhale成员最近有很多读者留言,希望能有一个完整的数据分析项目练手,这几天收集了组织成员们的推荐。其中泰坦尼克号生存预测作为最经典的启蒙数据分析项目,对于初学者来说是应该是最合适的了,后面将分享更多进阶的数据分析项目。如果已经有基础了,推荐:1.开源项目《动手学数据分析》:https://github.com/datawhalechina/hands-on-原创 2021-07-07 10:08:28 · 1431 阅读 · 2 评论 -
Kaggle入门 - TMDB 5000 电影推荐数据分析
本文是针对kaggle上的数据集TMDB 5000 Movie Dataset进行数据分析。数据集在以下链接就可下载 https://www.kaggle.com/tmdb/tmdb-movie-metadata![](https://img-blog.csdn.net/2018071616175174?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FpbmxpdTA5MDE=/font/5a6L5L2T/fontsize/400/fill/I0JB原创 2021-07-07 10:06:56 · 1475 阅读 · 0 评论 -
Linux下搭建数据分析平台 superset
安装环境:Cent os 7软件:Anaconda3-4.4.0-Linux-x86_64.sh汉化文件:messages.mo1.首先需要在linux下安装Anaconda,直接在anaconda软件目录下使用 bash Anaconda3-4.4.0-Linux-x86_64.sh 安装。安装过程中需要输入‘y’,使得python环境变量被添加到系统中,接下来还需要配置conda的环境变量。只需要在具体的系统环境变量中添加如下内容即可,具体路径根据实际情况调整。 export CON原创 2021-07-07 10:03:50 · 308 阅读 · 0 评论 -
MATLAB数据分析方法第2章数据描述性分析
2.1 基本统计量与数据可视化1.均值、中位数、分位数、三均值均值、中位数:mean(A)、media(A)分位数:prctile(A,P),P∈[0,100]prctile(A,[25,50,75]) %求A的下、中、上分位数三均值:w=[0.25,0.5,0.75];SM=w*prctile(A,[25,50,75]) %例:计算安徽16省市森林资源统计量 A=xlsread('senlin.xls','sheet1') M=mean(A); %均值, M原创 2021-07-07 10:01:25 · 2017 阅读 · 4 评论 -
【干货】基于电商平台的数据分析基本指标体系
电商行业是当前市场十分火热的行业,也是对数据分析师需求很大的行业,这篇文章可以帮助没有电商行业经验的同学快速了解电商数据分析的指标和框架。那么话不多说,咱们开始吧~首先要构建电商数据分析的基本指标体系,主要分为8个类指标,即:1 ** 总体运营指标 **从流量、订单、总体销售业绩、整体指标进行把控,起码对运营的电商平台有个大致了解,到底运营的怎么样,是亏是赚。** 2 ** ** 网站流量指标 **即对访问你网站的访客进行分析,基于这些数据可以对网页进行改进,以及对访客的行为进行分析。原创 2021-07-06 18:19:41 · 677 阅读 · 1 评论 -
【笔试题目整理】小红书2019年校园招聘数据分析岗位在线笔试第一批
最近在准备数据分析岗位的笔试,整理了牛客网上的一些试题与答案方便查看。本文转载出处: https://blog.csdn.net/weixin_44915703/article/details/947635481. 想要了解上海市中学生的身高,从中抽取了1000个样本,这项调查中的样本是**A. 上海市全部中学生B. 上海市全部中学生的身高C. 从中抽取的1000名中学生D. 从中抽取的1000名中学生的身高 **正确答案:D举一反三对应《小红书2019年校园招聘数据分析岗位在线笔试第原创 2021-07-06 18:13:50 · 709 阅读 · 0 评论 -
【Social Listening实战】当数据分析遭遇心理动力学:用户深层次的情感需求浮出水面
本文转自知乎作者:苏格兰折耳喵—————————————————————————————————————————————————————本文篇幅较长,分为五部分,在中间部分有关于心理分析工具的介绍,案例分散在第二部分和第五部分,大家在阅读的时候可以跳过“心理分析工具”部分,直接去看案例,如有不明白的地方,再回去查看理论基础,这样也会提升阅读效率。现今互联网界,不管是研发、产品、设计,还是市场或运营,用户画像这个概念被炒得相当的火。如何构建用户画像的方法论可谓是汗牛充栋,但鲜有能落地生根的,更别提原创 2021-07-06 18:02:31 · 1444 阅读 · 0 评论 -
【数据分析】- 基于新冠肺炎文本数据分析一、数据采集二、数据处理三、数据分析
任务利用这里数据: 2020新冠肺炎记忆:报道、非虚构与个人叙述(持续更新)结合下面文章中用到的方法 [ 以虎嗅网4W+文章的文本挖掘为例,展现数据分析的一整套流程 ](http://www.woshipm.com/data-analysis/873430.html)完成描述性分析(发文数量、发文时间、相关性分析、城市提及分析)文本挖掘(关键词提取、lda主题模型、情绪分析、词云绘制)、知识图谱构建等任务一、数据采集从 2020新冠肺炎记忆:报道、非虚构与个人叙述(持续更新)这.原创 2021-07-02 15:14:24 · 2112 阅读 · 0 评论