数据分析
yitian1585531
这个作者很懒,什么都没留下…
展开
-
抓取空气质量指数AQI_PM2.5历史数据,可视化展示
抓取空气质量指数AQI_PM2.5历史数据,可视化展示:url=‘http://www.tianqihoubao.com/aqi/hangzhou-201810.html’杭州的空气质量数据,可以在主页抓取全国的pm2.5数据展示import time,requests,reimport pandas as pdfrom lxml import etree#https://blog...原创 2018-11-16 16:00:12 · 9165 阅读 · 6 评论 -
豆瓣五个国家的最热电视剧的抓取并可视化展示
数据的抓取:存到mongodb中用pandas读取:# coding=utf-8import requests,pymongo,timeimport jsonclass DoubanSpider: def __init__(self): client = pymongo.MongoClient('localhost',port=27017) ...原创 2018-11-22 22:06:26 · 704 阅读 · 1 评论 -
数据分析-pandas
案例:实战 七周成为数据分析师pandas 基本使用:#创建:data=pd.Series(np.arange(10),index=list('abcdefghih'))'''a 0b 1c 2d 3e 4f 5g 6h 7i 8h 9dtype: int32''' Series...转载 2018-11-18 09:31:32 · 223 阅读 · 0 评论 -
微博评论的情感分析
#文本处理:情感分析,文本相似度,文本分类(tf-idf逆文档频率)#NLP:字符串-向量化-贝叶斯训练-测试#文本相似度:词频#文本分类:TF-IDF(词频-逆文档频率)#1.原始文本#2.分词#3.词行归一化#4.去除停用词import os,reimport numpy as npimport pandas as pdimport jieba.posseg as ...原创 2018-11-29 22:03:51 · 5023 阅读 · 1 评论 -
数据分析-numpy
创建ndarrayIn [11]: np.array([6,3,1,33])Out[11]: array([ 6, 3, 1, 33])In [12]: data=[[1,2,3,4],[23,4,5,6]]In [13]: np.array(data)Out[13]: array([[ 1, 2, 3, 4], [23, 4, 5, 6]])...原创 2018-12-04 16:38:11 · 155 阅读 · 0 评论 -
房天下全国658个城市新房,二手房爬取
房天下北京二手房分布式抓取:import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Rulefrom scrapy_redis.spiders import RedisCrawlSpiderclass LianjiaSpider(Redi...原创 2019-01-09 23:26:40 · 2148 阅读 · 1 评论