数据分析
宁静致远wyd
这个作者很懒,什么都没留下…
展开
-
R语言实战之基本统计分析
数据样本 列联表 以列表方式表示两个(或多个)变量或属性共同出现的频率。 或者是将两个属性变量的不同取值置于行和列的位置,在表格中填入变量组合取值的频数的表格。 #描述性统计Fenixsummary(stock) #最小值,最大值,中位数。平均值,四分位数# sapply(stock, FUN = ,options)fivenum() #图基五数# library(Hmi原创 2016-05-31 12:57:23 · 947 阅读 · 0 评论 -
seaborn ——Jointplot
单个标量或者两个变量的画图seaborn.jointplot(x, y, data=None, kind=’scatter’, stat_func=, color=None, size=6, ratio=5, space=0.2, dropna=True, xlim=None, ylim=None, joint_kws=None, marginal_kws=None, annot_kws=None,原创 2016-05-31 22:16:13 · 25599 阅读 · 0 评论 -
Seaborn-PairGrid
#seaborn%matplotlib inlineimport pandas as pdimport numpy as npimport seaborn as snsfrom sklearn import preprocessingimport matplotlib.pyplot as pltnp.random.seed(sum(map(ord, "aesthetics")))def原创 2016-05-31 21:08:30 · 4743 阅读 · 1 评论 -
python scrapy
官方文档:http://scrapy-chs.readthedocs.io/zh_CN/0.24/XPATH:http://www.w3school.com.cn/xpath/xpath_functions.asp牛人博客:http://blog.csdn.net/column/details/younghz-scrapy.htmlScrpay的运行过程:(1)Engine从Spider中获取一个需转载 2016-06-23 10:22:53 · 628 阅读 · 0 评论 -
双色球 python
### 对双色球数据探索**数据准备:**爬取双色球的数据# -*- coding: utf-8 -*-import osimport os.pathimport sysreload(sys)sys.setdefaultencoding("utf-8") #开奖日期中的字符需要引入import urllib2from bs4 import BeautifulSoup# 创建/打原创 2016-06-18 15:44:03 · 4505 阅读 · 0 评论 -
Python 空间数据处理
Geopy测试GeoCodeing:得出具体的地址from geopy.geocoders import Nominatimgeolocator = Nominatim()location = geolocator.geocode("中国人民大学")print(location.address)中国人民大学, 人民大学北路, 稻香园南社区, 海淀区, 北京市, 100872, 中国经纬度信息原创 2016-09-10 16:32:52 · 4268 阅读 · 0 评论 -
各种熵
自信息量I(x)=-log(p(x)),其他依次类推。离散变量x的熵H(x)=E(I(x))=-∑xp(x)lnp(x)\sum\limits_{x}{p(x)lnp(x)}连续变量x的微分熵H(x)=E(I(x))=-∫p(x)lnp(x)dx\int{p(x)lnp(x)dx} 条件熵H(y|x)=-∫∫p(x,y)lnp(y|x)dydx\int\int{p(x,y)lnp(y|x)dydx}原创 2016-09-08 10:29:18 · 1793 阅读 · 0 评论 -
geopandas 的使用以及相关问题
geopandas 的使用以及相关问题Geoff BoeingMichelle Fullwood%matplotlib inlineimport pandas as pdimport geopandas as gpdfrom geopandas import GeoDataFrame, read_filefrom geopandas.tools import sjoinfrom shap原创 2016-09-27 19:16:23 · 10757 阅读 · 7 评论 -
py2neo3.0 批处理方案
py2neo 批处理方案neo4j是是一个高性能的NOSQL图形数据库,它将结构化的数据存储在网络上而不是表中。它是一个嵌入式的,基于磁盘的、具备完备的事务特性的JAVA持续化引擎,但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。neo4j 建立数据库有多种方式:cypher load csv REST API第一种方式不适合批量导入,第二种需要前期的处理,因为比较喜欢pyth原创 2017-12-14 23:10:22 · 4423 阅读 · 0 评论