GJShine107-CSDN博客

转载主成分分析确定权重

参考：https://www.cnblogs.com/zhhda/p/4535476.htmlhttps://blog.csdn.net/qq_32925031/article/details/88540234

2019-05-09 22:46:55 10931

原创 conda 安装tensorflow（CPU）版本

建立Tensorflow Anaconda虚拟环境conda create --name py35ten python=3.5 anaconda conda info -e #查看当前系统下的环境列表 conda info #查询当前环境的具体信息 conda list #列出此环境下安装的包启动Anaconda虚拟环境,并安装tensorflow activate ...

2019-05-07 23:53:03 8394 2

原创调用自己写的R程序

path="/home/R-method" #声明.R所在位置setwd(path) #把工作路径设置到pathsource('tsi_prog.R') #“预装“函数调用实例：

2019-04-24 14:08:37 840 1

原创在Linux服务器上配置R程序

一、Q1 安装包报错直接用install.pakages(""),会报错：installation of package had non-zero exit status安装包有非零退出状态ERROR: dependencies 'plyr', 'digest', 'gtable', 'reshape2', 'scales', 'proto' are not available fo...

2019-04-24 13:49:35 1623

原创 Linux服务器配置R程序环境

在阿里云服务器上建立R语言开发程序，本文记录爬坑经历。采用源码编译安装的形式1. 首先从官网下载3.5.3版本文件下载在/home/R-method/下即文档结构形式/home/R-method/R-3.5.3.tar.gz2. 解压安装包将文件解压在/home/R-method/文件夹下tar -zxvf R-3.5.3.tar.gz3. 安装依赖环境yu...

2019-04-23 20:56:12 2889

原创 python 绘制中国地图并利用经纬度标注散点

python 绘制中国地图并利用经纬度标注散点所需要的包：GeoPandas，安装教程有很多，自行百度即可。用到的中国地级市shp文件：链接：https://pan.baidu.com/s/18aaxczrz4tIRMeCusOrDQA 提取码：rav1一、GeoPandas类简单介绍...

2019-04-23 18:22:52 30517 4

原创 Python 读取stata文件

利用Python读取stata文件，并防止中文乱码。其中 load_large_dta用于读取stata文件，decode_str用于编译中文字符串。import pandas as pdimport numpy as npimport osfrom pyecharts import Geo, Mapdef load_large_dta(fname): impor...

2019-04-23 17:54:10 10531 3

原创 python 数据合并之join

个人觉得数据框合并最简单的莫过于join，一个小函数却有大作用。具体介绍：DataFrame.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)other：一个DataFrame、Series（要有命名），或者DataFrame组成的list。on：列名，包含列名的list或tuple，或矩阵样子...

2019-04-08 23:22:13 5433

原创正则表达式

什么是正则表达式？正则表达式是对字符串串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成⼀一个“规则字符串串”，这个“规则字符串串”用来表达对字符串串的一种过滤逻辑。本文主要介绍re.match、re.search、re.findall、re.sub、re.compile五种方法。在线测试工具：http://tool.oschina.net/regex/常用的...

2018-05-10 21:44:44 121

一.什么是爬虫？请求网站并提取数据的自动化程序二.爬虫的基本流程？1.发起请求通过HTTP库向⽬目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，等待服务器器响应。2.获取响应内容如果服务器器能正常响应，会得到一个Response，Response的内容便便是所要获取的⻚页⾯面内容，类型可能有HTML，Json字符串串，二进制数据（如图⽚片视频）等类型。3.解析内...

2018-05-10 16:06:20 783

原创 python爬虫（三）爬取网易云音乐歌曲列表

1.打开网易云音乐列表，按F12，选择Doc模式，方便查看。2.查看网页的请求方式--get请求3.查看header4. 在Preview中搜索任意一首歌曲，比如：无由可以看到，歌曲列表在‘ul’标签中，那么我们可以通过Be阿UtigulSoup去搜索明晰了结构，就可以写代码了：import requestsimport refrom bs4 import BeautifulSouph...

2018-05-03 23:36:12 7342 1

转载好的文章分享：只要1000个字，文科生也能理解“大数据”

大数据对绝大部分人来说就好比“叶公好龙”里面的龙，听说过没见过。大家都知道大数据很流行，但是真正理解大数据的逻辑的人仍然不多。我觉得这个问题更多是出在大数据的推广者自己身上，写的文章术语太多，谈理论太多，不接地气，以至于让普通人看不懂。当然这也不能怪他们，能把大数据玩转的基本都是理科生，写文章并非他们擅长的事情。今天我尝试着就用1000字的篇幅，把大数据写得让文科生都能看明白（注：我就是文科生）。...

2018-03-28 14:03:18 466

原创 python机器学习（二）线性回归

一线性回归原理这部分相对来说比较简单，不理解的可以参考：http://blog.csdn.net/xuxiatian/article/details/55002412二代码实现1.简单的实现根据公式：import numpy as npimport matplotlib.pyplot as plt def firstLR(x,y): n=len(x) dinominator=0 ...

2018-02-25 15:42:55 760

原创 python机器学习（一）KNN算法

一算法理论 K最近邻（k-Nearest Neighbor，KNN）分类算法可以说是最简单的机器学习算法了。它属于监督学习的一种。它采用测量不同特征值之间的距离方法进行分类。它的思想很简单：如果一个样本在特征空间中的k个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。上图中要确定测试样本绿色属于蓝色还是红色。显然，当K=3时，将以1：2的投票结果分类于...

2018-02-24 20:14:42 676

原创 kaggle竞赛入门Titanic生存预测

Titanic是kaggle上的一道入门题目，很适合新手去练市数据分析。这道题给的数据是泰坦尼克号上的乘客的信息，预测乘客是否幸存。这是个二元分类的机器学习问题。数据链接：https://www.kaggle.com/c/titanic/data 1. 数据清洗（Data Cleaning）2. 探索性可视化（Exploratory Visualization）3. 特征工程（F...

2018-02-23 16:47:15 1467

原创 python爬虫（二）爬取糗事百科

主要用的request，当然还需要用正则匹配要抓取的网页https://www.qiushibaike.com/hot/page/1/1.首先利用request抓取整个网页from urllib import requestimport reurl='https://www.qiushibaike.com/hot/page/1/'user_agent='Mozilla/5.0 (Windows N...

2018-02-16 16:27:53 431

原创 python 爬虫（一）爬取百度贴吧图片

网址为https://tieba.baidu.com/f?ie=utf-8&kw=%E6%B5%B7%E8%B4%BC%E7%8E%8B&fr=search基本思路就是：下载整个页面，然后用正则匹配要下载的内容，最后保存到本地。1.下载整个页面定义一个下载器#首先定义一个下载器，用来下载网页def load_page(my_url): #设置代理IP user_agent=...

2018-02-14 12:15:41 647

wojiaodabai的博客