自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

python

python爬虫+数据分析

  • 博客(31)
  • 资源 (2)
  • 收藏
  • 关注

原创 ※※※——————博客文章目录,可查询所有文章——————※※※

❥(^_-) 博客文章目录,可查询所有文章一、(1)selenium 爬取证监会新闻标题超链接的详细过程一、(2)selenium爬取超链接后,反爬取超链接里的内容。二、(1)Word2vec二、(2)浅析Word2vec,用python实现三、(1)Kmeans三、(2)python实现完整的K-means算法三、(3)PCA降3维下的K-means聚类可视化三、(4)评价Kme...

2019-05-19 17:58:27 498

原创 十一(1)、拟合问题——欠拟合

十一(1)、拟合问题——欠拟合解决线性回归问题中欠拟合问题——数据集为某一股票的近几年基本数据信息1、拟合定义:已知某函数的若干离散函数值{f1,f2,…,fn},通过调整该函数中若干待定系数f(λ1, λ2,…,λm), 使得该函数与已知点集的差别(最小二乘意义)最小。如果待定函数是线性,就叫线性拟合或者线性回归(主要在统计中)。2、在python机器学习中,拟合问题分为欠拟合和过拟...

2019-06-27 12:01:17 519

原创 七、(3)线性回归——波士顿房价预测(解决过拟合)

七、(3)线性回归——波士顿房价预测(解决过拟合)线性回归——波士顿房价预测1、运行正规方程代码,观察结果。# -*- coding: utf-8 -*-"""Created on Sat May 25 19:28:12 2019@author: sun"""from sklearn.datasets import load_bostonfrom sklearn.model_s...

2019-06-22 21:08:29 2804

原创 十、(1)K-近邻预测签到位置。初步了解欠拟合和过拟合问题。

十、(1)K-近邻预测签到位置。初步了解欠拟合和过拟合问题。本文数据集在kaggle上下载,下载比较麻烦。需要的可以发邮箱。K-近邻预测用户签到位置(解决拟合问题,运用交叉验证和网格搜索方法)(数据来源为kaggle,编译器为spyder)文章思路:1.原始预测方法,使用python调用k-近邻算法预测。2.比较测试集和训练集的准确率,目的在于分析模型是否存在欠拟合或者过拟合问题。...

2019-06-22 15:46:02 652 2

原创 九、(1)情感分类——基于词典。评论。

九、(1)情感分类——基于词典。评论。————数据集留言邮箱发送# -*- coding: utf-8 -*-"""Created on Thu Jun 13 23:32:14 2019@author: sun"""import jiebaimport numpy as np#打开词典文件,返回列表,词典文件就是包含否定词,positive,negtive,程度级别词语的文...

2019-06-14 00:09:25 1065 11

原创 四、(1)层次聚类

四、(1)层次聚类在社会学领域,一般通过给定网络的拓扑结构定义网络节点间的相似性或距离,然后采用单连接层次聚类或全连接层次聚类将网络节点组成一个树状图层次结构。其中,树的叶节点表示网络节点,非叶节点一般由相似或距离接近的子节点合并而得到。中文名 层次聚类方法外文名 Hierarchical Clustering性 质 聚类方法属 性 层次原理的不同 可以分为凝聚和分裂两种方...

2019-06-07 20:33:42 1819

原创 二、(3)doc2vec

二、(3)doc2vecdoc2vec和word2vec相似,通过对句子的向量表示来预测相似度,以及运用到聚类、分类的算法中去。本文通过一段简短的语料来训练模型。观察效果。完整代码:# -*- coding: utf-8 -*-"""Created on Mon Jun 3 12:24:48 2019@author: sun"""import gensimimport nu...

2019-06-03 14:26:30 1166 1

原创 八、(2)神经网络——卷积神经网络预测手写数字

八、(2)神经网络——卷积神经网络预测手写数字第一步:设计两层卷积训练模型# -*- coding: utf-8 -*-"""Created on Tue May 28 16:57:15 2019@author: sun"""import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_...

2019-06-01 19:44:19 561

原创 八、(1)神经网络——简单神经网络,手写数字预测。

八、(1)神经网络——简单神经网络,手写数字预测。本文通过预测手写数字来练习简单的神经网络。主要步骤为训练模型、保存模型、预测数据集、将数据集转图片、将图片转成数据集格式。数据集下载地址:http://yann.lecun.com/exdb/mnist/第一步:训练模型并保存。 # -*- coding: utf-8 -*-"""Created on Mon May 27 23:55:...

2019-06-01 18:21:40 972

原创 七、(4)逻辑回归——二分类法,预测乳腺癌数据

七、(3)逻辑回归——二分类法,预测乳腺癌数据乳腺癌数据集下载地址:https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data下载的数据为data格式,直接改文件名为csv查看数据内容即可。最后一行为目标值。2代表正常,4代表癌症。...

2019-05-26 22:17:09 8767 2

原创 七、(2)线性回归——正规方程(基础的线性回归)、SVM、随机森林对比

七、(2)线性回归——正规方程(基础的线性回归)、SVM、随机森林对比。本文主要探讨一下线性回归、SVM、随机森林三种模型预测波士顿房价数据集的特点,即准确率。第一步:可视化三种线性模型完整代码如下:# -*- coding: utf-8 -*-"""Created on Sun May 26 13:06:39 2019@author: sun"""from sklearn.f...

2019-05-26 15:51:13 2793 1

原创 七、(1)线性回归——正规方程、梯度下降、岭回归

七、(1)线性回归——正规方程、梯度下降、岭回归重复波士顿房价的线性回归预测流程,结合三种线性回归:正规方程、梯度下降、岭回归。房价数据集包含十三个特征值和一个目标值。完整代码如下:# -*- coding: utf-8 -*-"""Created on Sat May 25 19:28:12 2019@author: sun"""from sklearn.datasets ...

2019-05-26 11:33:38 1200

原创 六、(2)随机森林——根据泰坦尼克号船员数据,预测其是否生还。

六、(2)随机森林——根据泰坦尼克号船员数据,预测其是否生还。数据集下载地址https://pan.baidu.com/s/1g76H1913c5vYK1z02Ba_5w,密码 :yj1y ,保存为csv格式。根据自己想要测试的数据,选取目标值,另存为txt格式。下图是我整理的结果,抽取了社会等级、年龄、所住楼层、性别四个特征来预测是否生还。代码如下:# -*- coding: utf-...

2019-05-24 15:32:37 690

原创 六、(1)决策树和随机森林分析泰坦尼克号乘客数据

六、(1)决策树和随机森林分析泰坦尼克号乘客数据。数据集下载地址,保存为csv格式即可。本文参考网上相关算法文章,对经典数据进行预测分析。以掌握该算法相关知识点。csv格式如图示,选取pclass、age、room、sex四个特征值。代码如下:# -*- coding: utf-8 -*-"""Created on Wed May 22 13:42:53 2019@author...

2019-05-23 16:05:16 1889

原创 ※ 将一个txt文档按\n格式分割成多个txt

※ 将一个txt文档按\n格式分割成多个txt原始文档格式为:# -*- coding: utf-8 -*-"""Created on Mon May 20 15:33:23 2019@author: sun"""# 读取txt文件import retext = open('聚类4类.txt',"r", encoding='UTF-8').read() #打开本体T...

2019-05-22 16:05:46 4501

翻译 五、(3)朴素贝叶斯预测文章类别

五、(3)朴素贝叶斯预测文章类别# -*- coding: utf-8 -*-"""Created on Mon May 20 12:25:00 2019@author: zhangzongji"""import os #用于读取文件import jieba #用于给中文分词from sklearn.feature_extraction.text import TfidfT...

2019-05-22 15:01:47 632

翻译 五、(2)朴素贝叶斯预测邮件类别

五、(2)朴素贝叶斯预测邮件类别# -*- coding: utf-8 -*- from numpy import *from functools import reduce # 将广告邮件、垃圾邮件标识为 1 。adClass = 1 def loadDataSet(): """加载数据集合及其对应的分类,数据可以随便选取广告和正常的邮件""" wordsLis...

2019-05-22 14:33:43 516

翻译 ※ 糖尿病数据

6,148,72,35,0,33.6,0.627,50,11,85,66,29,0,26.6,0.351,31,08,183,64,0,0,23.3,0.672,32,11,89,66,23,94,28.1,0.167,21,00,137,40,35,168,43.1,2.288,33,15,116,74,0,0,25.6,0.201,30,03,78,50,32,88,31.0,0....

2019-05-20 16:32:16 2417 2

翻译 五、(1)朴素贝叶斯

五、(1)朴素贝叶斯朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法 [1] 。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。和决策树模型相比,朴素贝叶斯分类器(Naive Bayes Classifier,或 NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,...

2019-05-20 16:29:22 276

原创 四、(2) 文本层次聚类

四、(1) 层次聚类层次聚类方法的基本思想是:通过某种相似性测度计算节点之间的相似性,并按相似度由高到低排序,逐步重新连接个节点。该方法的优点是可随时停止划分,主要步骤如下:(1)移除网络中的所有边,得到有n个孤立节点的初始状态;(2 )计算网络中每对节点的相似度;(3)根据相似度从强到弱连接相应节点对,形成树状图;( 4)根据实际需求横切树状图,获得社区结构完整代码如下:# -*-...

2019-05-18 11:30:35 4372 5

原创 三、(4)评价Kmeans算法聚类结果。利用 手肘法SSE 和 轮廓系数 检验。

三、(4)评价Kmeans算法聚类结果。利用 手肘法SSE 和 轮廓系数 检验。本文运用SSE(簇内误方差)和轮廓系数两种检验方法,对三、(2)python实现完整的K-means算法进行K值检验。完整代码如下:(1) SSE。SSE利用计算误方差和,来实现对不同K值的选取后,每个K值对应簇内的点到中心点的距离误差平方和,理论上SSE的值越小,代表聚类效果越好,通过数据测试,SSE的值会...

2019-05-16 22:16:04 32577 3

原创 三、(3)PCA降3维下的K-means聚类可视化

三、(3)PCA降3维下的K-means聚类可视化完整代码如下:# -*- coding: utf-8 -*-"""Created on Wed May 15 11:40:27 2019@author: sun"""import codecsimport matplotlib.pyplot as pltfrom sklearn.feature_extraction.text...

2019-05-15 11:46:50 5012 1

原创 一、(4) 结巴分词词性提取

※ 结巴分词词性提取代码如下:# -*- coding: utf-8 -*-"""Created on Tue May 14 14:45:01 2019@author: sun"""import jieba.posseg as psgimport codecs# 建立结果保存路径result = codecs.open("带词性的分词结果.txt", 'w', 'utf-8...

2019-05-15 11:22:56 7214 3

原创 一、(3) 结巴分词

※ 结巴分词代码如下:# -*- coding: utf-8 -*-import jieba# 创建停用词列表def stopwordslist(): stopwords = [line.strip() for line in open('stopword.txt',encoding='UTF-8').readlines()] return stopwords# ...

2019-05-15 11:05:19 6657 2

原创 三、(2)python实现完整的K-means文本聚类算法

三、(2)python实现完整的K-means算法在运行代码之前,我们需要把相关文本数据准备好。本文我爬取了有关科技、汽车、医学、国家这四个类别的的近300篇新闻或者简介。完整代码如下:import pandas as pd import codecsimport matplotlib.pyplot as pltfrom sklearn.feature_extraction.t...

2019-05-15 10:56:59 9389 11

原创 三、(1)Kmeans

三、(1)KmeansKmeans算法,即K均值聚类算法,一般指K均值聚类算法。K均值聚类算法是先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目...

2019-05-06 19:55:38 1598 1

翻译 二、(1)Word2vec

二、(1)Word2vec——在信息检索中,向量空间模型非常常见,每个文档都可以被表示成一个向量,文档中每个单词的权重或重要性则可以用矢量和分量表示,使用余弦相似性度量计算两个文档之间的相似性。 但是在进行许多文本数据分析的时候,我们会发现对于字的嵌入,即将字映射到矢量的技术需求愈发增加,Word2vec算法的推出,有效地解决了这一问题,该算法使用大量文本来创建高维(例如50到300维,维度也可...

2019-05-05 23:58:15 1699

原创 一、(2)selenium爬取超链接后,反爬取超链接里的内容。

一、(2)selenium爬取超链接后,反爬取超链接里的内容。本文利用一(1)中爬取的超链接,对超链接里的每条新闻进行爬取,方法很简单。完整代码如下:# coding=utf-8import urllibimport timeimport reimport osimport shutilimport sysimport codecsfrom selenium import ...

2019-05-05 17:14:28 4040

原创 二、(2)浅析Word2vec,用python实现

word2vec详细介绍可点击链接阅读,https://www.jianshu.com/p/471d9bfbd72f。本文主要想简单通过python来实现word2vec的基本用法。直接上代码:一、训练语料。本文语料是一百条有关交通的新闻。# -*- coding: utf-8 -*-"""Created on Tue Apr 23 18:53:04 2019@author: ...

2019-05-04 13:54:51 4059

原创 ※ 用一个代码同时运行其他python代码

※ 用一个代码执行指定python程序本文主要介绍一个简单的小知识,即利用一个代码去执行所有你所写好的代码程序。直接开工!import osos.system("python 执行的代码路径")只需要这两行代码就可以直接运行指定路径里的代码,下面简单举个例子操作运行一下。如图所示,假如我们想要一次性将编号1-8的8个代码通过一个代码执行,我们就可以通过参照上面那两行代码来完成。具体...

2019-04-30 14:44:38 3547 2

原创 一、(1)selenium 爬取证监会新闻标题超链接的详细过程

selenium 简单爬取证监会新闻标题的URL。本篇文章主要是对selenium的入门使用给予一个示例介绍,爬取的内容为证监会所有新闻标题的超链接。用的是谷歌浏览器,浏览器的版本选择以及selenium在python中的用法不在此文中介绍,大佬们可以百度搜索一下。直接开工!首先打开要爬取的网页打开后的网页如图所示。开始写代码。1,导入模块import time ...

2019-04-20 23:45:39 2069

sci2最新版本,1.3版本,含中文说明,

sci2最新版本,1.3版本,含中文说明,

2019-06-07

VOSviewer.exe

VOSviewer.exe

2019-06-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除