![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
文章平均质量分 83
clover521
这个作者很懒,什么都没留下…
展开
-
python实现新浪新闻爬虫
1、没有伪装成浏览器进行爬取操作将爬取的新闻网址保存到文件夹e:/sinanews/中,成功后直接通过浏览器打开。import urllib.requestimport redata=urllib.request.urlopen('https://news.sina.com.cn/').read()data2=data.decode('utf-8','ignore')#加第二个参数...原创 2018-11-20 17:28:50 · 705 阅读 · 0 评论 -
python数据探索与数据清洗
数据探索的目的是及早发现数据的一些简单规律或特征,数据清洗的目的是留下可靠数据,避免脏数据的干扰。这两者没有严格的先后顺序,经常在一个阶段进行。数据探索的核心是: 1、数据质量分析(跟数据清洗密切联系)2、数据特征分析(分布、对比、周期性、相关性、常见统计量等)数据清洗可以按如下步骤进行: 1、缺失值处理(通过describe与len直接发现、通过0数据发现) ...原创 2018-11-24 22:23:48 · 307 阅读 · 0 评论 -
python文本挖掘
import jieba#全模式sentence='我喜欢武汉欢乐谷'w1=jieba.cut(sentence,cut_all=True)#(句子,模式[True全模式,False精准模式])for item in w1: print(item)print()#精准模式w2=jieba.cut(sentence,cut_all=False)#去掉cut_all这个参数,默...原创 2018-11-24 22:26:25 · 383 阅读 · 0 评论 -
python文本相似度计算
相似度计算步骤::读取要计算的多篇文档对要计算的文档进行分词 对文档进行整理成指定格式,方便后续计算 计算出词语的频率 【可选】对频率低的词语进行过滤 通过语料库建立词典 加载要对比的文档 将要对比的文档,通过doc2bow转化为稀疏向量 对我们的稀疏向量进行进一步处理得到新语料库 将新语料库通过tfidfmodel进行处理,得到tfidf 通过token2id得到特征数...原创 2018-12-07 21:49:31 · 5471 阅读 · 3 评论 -
python数据建模与KNN算法实现手写体数字识别
数据建模指的是对现实世界各类数据的抽象组织,建立一一个适合的模型对数据进行处理。在数据分析与挖掘中,我们通常需要根据一-些数据建 立起特定的模型,然后处理。模型的建立需要依赖于算法, - -般,常见的算法有分类、聚类、关联、回归等。python数据分类实现过程 数据分类主要处理现实生活中的分类问题,一般处理思路如下:1、首先明确需求并对数据进行观察2、其次,...原创 2018-12-07 21:57:30 · 362 阅读 · 0 评论 -
python数据分析与挖掘之贝叶斯算法算法实现
代码中有详细的注释训练文件:Txt文件中为0,1矩阵,将图片转换为0,1矩阵见上一篇博客方法import numpy import operatorfrom os import listdirclass Bayes: def __init__(self): self.length=-1 self.labelcount=dict()#各类...原创 2018-12-07 22:04:26 · 342 阅读 · 0 评论 -
python之回归算法
逻辑回归import pandas as pdafname='E:/programCode/huigui.csv'dataf=pda.read_csv(fname)#自变量xx=dataf.iloc[:,1:4].as_matrix()#[:,1:2]中的右边代表列取谁,左边的代表行取谁#因变量yy=dataf.iloc[:,0:1].as_matrix()#.as_matrix...原创 2018-12-07 22:07:51 · 1530 阅读 · 0 评论 -
python数据分析与挖掘之聚类kmeans算法
聚类不指定类别进行分类(划分(分裂)法,层次分析法、密度分析法)、网格法、模型法 Kmeans算法属于分裂法随机选择k各点作为聚类中心 计算各个点到这K个点的距离 将对应的点聚到与它最近的这个聚类中心 重新计算聚类中心 比较当前聚类中心与前一次聚类中心,如果是同一个点,得到聚类结果,若不同的点,则重复2-5Kmeans算法实现代码:#kmeans算法'''...原创 2018-12-07 22:11:12 · 890 阅读 · 0 评论 -
python人工神经网络
人工神经网络在模块keras中,实现步骤如下:#bp人工神经网络的实现#1、读取数据#2、导入对应模块,keras.models Sequential(建立模型) |keras.layers.core Dense(建立层) Activation#3、Sequential建立模型#4、Dense建立层#5、Activation激活函数#6、compile模型编译...原创 2018-12-07 22:15:37 · 1608 阅读 · 0 评论 -
python实现Apriori算法
Apriori算法两个概念:支持度:A、B同时发生的概率置信度:若A发生,B发生的概率Apriori算法的实现设定阈值:最小支持度和最小置信度 计算支持度:Supprot(A=>B)=(A与B同时发生的数量)/事件的总数 =Support_count(...原创 2018-12-08 11:28:54 · 3087 阅读 · 0 评论 -
python之matplotlib模块画图
#折线图/散点图plotimport matplotlib.pylab as pylimport numpy as npyx=[1,2,3,4,8]y=[5,7,9,6,3]pyl.plot(x,y) #plot(x轴数据,y轴数据,展现形式)pyl.show()#散点图pyl.plot(x,y,'o')pyl.show()图中颜色设置c-cyan...原创 2018-11-24 22:20:33 · 378 阅读 · 0 评论 -
数据分析之Python数据导入
'''数据导入'''import pandas as pdai=pda.read_csv('E:/programCode/jd.csv',encoding='gb18030')i.describe()#按照某一列进行排序i.sort_values(by='238')#238为列名import xlrd '''导入excel数据'''j=pda.read_exce...原创 2018-11-24 22:13:28 · 326 阅读 · 0 评论 -
python多线程爬虫
先记录一下,普通的糗事百科爬虫:import urllib.requestimport reimport timeimport urllib.errorheaders=('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:63.0) Gecko/20100101 Firefox/63.0')opener=urlli...原创 2018-11-21 09:27:23 · 263 阅读 · 0 评论 -
python爬虫Scrapy框架
Scrapy框架是一个Python爬虫框架,适合做一些大型爬虫项目。Scrapy框架常见命令:1、基本格式:scrapy 命令名 -参数(如scrapy fetch –h显示fetch命令帮助,fetch显示爬虫爬取过程)2、Shell命令,启动Scrapy交互终端 >scrapy shell http://www.baidu.com --nolog3、Startp...原创 2018-11-21 09:43:12 · 943 阅读 · 4 评论 -
Scrapy框架糗事百科自动爬虫
糗事百科自动爬虫:1、在cmd进入项目文件夹,创建爬虫项目和爬虫文件>scrapy startproject qsauto2、进入项目文件夹创建爬虫文件>scrapy genspider -t crawl cw qiushi.com(我创建的爬虫文件为cw, qiushi.com为糗事百科网域名)3、用pycharm打开这个项目 ...原创 2018-11-21 09:49:28 · 190 阅读 · 0 评论 -
自动模拟登陆爬虫
有时候需要抓取登陆后的页面,让爬虫登陆网址。此程序可以实现模拟登陆爬虫,包括图片验证码的处理。1、在cmd进入项目文件夹,创建爬虫项目和爬虫文件>scrapy startproject douban2、进入项目文件夹创建爬虫文件>scrapy genspider -t crawl db qiushi.com(我创建的爬虫文件为db, qiushi.com为糗事百科网域名...原创 2018-11-21 09:59:41 · 576 阅读 · 0 评论 -
python网络爬虫正则表达式
初学python网络爬虫正则表达式的学习笔记,有不对的地方请批评指正。正则表达式\w匹配字母、数字、下划线(普通字符)\d匹配任意十进制数字\s匹配空格字符\W匹配\w相反的字符,除了字母、数字、下划线的其他字符(其他\(大写)都与其小写匹配相反)元字符:所谓的元字符,就是正则表达式中具有一些特殊含义的字符,比如重复N次前面的字符等。(.匹配任意字符;^匹配字符串的开始位置...原创 2018-11-16 19:22:54 · 259 阅读 · 0 评论 -
python爬虫,Urllib库
python爬虫学习之Urllib库,自动模拟HTTP请求,异常处理,爬虫的浏览器伪装技术1、Urllib基础1.1 urlretrieve()将一个网页直接爬取保存到本地>>> import urllib.request>>> urllib.request.urlretrieve('https://blog.csdn.net/','e:/sc...原创 2018-11-16 22:30:42 · 369 阅读 · 0 评论 -
python当当网爬虫
最终要实现的是将当当网上面的书籍信息,书籍名字,网址和评论数爬取,存入到数据库中。(首先要做的是创建好数据库,创建的数据库名字为dd,创建的表为books,字段为title,link,comment)。1、创建项目 scrapy startproject dangdang2、进入项目文件夹创建爬虫文件>scrapy genspider –t basic dd dangdan...原创 2018-11-24 22:03:29 · 2244 阅读 · 0 评论 -
Scrapy框架基于crawl爬取京东商品信息爬虫
Items.py文件# -*- coding: utf-8 -*-# Define here the models for your scraped items# See documentation in:# https://doc.scrapy.org/en/latest/topics/items.htmlimport scrapyclass JingdongItem(scrap...原创 2018-11-24 22:06:58 · 595 阅读 · 0 评论 -
python数据分析与挖掘模块简介
所谓数据分析,即对已知的数据进行分析,然后提取出一-些有价值的信息,比如统计出平均数、标准差等信息,数据分析的数据量有时可能不会太大,而数据挖掘,是指对大量的数据进行分析与挖掘,得到一些未知的,有价值的信息等,比如从网站的用户或用户行为数据中挖掘出用户的潜在需求信息,从而对网站进行改善等。数据分析与数据挖掘密不可分,数据挖掘是数据分析的提升。数据分析与挖掘技术能做什么事情?数据挖掘技...原创 2018-11-24 22:10:00 · 556 阅读 · 0 评论 -
python实现支持向量机SVM
支持向量机支持向量机有两种:SVC,支持向量分类,用于分类问题;SVR,支持向量回归,用于回归问题。线性支持向量机(Linear SVMs):用一个非常有名的用于分类问题的数据集:鸢尾花数据集。它是基于鸢尾花的花萼的长度和宽度进行分类的。我们只用其中两维特征,这能够方便可视化。kernel="linear"(线性核函数)给了我们线性的决策边界:两类之间的分离边界是直线。 多分类的工作...原创 2018-12-20 20:40:46 · 779 阅读 · 0 评论