Python
文章平均质量分 55
翱翔的江鸟
转行萌新学习中
github地址:https://github.com/wxfghy
展开
-
爬虫练习之递归爬取入口页面下所有链接(scrapy-redis分布式)
实现scrapy-redis前的一些准备参考前文,在centos7环境下安装redis,实现远程登录redis服务功能并开启服务 https://blog.csdn.net/wxfghy/article/details/80349405下载scrapy-redis源代码并解压 https://github.com/rmax/scrapy-redispycharm中安装scrapy和s...原创 2018-05-18 13:49:06 · 4083 阅读 · 0 评论 -
Matplotlib.pyplot参数(条形图,直方图,饼图,散点图)
1. 条形图 bar()官方文档网址:https://matplotlib.org/api/_as_gen/matplotlib.pyplot.bar.html#matplotlib.scatter.bar参数解释如下 参数 语法 功能 x sequence of scalars 数据源 height scalar or sequenc...原创 2018-07-13 11:30:23 · 7556 阅读 · 0 评论 -
Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV
1. 目标通过hadoop hive或spark等数据计算框架完成数据清洗后的数据在HDFS上爬虫和机器学习在Python中容易实现在Linux环境下编写Python没有pyCharm便利需要建立Python与HDFS的读写通道2. 实现安装Python模块pyhdfs版本:Python3.6, hadoop 2.9读文件代码如下from pyhdfs ...原创 2018-07-06 14:58:38 · 10419 阅读 · 0 评论 -
Python垃圾回收机制(引用计数+标记清除+分代回收)
转载自https://blog.csdn.net/joeyon1985/article/details/41961827 python里也同java一样采用了垃圾收集机制,不过不一样的是,python采用的是引用计数机制为主,标记-清除和分代收集两种机制为辅的策略。1. 引用计数PyObjectpython里每一个东西都是对象,它们的核心就是一个结构体:PyObje...转载 2018-07-03 17:16:58 · 6083 阅读 · 0 评论 -
Numpy基本用法
1. 创建数组ndarrayndarray是N维数组对象, 快速而灵活的大数据集容器其中所有元素的数据类型必须是相同的ndarray包括shape属性(各维度大小的元组)和dtype属性(数组数据类型) ndarray创建函数 特点 array 支持列表,元组,数组或其他序列类型,可推断也可指定dtype arange 相当于range,返回n...原创 2018-06-26 16:58:55 · 1839 阅读 · 0 评论 -
《机器学习实战》笔记01~学习算法前的准备
1.机器学习算法的用途监督学习 算法 用途 K-临近算法 线性回归 朴素贝叶斯算法 局部加权线性回归 支持向量机 Ridge回归 决策树 Lasso最小回归系数估计- 无监督学习 算法 用途 K-均值 最大期望算法 DBSCAN Parzen窗设计2.选择算法的依...原创 2018-05-10 13:58:58 · 168 阅读 · 0 评论 -
《机器学习实战》笔记02~K-近邻(KNN)算法(分类)
1.K-近邻算法的优缺点采用测量特征值间的距离的方法进行分类优点在于,精度高,无数据输入假定,对异常值不敏感缺点在于,计算复杂度和空间复杂度高适用于数值型,标称型2.KNN工作原理存在训练样本集,样本集中每个数据都有标签及所属分类新数据输入时,选择样本数据集中前k个(通常k不大于20)距离最近(最相似)的数据统计k个数据中的分类数量,选择次数最多的分类分配给新数据...原创 2018-05-10 17:20:00 · 328 阅读 · 0 评论 -
《机器学习实战》笔记03~决策树算法
1.决策树的优缺点优点: 计算复杂度不高,结果易理解,对中间值缺失不敏感,可处理不相关的特征数据缺点: 过度匹配适用: 数值型,标称型原创 2018-05-21 16:20:54 · 271 阅读 · 0 评论 -
正则表达式
1. Java中使用正则表达式String line = "1-1,hello world";Matcher m = Pattern.compile("^(.*,)(.*\\s)(.*)").matcher(line);if (m.matches()){ String num = m.group(1); String原创 2018-06-22 16:52:09 · 174 阅读 · 0 评论 -
爬虫练习之爬取多个url写入本地文件(scrapy异步)
1. pycharm中运行scrapywindows环境下cmd中通过scrapy startproject 项目名,创建scrapy项目pycharm中打开scrapy项目所在文件夹,任意创建一个.py文件,写入如下代码from scrapy import cmdlinecmdline.execute('scrapy crawl mycsdn'.split())修改Run…...原创 2018-05-16 21:25:19 · 4683 阅读 · 0 评论 -
爬虫练习之循环爬取网页中全部链接(requsets同步)
先贴代码,之后再写注释,已测试可用import reimport requests# 获取并检验要爬取的网站def url_get(): url = input("请输入要爬取的首页url:") try: kv = {'user_agent': 'Mozilla/5.0'} requests.get(url, headers=kv原创 2018-05-14 14:02:18 · 28509 阅读 · 1 评论 -
Python连接mysql实现增删改查基本操作
使用模块pymysqlimport pymysql# connect(mysql数据库IP地址,用户名,密码,连接的数据库名)db = pymysql.connect('10.25.34.68','root','root','mydb')# cursor光标,创建一个用于写sql语句的对象cursor=db.cursor()# execute执行sql语句cursor.exec...原创 2018-07-13 12:59:15 · 1102 阅读 · 0 评论