自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(204)
  • 收藏
  • 关注

原创 计算从2000年1月1日至今有多少个周一

import datetimeday1 = datetime.date(2000,1,1).strftime('%w') #算出该日期是周几day2 = (datetime.date.today() - datetime.date(2000,1,1)).days #迄今为止共有多少天d1 = day2 // 7d2 = day2 % 7if (int(day1) + d2) >...

2020-01-08 17:34:46 1342

原创 python递归函数案例

1、月工资按天发放,第一天给你一分钱,然后,后一天是前一天的 2 倍,那么30天后工资为多少?解题思路:第一天 0.01第二天 0.01 * 2第三天 0.01 * 2^2...第30天 0.01 * 2^29代码如下:def money(n): if n <= 1: return 0.01 else: ret...

2019-12-13 09:38:16 3025

转载 python实现二叉树遍历

使用python实现二叉树的四种遍历:前序、中序、后序和层次遍历以遍历下图二叉树为例:1、树的构造代码如下:#coding=utf-8class Node(object): """节点类""" def __init__(self, elem=-1, lchild=None, rchild=None): self.elem = ...

2019-12-11 14:56:56 596

原创 python 二叉树简介

一、树的定义树形结构是一类重要的非线性结构。树形结构是结点之间有分支,并具有层次关系的结构。它非常类似于自然界中的树。树的递归定义:树(Tree)是n(n≥0)个结点的有限集T,T为空时称为空树,否则它满足如下两个条件:(1)有且仅有一个特定的称为根(Root)的结点;(2)其余的结点可分为m(m≥0)个互不相交的子集Tl,T2,…,Tm,其中每个子集本身又是一棵树,并称其为根的子树(...

2019-12-11 09:46:34 1184

原创 python常见面试题集录(一)

题目:给定一组数字, 一组有9个数字(1到9),将这9个数字填写到3*3 的九宫格内;使得横,竖,斜对角一条线上的三个数字之和相等;如果无解则打印无解思路:设定一个循环,依次将9个数分别填充到九宫格当中,再设置条件比较程序如下:import numpy as npinput_list = [1,2,3,4,5,6,7,8,9]t_array = np.array([[0 for ...

2019-11-05 17:37:29 313 1

原创 python希尔排序、归并排序

希尔排序,也称递减增量排序算法,是插入排序的一种更高效的改进版本。但希尔排序是非稳定排序算法。希尔排序的基本思想是:先将整个待排序的记录序列分割成为若干子序列分别进行直接插入排序,待整个序列中的记录"基本有序"时,再对全体记录进行依次直接插入排序。希尔排序(Shell Sort)是插入排序的一种。也称缩小增量排序,是直接插入排序算法的一种更高效的改进版本。希尔排序是非稳定排序算法。该方法因...

2019-10-31 11:13:39 184

原创 python解决排列组合的方式

本文转载自https://blog.csdn.net/kongsuhongbaby/article/details/84330094前言排列组合问题在是算法中很基础的一个问题,它们的区别就是,排列要考虑顺序,组合不考虑顺序。在面试的过程中可能会考到,在现实生活中也是经常可以遇到的,比如说一个3位数字的密码锁,要尝试多少次才能解开?那么用python有哪些方法可以解决此类问题呢?问题...

2019-10-23 17:30:18 408

原创 爬取imdb资料库

写一个简单的python爬虫程序,爬取imdb资料库,将爬取到的电影信息,存储到一个excel表格中因为imdb资料库电影网没有反扒措施,直接爬取即可代码如下:import requestsfrom lxml import etreeimport pandas as pdimport numpy as np# 第一页:'http://www.imdb.cn/IMDB250/...

2019-10-23 15:56:52 2295

原创 排序算法

十大排序可参照博客:https://blog.csdn.net/hellozhxy/article/details/79911867十大算法对比:冒泡排序:冒泡排序是一种简单的排序算法。它重复地走访过要排序的数列,一次比较两个元素,如果它们的顺序错误就把它们交换过来。走访数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交...

2019-06-25 21:16:05 158

原创 朴素贝叶斯算法

利用朴素贝叶斯算法来对评价的好坏进行分类:原始数据为:使用结巴分词来进行分类预测:import jiebaimport pandas as pdimport numpy as np# 文本分类# 一.处理数据:# 第一步:属性值/特征值:中文语句# 先做中文分词,借助于jieba模块,去除没有意义的词# ===>注意:停用词规范化处理(1字符首尾去空,2.重复...

2019-06-21 21:49:51 201

原创 如何查找最长连续字符串

查找最长连续子字符串,子字符串须满足:由连续同字符组成# 统计结果:字符:连续出现最多的次数result = {}# 统计连续出现的字符def test(s): count = 0 for c in s: if c == s[0]: count+=1 else: break # ...

2019-06-06 16:19:21 2435

原创 线性回归算法

以sklearn.datasets模块中的经典数据load_boston(波士顿房价)为例,实现线性回归算法代码:from sklearn.datasets import load_boston # 经典数据from sklearn.linear_model import LinearRegression # 线性模块,回归线性模型from sklearn.model_select...

2019-06-03 20:25:13 207

原创 python中的K-means算法模块

上一篇文章https://blog.csdn.net/weixin_44239541/article/details/90669949写到k-meann算法的思想,其实python中有专门的算法模块,一上篇文章中的简单数据为例,来实现。数据如图所示:使用sklearn实现分类:import pandas as pdimport numpy as npfrom sklearn....

2019-05-30 11:41:23 2526

原创 K-means算法

K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。k-means算法是属于数据分析中的无监督学习中一种聚类算法实现K-means算法的步骤:(1)首先根据数据量的大小确定k值,也就是准备划分为几类,例如k=3就是划分为3类(2)随机给定各...

2019-05-29 14:32:14 540

原创 如何反序迭代一个序列

在列表中,如果我们要将列表反向迭代通常使用 reverse()。但这个方法有个缺陷就是会改变列表。因此,我们推荐使用 reversed(),它会返回一个迭代器。这里,我们可以实现 reversed ()解决反向迭代问题以列表为例:lst = ['a','c','1','a','c',3]# 去重print(list(set(lst)))# 反序 reversed(lst)生成的是一...

2019-05-28 23:09:39 643

原创 pytohn的json模块

一、Json简介:Json,全名 JavaScript Object Notation,是一种轻量级的数据交换格式。Json最广泛的应用是作为AJAX中web服务器和客户端的通讯的数据格式。现在也常用于http请求中,所以对json的各种学习,是自然而然的事情。二、json的dump,dumps,load,loads方法1、json.dumps() json.du...

2019-05-27 22:30:42 438

原创 python内置函数

具体可参考菜鸟教程https://www.runoob.com/python3/python3-built-in-functions.html列举几个的函数map 会根据提供的函数对指定序列做映射。第一个参数 function 以参数序列中的每一个元素调用 function 函数,返回包含每次 function 函数返回值的新列表。例子请使用 map 函数将[1,2,3,4]...

2019-05-27 21:17:13 149

原创 递归遍历嵌套列表

A=[1,2,[3,4,["434",['a','b',['c']]]]]def bianli(lst): for i in lst: if isinstance(i,list): # 判断i是否为列表,递归出口 bianli(i) else: print(i)bianli(A)运行结果:1...

2019-05-27 20:35:51 1352 1

原创 KNN算法

1、kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。最简单平凡的分类器也许是那种死记硬背式的分类器,记住所有的训练数据,对于新的数据则直接和训练数据匹配,如果存在相同属性的训练数据,则直接用它的分类来作为新数据的分类。这种方式有一个明显的缺点,那就是很可能无法找到完全匹配的训练记录。kNN算法则是从训练集中找到和新数据最接近的k条记录,然...

2019-05-27 19:21:08 874

原创 matplotlib思维导图

2019-05-27 09:38:22 1783 2

原创 pandas思维导图

2019-05-27 09:36:49 2098

原创 numpy思维导图

2019-05-27 09:34:33 1134 1

原创 使用python画圆以及正弦余弦曲线

共画出四个图,程序如下所示import matplotlib.pyplot as pltimport numpy as npp1 = plt.figure(figsize=(8,8),dpi=80) # # 画布大小,分辨率# 修改参数plt.rcParams['font.sans-serif'] = 'SimHei' # 仿宋plt.rcParams['axes.unicode_...

2019-05-20 22:56:54 4493

原创 python中的matplotlib模块画图

matplotlib画图的主要过程如下程序所示:import matplotlib.pyplot as pltimport numpy as npx = np.arange(0,1.1,0.1)y = x**2y2 = x**2+0.1print(x,y)# 修改参数plt.rcParams['font.sans-serif'] = 'SimHei' # 仿宋字体plt.rc...

2019-05-20 22:32:52 289

原创 numpy模块读写文件与统计分析

一、读写文件1、存储单个数组:save存储的时候需要指定存储路径,不需要指定文件后缀arr = np.arange(100).reshape(10,10)np.save('arr',arr)load_data = np.load('arr.npy')print(load_data)如图所示:运行之后创建了arr.npy文件运行结果:2、存储多个数组 sav...

2019-05-20 22:12:24 374

原创 numpy模块(2)

1、利用布尔值来取元素import numpy as npmask = np.array([1,0,1],dtype=bool) # 1表示取对应的元素,0表示不取arr = np.array([[1,2,3],[4,5,6],[7,8,9]])print(arr[mask,2])print(arr[:,mask])运行结果:[3 9][[1 3] [4 6] [7...

2019-05-20 21:15:27 745

原创 numpy模块

一、Numpy是什么?Numpy是Python的一个科学计算的库,提供了矩阵运算的功能,其一般与Scipy、matplotlib一起使用。其实,list已经提供了类似于矩阵的表示形式,不过numpy为我们提供了更多的函数。如果接触过matlab、scilab,那么numpy很好入手二、numpy的一些方法:使用之前安装好numpy模块1、创建一维、二维数组:import nu...

2019-05-18 15:27:17 1500

原创 使用scrapy框架爬取数据并存到mongo数据库

以爬取淘车网的二手车信息为例,将车的信息爬取出来并存到MongoDB数据库中首先创建如图所示的目录:进入当前目录下命令行:创建项目:scrapy startproject day0514然后cd day0514 进入当前项目创建爬虫程序:scrapy genspider 程序名 域名scrapy genspider TaoChe taoche.com启动项目:scra...

2019-05-18 10:17:23 774 1

原创 爬虫------动态HTML处理

一、常见的反爬虫技术如果你在一个网站上看到了 jQuery,那么采集这个网站数据的时候要格外小心。jQuery可 以动态地创建 HTML 内容,只有在 JavaScript 代码执行之后才会显示。如果你用传统的方法采集页面内容,就只能获得 JavaScript 代码执行之前页面上的内容。一些网站采取的反爬虫技术,一般包括ajax,DHTML等1、什么是ajax?我们与网站服务器通信...

2019-05-16 20:46:28 2734

原创 Mongodb的安装

一、下载并安装 mongodb软件下载地址:http://dl.mongodb.org/dl/win32/x86_64选择对应的版本,然后进行下载。注:mongodb3.6 版本在安装时会卡住不动,建议大家安装 3.4 版本即可。1、安装过程:2、创建数据库文件的存放位置因为启动 mongodb 服务之前需要必须创建数据库文件的存放文件夹,否则命令不会自动创建,而...

2019-05-14 22:26:51 228

原创 使用time模块直接输入当前时间

程序如下:直接一步到位哦import timep_time = time.strftime("%Y-%m-%d %X", time.localtime())print(p_time)运行结果:

2019-05-14 11:51:05 606

原创 使用scrapy框架对淘车网进行爬取数据

对淘车网各个省份的卖车的列表页和详情页进行数据爬取首先建立一个项目scrapy startproject day0513然后在进入此项目下建立爬虫主程序scrapy genspider taochetaoche.comitems.py文件建立存储的字段# -*- coding: utf-8 -*-# Define here the models for your s...

2019-05-14 09:24:56 602

原创 使用scrapy框架爬取数据

一、环境准备首先我采用anacoda环境,需要首先建造一个项目,并激活建立一个爬虫项目:conda create -n Spider python == 3.6.2conda create -n Spider python == 3.6.2然后激活环境activate Spider再此环境下需要下载scrapy模块和pywin32模块pip install sc...

2019-05-13 23:17:07 4358

原创 采用生产者消费者模式爬取毛豆新车网

代码如下import requestsimport threadingfrom queue import Queueimport timefrom lxml import etree# 生产者线程class Thread_crawl(threading.Thread): def __init__(self,name,crawl_queue): threa...

2019-05-10 14:26:35 273

原创 爬取链家网所有二手房楼盘信息

代码如下:import requestsfrom lxml import etreeimport mathimport timedef request_url(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, li...

2019-05-08 09:55:04 483

原创 爬取征信中国某公司详情页各项

代码如下:import requestsfrom bs4 import BeautifulSoupimport timekeyword = input('请输入要查询的公司名称:')# url = 'https://www.creditchina.gov.cn/xinyongxinxi/index.html?index=0&keyword=%s'%(kewword)head...

2019-05-08 09:53:20 1618

原创 爬取网易云音乐所有歌手名字和链接

采用面向对象的方式代码如下:import requestsfrom lxml import etreefrom urllib import requestimport timeclass WangYiYun: def __init__(self,base_url): # 初始化tree self.html = self.request_url...

2019-05-05 22:57:10 1612

原创 如何避免mysql库中存入数据时出现重复的问题

首先我们在创建表时,需要设置一个字段为唯一索引,也就是说该字段不可重复,首先我们都知道数据库中的id不可重复,但是如果我们将id设置为唯一索引的话,id不会重复,但是无法保证id = 6对应的整条数据 和id =66 的整条数据不重复,也就是说我们需要设置表中的数据内容字段作为唯一索引,我们需要确保该字段不会重复,比如说学生的学号,个人的身份证号码,还有我们爬取的网页链接,一般不可重复...

2019-05-02 23:57:56 2458

原创 如何将爬虫的数据添加到mysql数据库中

以爬取糗事百科中24小时网页中第一列表页中所有文章的内容,作者,搞笑数,评论数为例,将爬取的四项内容存入到mysql数据库中。思路:要想存入到数据库中就需要用到数据库中的表,所以我们首先创建一个名叫‘myblog’的数据库,然后在此数据库中建立一个名叫‘qiushi’的表,可以使用命令符进入mysql数据库,使用mysql语句进行创建。也可以使用Navicat Premium软件直接连接m...

2019-05-02 23:35:23 22324 14

原创 Xpath提取数据

一、什么是Xpath?XML 指可扩展标记语言(EXtensible Markup Language)XML 是一种标记语言,很类似 HTMLXML 的设计宗旨是传输数据,而非显示数据XML 的标签需要我们自行定义。XML 被设计为具有自我描述性。XML 是 W3C 的推荐标准W3School 官方文档:http://www.w3school.com.cn/xml/index.as...

2019-04-29 22:08:01 7190 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除