自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

转载 浅析Python的匿名函数

什么是python函数?学过python的小伙伴会知道,在python中用【def + 函数名+参数】的方式定义函数,即:这样的函数拥有函数名,调用函数只需要:暂且把def定义的函数叫作“有名函数”,那什么是匿名函数呢?顾名思义,这类函数没有显示地定义函数名。匿名函数不需要显示地定义函数名,使用【lambda + 参数 +表达式】的方式,即:也就是说,lambda用来表示匿名函数,可以传入多个参数,但只能有一个表达式。下图可以看出匿名函数的独特之处:比方说,我要写一个函数用于两个数相

2020-12-30 17:17:50 84

转载 Python中的format函数

format函数是一种格式化输出字符串的函数(str.format), 基本语法是通过 {} 和 : 来代替以前的%{ }中可以填写后面元组中的下标{ }也可以填写后面的字段名% 需要知道替换字符的类型,format则不需要用逗号还能做金额的千位分隔符控制数据的精度常跟类型f一起使用格式限定符1)填充与对齐2)填充常跟对齐一起使用3)^、<、>分别是居中、左对齐、右对齐,后面带宽度4):号后面带填充的字符,只能是一个字符,不指定的话默认是用空格填充了解更

2020-12-29 16:59:46 1655

转载 微博数据抓取教学

一 . 介绍微博:(1)网页端:http://http://weibo.com(2)手机端:http://http://m.weibo.cn(3)移动端:http://weibo.cn 以下是三种方式的页面:爬取难度:网页端>手机端>移动端(页面最丑,最好爬)![在这里插入图片描述](https://img-blog.csdnimg.cn/20201229113854675.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdG

2020-12-29 11:45:58 1024

转载 8个超好用的Python内置函数

python中有许多内置函数,不像print那么广为人知,但它们却异常的强大,用好了可以大大提高代码效率。这次来梳理下8个好用的python内置函数。1、set()当需要对一个列表进行去重操作的时候,set()函数就派上用场了。set([iterable])用于创建一个集合,集合里的元素是无序且不重复的。集合对象创建后,还能使用并集、交集、差集功能。2、eval()之前有人问如何用python写一个四则运算器,输入字符串公式,直接产生结果。用eval()来做就很简单:eval(str

2020-12-28 16:56:24 184

转载 Python自定义函数的基本步骤

1、什么是函数函数,其实我们一开始学 Python 的时候就接触过。不过我们使用的大多数都是 Python 的内置函数。而现在,我们主要学习的是自定义函数。各位有没有想过为什么需要函数呢?如果要想回答这个问题,我们需要先了解函数是什么?函数就是组织好的,可重复使用的,用来实现单一,或相关联功能的代码段。没错,函数其实就是把代码抽象出来的代码段。那为什么要抽象出来呢?方便我们使用,方便我们重复使用。函数的本质就是我们把一些数据喂给函数,让他内部消化,然后吐出你想要的东西,至于他怎么消化的,我们不需要

2020-12-25 15:31:23 738

转载 10个常用的python可视化工具

1、matplotlibmatplotlib 是Python可视化程序库的泰斗。经过十几年它任然是Python使用者最常用的画图库。它的设计和在1980年代被设计的商业化程序语言MATLAB非常接近。由于 matplotlib 是第一个 Python 可视化程序库,有许多别的程序库都是建立在它的基础上或者直接调用它。比如pandas和Seaborn就是matplotlib的外包,它们让你能用更少的代码去调用 matplotlib的方法。虽然用 matplotlib 可以很方便的得到数据的大致信息,但

2020-12-24 16:00:38 4463 2

转载 Python数据抓取、处理前的准备

(一)数据抓取概要为什么要学会抓取网络数据?对公司或对自己有价值的数据,80%都不在本地的数据库,它们都散落在广大的网络数据,这些数据通常都伴随着网页的形式呈现,这样的数据我们称为非结构化数据如果我们能想出办法,把这些非结构化的数据转化为结构化的数据,在跟自己的本地数据库做匹配,做交叉分析,让它们关联起来,从而我们就能提炼出我们需要的有价值的数据。如何将非结构化的数据转化为结构化的数据呢?必须通过ETL的方法(数据抽取,转化、存储)(二)抓取的逻辑—ETLETL是什么?ETL是三个英文单词的缩

2020-12-23 17:18:13 208

转载 如何抓取百度地图的坐标信息

百度地图的坐标(经纬度)信息是以明文形式存在于网页源码中的,比较容易获取,下面给出两个实例:实例1:爱房网打开可以看到如下的地图:查看网页源代码可以很容易在地图连接中找到坐标(经纬度)参数,如下图所示:即为 经度:108.99073978065 纬度:34.257264647352。我们可以利用坐标反查系统来检验一下是否正确。实例2:安居客打开可以看到如下的地图:查看网页源代码可以很容易在JS代码中找到坐标(经纬度)参数,如下图所示:即为 经度:108.93978 纬度:34.35

2020-12-22 17:22:01 2343

转载 网页数据抓取之当当网

所谓“网页数据抓取”,也称为网页数据采集,Web数据采集等等,就是从我们平时通过浏览器查看的web网页上来提取需要的数据信息,然后以结构化的方式存储到CSV、JSON、XML、ACCESS、MSSQL、MYSQL等格式的文件或数据库中的过程。当然,这里的数据提取过程,是借助于计算机软件技术来实现的,而不是通过人工的方式手动复制、粘贴来实现的。也正因为如此,才使得从大型网站上采集需要的数据成为可能。下面,就以笔者从当当网上采集数据的过程为例,来具体说一下网页数据抓取的基本过程吧。首先,我们要对目标网站的网

2020-12-21 18:51:53 474

转载 如何将CSV数据导入MySQL

我们要使用的辅助工具是著名的MySQL管理软件:Navicat for MySQL1)我准备了一个字符编码为UTF-8的标准CSV文件,总共有2001条记录(含字段行)。其在OpenOffice中的预览效果如下图所示。2)使用Navicat新建一个数据库(也可以直接导入已存在的库),字符编码选择UTF-8(一定要和CSV使用的字符编码一直,否则导入过程可能会出错或者导入的数据出现乱码)。3)在“表”上点击右键,选择“导入向导”菜单项,如下图所示:4)导入类型选择“文本文件”,如下图所示:下一

2020-12-18 17:51:16 1035 1

转载 使用python进行回归分析

一、概述1.回归:利用样本(已知数据),产生拟合方程,从而对未知数据进行预测2.分类*线性回归:一元线性;多元线性*逻辑回归:实际上预测的是数据X属于分类Y的概率p。逻辑回归公式由 log(p/(1-p))=β0+β1X 推导求得。*非线性回归3.求解回归时需考虑的问题1)样本是否符合正态分布假设?2)误差是否满足独立性、等方差、正态分布等假设条件?3)是否存在离群值导致模型产生较大误差?4.)线性模型是否合理,是否存在拟合不足?5)观察拟合方程,是否存在多重共线性?6)如何选择变量

2020-12-17 17:11:05 3540

转载 python常见问题

第一个问题JS加密如何突破(1) 熟练掌握Chrome的开发者工具的各个功能,Elements, Network,Source(2) 认真观察,善于思考。Network查看加载流程,找可疑的xhr请求,设置xhr断点,通过Call Stack 回溯js执行过程,边回溯边查看上下文代码。能读懂js,知道js的相关知识,比如js里面的window变量。(3) 以上是通过debug js找到js加密解密的代码,然后通过Python重新实现,这个过程很长,可能耗费你几天的时间,一旦网站改变一下j

2020-12-16 18:59:12 77

转载 使用python绘制函数曲线

1.sigmoid曲线sigmoid曲线公式如下,可将值域限定在(0,1),在深度学习目标分类检测中常常用到,可限定坐标范围、分类概率。使用如下python代码可以轻松画出sigmoid曲线:2.sin & cos曲线3.lanczos曲线lanczos曲线常常用在图像插值中,这个算法在放大和缩小中都能较好的抵制锯齿,在插值时,不仅有正的插值系数,也有负的系数,比较适用于自然图像。4.jpeg编码的qp曲线jpeg的quality参数对应DCT变换的量化程度,quali

2020-12-14 19:07:40 6844 1

转载 python的常用函数

print()函数:打印字符串raw_input()函数:从用户键盘捕获字符len()函数:计算字符长度format(12.3654,‘6.2f’/‘0.3%’)函数:实现格式化输出type()函数:查询对象的类型int()函数、float()函数、str()函数等:类型的转化函数id()函数:获取对象的内存地址help()函数:Python的帮助函数s.islower()函数:判断字符小写s.sppace()函数:判断是否为空格str.rep..

2020-12-11 18:49:43 138

转载 如何用python进行数据处理?(二)

在昨天的文章中,我们详细介绍了numpy,那么今天,我们就来详细了解一下它的另一个小伙伴“pandas”吧~pandas是基于numpy构建的,两个主要的数据结构是Series和DataFrame。Series:Series是一种类似一维数组的对象。处理缺失值:删除或者填充DataFrame:DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等),可以看做Series组成的字典(共用一个索引)。那么,进入正题:如何使用

2020-12-10 17:21:55 1756

转载 如何用python进行数据处理?(一)

首先了解使用python进行数据处理常用的两个包:numpy和pandas。numpy最重要的特点就是n维数组对象ndarray是一个快速而灵活的大数据集容器,它是一个通用的同构数据多维容器,即所有的元素必须是相同的类型,每个数组有一个shape(表示维度大小的元组),一个dtype(说明数组数据类型的对象)。1.创建数组常使用的函数有:array,arange例如:array函数:arange函数:注意:python里面左闭右开的原则2.数据类型numpy的数据类型有int/flo

2020-12-09 18:08:52 15655

转载 python获取饿了么销量最高的商品(爬虫)

首先我们目的是获取自己附近饿了么销量最高的商品,那么就要先获取自己附近的商店。然后在把各自商店的商品提取出来。把所有商品整合在一起,排序,就ok了。1.获取附近的饿了么商铺,爬虫的话最重要的是数据源,首先大家先用浏览器打开。我们需要登录饿了么,来获取自己的token。这样才能多次获取数据。然后我们进入美食的list页面,选择销量最高,F12打开控制台。NetWork选项。可以看到接口url是https://h5.ele.me/restapi/shopping/v3/restaurants然后开始

2020-12-08 17:10:46 2235

转载 如何将CSV格式转换为Access格式

如何将CSV文件转为Access格式的,其实Access本身就有文本文件导入功能,可以很方便地将CSV文件导入。下面是示例。在本例中我们将把一个含有7万多条数据的CSV文件转换为Access格式,我们使用的是Access 2007(提示:Access 2003也有相同功能)。如下图所示,是该CSV文件在Openoffice中的预览,该文件的字符编码是UTF-8(在导入之前最好先弄清楚文件的字符编码)。1)新建一个空的Access文件,并打开。2)“外部数据”-》“文本文件”,“文件名”浏览选择我们

2020-12-06 19:06:08 6953

转载 如何突破防采集策略-数据加密

目前常见的Web反采集策略大概有以下几种:1)数据加密;2)限制访问频率;3)数据以非文本形式展现;4)验证码保护;5)Cookie验证;本文主要探讨一下如何突破“数据加密”:反采集策略 - “数据加密”的原理:Web服务器端脚本将HTML文档中的部分数据加密,然后发送给HTTP客户端(浏览器)。浏览器使用JavaScript将密文还原成文明后显示。突破的方法:根据JavaScrip解密算法源码,实现自己采集程序所需还原算法,在接收到服务器应答数据后,先对数据进行解密,然后再进行提取。

2020-12-03 18:13:40 721

转载 使用 Python 简单的爬取网页数据

1.使用 urllib.request 获取网页urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 HTML 解析库, 可以编写出用于采集网络数据的大型爬虫;注: 示例代码使用Python3编写; urllib 是 Python2 中 urllib 和 urllib2 两个库合并而来, Python2 中的 urllib2 对应 Python3中的 urllib.request简单的示例:2. 伪造请求

2020-12-01 18:29:45 816

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除