![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据抓取
文章平均质量分 58
大数据苦行僧—yisurvey123
大数据修行路上的苦行僧,专研大数据的收集、分析和运用多年,期待某一天能够顿悟有所成,了解更多--yisurvey123
展开
-
一键获取指数信息,助力决策未来
指数数据获取原创 2022-09-27 15:25:03 · 133 阅读 · 0 评论 -
一键搞定电子器件商品自动上架,效率大大提升
电商平台自动产品上架原创 2022-09-23 17:59:08 · 601 阅读 · 2 评论 -
Python 爬虫 Scrapy 框架简介
简介:Scrapy是一个快速、开源的web抓取框架,用Python编写,用于从web页面提取数据,基于XPath的选择器。Scrapy于2008年6月26日首次发布,并在2015年6月发布了具有里程碑意义的1.0版本。本文主要是Python 爬虫 Scrapy 框架简介。1、使用Scrapy的好处1)构建和扩展大型爬行项目更容易。2)它有一个内置的机制称为选择器,用于从网站中提取数据。3)它异步处理请求,速度很快。4)它利用自动节流机构自动调整爬行速度。5)确保开发人员的可访问性。2、Scr转载 2022-05-19 16:43:39 · 712 阅读 · 0 评论 -
新生代采集器“易数云”--入门版教学
**背景:**现如今很多白领或学生一族,迫于工作或者学习的压力,经常会需要一些数据作为工作或者学习上的用途。碍于市面上常见的采集器“编写爬虫规则难又或者数据费用高”的压力,很多人望而兴叹。今天我们就为大家带来一款比较容易上手价格又很美丽的采集器规则编写教学。1.“下载注册登录”1)下载地址:http://cloud.yisurvey.com/2)注册登录:登录界面如上图所示登陆成功后我们可以看到有许多当前需求较大的一些免费爬虫模板注册即赠送200免费技分,可以免费导出约2k数据。2.采集数原创 2021-12-30 16:25:35 · 396 阅读 · 0 评论 -
中文数字转阿拉伯数字
import cn2an# 在 strict 模式下,只有严格符合的才可以进行转化output = cn2an.cn2an("一百二十三", "strict")# or output = cn2an.cn2an("一二三")print(output)# 123# 在 normal 模式下,还可以将 一二三 进行转化output = cn2an.cn2an("一二三", "normal")print(output)# 123# 在 smart 模式下,还可以将混合描述的 1百23 进行原创 2021-12-21 15:57:49 · 241 阅读 · 0 评论 -
实用代码--验证码识别
#python版本>=3.8import ddddocrocr = ddddocr.DdddOcr()with open(‘1.png’, ‘rb’) as f:img_bytes = f.read()res = ocr.classification(img_bytes)print(res)原创 2021-11-16 16:29:16 · 379 阅读 · 0 评论 -
代码分享 【正则匹配邮箱】
先获取网页源码html_text = browser.page_source正则匹配网页源码中出现的邮箱emails = re.findall("([a-zA-Z0-9_.±]+@[a-zA-Z0-9-]+.[a-zA-Z0-9-.]+)", html_text)原创 2021-10-19 14:27:28 · 79 阅读 · 0 评论 -
Python 数据类型转换(Casting)
简介:在Python中,将数据由当前类型变化为其他类型的操作。数据类型转换分为两类,分别是自动数据类型转换和强制数据类型转换。自动转换时程序根据运算要求进行的转换,不需要人工干预。强制数据类型转换是根据程序需要,由编写程序人员人为改变数据类型的方式。本文主要介绍Python中,int、float、float、tuple、list、set、dict等类型之间的转换方法,以及相关的示例代码。1、指定变量的类型和转换有时可能想在变量上指定类型。 这可以通过转换完成。 Python是一种面向对象的语言,因此它转载 2021-08-30 15:41:48 · 562 阅读 · 0 评论 -
受教了!让 Python 代码简洁的7个实用技巧!
众所周知,编写 Python 代码在开始时十分容易,但随着你在工具包中添加更多的库,你的脚本可能会有不必要的代码行,变得冗长而混乱。可能短期内能够应付工作,但长期来看,麻烦不小。在这篇文章中,我将与你分享7个技巧,使你在使用 Python 进行数据科学时更加简洁。这涵盖了我们日常所做的事情,例如修改Pandas数据框中的值,连接字符串,读取文件等操作!欢迎收藏学习,喜欢关注、点赞。1. 使用Lambda来修改Pandas数据框中的值假设我们有以下df数据框:data = [[1,2,3], [4,5转载 2021-08-26 18:25:10 · 132 阅读 · 0 评论 -
Python 编写代码语法
简介:本文主要介绍Python代码编写相关的语法规则,包括执行代码的方法,Python代码的缩进,和Python中声明变量,以及相关示例。1、执行Python代码正如我们在上一页中学到的,可以通过直接在命令行中编写代码来执行Python语法:>>> print("Hello, World!")Hello, World!或通过使用.py文件扩展名在服务器上创建python文件,然后在命令行中运行它:C:\Users\cjavapy>python myfile.py2转载 2021-08-25 16:46:10 · 399 阅读 · 0 评论 -
Python 条件语句(If else)
简介:Python if条件语句是通过一条或多条语句的执行结果(True 或者 False)来决定执行的代码块。本文主要介绍一下Python中if条件语句使用。1、Python If条件语句Python支持数学中常见的逻辑条件:等于: a == b不等于: a != b小于: a < b小于等于: a <= b大于: a > b大于等于: a >= b这些条件可以几种方式使用,最常见的是在 “if语句” 和循环中使用。使用if关键字编写“if语句”。例如:转载 2021-08-24 15:54:02 · 6162 阅读 · 0 评论 -
Python math.comb() 方法
简介:Python中的Math库包含许多数学运算,可以使用该模块轻松执行。math.comb()Python中的method方法用于获取从n个项目中选择k个项目(不重复且无顺序)的方法数量。它本质上评估为n! /(k! *(n-k)! )它也被称为二项式系数,因为它等效于表达式(1 + x)的多项式展开中的k-th项的系数n。此方法是Python版本3.8中的新增功能。本文主要介绍Python math.comb() 方法的使用,以及相关示例代码。Python math.comb() 方法例如:找出转载 2021-08-19 14:19:56 · 5366 阅读 · 0 评论 -
Python pandas read_csv 中NULL当成NaN类型问题
简介:本文主要介绍Python中,使用pandas的read_csv方法读取数据时,NULL被当成数字类型(NaN)问题,以及相关示例代码。1、使用read_csv读取数据null显示NaNimport pandas as pdfrom io import StringIOdata = u'strings,numbers\nfoo,1\nbar,2\nnull,3'print(pd.read_csv(StringIO(data)))输出: strings numbers0 f转载 2021-08-17 16:10:40 · 1294 阅读 · 0 评论 -
Python 迭代器(Iterator)
简介:什么是迭代器?它是一个带状态的对象,在你调用next()方法的时候返回容器中的下一个值,任何实现了__iter__和__next__()(python2中实现next())方法的对象都是迭代器,__iter__返回迭代器自身,__next__返回容器中的下一个值,如果容器中没有更多元素了,则抛出StopIteration异常。可迭代对象实现了__iter__方法,该方法返回一个迭代器对象,本文主要介绍一下Python中迭代器(Iterator)。1、Python 迭代器(Iterator)迭代器转载 2021-08-03 16:19:23 · 304 阅读 · 0 评论 -
干就行!大牛给初学者推荐的10个Python经典案例
简介:Python是一种高级,解释性,交互式且面向对象的脚本语言。Python的设计具有很高的可读性。它使用英语作为关键字,相对于而其他语言则使用标点符号作为语句结束不同,是依靠缩进作为结束。并且其语法结构比其他语言精简。Python是Web开发,游戏开发,数据分析和机器学习中广泛使用的编程语言。本文将帮助您了解一些可以使用Python创建的标准和令人兴奋的项目。您将了解制作游戏,从Web上抓取数据以及构建机器学习模型来解决业务问题。因此,事不宜迟,让我们开始吧。我们将介绍十个最受欢迎的Python转载 2021-07-30 16:01:13 · 327 阅读 · 0 评论 -
淘宝、天猫评论如何抓取?
一、原理以天猫为例首先在浏览器地址栏中输入https://www.tmall.com/打开天猫商城,任意检索某一商品,以手机为例,搜索结果如下图所示:任意点开其中的某个商品:我们直奔主题找到红框范围内的:累计评价到了这一步之后我们可以清楚地在网页上查看到我们需要的信息,即评论数据。那我们需要怎么抓取呢?复制粘贴吗?二:工具这里我们需要用到的工具是易数云的采集器。我们可以看到采集器工具上还是蛮多免费可用的模板的,像一些房产类的模板,电商类的模板等等。淘宝商品评论我们也能在模板是找到,打原创 2021-07-19 16:08:18 · 3146 阅读 · 0 评论 -
Python 数学函数模块(Math)
简介:Python具有一组内置的数学函数,包括一个扩展的数学模块,可让您对数字执行数学任务。Python math模块中定义了一些数学函数。由于这个模块属于编译系统自带,因此它可以被无条件调用。该模块还提供了与用标准C定义的数学函数的接口。本文主要介绍Python 数学函数模块(Math),以及相关示例代码。1、内置的数学函数min()和max()函数可用于查找可迭代的最小值或最大值:例如:x = min(5, 10, 25)y = max(5, 10, 25)print(x)print(转载 2021-07-15 15:37:40 · 2050 阅读 · 0 评论 -
python:王思聪究竟上了多少次热搜?
前言文章的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。作者: 朱小五 凹凸玩数据王思聪又又又上了微博热搜——然而这次却不是关于娱乐圈。最近几天,王思聪与他的“限消令”接连登上热搜榜,引发吃瓜群众们广泛热议。段子手们也纷纷发挥自己的想象力。小五本来想看看王思聪的微博,结果发现他的微博早已做了隐藏。那么我们不妨干脆转换一下思路,从微博热搜看看“娱乐圈纪检委”——王校长的热搜往事。获取数据【热搜神器】网站,统计了历史的微博热转载 2021-07-06 14:53:37 · 141 阅读 · 0 评论 -
Python 正则表达式(RegEx)
简介:RegEx或正则表达式是形成搜索模式的一系列字符。正则表达式可用于检查字符串是否包含指定的搜索模式。也可以进行字符串的替换和提取。本文主要介绍Python正则表达式(RegEx)。1、re模块(Module)Python有一个名为re的内置包,它可用于处理正则表达式。导入re模块:import re2、Python中正则表达式(RegEx)导入re模块后,可以开始使用正则表达式:例如:搜索字符串以查看它是否以"The"开头并以"cjavapy"结尾:import retxt转载 2021-07-05 17:59:44 · 369 阅读 · 0 评论 -
Python 面向对象的继承
简介:在OOP(Object Oriented Programming)程序设计中,当我们定义一个class的时候,可以从某个现有的class 继承,新的class称为子类(Subclass),而被继承的class称为基类、父类或超类(Base class、Super class)。本文主要介绍Python中面向对象的继承。1、Python 继承(Inheritance)继承允许我们定义一个类,该类继承另一个类的所有方法和属性。父类是从其继承的类,也称为基类。子类是从另一个类(也称为派生类)继承的转载 2021-06-29 15:07:06 · 209 阅读 · 0 评论 -
Python File文件处理 读取文件(read)
简介:文件处理是任何Web应用程序的重要组成部分。Python具有创建,读取,更新和删除文件的几种功能。本文主要介绍Python中打开一个文件读取文件中数据的方法。1、打开一个文件读取数据假设我们有以下文件,位于与Python相同的文件夹中:demofile.txtHello! Welcome to demofile.txtThis file is for testing purposes.www.cjavapy.com要打开文件,请使用内置的open()函数。open()函数返回一个文转载 2021-06-28 16:22:41 · 2574 阅读 · 0 评论 -
电商数据爬虫监控
目前我们公司开展了数据爬虫监控的模块,可以长期的去爬取网站的数据,由于已经是开发完善的,不需要支付额外的工具开发费用,如近期有需要长期网站数据,可以了解一下了解更多分析及数据抓取可查看:http://cloud.yisurvey.com:9081/html/bfd0c1a1-ea90-4ed6-9a2c-1da4cd72391c.html...原创 2021-06-23 16:28:55 · 191 阅读 · 0 评论 -
Python File文件处理 删除文件(remove)
简介:文件处理是任何Web应用程序的重要组成部分。Python具有创建,读取,更新和删除文件的几种功能。本文主要介绍Python中删除文件和文件夹的方法。1、删除文件要删除文件,必须导入OS模块并运行其os.remove()函数:例如:删除文件“demofile.txt”:import osos.remove("demofile.txt")2、判断文件是否存在为避免出现错误,您可能想要在尝试删除文件之前检查文件是否存在:例如:检查文件是否存在,然后将其删除:import osif转载 2021-06-21 17:15:10 · 1980 阅读 · 0 评论 -
Python Lambda表达式
简介:Lambda函数是一个小的匿名函数。Lambda函数可以接受任意数量的参数,但只能具有一个表达式。1、语法lambda arguments : expression执行该表达式并返回结果:例如:在参数a上添加10,然后返回结果:x = lambda a : a + 10print(x(5))Lambda函数可以接受任意数量的参数:例如:将参数a与参数b相乘,并返回结果:x = lambda a, b : a * bprint(x(5, 6))例如:汇总参数a,b和c转载 2021-06-16 18:16:40 · 198 阅读 · 0 评论 -
Python for循环语句
简介:Python for循环可以遍历任何序列的项目,如一个列表或者一个字符串。本文主要介绍一下Python中,for循环语句的使用。1、Python for循环for循环用于遍历一个序列(列表,元组,字典,集合或字符串)。这不太像其他编程语言中的for关键字,而更像其他面向对象编程语言中的迭代器方法那样工作。使用for循环,我们可以执行语句,对列表,元组,集合等中的每个项目执行一次。例如:打印输出列表:langs = ["c", "java", "python","cjavapy"]fo转载 2021-05-26 17:23:01 · 34114 阅读 · 3 评论 -
Python 类和对象
简介:Python从设计之初就已经是一门面向对象的语言,正因为如此,在Python中创建一个类和对象是很容易的。本章节我们将详细介绍Python的面向对象编程。如果你以前没有接触过面向对象的编程语言,那你可能需要先了解一些面向对象语言的一些基本特征,在头脑里头形成一个基本的面向对象的概念,这样有助于你更容易的学习Python的面向对象编程。1、Python 类和对象Python是一种面向对象的编程语言。Python中的几乎所有东西都是对象,包括其属性和方法。2、定义类要创建一个类,请使用关键字c转载 2021-05-25 15:25:26 · 101 阅读 · 0 评论 -
Python 作用域(scope)
简介:变量仅在创建区域内可用。 这称为作用域(scope)。本主主要介绍一下Python中的作用域(scope)。1、局部作用域(Local Scope)在函数内部创建的变量属于该函数的本地范围作用域(scope),并且只能在该函数内部使用。例如:在函数内部创建的变量在函数内部可用:def myfunc(): x = 300 print(x)myfunc()函数内部函数如以上示例中所述,变量x在函数外部不可用,但对于函数内部的任何函数均可用:例如:可以从函数内的一个转载 2021-05-24 15:14:29 · 630 阅读 · 0 评论 -
Python 数据类型
简介:本文主要介绍Python中的数据类型,包括内置数据类型、获取数据类型、设置数据类型、设置特定的数据类型,以及相关的示例代码1、内置数据类型使用变量存储数据时,为了更充分利用内存空间,我们可以为变量指定不同的数据类型。并且不同类型可以执行不同的操作。Python默认具有以下内置数据类型:字符串类型:str数值类型: int,float, complex序列类型: list,tuple, range映射类型: dict集合类型: set, frozenset布尔值类型: bool二进制转载 2021-05-20 16:05:01 · 278 阅读 · 0 评论 -
基于arcpy实现导出区域内网格中心坐标功能
在进行数据采集的时候经常会用到基于“周边检索”结果的采集:就是利用平台(网站或APP)提供的"附近"检索功能,搜索"某个位置"周边“X千米”范围内的某类信息(例如POI),然后采集搜索出来的结果。这里的“某个位置”就是搜索圆形区域的圆心(搜索中心点),“X千米”指的是搜索半径。这个搜索中心点的选取至关重要。因为如果选的少了会因为区域覆盖不全导致数据遗漏,选的太多(密)了,会增加搜索次数,影响采集效率。所以如何合理的选择搜索中心点很重要。例如,我们在采集"北京市房山区"内POI信息的时候就曾遇到过这样的问题转载 2021-05-19 18:12:05 · 316 阅读 · 1 评论 -
Python 多行注释
简介:注释是对一段代码的解释和说明,可提高程序代码的可读性,让人们能够更加轻松地了解代码,尤其在大型项目开发和团队项目中,注释是必不可少的。注释了测试代码就以阻止执行。本文主要介绍Python 多行注释。1、多行注释Python没有多行注释的语法。Python中多行注释使用三个单引号(’’’)或者三个双引号(""")来标记,而实际上这是多行字符串的书写方式,并不是Python本身提倡的多行注释方法。要添加多行注释,可以为每行插入#:例如:#单行注释#注释内容#多个单行注释print("He转载 2021-05-18 15:40:13 · 4474 阅读 · 0 评论 -
Python 代码缩进
简介:缩进是指代码行开头的空格。在其他编程语言中,代码中的缩进仅出于可读性考虑,而Python中的缩进非常重要。Python使用缩进来指示代码块。Python 常用术语例如:if 7 > 2: print("cjavapy")如果跳过缩进,Python会引发一个错误:例如:调用语法错误:if 8 > 2:print("cjavapy")空格数量由程序员自己决定,但必须至少一个。例如:if 3 > 2: print("cjavapy")if 4 >转载 2021-05-17 17:16:48 · 343 阅读 · 0 评论 -
Python 布尔值(Booleans)
简介Python中布尔值(Booleans)表示以下两个值之一:True或False。本文主要介绍布尔值(Booleans)的使用,和使用时需要注意的地方,以及相关的示例代码。1、布尔值(Booleans)在编程中,通常需要知道表达式是True还是False。可以执行Python中的任何表达式,并获得两个值之一,True或False。比较两个值时,将对表达式求值,Python返回布尔值:例如:print(11 > 9)print(12 == 9)print(13 < 9)在转载 2021-05-14 14:09:31 · 11525 阅读 · 0 评论 -
Python 字典(dict)
简介:字典是另一种可变容器模型,且可存储任意类型对象。字典的每个键值 key=>value 对用冒号 : 分割,每个对之间用逗号(,)分割。本文主要介绍一下Python 字典(dict)的使用1、字典(dict)字典是无序,可变和索引的集合。 在Python中,字典用大括号括起来,并且具有键和值。例如:创建并打印字典:thisdict = {"name": "cjavapy","age": 3,"gender": "man"}print(thisdict)2、访问字典里的值可转载 2021-05-07 11:54:33 · 512 阅读 · 0 评论 -
Python JSON
系列文章目录1、Python中JSONPython有一个json的内置程序包,可用于处理JSON数据。例如:导入json模块:import json2、解析JSON—从JSON转换为Python对象如果有JSON字符串,则可以使用json.loads()方法进行解析。结果将是一个Python字典。例如:从JSON转换为Python:import jsonx = '{ "name":"cjavapy", "age":3, "city":"china"}'# 解析 x:y =转载 2021-04-29 17:22:06 · 108 阅读 · 0 评论