自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 Week8.5:python项目

pyecharts 是一个用于生成 Echarts 图表的类库。Echarts 是百度开源的一个数据可视化 JS 库。用 Echarts 生成的图可视化效果非常棒,为了与 Python 进行对接,方便在 Python 中直接使用数据生成图。python操作excel主要用到xlrd和xlwt这两个库,即xlrd是读excel,xlwt是写excel的库。读取Excel数据及显示。......

2022-08-31 20:31:13 325 1

原创 Week8.4: Python爬虫项目

3. sqlite3.OperationalError:table test already exists #解决办法是删除之前运行的movie.db。这里不知道什么原因一直报错,以上代码仍然出现报错。总结: 今天半天都在改bug!七、将数据保存在数据库中。希望有人能指出错误!...

2022-08-27 21:10:25 383

原创 Week8.3: Python爬虫项目

t_list = bs.select(".mnav~.bri") #找到与manv同级的bri(通过兄弟标签来查找)# t_list = bs.select("head>title") #通过子标签来查找。# t_list = bs.select(".mnav") #通过类名查找。# t_list = bs.select("#u1") #通过id查找。3.1 对爬取的HTML文件进行解析。3.1.2 逐一解析,提取数据。4.1 Excel保存数据。...

2022-08-25 17:02:25 270

原创 Week8.2: Python爬虫项目

(abc)表示abc,(abc|def)表示abc、def。利用正则表达式来检索html文本中所需要的信息。3.1 对爬取的HTML文件进行解析。3.1.1 制定解析规则。

2022-08-23 16:38:24 268

原创 Week8.1: Python爬虫项目

模块:用来从逻辑上组织Python代码(变量,函数,类),本质就是py文件,提高代码的可维护性。借助网页开发者工具来分析网页,在Elements下找到需要的数据位置。因为豆瓣有反爬机制,所以需要伪装:User-Agent中间不要留空。获取数据——解析内容——保存数据。1.4 测试是否可以获取网页。1.3 设计流程。

2022-08-23 15:39:58 128

原创 暑期学习计划:week7.5-python-Django

然后使用功能BASE_DIR进行配置,使用拼接,使用拼接的原因是,防止项目换个目录,而导致模版找不到,从而导致各种错误。(3)有多个应用时,防止模版为不混淆,可以在templates下面创建每个应用的文件夹。在模版文件的某个应用的模版文件夹下面创建模版,即html。1、模版文件的使用 - 模版不仅仅是一个html文件。(4) 使用模版文件。...

2022-08-14 21:14:14 134

原创 暑期学习计划:week7.4-Django

2)自建管理员:python manage.py createsuperuser。(3)注册模型类:admin.sit.register(BookInfo)(1)本地化:语言和地区的本地化 修改settings.py文件。一、建立图书类和英雄人物之间的一对多关系。2、生成迁移文件,在迁移生成表。...

2022-08-14 21:06:05 116

原创 暑期学习计划:week7.3-Django

3.通过类模型操作数据表。进入shell的命令。

2022-08-14 20:53:30 219

原创 假期学习计划:week7.2-Django

当建立应用和项目之间的联系之后,需要对应用进行注册,接着需要修改settings.py中的INSTALLED_APPS配置项。二级子目录mywebsite下的名称成为Django项目的配置文件,他们在创建项目的时候自动生成。views.py:接收请求,进行处理,与M与T进行交互,返回应答,定义处理函数,视图函数。models.py:写和数据库项目的内容。admin.py:网站后台管理相关的文件。test.py:写测试代码的文件。(2).建立应用和项目之间的联系。(1).关于应用的基本内容。...

2022-08-14 20:42:15 163

原创 暑期学习计划:week7.1-python爬虫

Django 是用 Python 开发的一个免费开源的 Web 框架,可以用于快速搭建高性能、优雅的网站,Django 提供了许多网站后台开发经常用到的模块,使开发者能够专注于业务部分。(3).Django的也可以选择其他端口来启用,比如你想在你的计算机启动多个Django项目。V:View视图,和MVC和C功能相同,接收请求,进行处理,与M和T进行交互,返回应答。C:Controller,控制器接收请求,进行处理,与M和V进行交互,返回应答。M:Model模型,和MVC和M功能相同,和数据库进行交互。..

2022-08-14 20:31:21 173

原创 暑假学习计划:week6.5-python爬虫

保存为本地文件: filename = word + '.html'三、函数式编程修改程序:定义相应的函数,更简洁编写代码。创建请求对象-Request。获取响应对象-urlopen。获取响应内容-read。

2022-08-07 20:53:54 128

原创 暑假学习计划:week6.4-python爬虫

python没有安装requests模块,可以在cmd窗口通过:pip install requests 语句进行安装,用来爬取网页内容。安装BeautifulSoup库 :pip install BeautifulSoup4。1.安装requests库。

2022-08-07 20:43:49 115

原创 暑假学习计划:week6.3-python爬虫

一、导入包 二、定义一个获取指定页码内数据的方法三、得到的内容列表 四、获取内容页的url,选择抓取的标题、发布时间以及新闻发布的内容,在抓取正文之前要先分析一下正文的html页面,找到正文、作者、来源在html文档中的位置。文章来源在文档中的位置为:id = "ne_article_source" 的 a 标签。作者位置为:class = "ep-editor" 的 span 标签。正文位置为:class = "post_text" 的 div 标签。 五、爬虫代码六、结果...

2022-08-07 20:33:14 159

原创 暑假学习计划:week6.2-Python爬虫案例

1.defgetHTMLText(url):(1).try…except语句这里用到了try except语句,其实这个语句的实现和if else差不多,一般使用其实现异常处理机制从而控制用户输入的常用方法。try:except : #如果在try部份引发了名为’name’的异常,则执行这段代码else: #如果没有异常发生,则执行这段代码(2)res = requests.get(url,headers=headers)向网站发起请求,并获取响应对象参数:url :...

2022-08-06 21:05:51 65

原创 暑假学习计划:week6.1-Python爬虫案例

1、发起请求:通过HTTP库向目标站点发起请求,也就是发起一个request,请求可以包含额外的header等信息,等待服务器响应。2、获取响应内容:如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTML,Json字符串,二进制数据(图片或者视频)等类型3.解析内容:得到的内容可能是HTML,可以用正则表达式,页面解析库进行解析,可能是Json,可以直接转换为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理4.保存数据:保存形式多样,

2022-08-06 20:55:26 190

原创 暑期学习计划:week5.5-Scrapy

pycharm断点调试在根路径下新建文件main.py,内容如下修改下爬虫名称即可。

2022-07-31 22:30:21 143

原创 暑期学习计划:week5.4-Scrapy

不适合处理数据量较大的情况,一个好的方式是采用多线程的方法,这里的多线程是基于方法的多线程,并不是通过创建Thread对象来实现,是在一个方法中,一次性把请求交给调度器。Field方法实际上的做法是创建一个字典,给字典添加一个建,暂时不赋值,等待提取数据后再赋值。修改三项内容,第一个是不遵循机器人协议,第二个是下载间隙,由于下面的程序要下载多个页面,所以需要给一个间隙(不给也可以,只是很容易被侦测到),第三个是请求头,添加一个User-Agent,第四个是打开一个管道。3、确认要提取的数据,item项。..

2022-07-31 20:33:06 46

原创 暑期学习计划:week5.3-Scrapy

Scrapy框架主要由五大组件组成,它们分别是调度器(Scheduler)、下载器(Downloader)、爬虫(Spider)和实体管道(ItemPipeline)、Scrapy引擎(ScrapyEngine)。Scrapy的下载器代码不会太复杂,但效率高,主要的原因是Scrapy下载器是建立在twisted这个高效的异步模型上的(其实整个框架都在建立在这个模型上的)。用户定制自己的爬虫(通过定制正则表达式等语法),用于从特定的网页中提取自己需要的信息,即所谓的实体(Item)。...

2022-07-31 20:19:25 64

原创 暑期学习计划:week5.2-BeautifulSoup4

find()将返回符合条件的第一个Tag,有时我们只需要或一个Tag时,我们就可以用到find()方法了。当然了,也可以使用find_all()方法,传入一个limit=1,然后再取出第一个值也是可以的,不过未免繁琐。可以传入一个limit参数来限制返回的数量,当搜索出的数据量为5,而设置了limit=2时,此时只会返回前2个数据。2.7、兄弟节点标签查找。2.1、通过标签名查找。2.6、直接子标签查找。2.2、通过类名查找。2.3、通过id查找。...

2022-07-31 20:09:22 44

原创 暑期学习计划:week5.1-BeautifulSoup4

通过text参数可以搜索文档中的字符串内容,与name参数的可选值一样,text参数接受字符串,正则表达式,列表。正则表达式过滤如果传入的是正则表达式,那么BeautifulSoup4会通过search()来匹配内容。列表过滤如果传入一个列表,BeautifulSoup4将会与列表中的任意元素匹配到的节点返回。并不是所有的属性都可以使用上面这种方式进行搜索,比如HTML的data-*属性。当搜索text中的一些特殊属性时,同样也可以传入一个方法来达到目的。方法传入一个方法,根据方法来匹配。...

2022-07-31 19:59:52 108

原创 暑期学习计划:week4.5-BeautifulSoup4

5.12、.previous_element获取解析过程中上一个被解析的对象(字符串或tag),可能与previous_sibling相同,但通常是不一样的。5.8、.previous_sibling获取当前Tag的上一个节点,属性通常是字符串或空白,真实结果是当前标签与上一个标签之间的顿号和换行符。5.9、.next_sibling获取当前Tag的下一个节点,属性通常是字符串或空白,真是结果是当前标签与下一个标签之间的顿号与换行符。5.3、.descendants获取Tag的所有子孙节点。......

2022-07-24 21:15:41 73

原创 暑期学习计划:week4.4-BeautifulSoup

可以利用soup加标签名轻松地获取这些标签的内容,这些对象的类型是bs4.element.Tag。但是注意,它查找的是在所有内容中的第一个符合要求的标签。#获取title标签的所有内容。#获取head标签的所有内容。#获取第一个a标签的所有内容。...

2022-07-24 21:01:51 55

原创 暑期学习计划:week4.3-requests

一、获取cookle。

2022-07-24 20:50:08 63

原创 暑期学习计划:week4.2-requests

而成功调用response.json()并不意味着响应的成功。有的服务器会在失败的响应中包含一个JSON对象(比如HTTP500的错误细节)。这种JSON会被解码返回。要检查请求是否成功,请使用r.raise_for_status()或者检查response.status_code是否和你的期望相同。同添加headers方法,代理参数也要是一个dict,这里使用requests库爬取了IP代理网站的IP与端口和类型。二、保存一个二进制文件。三、添加heads信息。...

2022-07-24 20:29:54 32

原创 暑期学习计划:week4.1-requests

requests是一个很实用的PythonHTTP客户端库,爬虫和测试服务器响应数据时经常会用到,requests是Python语言的第三方的库,专门用于发送HTTP请求,使用起来比urllib简洁很多。安装完成后import一下,正常则说明可以开始使用了。用pip进行第三方库的安装。一、Requests介绍。......

2022-07-21 23:23:07 185

原创 暑期学习计划Week3.5:python基础学习

>>my_list=[123,3.14,'小甲鱼',['anotherlist']]data表示想要存储的数据元素,file表示要将数据存储到的目标文件。#必须使用‘wb’的形式打开文件,以二进制的形式写入。pickle的实质就是将数据对象以二进制的形式存储。注意在存储过程中,必须要以‘wb’的形式打开文件。#必须以‘rb’形式打开pickle_file。在读取数据时,必须使用‘rb’的形式打开文件。#列表中的数据元素写入pickle_file。读取unpickling。...

2022-07-17 21:55:02 46

原创 暑期学习计划Week3.4:Python基础学习

1、定义简单类在类的封装内部,self标识当前调用方法的对象自己。在方法内,可以通过self,访问对象的属性,或调用其他的对象方法2、初始化方法为对象在内存中分配空间——创建对象为对象的属性设置初始值——初始化方法(init)这个初始化方法就是__init__,是对象的内置方法,专门用来定义一个类具有哪些属性的方法。使用类名()创建对象时,会自动调用初始化方法。把希望设置的属性值,定义成__init__方法的参数在方法内使用如下代码接收外部传递的参数。...

2022-07-17 21:36:27 65

原创 暑期学习计划Week3.3:python基础学习

错误一般指程序运行时遇到的硬件或操作系统的错误,如内存溢出、不能读取硬盘分区、硬件驱动错误等。这是致命的,将导致程序无法运行,同时也是程序本身不能处理的。异常即一个事件,在程序执行过程中发生,影响程序的正常执行,有些是由拼写、配置、选项等引起的程序错误,有些是有序逻辑不完善引发的BUG,这些都是异常.异常指在运行环境正常的情况下遇到的运行时错误。异常是非致命的,但也会导致程序的非正常终止。python可以捕获和处理异常。...

2022-07-17 21:06:30 33

原创 数据分析暑期学习计划:Week3.2-Python基础学习

定义一个函数的时候,假如需要传入的参数的个数是不确定的。收集参数即只需要指定一个参数,然后允许调用函数时传入任意数量的参数。定义收集参数在形参的前面加上(*)来表示。如果在收集参数后面还需要指定其他参数,那么在调用函数的时候就应该使用关键参数来指定后面的参数。除了可以将多个参数打包为元组,收集参数还可以将其打包为字典(**)...

2022-07-16 22:21:01 80

原创 数据分析暑期学习计划:Week3.1-Python基础学习

集合具有随机性,不能使用下标索引的方式访问集合中每个元素是唯一的。

2022-07-15 15:29:54 132

原创 数据分析暑期学习计划:Week2.5-Python基础学习-字符串

1.格式化字符串在字符串中,格式化字符串的套路就是使用一对花括号({})来表示替换字段。在花括号里,可以写上数字,表示参数的位置。 同一个索引值可以被多次引用2.对齐3.

2022-07-10 18:37:24 347

原创 数据分析暑期学习计划:Week2.4-Python基础学习

1.列表的加法和乘法列表的加法也是拼接,要求+号两边都是列表。 列表的乘法,就是重复列表内部的所有元素若干次。2.元组元组和列表的异同异:同:3.浅拷贝和深拷贝浅拷贝:利用列表的copy()方法或者切片来实现,可以用于处理一维列表,对于嵌套列表的拷贝,只能拷贝第一层数据,其余拷贝其引用。深拷贝:利用copy模块的deepcopy()函数来实现,可以拷贝多维列表。 4.列表推导式 [expression for target in iterable]...

2022-07-10 17:40:32 391

原创 数据分析暑期学习计划:Week2.3-Python基础学习-列表

1.创建列表2.访问列表 3.列表切片 4. 列表中支持的方法5.添加数据6.删除数据 7.修改数据8.排序9.查找

2022-07-10 15:43:33 190

原创 数据分析暑期学习计划:Week2.2-Python基础学习

1.2.1 单分支结构 if(条件表达式): 语句1.2.2 双分支结构if(条件表达式) 语句else: 语句1.2.3 多分支结构if (条件表达式): 语句elif(条件表达式): 语句elif(条件表达式): 语句 .... else: 语句 1.2.4 分支结构的嵌套if(条件表达式1): if(条件表达式11): 语句1 else: 语

2022-07-09 19:27:17 76

原创 数据分析暑期学习计划:Week2.1-Python基础学习

由于之前已经安装配置好了python,并且有一定基础,所以第一周先对python基础知识大概复习一遍。通常由字母、数字、下划线组成,不能以数字开头。变量名=字面量或表达式Python有三种不同的数字类型:整数、浮点数、复数。1.2.1 整数(int())1.2.2 浮点数(float())浮点数在计算机中的存储存在“误差”: 解决方法:导入decimal模块。 1.2.3 复数(complex()) 1.3.1 布尔运算(bool())布尔类型的值只有两个:True和False。使用bool()函数可以直接

2022-07-08 22:55:41 113

原创 数据分析就业规划

一、就业市场调查报告调查岗位:数据分析工作内容:负责运营相关数据分析;协助运营人员制定数据分析策略;为日常运营提供数据支持;协助推动闭环;数据提取、清洗;搭建指标体系。技能要求:前端:数据分析(Excel、Python)、数据展现(PowerBI / FineBI / Tableau)、数据应用。后端:数据采集、数据存储(Hadoop集群/Spark等组件、Java、Shell等脚本语言、Linux系统的知识储备和能力)、常用提取工具(SQL)、数据挖掘。用人单位类型:数据分析的工作岗位有很

2022-07-02 13:28:05 498 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除