想象者猪-CSDN博客

原创 Week8.5:python项目

pyecharts 是一个用于生成 Echarts 图表的类库。Echarts 是百度开源的一个数据可视化 JS 库。用 Echarts 生成的图可视化效果非常棒，为了与 Python 进行对接，方便在 Python 中直接使用数据生成图。python操作excel主要用到xlrd和xlwt这两个库，即xlrd是读excel，xlwt是写excel的库。读取Excel数据及显示。......

2022-08-31 20:31:13 325 1

原创 Week8.4: Python爬虫项目

3. sqlite3.OperationalError:table test already exists #解决办法是删除之前运行的movie.db。这里不知道什么原因一直报错，以上代码仍然出现报错。总结：今天半天都在改bug！七、将数据保存在数据库中。希望有人能指出错误！...

2022-08-27 21:10:25 383

t_list = bs.select(".mnav~.bri") #找到与manv同级的bri（通过兄弟标签来查找）# t_list = bs.select("head>title") #通过子标签来查找。# t_list = bs.select(".mnav") #通过类名查找。# t_list = bs.select("#u1") #通过id查找。3.1 对爬取的HTML文件进行解析。3.1.2 逐一解析，提取数据。4.1 Excel保存数据。...

2022-08-25 17:02:25 270

原创 Week8.2: Python爬虫项目

（abc)表示abc,(abc|def）表示abc、def。利用正则表达式来检索html文本中所需要的信息。3.1 对爬取的HTML文件进行解析。3.1.1 制定解析规则。

2022-08-23 16:38:24 268

原创 Week8.1: Python爬虫项目

模块：用来从逻辑上组织Python代码（变量，函数，类），本质就是py文件，提高代码的可维护性。借助网页开发者工具来分析网页，在Elements下找到需要的数据位置。因为豆瓣有反爬机制，所以需要伪装：User-Agent中间不要留空。获取数据——解析内容——保存数据。1.4 测试是否可以获取网页。1.3 设计流程。

2022-08-23 15:39:58 128

原创暑期学习计划：week7.5-python-Django

然后使用功能BASE_DIR进行配置，使用拼接，使用拼接的原因是，防止项目换个目录，而导致模版找不到，从而导致各种错误。（3）有多个应用时，防止模版为不混淆，可以在templates下面创建每个应用的文件夹。在模版文件的某个应用的模版文件夹下面创建模版，即html。1、模版文件的使用 - 模版不仅仅是一个html文件。（4）使用模版文件。...

2022-08-14 21:14:14 134

原创暑期学习计划：week7.4-Django

2）自建管理员：python manage.py createsuperuser。（3）注册模型类：admin.sit.register(BookInfo)（1）本地化：语言和地区的本地化修改settings.py文件。一、建立图书类和英雄人物之间的一对多关系。2、生成迁移文件，在迁移生成表。...

2022-08-14 21:06:05 116

原创暑期学习计划：week7.3-Django

3.通过类模型操作数据表。进入shell的命令。

2022-08-14 20:53:30 219

原创假期学习计划：week7.2-Django

当建立应用和项目之间的联系之后，需要对应用进行注册，接着需要修改settings.py中的INSTALLED_APPS配置项。二级子目录mywebsite下的名称成为Django项目的配置文件，他们在创建项目的时候自动生成。views.py:接收请求，进行处理，与M与T进行交互，返回应答，定义处理函数，视图函数。models.py：写和数据库项目的内容。admin.py:网站后台管理相关的文件。test.py:写测试代码的文件。(2).建立应用和项目之间的联系。(1).关于应用的基本内容。...

2022-08-14 20:42:15 163

原创暑期学习计划：week7.1-python爬虫

Django 是用 Python 开发的一个免费开源的 Web 框架，可以用于快速搭建高性能、优雅的网站，Django 提供了许多网站后台开发经常用到的模块，使开发者能够专注于业务部分。（3）.Django的也可以选择其他端口来启用，比如你想在你的计算机启动多个Django项目。V：View视图，和MVC和C功能相同，接收请求，进行处理，与M和T进行交互，返回应答。C：Controller，控制器接收请求，进行处理，与M和V进行交互，返回应答。M：Model模型，和MVC和M功能相同，和数据库进行交互。..

2022-08-14 20:31:21 173

原创暑假学习计划：week6.5-python爬虫

保存为本地文件： filename = word + '.html'三、函数式编程修改程序：定义相应的函数，更简洁编写代码。创建请求对象-Request。获取响应对象-urlopen。获取响应内容-read。

2022-08-07 20:53:54 128

原创暑假学习计划：week6.4-python爬虫

python没有安装requests模块，可以在cmd窗口通过：pip install requests 语句进行安装，用来爬取网页内容。安装BeautifulSoup库：pip install BeautifulSoup4。1.安装requests库。

2022-08-07 20:43:49 115

原创暑假学习计划：week6.3-python爬虫

一、导入包二、定义一个获取指定页码内数据的方法三、得到的内容列表四、获取内容页的url，选择抓取的标题、发布时间以及新闻发布的内容，在抓取正文之前要先分析一下正文的html页面，找到正文、作者、来源在html文档中的位置。文章来源在文档中的位置为：id = "ne_article_source" 的 a 标签。作者位置为：class = "ep-editor" 的 span 标签。正文位置为：class = "post_text" 的 div 标签。五、爬虫代码六、结果...

2022-08-07 20:33:14 159

原创暑假学习计划：week6.2-Python爬虫案例

1.defgetHTMLText(url):(1).try…except语句这里用到了try except语句，其实这个语句的实现和if else差不多，一般使用其实现异常处理机制从而控制用户输入的常用方法。try:except ： #如果在try部份引发了名为’name’的异常，则执行这段代码else: #如果没有异常发生，则执行这段代码（2）res = requests.get(url,headers=headers)向网站发起请求，并获取响应对象参数：url ：...

2022-08-06 21:05:51 65

原创暑假学习计划：week6.1-Python爬虫案例

1、发起请求：通过HTTP库向目标站点发起请求，也就是发起一个request，请求可以包含额外的header等信息，等待服务器响应。2、获取响应内容：如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能是HTML,Json字符串，二进制数据（图片或者视频）等类型3.解析内容：得到的内容可能是HTML,可以用正则表达式，页面解析库进行解析，可能是Json,可以直接转换为Json对象解析，可能是二进制数据，可以做保存或者进一步的处理4.保存数据：保存形式多样，

2022-08-06 20:55:26 190

原创暑期学习计划:week5.5-Scrapy

pycharm断点调试在根路径下新建文件main.py，内容如下修改下爬虫名称即可。

2022-07-31 22:30:21 143

原创暑期学习计划:week5.4-Scrapy

不适合处理数据量较大的情况，一个好的方式是采用多线程的方法，这里的多线程是基于方法的多线程，并不是通过创建Thread对象来实现，是在一个方法中，一次性把请求交给调度器。Field方法实际上的做法是创建一个字典，给字典添加一个建，暂时不赋值，等待提取数据后再赋值。修改三项内容，第一个是不遵循机器人协议，第二个是下载间隙，由于下面的程序要下载多个页面，所以需要给一个间隙（不给也可以，只是很容易被侦测到），第三个是请求头，添加一个User-Agent，第四个是打开一个管道。3、确认要提取的数据，item项。..

2022-07-31 20:33:06 46

原创暑期学习计划:week5.3-Scrapy

Scrapy框架主要由五大组件组成，它们分别是调度器(Scheduler)、下载器(Downloader)、爬虫（Spider）和实体管道(ItemPipeline)、Scrapy引擎(ScrapyEngine)。Scrapy的下载器代码不会太复杂，但效率高，主要的原因是Scrapy下载器是建立在twisted这个高效的异步模型上的(其实整个框架都在建立在这个模型上的)。用户定制自己的爬虫(通过定制正则表达式等语法)，用于从特定的网页中提取自己需要的信息，即所谓的实体(Item)。...

2022-07-31 20:19:25 64

原创暑期学习计划:week5.2-BeautifulSoup4

find()将返回符合条件的第一个Tag，有时我们只需要或一个Tag时，我们就可以用到find()方法了。当然了，也可以使用find_all()方法，传入一个limit=1，然后再取出第一个值也是可以的，不过未免繁琐。可以传入一个limit参数来限制返回的数量，当搜索出的数据量为5，而设置了limit=2时，此时只会返回前2个数据。2.7、兄弟节点标签查找。2.1、通过标签名查找。2.6、直接子标签查找。2.2、通过类名查找。2.3、通过id查找。...

2022-07-31 20:09:22 44

原创暑期学习计划:week5.1-BeautifulSoup4

通过text参数可以搜索文档中的字符串内容，与name参数的可选值一样，text参数接受字符串，正则表达式，列表。正则表达式过滤如果传入的是正则表达式，那么BeautifulSoup4会通过search()来匹配内容。列表过滤如果传入一个列表，BeautifulSoup4将会与列表中的任意元素匹配到的节点返回。并不是所有的属性都可以使用上面这种方式进行搜索，比如HTML的data-*属性。当搜索text中的一些特殊属性时，同样也可以传入一个方法来达到目的。方法传入一个方法，根据方法来匹配。...

2022-07-31 19:59:52 108

原创暑期学习计划：week4.5-BeautifulSoup4

5.12、.previous_element获取解析过程中上一个被解析的对象(字符串或tag)，可能与previous_sibling相同，但通常是不一样的。5.8、.previous_sibling获取当前Tag的上一个节点，属性通常是字符串或空白，真实结果是当前标签与上一个标签之间的顿号和换行符。5.9、.next_sibling获取当前Tag的下一个节点，属性通常是字符串或空白，真是结果是当前标签与下一个标签之间的顿号与换行符。5.3、.descendants获取Tag的所有子孙节点。......

2022-07-24 21:15:41 73

原创暑期学习计划：week4.4-BeautifulSoup

可以利用soup加标签名轻松地获取这些标签的内容，这些对象的类型是bs4.element.Tag。但是注意，它查找的是在所有内容中的第一个符合要求的标签。#获取title标签的所有内容。#获取head标签的所有内容。#获取第一个a标签的所有内容。...

2022-07-24 21:01:51 55

原创暑期学习计划：week4.3-requests

一、获取cookle。

2022-07-24 20:50:08 63

原创暑期学习计划：week4.2-requests

而成功调用response.json()并不意味着响应的成功。有的服务器会在失败的响应中包含一个JSON对象（比如HTTP500的错误细节）。这种JSON会被解码返回。要检查请求是否成功，请使用r.raise_for_status()或者检查response.status_code是否和你的期望相同。同添加headers方法，代理参数也要是一个dict，这里使用requests库爬取了IP代理网站的IP与端口和类型。二、保存一个二进制文件。三、添加heads信息。...

2022-07-24 20:29:54 32

原创暑期学习计划:week4.1-requests

requests是一个很实用的PythonHTTP客户端库，爬虫和测试服务器响应数据时经常会用到，requests是Python语言的第三方的库，专门用于发送HTTP请求，使用起来比urllib简洁很多。安装完成后import一下，正常则说明可以开始使用了。用pip进行第三方库的安装。一、Requests介绍。......

2022-07-21 23:23:07 185

原创暑期学习计划Week3.5：python基础学习

>>my_list=[123,3.14,'小甲鱼',['anotherlist']]data表示想要存储的数据元素，file表示要将数据存储到的目标文件。#必须使用‘wb’的形式打开文件，以二进制的形式写入。pickle的实质就是将数据对象以二进制的形式存储。注意在存储过程中，必须要以‘wb’的形式打开文件。#必须以‘rb’形式打开pickle_file。在读取数据时，必须使用‘rb’的形式打开文件。#列表中的数据元素写入pickle_file。读取unpickling。...

2022-07-17 21:55:02 46

原创暑期学习计划Week3.4:Python基础学习

1、定义简单类在类的封装内部，self标识当前调用方法的对象自己。在方法内，可以通过self，访问对象的属性，或调用其他的对象方法2、初始化方法为对象在内存中分配空间——创建对象为对象的属性设置初始值——初始化方法(init）这个初始化方法就是__init__，是对象的内置方法，专门用来定义一个类具有哪些属性的方法。使用类名()创建对象时，会自动调用初始化方法。把希望设置的属性值，定义成__init__方法的参数在方法内使用如下代码接收外部传递的参数。...

2022-07-17 21:36:27 65

原创暑期学习计划Week3.3：python基础学习

错误一般指程序运行时遇到的硬件或操作系统的错误，如内存溢出、不能读取硬盘分区、硬件驱动错误等。这是致命的，将导致程序无法运行，同时也是程序本身不能处理的。异常即一个事件，在程序执行过程中发生，影响程序的正常执行，有些是由拼写、配置、选项等引起的程序错误，有些是有序逻辑不完善引发的BUG，这些都是异常.异常指在运行环境正常的情况下遇到的运行时错误。异常是非致命的，但也会导致程序的非正常终止。python可以捕获和处理异常。...

2022-07-17 21:06:30 33

原创数据分析暑期学习计划：Week3.2-Python基础学习

定义一个函数的时候，假如需要传入的参数的个数是不确定的。收集参数即只需要指定一个参数，然后允许调用函数时传入任意数量的参数。定义收集参数在形参的前面加上（*）来表示。如果在收集参数后面还需要指定其他参数，那么在调用函数的时候就应该使用关键参数来指定后面的参数。除了可以将多个参数打包为元组，收集参数还可以将其打包为字典（**）...

2022-07-16 22:21:01 80

原创数据分析暑期学习计划：Week3.1-Python基础学习

集合具有随机性，不能使用下标索引的方式访问集合中每个元素是唯一的。

2022-07-15 15:29:54 132

原创数据分析暑期学习计划：Week2.5-Python基础学习-字符串

1.格式化字符串在字符串中，格式化字符串的套路就是使用一对花括号（{}）来表示替换字段。在花括号里，可以写上数字，表示参数的位置。同一个索引值可以被多次引用2.对齐3.

2022-07-10 18:37:24 347

原创数据分析暑期学习计划：Week2.4-Python基础学习

1.列表的加法和乘法列表的加法也是拼接，要求+号两边都是列表。列表的乘法，就是重复列表内部的所有元素若干次。2.元组元组和列表的异同异：同：3.浅拷贝和深拷贝浅拷贝：利用列表的copy()方法或者切片来实现，可以用于处理一维列表，对于嵌套列表的拷贝，只能拷贝第一层数据，其余拷贝其引用。深拷贝：利用copy模块的deepcopy（）函数来实现，可以拷贝多维列表。 4.列表推导式 [expression for target in iterable]...

2022-07-10 17:40:32 391

原创数据分析暑期学习计划：Week2.3-Python基础学习-列表

1.创建列表2.访问列表 3.列表切片 4. 列表中支持的方法5.添加数据6.删除数据 7.修改数据8.排序9.查找

2022-07-10 15:43:33 190

原创数据分析暑期学习计划：Week2.2-Python基础学习

1.2.1 单分支结构 if（条件表达式）：语句1.2.2 双分支结构if（条件表达式）语句else：语句1.2.3 多分支结构if （条件表达式）: 语句elif（条件表达式）：语句elif（条件表达式）：语句 .... else: 语句 1.2.4 分支结构的嵌套if(条件表达式1)： if(条件表达式11)：语句1 else：语

2022-07-09 19:27:17 76

原创数据分析暑期学习计划：Week2.1-Python基础学习

由于之前已经安装配置好了python，并且有一定基础，所以第一周先对python基础知识大概复习一遍。通常由字母、数字、下划线组成，不能以数字开头。变量名=字面量或表达式Python有三种不同的数字类型：整数、浮点数、复数。1.2.1 整数（int()）1.2.2 浮点数（float()）浮点数在计算机中的存储存在“误差”：解决方法：导入decimal模块。 1.2.3 复数（complex()） 1.3.1 布尔运算（bool（））布尔类型的值只有两个：True和False。使用bool()函数可以直接

2022-07-08 22:55:41 113

原创数据分析就业规划

一、就业市场调查报告调查岗位：数据分析工作内容：负责运营相关数据分析；协助运营人员制定数据分析策略；为日常运营提供数据支持；协助推动闭环；数据提取、清洗；搭建指标体系。技能要求：前端：数据分析（Excel、Python）、数据展现（PowerBI / FineBI / Tableau）、数据应用。后端：数据采集、数据存储（Hadoop集群/Spark等组件、Java、Shell等脚本语言、Linux系统的知识储备和能力）、常用提取工具（SQL）、数据挖掘。用人单位类型：数据分析的工作岗位有很

2022-07-02 13:28:05 498 1

weixin_48791497的博客