Python爬虫
初来码农
世界上只有一种英雄主义,那就是了解生命而且热爱生命的人
展开
-
MongoDB数据库安装详解
1.mongo安装:(1)路径最重要的是制指定路径:路径中不能包含中文和空格。C:\MongoDB\Server\3.4(2)环境变量:将下面的路径配置到path中C:\MongoDB\Server\3.4\bin(3)验证:打开cmd,输出mongod(4)新建一个存放数据库的文件夹:C:\MongoDB\Server\3.4\data\db(5)启动mongomongod...原创 2019-11-05 21:47:36 · 197 阅读 · 0 评论 -
Python爬取数据中分页的两种方法
分页的两种方法:(1)for循环for i in range(1,20): response = requests.get(url %i)这种方法只能用你知道最大页的前提下。(2)while True循环i =0 #初始页码while True:# print(2) json_str = get_conent(url.format(type_,i) ,headers =he...原创 2019-11-05 21:43:27 · 2115 阅读 · 0 评论 -
python爬虫中多线程问题
1.什么是程序、进程和线程。程序:一个应用可以当做一个程序,比如qq软件进程:程序运行最小的资源分配单位。一个程序可以有多个进程。线程:cpu最小的调度单位,必须依赖进程而存在。线程没有独立的资源,所有线程共享他所在进程的资源。他们之间的关系:一个程序至少有一个进程,一个进程至少有一个线程。2.多线程:多线程是指一个程序包含多个并行的线程来完成不同的任务。多线程的优点:可以提高cpu的...原创 2019-11-04 19:31:38 · 354 阅读 · 0 评论 -
爬虫小练习---爬药网数据
1、药网数据爬取:url:https://www.111.com.cn/categories/953710?tp=10-1要求:抓取50页字段:总价,描述,评论数量,详情页链接用正则爬取。代码如下import re,requests,jsonbase_url='https://www.111.com.cn/categories/953710?-j%s.html'# https:/...原创 2019-10-30 22:26:53 · 1014 阅读 · 0 评论 -
Xpath的一些基本知识
要想了解xpath,绕不开xml1.什么是xml(1)定义:xml称为可扩展标记性语言。(2)特点:xml具有自描述特性。是一种半结构化数据。(3)作用:xml的设计宗旨是用来传输数据。2.xml和html的区别(1)语法要求不同:xml的语法要求更严格。 1、在html中不区分大小写,在xml中严格区分&nbs...原创 2019-10-30 22:09:10 · 552 阅读 · 0 评论 -
Python中正则表达式小结(其一)
元字符(1)匹配边界 ^ -----行首 $ ----- 行尾(2)重复次数 ? ----- 0或1 &...原创 2019-10-29 19:42:47 · 421 阅读 · 0 评论 -
Python爬虫数据的分类及json数据小结
数据的结构化分类 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容一般分为三部分,结构化的数据、半结构化的数据和非机构化数据。1.结构化数据: 可以用统一的结构加以表示的数据。可以使用关系型数据库表...原创 2019-10-29 19:27:43 · 980 阅读 · 0 评论 -
Python爬虫requests模块中如何设置代理
代理(一)代理基本原理 代理实际上指的就是代理服务器, 英文叫作proxy server ,它的功能是代理网络用户去取得网络信息。形象地说, 它是网络信息的中转站。在我们正常请求一个网站时, 是发送了请求给web 服务器,web 服务器把响应传回给我们。如果设置了代理服务器, 实际上就是在本机和服务器之间搭建...原创 2019-10-29 19:04:33 · 2026 阅读 · 0 评论 -
Python爬虫中requests模块的两种请求
requests模块get请求步骤: 1.导包 import requests 2、确定请求的url base_url = '' 3.发送请求,获取响应。 response = requests.get( url = base_url,#请求的url headers={},请求头 params = {},请求参数字典 ) 新浪新闻搜索“区块...原创 2019-10-28 19:46:48 · 1114 阅读 · 1 评论 -
Python爬虫学习了解的小知识
网络爬虫的定义一个程序脚本—>自动的抓取互联网上信息的脚本。爬虫可以解决的问题(1)解决冷启动问题。(2)搜索引擎的根基:做搜索引擎少不了爬虫。(3)建立知识图谱,帮助建立机器学习知识图谱。(4)可以制作各种商品的比价软件,趋势分析。搜索引擎1.搜索引擎的主要组成: 通用爬虫:就是将互联网的上页面整体的爬取下来之后,保存到本地。 1.通用爬虫要想爬取网页,需要网站的u...原创 2019-10-27 19:10:05 · 177 阅读 · 0 评论