爬虫
三分钟从入门到入狱
这个作者很懒,什么都没留下…
展开
-
【python基础_5】numpy函数
1.字符串函数 函数 描述 add() 对两个数组的逐个字符串元素进行连接 multiply() 返回按元素多重连接后的字符串 center() 居中字符串 capitalize() 将字符串第一个字母转换为大写 title() 将字符串的每个单词的第一个字母转换为大写 lower() 数组元素转换为小写 upper() 数组元素转换为大写 split() 指定分隔符对字符串进行分割,并返回数组列表 splitlines() 返回元素中的行列表,以换行符分割原创 2022-05-02 00:25:32 · 86 阅读 · 0 评论 -
【python基础_6】JSON
JSON(JavaScriptObjectNotation,JavaScript对象表示法),是存储和交换文本信息的语法,类似XML。JSON比XML更小、更快,更易解析,更多JSON内容可以参考JSON教程。Pandas可以很方便的处理JSON数据,本文以sites.json为例,内容如下: 实例 import pandas as pd df=pd.read_json(‘sites.json’) print(df.to_string()) to_string()用于返回DataFrame类型的数据,原创 2022-05-02 00:24:57 · 970 阅读 · 0 评论 -
【爬虫基础_4】爬虫xpath
XP ath 语句 XPath使用路径表达式来选取XML文档中的节点或节点集。节点是通过沿着路径(path)或者步(steps)来选取的。 目录XP ath 语句XML 实例文档一、Xpath的作用:二、XPath的节点:节点关系1.父(parent)2.子(Children)3.同胞(Sibling)4.先辈(Ancestor) XML 实例文档 实例 <?xmlversion="1.0"encoding="UTF-8"?> <bookstore> <book>原创 2022-04-13 00:16:10 · 161 阅读 · 0 评论 -
爬虫基础_3
Scrapy使用 使用cmd输入并下载 python-mpipinstall--upgradepip pipinstallwheel pipinstalllxml pipinstalltwisted pipinstallpywin32 pipinstallscrapy Scrapy安装以及生成项目 scrapy startproject 项目名 scrapy genspider 爬虫名 域名 scrapy crawl 爬虫名 我使用的是widows版本,下面演示创建...原创 2022-04-04 11:05:10 · 55 阅读 · 0 评论 -
爬虫基础_2
1.了解正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑 2.正则表达式的语法规则 构造正则表达式的方法和创建数学表达式的方法一样。也就是用多种元字符与运算符可以将小的表达式结合在一起来创建更大的表达式。正则表达式的组件可以是单个的字符、字符集合、字符范围、字符间的选择或者所有这些组件的任意组合。 正则表达式是由普通字符(例如字符 a 到 z)以及特殊字符(称为"元字符原创 2022-03-20 22:05:23 · 74 阅读 · 0 评论 -
ptthon爬虫基础
1.爬虫入门程序 #创建一个BeautifulSoup解析对象 soup = BeautifulSoup(html_doc,"html.parser",from_encoding="utf-8") #获取所有的链接 links = soup.find_all('a') print "所有的链接" for link in links: print link.name,link['href'],link.get_text() print "获取特定的URL地址" link_node = soup.f原创 2022-03-14 00:30:45 · 255 阅读 · 0 评论