4.6学习笔记

最新推荐文章于 2022-01-06 22:43:39 发布

蔡小葵奶糖

最新推荐文章于 2022-01-06 22:43:39 发布

阅读量90

点赞数

分类专栏：学习记录

本文链接：https://blog.csdn.net/weixin_55974491/article/details/115466517

版权

学习记录专栏收录该内容

8 篇文章 0 订阅

订阅专栏

4.6学习笔记

一、概念

\1. 爬虫是否违法？

法不禁止即为许可

隐匿自己的身份（商业IP代理）

不要被目标网站举证有破坏动产行为

尽量遵守爬虫协议（robots.txt）

\2. 爬虫的分类和作用？

通用爬虫 —> 搜索引擎

定向爬虫 —> 有具体的爬取目标

对中小企业来说，数据一定是短板，要么花钱买数据，要么写爬虫
国家机器和很多的互联网产品做舆情监控基本也是通过网络爬虫来

\3. 爬虫怎么写？

抓取页面 —> requests / aiohttp

解析页面
- 正则表达式解析 —> re（regular expression）

~ compile() —> Pattern

search() / match() —> Match —> group()

findall() —> list
- XPath解析 —> lxml

右键菜单“检查” —> Copy —> Copy full XPath
- CSS选择器解析 —> beautifulsoup4 / pyquery

BeautifulSoup
- select()：获取跟CSS选择器匹配的元素（列表）
- select_one()：获取跟CSS选择器匹配的第一个元素 —> Tag

~ text：获取标签中的内容

attrs：字典，通过键值对的方式获取标签的属性值

保存数据
- CSV（逗号分隔值文件）—> csv~ reader / writer —> writerow()
- Excel —> xlrd / xlwt / openpyxl~ Workbook —> 工作簿 —> create_sheet()
—> Worksheet —> 工作表
—> cell(row, col, value) —> 单元格

\4. 如何抓取动态内容？

直接找到提供JSON数据的接口
- 浏览器开发者工具 —> Network —> XHR
- 专业的抓包工具 —> Charles / Fiddler / Wireshark

Selenium驱动浏览器获取动态内容
- 自动化测试工具

~ IDE

Remote Control

WebDriver：驱动浏览器模拟用户操作 —> 抓取到动态内容
- Chrome()

~ get()：加载页面

隐式等待 / 显示等待
- implictly_wait(10)：如果元素在10秒内没有出现就引发异常
- WebDriverWait(browser, 10) —> until() —> 指定等待条件

page_source：页面带动态内容的HTML代码

find_element_by_xxx() —> WebElement

find_elements_by_xxx() —> [WebElement]
- text：获取标签中的文本内容
- get_attribute()：获取标签属性

\5. 如何实现并发（并行）编程？
并行：真正的同时进行，需要多CPU的支持
并发：可能不是真正的同时进行，但是通过快速的切换制造出并行的效果

线程：操作系统分配CPU的基本单位，最小的执行单元
进程：操作系统分配内存的基本单位，是程序在一组数据上的活动

通常我们启动一个程序，就启动了一个（或多个）进程，一个进程中又可以包含
一个或多个线程。

单线程（只有主线程，只有唯一的一个执行线索）

多线程 —> I/O密集型任务（爬虫）—> GIL（全局解释器锁）—> 无法使用多核特性

多进程 —> 计算密集型任务（音视频编解码、文件压缩、机器学习算法）

异步编程 —> I/O密集型任务（爬虫）—> 通过提高CPU利用率达到协作式并发

C —> CPython —> malloc() / free()
Java —> Jython
C# —> IronPython
Python —> PyPy

\6. easyocr —> ocr (optical character recognition)

pip install easyocr

二、实例

1）

import time

import requests
from selenium.webdriver import Chrome


def dowload_image(image_url):
    resp = requests.get(image_url)
    if resp.status_code == 200:
        filename = image_url[image_url.rfind('/') + 1:]
        try:
            with open(f'image360/{filename}', 'wb') as file:
                for data in resp.iter_content(512):
                    file.write(data)
        except OSError:
            pass


def main():
    browser = Chrome()
    browser.get('https://image.so.com/z?ch=beauty')

    for _ in range(5):
        # 让浏览器执行JavaScript代码
        browser.execute_script('window.scrollTo(0, window.scrollY + 1500)')
        time.sleep(0.5)

    # 隐式等待
    # 在使用find_xxx方法获取页面元素时，如果元素还没有出现，可以等待指定的时间，
    # 如果等待超时就引发异常，如果在指定的时间内获取到元素就返回对应的元素
    browser.implicitly_wait(10)
    # # 显示等待 ---> 创建一个等待对象
    # wait = WebDriverWait(browser, 10)
    # # 设置等待条件
    # wait.until(expected_conditions.presence_of_element_located(
    #     (By.CSS_SELECTOR, 'span.img > img')
    # ))
    image_tags = browser.find_elements_by_css_selector('span.img > img')
    # print(len(image_tags))
    start = time.time()
    for image_tag in image_tags:
        image_url = image_tag.get_attribute('src')
        dowload_image(image_url)
    end = time.time()
    print(f'下载耗时: {end - start:.3f}秒')
    browser.close()


if __name__ == '__main__':
    main()

2）

"""
装饰器：用一个函数去装饰另外一个函数或者类，为其提供额外的功能（横切关注功能）

装饰器实现了设计模式（前人总结的可重用的设计理念）中的代理模式（proxy pattern）

cross-concern
一等函数（一等公民）：
    ~ 函数可以赋值给变量
    ~ 函数可以作为函数的参数
    ~ 函数可以作为函数的返回值
"""
import random
import time
from concurrent.futures.thread import ThreadPoolExecutor


# 装饰器的参数是被装饰的函数，返回值是带有装饰功能的函数
def record_time(func):

    def wrapper(*args, **kwargs):
        start = time.time()
        result = func(*args, **kwargs)
        end = time.time()
        print(f'{func.__name__}执行时间：{end - start:.3f}秒')
        return result

    return wrapper


# download = record_time(download)
@record_time
def download(filename):
    print(f'开始下载{filename}.')
    time.sleep(random.randint(4, 6))
    print(f'{filename}下载完成.')


@record_time
def upload(filename):
    print(f'开始上传{filename}.')
    time.sleep(random.randint(5, 8))
    print(f'{filename}上传完成.')


@record_time
def main():
    # # 通过调用Thread类的构造器就可以创建线程对象，
    # # 通过指定target和args参数告诉线程启动后要执行的任务以及对应的参数
    # t1 = Thread(target=download, args=('Python从入门到住院', ))
    # t2 = Thread(target=download, args=('MySQL从删库到跑路', ))
    # t3 = Thread(target=upload, args=('数据分析从精通到放弃', ))
    # # 通过调用线程对象的start()方法启动线程
    # t1.start()
    # t2.start()
    # t3.start()
    # # 通过调用线程对象的join()方法等待线程结束
    # # 让主线程等待t1、t2、t3对应的线程执行结束
    # t3.join()
    # t2.join()
    # t1.join()
    # 创建和释放一个线程是有比较大的系统开销的，如果程序中频繁和释放线程，
    # 那么代码的性能也会受到影响，所以使用线程最佳的方式是提前创建线程池，
    # 线程池是一个容器，维持了若干个线程对象，需要线程的时候就从线程池中
    # 获取一个线程，用完了之后不释放而是归还给线程池，以便重复使用
    with ThreadPoolExecutor(max_workers=32) as pool:
        # 调用线程池对象的submit方法将任务交给线程池中的线程去执行
        # submit方法会返回Future对象（让你在将来可以获得线程的执行结果）
        pool.submit(download, 'Python从入门到住院')
        pool.submit(download, 'MySQL从删库到跑路')
        pool.submit(upload, '数据分析从精通到放弃')
        # 调用Future对象的result()方法可以在将来获取线程的执行结果
        # f1.result()
        # f2.result()
        # f3.result()


if __name__ == '__main__':
    main()

3）

import time
from concurrent.futures.process import ProcessPoolExecutor

import requests
from selenium.webdriver import Chrome


def dowload_image(image_url):
    resp = requests.get(image_url)
    if resp.status_code == 200:
        filename = image_url[image_url.rfind('/') + 1:]
        try:
            with open(f'image360/{filename}', 'wb') as file:
                for data in resp.iter_content(512):
                    file.write(data)
        except OSError:
            pass


def main():
    browser = Chrome()
    browser.get('https://image.so.com/z?ch=beauty')

    for _ in range(20):
        # 让浏览器执行JavaScript代码
        browser.execute_script('window.scrollTo(0, window.scrollY + 1500)')
        time.sleep(0.5)

    # 隐式等待
    # 在使用find_xxx方法获取页面元素时，如果元素还没有出现，可以等待指定的时间，
    # 如果等待超时就引发异常，如果在指定的时间内获取到元素就返回对应的元素
    browser.implicitly_wait(10)
    # # 显示等待 ---> 创建一个等待对象
    # wait = WebDriverWait(browser, 10)
    # # 设置等待条件
    # wait.until(expected_conditions.presence_of_element_located(
    #     (By.CSS_SELECTOR, 'span.img > img')
    # ))
    image_tags = browser.find_elements_by_css_selector('span.img > img')
    # print(len(image_tags))

    with ProcessPoolExecutor(max_workers=32) as pool:
        start = time.time()
        for image_tag in image_tags:
            image_url = image_tag.get_attribute('src')
            pool.submit(dowload_image, image_url)
    end = time.time()
    print(f'下载耗时: {end - start:.3f}秒')
    browser.close()


if __name__ == '__main__':
    main()

4）

"""
多线程和多进程的比较
"""
import concurrent.futures
import math

PRIMES = [
    1116281,
    1297337,
    104395303,
    472882027,
    533000389,
    817504243,
    982451653,
    112272535095293,
    112582705942171,
    112272535095293,
    115280095190773,
    115797848077099,
    1099726899285419
] * 5


def is_prime(n):
    """判断素数"""
    if n % 2 == 0:
        return n, False

    sqrt_n = int(math.floor(math.sqrt(n)))
    for i in range(3, sqrt_n + 1, 2):
        if n % i == 0:
            return n, False
    return n, True


def main():
    """主函数"""
    # with concurrent.futures.ThreadPoolExecutor() as pool:
    with concurrent.futures.ProcessPoolExecutor() as pool:
        futures = []
        for number in PRIMES:
            f = pool.submit(is_prime, number)
            futures.append(f)
        for f in futures:
            n, r = f.result()
            print(f'{n} is prime: {r}')
        # for number, prime in zip(PRIMES, pool.map(is_prime, PRIMES)):
        #     print('%d is prime: %s' % (number, prime))


if __name__ == '__main__':
    main()

蔡小葵奶糖

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
4.6学习笔记

4.6学习笔记一、概念\1. 爬虫是否违法？法不禁止即为许可隐匿自己的身份（商业IP代理）不要被目标网站举证有破坏动产行为尽量遵守爬虫协议（robots.txt）\2. 爬虫的分类和作用？通用爬虫 —> 搜索引擎定向爬虫 —> 有具体的爬取目标对中小企业来说，数据一定是短板，要么花钱买数据，要么写爬虫国家机器和很多的互联网产品做舆情监控基本也是通过网络爬虫来\3. 爬虫怎么写？抓取页面 —> requests / aiohttp解析页面- 正则表达式解析
复制链接

扫一扫