爬虫
ZJ_Frank
这个作者很懒,什么都没留下…
展开
-
Selenium 突破网站反爬虫
今天在使用 Selenium以及谷歌浏览器进行爬虫的时候被拦截了。在查阅资料后得出解决方法如下:方法一换用火狐浏览器from selenium import webdriverurl = "SOME URL YOU WANT TO SCRAPE"user_agent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.0.3 Safari/605原创 2020-11-24 23:25:54 · 1659 阅读 · 0 评论 -
Python 爬取新浪财经 7x24(1): 下载数据
前言最近在做一个需要很多财经数据的项目。于是想到可不可以通过爬虫来解决(尝试白嫖)。提供财经数据的网站有很多个,其中比较靠谱和更新比较及时的应该是新浪7x24 live数据。http://finance.sina.com.cn/7x24/?tag=0这个问题有一定的难度,因为这个网页是动态加载的。每一次只会加载部分数据,而只有拉到底部才可以加载新的数据。于是乎,我们要做的事情是:下载数据保存到数据库本篇介绍如何下载数据。代码闲言少叙书归正文,代码的实现如下:import reque原创 2020-11-20 11:23:14 · 2012 阅读 · 0 评论 -
Python 汉字转拼音
在这里分享一个很有用的包:pypinyin安装pip3 install pypinyin 或者使用镜像网站安装https://blog.csdn.net/ZJ_11701/article/details/109378174使用import pypinyin# 默认给出比较详细的注音In[14]: pypinyin.pinyin("我可真能耐")Out[14]: [['wǒ'], ['kě'], ['zhēn'], ['néng'], ['nài']]# 如果不想加音标,声明即可In[原创 2020-11-18 21:47:01 · 122 阅读 · 0 评论 -
bs4:按类别和按class获取信息
在BeautifulSoup的官方文档中,给出了 find和 find_all两种 method,如果按类别获取信息,有如下语法:soup.find_all('a') # 获取所有形如 <a> ... </a>的信息如果我们想要按class得到呢?比如某一个信息在 div容器里面,它所对应的 class是 listBlk。例如<div class="listBlk"> <!-- 分页 begin --> <table cell原创 2020-11-16 23:27:28 · 3573 阅读 · 0 评论 -
python 使用 requests爬取网站出现格式错误的解决方案
编码的历史这里就不再赘述,直接上解决方案:res = requests.get(url)res.encoding = res.apparent_encoding原创 2020-11-16 21:29:50 · 407 阅读 · 0 评论