![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
、Edgar
Coding with fun
展开
-
爬取51Job数据
爬取前程无忧上的招聘岗位,项目地址:GitHub使用方式go get github.com/junhaideng/51job// 创建一个新的Job,指定log,数据保存地方以及关键字j := job.NewJob(zap.NewExample(), f, keyword)// 直接运行j.Run()效果数据列可以有很多,这里主要取了一部分job_name, job_href, company_name, company_href, salary, workarea, issuedat原创 2021-06-20 20:16:07 · 5319 阅读 · 0 评论 -
全自动下载Leetcode题目
LeetCode 题目下载助手爬取所有的题目,保存在每一个文件夹下的README.md中,并且保存对应的代码模板源码见: GitHub运行之后会在对应的目录下写入题目描述和对应的代码模板leetcode/├── LCP 06 │ ├── README.md│ └── main.go ├── LCP 07 │ ├── README.md│ └── main.go ├── LCP 08 │ ├── README.md│原创 2021-06-05 22:44:11 · 958 阅读 · 0 评论 -
Go获取腾讯动漫今日份更新动漫并使用飞书进行消息通知
喜欢看动漫,但是不喜欢记每天啥啥动漫更新了(也不太记得????),所以写了个小程序进行通知获取最近更新我们只需要获取到下面的这些内容就好了右击进行元素检查,很容易可以找到最近更新所在的元素那么我们只需要获取到对应的元素即可,下面使用colly进行抓取,当然你也可以使用python等语言继续进行操作// 保存相关内容type Info struct { Index int Title string Info string Href string}func getUpdate原创 2021-01-15 13:34:16 · 422 阅读 · 0 评论 -
爬虫基础篇(二)
环境安装配置下载安装 Python安装合适的编辑器安装需要的模块前面的两个内容在之前已经讲解过了,如果不清楚,可以参考之前的推文,我们下面来着重介绍一下今后需要使用的模块1. urllibPython 内置的 HTTP 库,可以对网页进行请求并发送相关信息,获取网页返回的内容,其中主要的类和方法为:urlopen -> 用于向网页发送请求Request -> 请求类...原创 2019-11-27 12:30:14 · 122 阅读 · 0 评论 -
爬虫基础篇(一)
爬虫初见定义类型合法性基本原理规范性1.爬虫的定义网络爬虫是一种按照一定规则自动抓取网络信息的程序或者脚本。简单的可以这样说,网络爬虫就是根据一定的算法实现编程开发,主要通过URL实现对数据的抓取和发掘。在数据大时代的今天,数据的规模越来越庞大,但是数据的价值普遍偏低,为了能够从庞大的数据中获取到有价值的东西,于是延伸出了网络爬虫,数据分析等职位,而近几年的网络爬虫需求更是巨...原创 2019-11-25 13:53:58 · 261 阅读 · 0 评论 -
golang http请求时设置代理ip
在http.Client中自定义Transport,设置Proxy即可,目前网上存在很多代理ip网站,本人也写过一些代理ip网址的爬取,见 GitHub// 如果需要代理验证,那么如下进行设置// 否则直接设置为url.Parse("http://inproxy.sjtu.edu.cn:8000")uri, err := url.Parse("http://username:password@inproxy.sjtu.edu.cn:8000")if err != nil{ log.Fatal("原创 2021-01-01 10:58:37 · 18081 阅读 · 0 评论 -
go 爬虫示例
整理一些自己之前使用go写的爬虫,内容包括比如豆瓣电影排行榜、糗事百科段子、优品PPT,携程等网站评论在之后如果还有爬虫也会逐渐加到里面去,对于一些想学go爬虫的同学来说,还是有帮助的吧,欢迎⭐️项目网站 https://git.io/JUyik...原创 2020-10-01 09:36:16 · 364 阅读 · 0 评论 -
golang 爬取 PPT
按照原来的 博客 修改了一下,可能存在某些bug,比如部分条件下wg.Done没有考虑到,欢迎指出,另外代码中wg.Done调用的比较多,自己可以动手改改~package mainimport ( "fmt" "io/ioutil" "net/http" "os" "path/filepath" "regexp" "strconv" "strings" "sync" "time")const ( DOWNLOAD = "./download" NUM = 50原创 2020-09-24 15:40:13 · 205 阅读 · 0 评论 -
golang 爬取 PPT
下面代码仅供参考,目前还没有很好的方式判断如何停止,只能设置超时时间,另外其实直接构造http://www.ypppt.com/p/d.php?aid=num的网址即可,不需要这么麻烦,所以仅供参考package mainimport ( "fmt" "io/ioutil" "net/http" "os" "path/filepath" "regexp" "strconv" "strings" "sync" "time")var timeout *time.Timervar原创 2020-09-24 09:21:47 · 623 阅读 · 0 评论 -
使用 Go 爬取豆瓣电影排行榜
package mainimport ( "encoding/json" "fmt" "io/ioutil" "net/http" "os" "regexp" "strings")func main() { data, err := GetHTML("https://movie.douban.com/chart") if err != nil{ fmt.Println("获取源代码失败: ", err) return } file , err := os.Create原创 2020-09-22 20:58:50 · 324 阅读 · 0 评论 -
go 同时上传表单字段和文件
package mainimport ( "bytes" "fmt" "io/ioutil" "mime/multipart" "net/http")func main() { var buff bytes.Buffer // 创建一个Writer writer := multipart.NewWriter(&buff) // 写入一般的表单字段 writer.WriteField("key", "value") // 写入图片字段 // CreateFormFil原创 2020-09-06 19:56:27 · 1332 阅读 · 0 评论 -
python selenium使用本地浏览器的用户信息
Chrome:找到用户信息所在的位置,浏览器中输入chrome://version/self.option = webdriver.ChromeOptions()self.option.add_argument("--user-data-dir=" + f"C:/Users/{USERNAME}/AppData/Local/Google/Chrome/User Data/")self.driver = webdriver.Chrome(options=self.option) # 此时将webd原创 2020-05-24 22:07:38 · 2322 阅读 · 1 评论 -
requests实现全自动下载PPT模板
http://www.1ppt.com/moban/ 可以免费的下载PPT模板,当然如果要人工一个个下,还是挺麻烦的,我们可以利用requests轻松下载访问这个主页,我们可以看到下面的样式点每一个PPT模板的图片,我们可以进入到详细的信息页面,翻到下面,我们可以看到对应的下载地址点击这个下载的按钮,我们便可以下载对应的PPT压缩包那我们就开始做吧首先,查看网页的源代码,我们可以...原创 2020-04-14 18:17:00 · 487 阅读 · 0 评论 -
自动化 Google 以图搜图
Google_Image_Searcher1. requirementsseleniumbeautifulsoup4requestsChrome & webdriver(under the Python Script folder)2. How does it workThe mirror website is : https://images.wjbaike.site/...原创 2020-03-09 11:58:45 · 2704 阅读 · 5 评论 -
python requests 库对于cookies的相关操作
python requests 库对于cookies的操作直接获取cookiesr = requests.get(url)r.cookies cookies转化成字典类型r = requests.get("https://www.baidu.com")cookies = r.cookiescookies_dict = requests.utils.dict_from_coo...原创 2020-03-03 20:13:02 · 534 阅读 · 0 评论 -
从中国日报中获取疫情信息
import requestsimport jsonimport timeurl = "https://api-gateway.guahao.com/moduleoperate/operatechannel/getbyconfForPage.json"header = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x6...原创 2020-02-07 19:10:11 · 526 阅读 · 0 评论 -
JSON parse error: Unrecognized token 'channelConPosition': was expecting ('true', 'false' or 'null')
python 写爬虫的时候出现下面的错误:pyload = {"channelConPosition": "71"}response = requests.post(url, headers=header, data=pyload)print(response.json()){'code': 'C_1', 'data': None, 'message': "请求失败,JSON pars...原创 2020-02-06 15:54:27 · 1249 阅读 · 0 评论 -
从新浪微博上获取疫情最新信息
# -*- coding:utf-8 -*-"""Author: EdgarCreated time:2/1/2020 12:06 PM爬取新浪微博中的相关信息"""import osimport jsonimport requestsimport pymysqlclass Virus(object): def __init__(self): sup...原创 2020-02-02 17:28:14 · 3768 阅读 · 0 评论 -
从丁香园获取疫情的最新资讯
import requestsimport osimport timeimport refrom bs4 import BeautifulSoupimport sqlite3class Virus(object): def __init__(self): super().__init__() self.url = "https://3g.dx...原创 2020-01-31 12:31:52 · 980 阅读 · 0 评论 -
给你的GitHub仓库来个简短点的访问链接吧
最近发现了一个比较好玩的东西----github上的网页可以使用另外一个比较简短的域名来实现跳转(实际上相当于重定向),这下可太好了,再也不要使用这么长的域名了https://github.com/Cyberist-Edgar/PyQt/tree/master/PyQt%E7%99%BB%E5%BD%95%E7%95%8C%E9%9D%A2相反,我们可以使用一个这么简单的域名就可以实现访问了...原创 2020-01-04 13:01:50 · 892 阅读 · 0 评论 -
爬虫基础(三)
一般来说,爬虫的工作流程包括以下几个步骤:设定抓取目标(种子页面/起始页面)并获取网页。当服务器无法访问时,按照指定的重试次数尝试重新下载页面。在需要的时候设置用户代理或隐藏真实 IP,否则可能无法访问页面。对获取的页面进行必要的解码操作然后抓取出需要的信息。在获取的页面中通过某种方式(如正则表达式)抽取出页面中的链接信息。对链接进行进一步的处理(获取页面并重复上面的动作)。将有...原创 2019-12-10 23:28:09 · 139 阅读 · 0 评论 -
Python爬虫获取交大基电实验ppt
由于同学的抛转引玉,于是写了这个来下载MOOC上的PPT主要代码如下,关键是使用的时候要加上cookieurl = 'https://cnmooc.org/view/doc.mooc?viewer=html&resid=174814&format=jpg&start={}'header = {"User-Agent":"User-Agent: Mozilla/5....原创 2019-11-05 20:42:15 · 215 阅读 · 0 评论 -
百度知道自动答题
用 selenium 自动在百度知道对没有最佳答案的题目进行答题,再也不用担心没有题目不去回答了from selenium import webdriver import time url = 'https://zhidao.baidu.com/list?cid=110'brower = webdriver.Chrome()brower.get(url)brower.de...原创 2019-11-01 19:04:32 · 2685 阅读 · 1 评论 -
利用Python下载PPT模板
import urllib.request as reqfrom bs4 import BeautifulSoupimport requestsimport osimport timeimport threading# from multiprocessing import Poolclass PPT(): """ 整个的爬虫类 """ def ...原创 2019-10-23 13:54:02 · 1705 阅读 · 0 评论 -
简单爬了爬微博
import requestsimport refrom bs4 import BeautifulSoupclass WeiBo(): def __init__(self): self.url = "https://m.weibo.cn/api/container/getIndex?containerid=102803&openApp=0" self.header = ...原创 2019-10-17 23:17:23 · 252 阅读 · 0 评论 -
今日头条,有哪些关于游戏的呢?
用Python获取今日头条中关于游戏的相关信息1import requestsclass TouTiao(): def __init__(self): """ Initialize """ self.url = "https://www.toutiao.com/api/pc/feed/?category=news_game&utm...原创 2019-10-15 22:38:12 · 223 阅读 · 0 评论 -
简单的逛了逛饿了么
import requestsimport redef get_one_html(url): header={"User-Agent": "Mozilla/5.0 (X11; Linux x86_64; rv:28.0) Gecko/20100101 Firefox/28.0"} try: response = requests.get(url, headers=header) ...原创 2019-10-15 20:35:34 · 148 阅读 · 0 评论 -
利用selenium借助百度简单的实现翻译
看了看selenium的使用,终于算是对动态加载的网页有了一些解决方法了,也可以实现之前本来要实现的小百度翻译了。下面的代码可以实现翻译的功能,但是结果很大程度与网速有关,网速快一点输出的结果便是符合的,但是一旦网络有什么问题,可能就不能够输出需要的结果另外一个缺点就是速度特别慢啊from selenium import webdriverfrom selenium.webdr...原创 2019-10-15 20:25:18 · 1328 阅读 · 0 评论 -
交大教务处信息获取
教务处官网是我们经常访问的网站,在这里我们可以得到许多信息,那么如何才能及时知道并了解今天新出的信息呢?下面以其中的一部分来讲解如何爬取相关信息,打开官网,我们可以发现其实提供了RSS订阅,更方便了我们爬取信息打开RSS链接,我们明显的看出其结构类型,每个item中间包括了我们需要的内容,这样我们只需要写一个正则表达式,便可以爬取全部内容# 正则表达式"<item&g...原创 2019-10-13 23:14:42 · 305 阅读 · 0 评论 -
User-Agent 大全
Linux下:Mozilla/5.0 (X11; Linux x86_64; rv:28.0) Gecko/20100101 Firefox/28.0Mozilla/5.0 (X11; Linux x86_64; rv:28.0) Gecko/20100101 Firefox/28.0Mozilla/5.0 (Linux; U; Android 5.1.1; en-US; D230...原创 2019-10-02 13:46:55 · 5760 阅读 · 1 评论 -
利用requests自动下载ppt模板
苦于没有PPT模板,Python帮你解决:import urllib.request as reqfrom bs4 import BeautifulSoupimport requestsimport osimport timeimport threading# from multiprocessing import Poolclass PPT(): """ ...原创 2019-09-19 22:56:26 · 454 阅读 · 0 评论 -
python爬取豆瓣电影
相信很多人,时时刻刻的都在等着 那部电影什么时候出呢,好的,就让python告诉你!!# @author:、Edgar# @date: unknown # version:1.0.1import urllib.requestimport urllib.errorfrom bs4 import BeautifulSoupimport datetimeimport time"""...原创 2019-09-18 23:58:21 · 661 阅读 · 0 评论 -
利用python获取王者荣耀英雄的相关信息
游戏,是用来放松身心的,也有很多人对游戏研究很深,今天我们就用python获取农药上的英雄的部分信息吧# @author: 、Edgar# @date: 3/8# @version: 1.0.0import urllibimport urllib.errorimport urllib.requestfrom bs4 import BeautifulSoup, Commenti...原创 2019-09-18 23:53:09 · 1131 阅读 · 0 评论 -
利用python爬取CSDN上搜索后返回的信息
执行该代码,可实现在CSDN上搜索类似的功能,但是除去了广告等# @author: 、Edgar# @date: 7/29# @version: 1.0.0# @function: search for info in the CSDN but in a more simple wayimport urllibimport urllib.errorimport urllib.r...原创 2019-09-18 23:48:32 · 335 阅读 · 0 评论 -
用python爬取交大图书馆图书信息
由于到图书馆中查找数据的时候,每个网页都需要一张一张的翻转,而同时因为每张网页中的内容十分有限,故写此爬虫,方便查找之用# *-* coding="utf-8" *-*#@author: 、Edgar#@version: 1.1import requestsimport urllib.errorfrom bs4 import BeautifulSoupimport timeim...原创 2019-09-18 16:21:25 · 1822 阅读 · 0 评论