网页爬虫
Young Hsu
这个作者很懒,什么都没留下…
展开
-
爬虫代理池 IP:PORT
1、代码部分from urllib import requestimport reimport sysfrom http import clientimport requests#爬取的是国内能访问的代理def spider_66(): base_url="http://www.66ip.cn/areaindex_{}/1.html" head={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/5原创 2021-01-11 17:07:32 · 3945 阅读 · 0 评论 -
baike爬虫demo
注:medicine.dic - 副本.default 是一个17万行的文本,如:感冒 11111111发烧 2222222import urllib.requestimport urllib.parseimport refrom bs4 import BeautifulSoupfrom lxml import etreeimport gcimport randomimport timeimport winsounddef baike(word): def test_u原创 2020-08-04 11:27:51 · 157 阅读 · 0 评论