爬虫
文章平均质量分 79
six Bytes
这个作者很懒,什么都没留下…
展开
-
使用tesserocr报错Failed to init API, possibly an invalid tessdata path: C:\anaconda3\
原代码如下: import tesserocr from PIL import Image image = Image.open('code.jpg') image = image.convert('L') threshold = 127 # 二值化阈值 table = [] for i in range(256): if i < threshold: table.append(0) else: table.append(1) image原创 2020-06-27 18:47:40 · 823 阅读 · 0 评论 -
python之爬取猫眼前100电影
由于疫情原因,久久不能开学,博主在家天天抠脚无所事事。于是打算趁着假期好好刷一下电影,就把猫眼排行榜前100的电影给爬了下来。 其实爬虫都是有套路的,我把它分成四个步骤: 构造URL列表 发送请求,获取响应 提取数据 保存数据 1.抓取分析 首先,我们去到要抓取的页面,打开往下拉发现是分页的 点击下一页发现第一页和第二页的URL地址不一样,offset增加了10,可以推测这是一个偏移量的参数。 2.抓取首页内容 检查->network->headers。复制user-ag原创 2020-06-16 18:45:25 · 2268 阅读 · 0 评论