爬虫
mannuandeyangguang
记录学习的点点滴滴
展开
-
百度知道爬虫
工具:pyspider数据库:mongodb思路:假设你要根据两个关键字搜索百度知道答案,比如:”购物“和”价格“; 组建爬虫的url,需要把这两个关键字转化为url编码的格式,url编码教程详见; 取出搜索页面列表上面所有项的url链接; 然后,爬取步骤3的url,取出页面上面的question和最佳答案; 循环往复,进行2、3、4步骤;代码:#!/usr/b...原创 2019-05-30 15:31:41 · 958 阅读 · 0 评论 -
python字体文件woff转xml
from fontTools.ttLib import TTFontdef get(): font = TTFont('./tyc-num.woff') font.saveXML('./woff4.xml')原创 2019-06-11 17:01:24 · 1741 阅读 · 0 评论 -
pyquery如何读取xml或html文件不乱码
from pyquery as PyQuery as pqwith open(文件路径, "r") as f: str = f.read().encode("utf-8") //设置"utf-8"编码,这一步很重要p = pq(str)原创 2019-06-04 14:26:42 · 516 阅读 · 0 评论 -
pyquery如何解析xml
之前遇到pyquery解析svg文件(xml格式)的时候发现无法获取节点,比如下面这个svg文件:<?xml version="1.0" encoding="UTF-8" standalone="no"?><!DOCTYPE svg PUBLIC "-//W3C//DTD SVG 1.1//EN" "http://www.w3.org/Graphics/SVG/1.1/D...原创 2019-06-04 14:07:27 · 763 阅读 · 0 评论 -
反爬机制之字体反爬详解
字体反爬,顾名思义就是利用自定义的字符编码与字体文件的映射呈现文字的一种反爬措施。下面我们通过例子来详细介绍字体反爬是怎么实现的以及解决方案。目录字符编码CSS3 @font-face 规则html文件(example.html):woff字体文件(example.woff):html显示效果:解决方案:字符编码字体爬虫就是使用类似自定义的字符编码的形式来呈...原创 2019-06-05 21:45:30 · 933 阅读 · 0 评论 -
大众点评评论反爬解决方案
目前大众点评主要有两种反爬的机制:css反爬和字体反爬。css反爬的解决方案具体详见反爬机制之css反爬详解字体反爬的解决方案原创 2019-06-05 16:55:30 · 2127 阅读 · 0 评论 -
反爬机制之css反爬详解
css反爬,顾名思义就是利用css样式移动背景图片达到呈现文字效果的一种反爬措施。下面我们通过例子来详细介绍css反爬是怎么实现的以及解决方法。目录html代码(example.html):css文件(example.css):svg文件(example.svg):html显示效果:规律总结:解决方案实现代码(python):最终效果:html代码(exam...原创 2019-06-05 16:52:42 · 2824 阅读 · 0 评论 -
pyquery获取文本节点(TextNode)
from pyquery import PyQuery as pqp = pq(字符串)for i in p.contents(): print(i)原创 2019-06-05 11:45:30 · 1868 阅读 · 0 评论 -
pyspider如何刷新项目的状态
关闭pyspider 进入data目录 删除目录下面除了project.db之外的文件 重新启动pyspider原创 2019-05-30 17:01:13 · 245 阅读 · 0 评论 -
视频下载4大神器
1、downie可以下载原创 2019-04-04 09:47:48 · 277482 阅读 · 0 评论