网络爬虫
huianT
这个作者很懒,什么都没留下…
展开
-
chromeF12 谷歌开发者工具详解 Network篇
原文链接:https://segmentfault.com/a/1190000010302235Network详细介绍 那我就按照从左到右的顺序来写啦~ 记录按钮 处于打开状态时会在此面板进行网络连接的信息记录,关闭后则不会记录。 清除按钮 清除当前的网络连接记录信息。(点击一下就能清空) 捕获截屏 记录页面加载过程中一些时间点的页面渲染情况,截图根...转载 2018-12-02 17:46:30 · 915 阅读 · 0 评论 -
chromeF12 谷歌开发者工具详解 Elements篇
Elements面板实时编辑DOM节点和CSS样式双击DOM树视图里面的节点,可以实时编辑标签属性,修改的效果会立刻反应在浏览器里面点击右侧Style面板,可以实时修改CSS的属性值,这里面的所有样式Name和Value都是可以编辑的;在每个属性后面单击可以添加新的样式,如下图:点击右侧Computed面板,可以编辑左侧选中的盒子模型参数,所有的值都是可以修改的;点击不同的位置...转载 2018-12-02 17:49:02 · 6427 阅读 · 0 评论 -
chromeF12 谷歌开发者工具详解 Console篇
Console面板控制台输出日志通过JS代码或者命令行console.log()、console.warn()和console.error()可以将日志信息输出到控制台console.log 显示一般的基本日志信息,当要显示的基本日志太多时可以使用console.group将相关的日志进行分组 console.warn 显示带有黄色小图标的警告信息 console.error 显...转载 2018-12-02 17:50:42 · 2130 阅读 · 0 评论 -
ffmpeg常用基本命令
ffmpeg常用基本命令1.分离视频音频流ffmpeg -i input_file -vcodec copy -an output_file_video //分离视频流ffmpeg -i input_file -acodec copy -vn output_file_audio //分离音频流2.视频解复用ffmpeg –i test.mp4 –vcodec copy –...原创 2018-12-04 23:27:56 · 158 阅读 · 0 评论 -
python爬虫 请求 某网址 url---中文 编码 转换
首先找到 请求网址: 其后找到请求头:由于是POST请求,因此需要传入 要转换的值:返回的是整个新页面的html码,我们要从中取出需要的值。 下面附上完整代码:from urllib import request,parseimport rebase_url = "http://tool.chinaz.com/tools/urlencode.aspx"def i...原创 2018-12-01 18:16:35 · 2006 阅读 · 0 评论 -
python中的re模块的不匹配 \n 符
在re中,如果使用 reg = re.compile(r'''<i class="board-index.+?">(.+?)</i>''') a = reg.findall(html, re.S)之类时,"."时不会匹配 \n 之类的特殊符号的,要想匹配的特殊符号,要写成reg_img = re.findall(r'''<img data-src...原创 2018-12-07 19:38:13 · 3200 阅读 · 1 评论 -
使用csv写入文件时出现乱码,空行问题
出现乱码问题: 第一种: 在open文件时,编码格式转为 encoding='utf-8-sig'格式。 第二种: 爬取并保存完文件之后,用Notepad++打开,选择转为ANSI编码格式,保存。再打开该文件就是正常的了。出现空行问题: 在open文件时,加入 newline='' 即可...原创 2018-12-26 12:01:19 · 711 阅读 · 0 评论 -
上传csv文件为gbk格式,而爬虫中打开的文件为utf-8格式的解决方案
需要用到unicodecsv模块,而不是使用csv模块,同时这种方法是将爬去下来的数据转为unicode码写入文件,在转为gbk码,这就存在unicode中有一些不可见字符,转换的时候python3是报错的,将encoding='gbk'改成encoding='gb18030'就可以了。import unicodecsv as ucsvimport timenow_d...原创 2019-04-10 16:26:49 · 556 阅读 · 0 评论 -
requests scrapy 爬虫的url带中文解决
import stringfrom urllib.parse import quote# 将url中带的中文进行转码,而特殊符号不变src = quote(src, safe=string.printable)img = urlopen(src).read()例如:link = 'http://jingkids.com/wp-content/uploads/2018/10/平和青浦...原创 2019-05-24 10:47:32 · 1715 阅读 · 0 评论