will5451的博客

我是我

爬虫

关注

关注数：文章数：3 文章阅读量：6727 文章收藏量：7

作者: Ethanhuyi

把技术当兴趣，欢迎关注我的博客交流；曾任职51.com平台后端全栈开发，江西省交科院有限公司前端开发。

展开

爬取新浪新闻链接以及链接中的数据

php爬虫：爬取新闻链接以及链接中的内容直接上代码吧实例首先的是爬取新浪新闻网几个新闻链接然后爬取的是拿到新闻链接中的新闻数据内容

原创 2017-12-27 13:53:00 · 797 阅读 · 0 评论
使用phpspider爬虫

使用python爬虫固然很方便，但是发现php在这方便也不弱；使用框架爬虫真的要高效许多。1,先看下phpspider的结构2，举例子：比如我爬取南昌新闻网的一个分类这个注释要加上，不然报错，可以看看源码，源码里面有很多方法；3,然后是配置下爬虫:4,然后将配置文件放入框架类文件，实例化：这里的 on_scan_page 是爬取的入口url，

原创 2018-01-08 10:20:23 · 5671 阅读 · 5 评论
使用Nginx过滤网络爬虫

NGINX可以非常容易地根据User_agent过滤请求，我们只需要在需要URL入口位置通过一个正则表达式就可以过滤不符合要求的爬虫请求：location / { if($http_user_agent ~* "python | curl | java | wget | httpclient | okhttp"){ return 503; } ##...

原创 2018-04-12 11:02:16 · 259 阅读 · 0 评论