http
文章平均质量分 91
xiewenbo
互联网广告行业呆过几年,旅游公司呆过几年,对机器学习,自然语言处理,图像识别,个性化推荐 有兴趣
展开
-
linux tcp 端口连接不释放
netstat -nat|grep -i "80"修改 /etc/sysctl.conf, 添加两条数据#打开重用net.ipv4.tcp_tw_reuse = 1#打开快速回收net.ipv4.tcp_tw_recycle = 1保存后执行 sysctl -p 生效临时生效的办法:sysctl -w net.ipv4.tcp_tw_reuse=1sysctl -w...原创 2019-11-18 21:04:27 · 1344 阅读 · 0 评论 -
httpclient redirect
需要手动处理redirect。 (以获得中间过程的 Location, 有时中间这个转向在URL中包含了某个参数)HttpClient4.0的GET方法完全redirect,POST方法部分支持redirect,也就是说,我们在大部分情况下爬网页时中间的一些redirect过程可以当作是透明的,输入一个URL得到的是redirect后的最终结果页。 刚好,我需要redirect过程中的一个转载 2012-04-14 18:59:19 · 1603 阅读 · 0 评论 -
httpclient提交json参数
httpclient使用post提交json参数,(跟使用表单提交区分):[java] view plaincopyprivate void httpReqUrl(List list, String url) throws ClientProtocolException, IOException {转载 2015-11-23 15:28:31 · 923 阅读 · 0 评论 -
定向网页爬虫经验总结
定向爬虫基本原理定向爬虫就是指定某一些网站的数据源做为数据来源,进行页面数据的抓取,这里有别于传统的搜索引擎爬虫,传统的搜索引擎爬虫主要是针对整个互联网的数据进行爬取以及数据分析,难度更大,不论是从抓取的调度,还是性能要求,又或者是数据的存储都有很大的区别。定向爬虫只有单个或者少量的网站做为数据源头,抓取整个网站有用的数据以及图片等信息,本文主要介绍利用Java开源库用于处理http请求以原创 2016-04-14 20:10:09 · 9395 阅读 · 0 评论