爬虫
文章平均质量分 87
zhongshanb
这个作者很懒,什么都没留下…
展开
-
爬虫技术和爬虫需求现状和展望
技术社区中流行的爬虫技术相当多,很多人喜欢基于Python的,也有人喜欢用C#,很多人由于系统集成开发和跨平台的需要倾向于java,我就属于后者。其实就原理来说,爬虫组件都是差不多的,无头浏览器,最能够说明爬虫的特性,它们被设计创造出来,大部分情况是用于自动化测试的。基于socket的httpclient功能简单,性能强大,特别是在高并发的情况下,而被大家所青睐,特别是搜索引擎中,如果抓取原创 2015-06-15 14:31:36 · 18169 阅读 · 5 评论 -
linux系统如何使用tess4j(java)进行ocr图片文字识别
根据上面的实验、分析,结合配置过程中的错误提示,最终总结出了Linux下支持tess4j的完整步骤(具体不同的系统操作上会有差别,但是原理一致):1、安装GCC开发环境,从而支持后续程序的编译安装:yum groupinstall "Development Tools"2、安装tesseract所需的依赖库yum -y install libjpeg* libpng* freetype* gd* giflib* libtiff* zlib*3、安装tesseract和leptonica原创 2017-05-25 17:20:32 · 10651 阅读 · 0 评论 -
58同城二手市场个人信息的采集分析
最近研究了一下58同城,发现其页面改版之后,二手市场的卖家联系方式无法在网页版查看,只能通过app看到,而app上面传输的联系方式,是经过加密的。既然信息是加密的,恰说明信息是有价值的原创 2016-05-20 09:53:03 · 3091 阅读 · 1 评论 -
windows dos命令 bat批处理启动java程序脚本-classpath的几种配置方法
无论开发人员运维人员,都需要具备相当的shell脚本编写技能,但是由于windows平台不是部署的首选平台,我们很多人都忽视bat脚本的编写。正因为如此,工作中偶尔会踩个大坑。最近工作原因,需要为程序部署包配置windows下bat启动脚本,本身前同事留下了linux版本的启动命令,以及windows的启动脚本,然而,在win环境下部署,发现其脚本不可用,主要是-classpath参数有问题。...原创 2019-06-24 19:52:03 · 3134 阅读 · 0 评论