用次世代2.3训练自己的字符库cds小demo

从我前几天写的 python 基于次世代验证码识别系统的小demo 中大家可以得知,如果有antiVC.dll 和关于特定网站的字符库cds,我们就能够让浏览器自动识别验证码了。虽然网络有不少视频关于怎么训练cds,我还是总结下吧,哎,备忘。

自己训练数据相对于去购买什么超级鹰API啊,de-captcher啊这种验证码识别平台,有2个好处,一是不用考虑网络延迟,二是API都是收费的,小弟我也是Naive得贡献了10几刀的,╮(╯▽╰)╭

这里可以贡献下怎么用de-captcher的验证平台(前提是你先注册了de-captcher用户并且购买了次数):

#验证码在线验证
def getTextFromImg(img_file):
    data = {
        'username': 'your_user',
        'password': 'your_pass',
        'function': 'picture2',
        'pict_to': '0',
        'pict_type': '0',
        'pict': img_file
    }
    keys = 'ResultCode|MajorID|MinorID|Type|Timeout|Text'.split('|')
    de_captcher_server = "http://poster.de-captcher.com/"
    try:
        opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())
        result = opener.open(de_captcher_server, urllib.urlencode(data))
        data = result.read()
        #print 'check_code:',data
        return dict(zip(keys, data.split('|')))
    except KeyError,e:
        print str(e)
        return result


目标:http://jiaowu.dlufl.edu.cn/


可以发现它的验证码地址是我们最喜欢的固定URL,每次F5都是新的验证码。

有些网站验证码动态URL,而且还是JS生成,我们需要JS解析器。

那个要自己写脚本跑,思路有两种:

一是浏览器截图,可参考我之前写的:Pyqt 浏览器截图小demo

二是通过selenium+PhantomJS,动态解析页面源代码下载下来,获取URL后通过访问下载图片,可参考我之前写的:selenium 操控浏览器

有些同学可能发现了,方法二得到的验证码是不同于第一次获得的验证码,毕竟每次访问都会更新,又有什么关系呢?

我们只要获得验证码图片用来训练就行了。


总之上面的情况暂时不考虑,我们现在遇到的是最简单的情况,同一URL可获取不同的验证码:



OK,打开次世代2.3,在地址栏输入:http://jiaowu.dlufl.edu.cn/ACTIONVALIDATERANDOMPICTURE.APPPROCESS,点击下载图像:



然后依次选择:分割识别、平均分割(因为看起来四四方方的很规整)、显示字符分割矩形框、显示识别结果、点击最右边的加号选择图像二值化:


再点击字模管理,选中自动分割图像:



双击第一个矩形“9”:



选择切除白边(有些杂点多的还要去除杂点),然后在右边对应字符填下:9,告诉程序,以后遇见这种字符它就是9:



弄完一个后点击“图像重载”,对第二个矩形3,做同样的操作:



填入3后,我们可以看到已经有两个字模了,弄完这些就可以保存退出:



好的回到主界面,我们点击重新识别,可以看到喜人的结果:


好的,当你识别率很高很高的时候,点击项目管理,发布识别库,就能生存可爱的专属的cds啦,不过正版软件每次25软妹币,你舍得吗?



吐槽下:

这基本上是我遇到的最最简单的字模创建了,没任何杂点,验证码超级规整,和我攻克的网站一比较就是被吊打的存在。。

有些难的,2000个字模以下别想识别成功,2k个啊有木有!!

要做足足两天啊有木有!!!

难怪淘宝特定网站cds售价都是2k,3k软妹币啊有木有!!!

不是人干得的啊有木有!!!

而且你还以为有些网站验证码这么容易获得吗?还不是一个个用脚本去跑的啊有木有!!


  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
次世代识别CDs)是一种用于生物信息学研究的重要工具。该包含了大量的次世代测序数据,这些数据记录了生物样品中的基因组序列、表达水平等信息。 要下载次世代识别,首先需要找到一个可信的来源。有几个常见的数据可以从中获取这些数据,如NCBI、EBI和DDBJ等。这些数据提供了相应的网页界面,用户可以通过输入相关的搜索关键词或选择特定的数据集来获取所需数据。 下载次世代识别有两种常见的方式:一种是通过数据提供的在线搜索和下载功能获取数据;另一种方式是通过FTP(文件传输协议)方式下载数据。大型数据通常提供FTP服务,用户可以通过指定FTP地址、用户名和密码等信息连接到FTP服务器,并从服务器上选择并下载所需的数据。 下载次世代识别时,需要注意数据的版本和格式。不同数据可能有不同的数据格式,如FASTQ、BAM等。用户需要根据自己的需求选择合适的数据格式,并确保所选择的数据版本与自己研究的问题相匹配。 此外,在下载过程中还需要注意数据的大小和下载速度。由于次世代测序数据通常非常庞大,下载可能需要较长的时间。如果网络连接较慢或者需要下载大量数据,建议使用高速、稳定的网络连接,并在合适的时间段进行下载。 总之,下载次世代识别需要找到可靠的数据来源,选择合适的数据格式和版本,并通过在线搜索或FTP方式获取所需数据。在下载过程中需要注意数据的大小和下载速度,以便确保顺利获取所需数据进行后续的生物信息学研究。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值