2020年02月_zhb1nk

08月 04月 03月 02月 01月

原创解决知乎倒立验证码识别

众所周知，知乎对反爬的措施位列全网第一梯队。我在爬取知乎的过程中也是遇到了倒立验证码的问题。解决的办法是开源github项目：zheye。首先安装项目依赖包。Keras==2.0.1Pillow==3.4.2#jupyter==1.0.0#matplotlib==1.5.3numpy==1.12.1scikit-learn==0.18.1tensorflow==1.0.1h5...

2020-02-26 18:22:16 1361

原创 js值类型与引用类型

一个经典的问题：以下两个输出结果为何不一致？ // 情况1:值类型 let a = 100 let b = a b = 20 console.log(a) // 100 // 情况2:引用类型 let a = { age: 100 } let b = a b.age = 20 console.log(a.age) ...

2020-02-23 20:12:47 389

原创问题解决：raise ValueError('Missing scheme in request url: %s' % self._url) ValueError: Missing schem

今天使用scrapy爬取图片时，发现这个错误：raise ValueError('Missing scheme in request url: %s' % self._url)ValueError: Missing scheme in request url: //images2015.cnblogs.com/news_topic/20161020185521154-1185360701.pn...

2020-02-23 14:54:57 2064

原创问题解决：from . import _mysql ImportError: Library not loaded: @rpath/libmysqlclient.21.dylib

今天用python连接mysql时报错： File "/Users/zhbink/Documents/GitHub/Scrapy/ArticleSpider/ArticleSpider/pipelines.py", line 5, in <module> import MySQLdb File "/Users/zhbink/opt/anaconda3/envs/djan...

2020-02-22 22:32:47 2947

原创 Python生成器generators与yield

在Python中，创建生成器generator的方法之一就是在函数中使用yield关键字，原本的函数就变成了一个generator。换句话说，如果一个函数至少包含一个yield声明(当然它也可以包含其他yield或return)，那么它就是一个generator。理解generator的三个要点：generator可以看作一个可以停止的函数。在对generator的连续调用之间，gene...

2020-02-18 15:49:36 423

原创 vscode快速添加代码片段

之前在vscode中写html，只需要输入一个！，再按回车或tab就可以生成一段html代码。在学习vue的过程中，每次都要输入vue的模版，如下图。本文以创建vue模版为例，展示快速添加代码段的方法。shift + ctrl(command) + p，打开搜索栏，输入snippets（英文意思为片段），找到Perferences:Configure User Snippets...

2020-02-18 00:14:49 3664

2019蓝桥杯.zip

2019年蓝桥杯B组省赛C/C++试题，包括PDF文件、A-J题全部试题的图片、数据等。试题解析可以参考：https://blog.csdn.net/zhaohaibo_/article/details/88783978

2019-11-12

ACM校赛题解.pptx

ACM校赛

2019-10-26

调用sklearn库的K-Means聚类分析实例

#class sklearn.cluster.KMeans(n_clusters=8, init=’k-means++’, n_init=10, max_iter=300, tol=0.0001, precompute_distances=’auto’, verbose=0, random_state=None, copy_x=True, n_jobs=1, algorithm=’auto’) #参数： #（1）对于K均值聚类，我们需要给定类别的个数n_cluster，默认值为8； #（2）max_iter为迭代的次数，这里设置最大迭代次数为300； #（3）n_init设为10意味着进行10次随机初始化，选择效果最好的一种来作为模型； #（4）init=’k-means++’ 会由程序自动寻找合适的n_clusters； #（5）tol：float形，默认值= 1e-4，与inertia结合来确定收敛条件； #（6）n_jobs：指定计算所用的进程数； #（7）verbose 参数设定打印求解过程的程度，值越大，细节打印越多； #（8）copy_x：布尔型，默认值=True。当我们precomputing distances时，将数据中心化会得到更准确的结果。如果把此参数值设为True，则原始数据不会被改变。如果是False，则会直接在原始数据上做修改并在函数返回值时将其还原。但是在计算过程中由于有对数据均值的加减运算，所以数据返回后，原始数据和计算前可能会有细小差别。 #属性： #（1）cluster_centers_：向量，[n_clusters, n_features] # Coordinates of cluster centers (每个簇中心的坐标？？)； #（2）Labels_:每个点的分类； #（3）inertia_：float，每个点到其簇的质心的距离之和。

2018-01-26

python爬取淘宝商品信息

import requests from bs4 import BeautifulSoup import bs4 def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return "" def fillUnivList(ulist, html): soup = BeautifulSoup(html, "html.parser") for a in soup.find('tbody').children: if isinstance(a, bs4.element.Tag): tds = a('td') ulist.append([tds[0].string, tds[1].string, tds[2].string, tds[3].string]) def printUnivList(ulist, num): print("{:^10}\t{:^6}\t{:^6}\t{:^16}".format("排名","学校名称","地区","总分")) for i in range(num): u=ulist[i] print("{:^10}\t{:^6}\t{:^6}\t{:^16}".format(u[0],u[1],u[2],u[3]))

2018-01-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 解决知乎倒立验证码识别