无
code_vegetable_bird
这个作者很懒,什么都没留下…
展开
-
补:前天的爬浙江理工大学完整版的代码
因为昨天在准备科目一,代码忘记贴上了,现在贴上:代码可能偏冗长了,很多地方应该能优化,主要还是我太菜了,需要多加练习import requestsfrom lxml import etreeimport randomfrom string import punctuationimport reimport timeimport pymongofrom pymongo import...原创 2019-07-05 17:32:36 · 573 阅读 · 0 评论 -
爬取隔壁杭电研究生导师信息
今天爬了隔壁航电。杭电的研究生导师网站感觉做的没理工好。理工的格式比较好,每个导师对应一个单独的URL,但是杭电是一个学院对应一个URL,所有的导师一起放在一个URL里面,而且每个导师相应信息(如名字,邮箱,电话等)的源码很难找到规律,所以对我这个刚会用xpath的小菜鸡就很不友好。琢磨了半个上午最后放弃了,决定干脆把一整个学院里面的所有导师信息一股脑儿全都爬下来。下面贴上代码:import ...原创 2019-07-06 22:11:24 · 719 阅读 · 1 评论 -
机器学习笔记----sklearn库API的调用过程和适用场景总结(1)
1.导入from sklearn.linear_model import LinearRegression2.准备数据,并分训练集和数据集from sklearn.model_selection import train_test_splitx_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3,random_s...原创 2019-10-05 21:48:08 · 654 阅读 · 0 评论 -
python连接SQL Server并读取数据,结巴分词处理后写入SQL Server
前一阵子在虚拟机上整MySQL整的有点崩溃,明明已经在入站规则里开放了3306端口和映射端口还是无法外网访问。还好需求从MySQL变成了SQL Server,于是又开始上手SQL Sever。但是SQL Server也不是那么好操作的,新手第一次操作肯定要吃点苦。本机操作半个下午总算完成了任务:读取SQL Server里的数据,结巴分词之后存入新的表中1.首先是pymssql的安装,该库可以使...原创 2019-10-05 22:18:22 · 1294 阅读 · 0 评论