- 博客(7)
- 资源 (1)
- 收藏
- 关注
原创 学习总结(一):jieba.posseg TypeError: cannot unpack non-iterable pair object 词性分析报错
在进行知识工程的课程时,利用jieba分词的posseg模块进行此行分析时遇到了以下问题:错误代码如下:在网上很难找到这方面的资料,最后在以下网址找到了原因和解决方法。原因是新版本中seg_list是一个生成器,所以只能 for w in seg_list然后从word中解包出来。正确代码如下: words = pseg.cut(default_question) print('...
2020-04-10 17:46:49
1134
原创 python+mysql实现命令行超简易版知乎
最近用python+mysql和命令行超简易版知乎,此程序对于理解python和mysql之间的连接和使用很有帮助。此代码在linux python2.7上使用。使用此demo之前要建立三个数据库:users,questions,answers.下面附上代码:#!/usr/bin/env python# coding: utf-8import MySQLdbclass Zhihu()...
2020-03-18 22:38:13
223
原创 知识融合之dedupe在windows环境下的使用
因为知识工程课有学习dedupe使用的需要,但在网上很难找到有关dedupe在windows下的使用方法的小白教程,所以写这篇博客希望帮到有需要的人。本文使用的编译软件时pycharm,环境为python3.6,主要参考了以下博文的内容。博客链接本文主要分为以下两部分环境的安装及相关文件的下载示例程序的调试使用一.环境的安装及相关文件的下载1.dedupe使用实例下载。 下载链接...
2020-03-09 14:28:39
750
原创 python+正则表达式爬取笔趣阁小说
python正则表达式爬取笔趣阁小说爬取笔趣阁小说算是爬虫中相对简单的部分了,这里采用正则表达式进行爬取下载。开始的时候怕被封ip就先做了一个无多线程的简易版,代码如下:import threadingimport timeimport requestsimport reheaders = { "user-agent": "Mozilla/5.0 (Wind...
2020-02-13 13:34:26
1082
原创 python爬取ip代理池
ip代理池的爬取和验证可用性初学python爬虫,爬取微博的时候被封了IP,查资料才了解到ip代理,于是做了一个简易程序在免费网站上爬取可用ip,采用正则表达式和requests方法,并用多线程提高效率。特此记录,既是为自己记录下来,也希望帮助到其他初学者。import threadingimport requestsimport rebaseurl = "https://www.x...
2020-02-11 15:31:39
310
原创 用python爬取王者荣耀所有皮肤
用python爬取王者荣耀所有皮肤用pytohn爬虫的基本方法爬取图片下面附上全部代码:import requestsimport reimport threadingheaders = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gec...
2020-02-07 17:57:32
757
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人