![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
文章平均质量分 63
AI柱子哥
这个作者很懒,什么都没留下…
展开
-
【AI-Fix】解决地图展示包leafmap在Jupyter NoteBook中地图不显示的问题
解决leafmap在Jupyter Notebook中地图显示不出来的问题:安装ipyleaflet原创 2023-12-06 14:58:34 · 566 阅读 · 0 评论 -
【爬虫提取数据三板斧之一】正则表达式资料整理
正则表达式学习元字符介绍“^” :^会匹配行或者字符串的起始位置,有时还会匹配整个文档的起始位置。 “":" :会匹配行或字符串的结尾 “\b” :不会消耗任何字符只匹配一个位置,常用于匹配单词边界 如:我想从字符串中”This is Regex”匹配单独的单词 “is” 正则就要写成 “\bis\b” ,\b 不会匹配is 两边的字符,但它会识别is 两边是否为单词的边界转载 2018-01-12 08:54:45 · 1187 阅读 · 0 评论 -
Python文本相似度计算
主要步骤文本相似度计算主要用到gensim和jieba两个Python库,重要的是思想,要理解如何利用线性代数的知识解决相似度计算问题。 其主要步骤如下: * 读取文档 * 对要计算的多篇文档进行分词 * 对文档进行整理成制定格式,方此案后续进行计算 * 计算出词语的频率 * 【可选】对频率低的词语进行过滤 * 通过语料库添加字典 * 加载要对比的文档 * 将要对比的文档通过doc原创 2017-12-29 17:08:11 · 3747 阅读 · 2 评论 -
用虚拟环境保存Python库
如果你同时负责多个 Python项目,或者想要轻松打包某个项目及其关联的库文件,再或者你担心已安装的库之间可能有冲突,那么你可以安装一个 Python 虚拟环境来分而治之。当一个 Python 库不用虚拟环境安装的时候,你实际上是全局安装它。这通常需要有管理员权限,或者以 root 身份安装,这个库文件对设备上的每个用户和每个项目都是存在的。好在创建虚拟环境非常简单:$ virtual转载 2018-01-08 11:36:31 · 341 阅读 · 0 评论 -
Scrapy下载文件
Scrapy下载文件Scrapy框架提供了两个Item Pipeline专门用来下载文件和图片: * FilesPipeline * ImagesPipeline 官方文档介绍 可以将他们看作是下载器,使用时通过item的特殊字段将需要下载的文件或图片传递给它们,它们会自动下载到你指定的文件夹,同时将结果存入item的另一个特殊字段,可以输出方便查阅。 爬取matplotli原创 2018-01-19 16:30:41 · 14436 阅读 · 1 评论 -
【爬虫提取数据三板斧之三】XPath资料整理
选取节点XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。 下面列出了最有用的路径表达式: 表达式 描述 nodename 选取此节点的所有子节点。 / 从根节点选取。 // 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 . 选取当前节点。 .. 选取原创 2018-01-19 16:32:44 · 592 阅读 · 0 评论 -
【爬虫提取数据三板斧之二】CSS 选择器资料整理
【爬虫提取数据三板斧之二】CSS 选择器资料整理CSS即层叠样式表,其选择器是一种用来确定HTML文档中某部分位置的语言。 CSS选择器的语法比XPath更简单一些,但功能不如XPath强大。实际上,当我们调用selector对象的CSS方法时,其内部会使用Python库cssselect将CSS选择器表达式翻译成XPath表达式,然后调用selector对象的XPATH方法。 CSS原创 2018-01-12 10:43:42 · 3763 阅读 · 0 评论