工具篇
文章平均质量分 59
Docker、Pycharm、Anaconda使用技巧
落叶阳光
汽车行业算法工程师,聚焦知识图谱和自然语言处理
展开
-
【jieba】加载自定义词典注意事项
A:举例说明。jieba.add_word("数据采集")result = jieba.lcut("我正在做数据采集的工作")输出:[‘我’, ‘正在’, ‘做’, ‘数据采集’, ‘的’, ‘工作’]毫无疑问,其可以准确的对句子中的出现的“数据采集进行提取”。原创 2024-07-03 14:34:12 · 201 阅读 · 0 评论 -
【Scrapy】301、302重定向问题原因及解决办法
Scrapy的301、302重定向问题原因及解决办法根据 HTTP标准 ,返回值为200-300之间的值为成功的response。Scrapy运行爬虫过程中,目标网站返回301或302,而没有获取到想要的网页内容,表示请求失败。eg:2019-02-13 17:18:32 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:60232019-02-13 17:18:33 [scrapy.downloaderm原创 2021-02-26 15:49:19 · 7049 阅读 · 3 评论 -
【Scrapy】一篇完成入门与实战
Scrapy是python环境下的一个爬虫框架,相比Beautiful和requests,其效率更高。1.Scrapy的入门教程(推荐):https://www.jianshu.com/p/43029ea38251(Scrapy的安装和基本使用)这篇照着学完,对scrapy能有一个初步感觉。其它的可以在实战过程中继续深入了解,包括但不限于:Xpath和CSS的语法:参考1:https://www.cnblogs.com/youxin/p/4041917.html(介绍/ 、//、 @的区别)原创 2021-02-26 15:54:35 · 683 阅读 · 1 评论 -
【Scrapy】一只健壮的爬虫是怎样炼成的
一只健壮的爬虫是怎样炼成的Python新人,爬虫玩的多了,渐渐的也有了自己的一些感悟,这里不谈具体操作,就写了几条自己的总结,每一条背后都是失败的经验教训,当你把爬虫“放心”的运行一晚上后,一大早起来发现程序早就异常死掉了,很多都没爬到时,你就知道下面这些建议的意义了。 1.爬虫必须增加容错处理,不能因为一个错误就终止整个程序;2.重要的内容请时刻保存为文件,防止程序异常终止时,丢失...原创 2018-06-25 08:15:41 · 644 阅读 · 1 评论 -
【scrapy】爬虫,从429状态码说起
(1)添加header信息,使其看起来更像浏览器访问。- 固定user-Agent:如下面是google浏览器的请求信息,当固定使用一个时,被识别为爬虫的风险很高Win64;轮换User-Agent:每次请求时就随机切换一个,模仿不同浏览器和设备访问(2)- 有些服务器会在返回的头部中添加"Retry-After",告诉你多久之后重试。获取这个值,然后sleep就可以了。- 在setting.py中增加请求延长时间,可以固定或者随机选择一个时间进行动态延时。原创 2024-06-18 11:03:36 · 1459 阅读 · 0 评论 -
【python】编译whl
执行完毕之后会在当前文件夹下生成一个同名的whl压缩文件。kenlm-0.2.0.tar.gz解压到D盘;kenlm-0.2.0.tar.gz解压到D盘;(这招学会了,就不用再花积分下载了)原创 2023-08-21 20:52:29 · 1044 阅读 · 0 评论 -
【小笔记】anaconda离线创建环境
1.创建新的conda环境,避免把原有的环境给搞坏。在CMD中执行,而不是在anaconda的命令行中执行:conda create -n 环境名 --offline python=3.82.在pycharm中配置conda环境:setting->Project Interpreter->齿轮->add->conda 环境->已存在的->新环境下的python.exe3.安装工程的requirement.txtpip install -r requiremen原创 2023-02-28 15:01:40 · 1166 阅读 · 1 评论 -
【Python】同一网络下,手机和电脑进行socket通信
最近在学python网络编程,发现socket可以进行跨主机的进程通信,于是尝试用电脑作为服务端,手机作为客户端,来进行socket通信。原创 2022-12-16 06:00:00 · 2333 阅读 · 0 评论 -
【Pandas】优化读取文件内存占用过大的问题
pandas读取文件占用内存多主要是没有准确识别每一列的数据类型,采用了object进行存储,所有的优化办法都是围绕数据类型转换进行的:一是在读取时指定最佳的数据类型,二是在读取后进行数据转换;更进一步的的优化操作有:(1)将数值向下转换为更高效的类型;(2)将字符串列转换为categorical类型。原创 2022-11-06 13:32:20 · 3331 阅读 · 0 评论 -
【工具】Pycharm:连接Mysql失败的简单解决
以前都是Pycharm中连接和写入数据库,在Mysql Workbench里面查看数据是否写入成功,倒也没觉得有什么问题。今天突然看到,在Pycharm中还可以直接查看Mysql的数据!!!类似于这样:Pycharm连接Mysql的教程,请查看:https://www.cnblogs.com/QiKa/p/14225469.html按照教程来,没想到最后测试连接,竟然失败了。我很确信自己的MYSQL处于正常状态,相关的服务也是开启了的,user和密码都是正确的,正常打开Mysql Workbe原创 2021-03-12 16:56:00 · 5134 阅读 · 0 评论 -
【工具】在任意文件夹位置打开Anaconda的Jupyter Notebook
老是使用Jupyter Notebook的默认位置很不方便,网上查了一下可以在任意位置位置打开,照着操作的过程中还是出现了一点小问题。说明一下:我使用的是Anaconda自带的Jupyter Notebook,顺利的操作如下:1.打开Anaconda自带的命令窗口:2.在窗口内执行指定文件夹命令:可能遇到的问题及解决办法:问题1:‘jupyter’ 不是内部或外部命令,也不是可运行的程序原因:没有将Jupyter的路径加入环境变量解决办法:根据你的Anaconda的快捷方式,找到Anaco原创 2021-02-05 12:10:21 · 4799 阅读 · 0 评论 -
【工具】 Wget网页图片下载利器
【Python】 Wget网页图片下载利器对于新手小白学爬虫,获取网页连接后,想要下载图片怎么办,下面是两种方法,推荐用Wget,能使代码简洁不少,这里放一个对比:方法一:requests模块 安装:pip install requests程序调用:import requestsimg = requests.get(url) # 请求链接,有防爬的要加headers#...原创 2018-05-29 12:15:52 · 3764 阅读 · 0 评论 -
【docker】生成镜像并push到docker Hub
1.本地保存容器为镜像,2.push镜像到docker hub 3.创建自己的仓库原创 2022-08-14 20:44:16 · 954 阅读 · 0 评论