自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 问答 (1)
  • 收藏
  • 关注

原创 Stata报错I/O error writing .dta file解决方法

这个链接里详细阐述了Windows系统中temp的路径,stata是利用默认的路径进行运行的,查看方法:打开stata,运行两行命令,能看见TEMP的路径。有的时候打开.dta文件,再返回文件目录,能看见一个后缀为.tmp的文件,如ST_a760_000000.tmp,随着stata窗口关闭,这个文件会消失。需要注意,即使变更了环境变量中的TEMP路径,未关闭的stata还是维持打开时的设置,也就是说变更TEMP环境之后需要重启stata。stata官网也有对于disk space的问题的阐述,见。

2024-11-05 11:03:04 332 1

原创 爬虫中的一些巧思,ajax js请求分析,格式化数字数据

老师让做的爬虫。

2024-07-18 12:16:07 1331

原创 GloVe (python)安装踩坑及使用

在安装glove_python的时候持续的报错:这个问题在我之前安装annoy的时候也出现过,是因为c++编译环境的问题。但我已经有Visual Studio的C++环境了,按道理不该出现这个问题了。仔细看了这一长串报错信息后,发现最根源的问题是这个:这个的意思似乎是cl的环境没有配置,于是参考下面大佬的教程进行了配置。Windows11下配置Visual Studio2022 环境变量(Windows下配置Visual Studio 通用)_vs2022环境变量配置-CSDN博客。

2024-06-20 17:42:31 1103

原创 excel文件打开筛选,pandas和openpyxl会报错

ValueError: Unable to read workbook: could not read worksheets from C:\Users\杨\Desktop\lobbyMap1.xlsx. This is most probably because the workbook source files contain some invalid XML.这两种报错都是因为excel文件开了筛选,关闭筛选再运行程序就行了。

2024-05-21 20:42:20 565 1

原创 pyhanlp vs. hanlp

想要找SDP的hanlp用法,死活找不到,花了很多时间。回归github之后发现实际上hanlp有两个版本,一个1.x,一个2.x。而我目前使用成功的都是1.x的命令,是基于JAVA的。而2.x版本是升级版,有一些功能并没有更新到1.x里,所以无法运行,其中就包括SEP。为什么会产生这种混淆呢?因为网上有很多教程,要么是1.x出来的时候写的,要么是无脑搬运的旧版本的,当时的安装应该也确实是hanlp(也就是说1.x以前的名字和2.x是相同的),导致网络教程和github版本有一些差错,对应不上。那么说一下两

2024-05-20 10:54:40 702

原创 pyhanlp一点小坑:pycharm中配置conda虚拟环境

试了很久,发现遗漏了第三步,是我在第一次pycharm community配置conda环境时没注意到的。之前以为在pycharm中配置Anaconda环境只需要两步,但是自从我下载了pycharm pro重新配置已有的conda环境时,发现按照之前的两步自动操作不管用了,导致pyhanlp运行报错,如下图。这里有第一个小坑,这里的虚拟环境需要选择虚拟环境之下的python.exe(我这个图片里就是错的),我的路径参考:E:\Anaconda\envs\pyhanlp-env\python.exe。

2024-05-10 20:39:47 342 1

原创 gensim中annoy的调用

调用gensim中的annoy,需要先安装依赖包spotify annoy,但是这个库需要C++编译环境,所以直接pip install annoy会报错。要解决这个问题,需要下载安装Visual Studio,但是这个软件对我来说没用且巨大。这也很怪,我找了几个镜像网站,都没有win的版本,只有macos的。克隆倒是成功了,但是pip install之后还是报错。①找到annoy的whl文件,离线安装-->>失败。②用gitclone下载安装-->>失败。

2024-04-26 20:02:42 231 1

原创 解决requests发起get请求的ssl error,不用verify=False

②params参数中的数据实际上已经以各种形式存在于url和cookies中了,所以对这个payload的params没有引起警惕,但事实上,URL+cookies+params有重复参数对于请求成功与否没有影响。然后我把这个网页在浏览器中打开了,发现是可以的,用浏览器抓包看了下,注意到虽然是get请求但是也有一般来说POST请求才会有的payload参数,于是我把这些参数写入params加载到get请求中,请求成功!还有说把本机代理关闭,把抓包软件Charles关闭的,也都没用。

2024-01-29 11:25:54 585

原创 gensim TFIFD 模型补充——关于normalize参数

输出整个corpus的tfidf值(注:不能得到每个文档的词语tfidf)设置normalize=False,还是按照tf和id进行查询,详见我之前的博文。

2023-11-02 20:40:36 215 1

原创 利用refresh的方法获得Authorization,实现爬虫

大家都知道,有的网站进行post请求的时候需要带上参数,确认登录状况。之前一直碰到的情况是Headers里面需要Cookie参数,同时payload中带上一串加密代码,一般是bs64加密。最近进行爬虫的时候发现了Authorization这种情况,发起请求时不带Cookie,而是在headers里面带上Authorization参数。

2023-10-19 15:59:31 3388 1

原创 合并多个excel文件的两种方法:pandas/xlrd

其实逻辑都一样,就是提取出想要的数据,然后写入新的列表,对多个文件重复操作,最终将这多个文件中提取出的数据合并到一个嵌套的列表中,再写入新的excel文件。

2023-05-02 16:22:30 922

原创 Cloudflare反反爬的几种方式记录

cloudflare反反爬的几种方法

2023-05-01 19:10:58 1055

原创 港交所ESG报告爬虫记录贴

按一般思路(比如我之前爬虫上交所和深交所的CSR报告),是设定时间,然后直接进行搜索,设置页面的一些参数,或者获得页数和条目数再一页页去爬虫。这个代码非常常规,就是post请求,设置参数StockId进行遍历爬取就行。不过需要注意的是,遇到一个经常碰到的问题,就是xpath竟然解析不到东西(list out range报错)。在网上搜了一下,发现是因为。于是我自己仔细看了一下源码的结构,自行构造了想爬虫的元素的xpath。

2023-04-13 21:42:27 1361 1

原创 pandas基础用法——数据校验

(笔记:python数据分析学不会?,看大佬如何用pandas玩转数据分析!_哔哩哔哩_bilibili)pandas数据校验import pandas as pd# 用assert校验def ScoreValidation(row): try: assert 0 <= row.Score <= 100 except: print(f"#{row.ID}\tstudent {row.Name} has an invalid sco

2022-04-08 20:48:43 1290

原创 pandas最基础用法(Series和DataFrame对象创建调用)

series对象 1. 列表创建series对象# pandas.Serieslist = ['杨倩文', '加油', '学习']s1 = pd.Series(list, index=['名字', '修饰词', '动词'])print(s1)print('===============================================')2. 字典创建series对象# 还可以用字典创建Seriesdic = {'名字': 'yang', '修饰词': '努..

2022-04-08 14:12:58 2693

原创 gensim中corpus的列表化还原|大型嵌套列表字符串转为原列表

gensim中corpus的格式是:corpus = "[[(文本1第1个词的id),(文本1第1个词的tf),(文本1第2个词的id),(文本1第2个词的tf),……,(文本1第n个词的id),(文本1第n个词的tf)],[(文本2第1个词的id),(文本2第1个词的tf),(文本2第2个词的id),(文本2第2个词的tf),……,(文本2第n个词的id),(文本2第n个词的tf)]……,]]"可以看出,最内层是(id,tf)的元组,外层是一个文本中所有词语的元组数据的列表,最外层是所有文本。

2022-01-19 13:47:33 1085

原创 gensim进阶:TFIDF模型训练以及查找具体词汇的tfidf值

经过整整一天的不懈奋斗,我终于破解了gensim的语料导入!首先把完整的训练模型和保存的代码放上:from gensim import modelsfrom gensim import corporafrom gensim.models import TfidfModelwith open("文件.txt","r",encoding='utf-8') as f: txts = eval(f.read()) # 用eval()把字符串化的列表还原为列表dictionary =

2022-01-17 19:40:50 5313

原创 记录:将字符串化的列表还原为列表;谨慎使用eval()

第一种方法:jsonimport jsonjson.loads('[[123],[456],[789]]')第二种方法:eval()string = '[[123],[456],[789]]'list = eval(string)

2022-01-16 12:47:01 343

原创 两种方式用you-get下载网站视频

导入库import osimport sysfrom you_get import common①用Python代码下载(可批量)url = "" # 想要下载视频的网址common.any_download(url,stream_id='dash-flv480', info_only=False, output_dir=r'E://文档//', merge=True)# stream_id表示格式,可以先用-i查看format,merge表示合并视频②模拟命令行进行下载

2021-11-06 21:10:51 2061

原创 gensim简单使用

首先是安装,看了网上各种教程,需要先按顺序安装numpy、scipy以及smartopen,最后才是gensim,另外有博主说numpy需要mkl版本。不过我自己电脑上已经有各种所需要的库了,直接pip install gensim就行了。中途碰到过问题:①模型训练参数没有“size”的属性,目前是采取去掉这一参数②gensim导入出现scipy报错:cannot import name '_ccallback_c' from 'scipy._lib';反复卸载重装都没用,最终将E盘(Pyt

2021-10-21 18:47:23 1042

原创 pdfplumber使用中一些问题及解决

pdfplumber加载路径import syssys.path.append('绝对路径')# 注:先加载路径再导入模块,顺序很重要pdfplumber调用import pdfplumber# 打开pdf文件pdf = pdfplumber.open('文件路径')for page in pdf.pages: text = page.extract_text() # 提取文本pdfplumber与pdfminer串用在使用pdfplumber之前是用的pdfm

2021-10-11 09:56:23 3132

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除