Yae Yang-CSDN博客

原创花了四个小时解决了电脑cpu fan error无法开机的问题

然后我终于想起来问ds老师，ds老师提供了很多可能存在的问题，我一一看了，思考过后确定，问题在于风扇，所以要么是主板坏了带不动风扇，要么就是风扇坏了，再不然就是接的线坏了。出国半年回来，开机突然报错CPU fan error，进bios之后显示cpu fan n/a，应该是因为转速太低没检测到，默认没接，所以开不了机。去敲了卖散热的客服，商家让我把风扇接线接到其他风扇接口上看看风扇能不能正常转，果然是不能，原来是。，教观众接线的，我检查了，当年接线就是对的，所以这个问题排除。，但是我一直更新不成功。

2026-03-19 16:40:34 45

原创存档一个S证信快速搜索爬虫案例

但是麻烦在代码需要选定，对应到Python爬虫里就需要更精确的代码，比如600903, GD150574，只post"600903"是返回不了数据的。后面那个代码不知道该怎么获取，所以只能退而求其次，用S证信快速搜索代码，把目录全部爬下来，再进行筛选。我尝试过pip install Crypto，再将虚拟环境的小写改成大写都无济于事，似乎是这个库停止维护了，所以直接安装上面的pycryptodome就好。的AES加密，最终生成了我们需要的结果，其中加密参数为时间戳timestample密钥为。

2025-09-24 13:05:34 980

原创 Stata报错I/O error writing .dta file解决方法

这个链接里详细阐述了Windows系统中temp的路径，stata是利用默认的路径进行运行的，查看方法：打开stata，运行两行命令，能看见TEMP的路径。有的时候打开.dta文件，再返回文件目录，能看见一个后缀为.tmp的文件，如ST_a760_000000.tmp，随着stata窗口关闭，这个文件会消失。需要注意，即使变更了环境变量中的TEMP路径，未关闭的stata还是维持打开时的设置，也就是说变更TEMP环境之后需要重启stata。stata官网也有对于disk space的问题的阐述，见。

2024-11-05 11:03:04 1890 1

原创爬虫中的一些巧思，ajax js请求分析，格式化数字数据

老师让做的爬虫。

2024-07-18 12:16:07 1469

原创 GloVe (python)安装踩坑及使用

在安装glove_python的时候持续的报错：这个问题在我之前安装annoy的时候也出现过，是因为c++编译环境的问题。但我已经有Visual Studio的C++环境了，按道理不该出现这个问题了。仔细看了这一长串报错信息后，发现最根源的问题是这个：这个的意思似乎是cl的环境没有配置，于是参考下面大佬的教程进行了配置。Windows11下配置Visual Studio2022 环境变量（Windows下配置Visual Studio 通用）_vs2022环境变量配置-CSDN博客。

2024-06-20 17:42:31 1563

原创 excel文件打开筛选，pandas和openpyxl会报错

ValueError: Unable to read workbook: could not read worksheets from C:\Users\杨\Desktop\lobbyMap1.xlsx. This is most probably because the workbook source files contain some invalid XML.这两种报错都是因为excel文件开了筛选，关闭筛选再运行程序就行了。

2024-05-21 20:42:20 1129 3

原创 pyhanlp vs. hanlp

想要找SDP的hanlp用法，死活找不到，花了很多时间。回归github之后发现实际上hanlp有两个版本，一个1.x，一个2.x。而我目前使用成功的都是1.x的命令，是基于JAVA的。而2.x版本是升级版，有一些功能并没有更新到1.x里，所以无法运行，其中就包括SEP。为什么会产生这种混淆呢？因为网上有很多教程，要么是1.x出来的时候写的，要么是无脑搬运的旧版本的，当时的安装应该也确实是hanlp（也就是说1.x以前的名字和2.x是相同的），导致网络教程和github版本有一些差错，对应不上。那么说一下两

2024-05-20 10:54:40 1015

原创 pyhanlp一点小坑：pycharm中配置conda虚拟环境

试了很久，发现遗漏了第三步，是我在第一次pycharm community配置conda环境时没注意到的。之前以为在pycharm中配置Anaconda环境只需要两步，但是自从我下载了pycharm pro重新配置已有的conda环境时，发现按照之前的两步自动操作不管用了，导致pyhanlp运行报错，如下图。这里有第一个小坑，这里的虚拟环境需要选择虚拟环境之下的python.exe（我这个图片里就是错的），我的路径参考：E:\Anaconda\envs\pyhanlp-env\python.exe。

2024-05-10 20:39:47 583 1

原创 gensim中annoy的调用

调用gensim中的annoy，需要先安装依赖包spotify annoy，但是这个库需要C++编译环境，所以直接pip install annoy会报错。要解决这个问题，需要下载安装Visual Studio，但是这个软件对我来说没用且巨大。这也很怪，我找了几个镜像网站，都没有win的版本，只有macos的。克隆倒是成功了，但是pip install之后还是报错。①找到annoy的whl文件，离线安装-->>失败。②用gitclone下载安装-->>失败。

2024-04-26 20:02:42 368 1

原创解决requests发起get请求的ssl error，不用verify=False

②params参数中的数据实际上已经以各种形式存在于url和cookies中了，所以对这个payload的params没有引起警惕，但事实上，URL+cookies+params有重复参数对于请求成功与否没有影响。然后我把这个网页在浏览器中打开了，发现是可以的，用浏览器抓包看了下，注意到虽然是get请求但是也有一般来说POST请求才会有的payload参数，于是我把这些参数写入params加载到get请求中，请求成功！还有说把本机代理关闭，把抓包软件Charles关闭的，也都没用。

2024-01-29 11:25:54 925

原创 gensim TFIFD 模型补充——关于normalize参数

输出整个corpus的tfidf值（注：不能得到每个文档的词语tfidf）设置normalize=False，还是按照tf和id进行查询，详见我之前的博文。

2023-11-02 20:40:36 342 1

原创利用refresh的方法获得Authorization，实现爬虫

大家都知道，有的网站进行post请求的时候需要带上参数，确认登录状况。之前一直碰到的情况是Headers里面需要Cookie参数，同时payload中带上一串加密代码，一般是bs64加密。最近进行爬虫的时候发现了Authorization这种情况，发起请求时不带Cookie，而是在headers里面带上Authorization参数。

2023-10-19 15:59:31 5387 1

原创合并多个excel文件的两种方法：pandas/xlrd

其实逻辑都一样，就是提取出想要的数据，然后写入新的列表，对多个文件重复操作，最终将这多个文件中提取出的数据合并到一个嵌套的列表中，再写入新的excel文件。

2023-05-02 16:22:30 1205

原创 Cloudflare反反爬的几种方式记录

cloudflare反反爬的几种方法

2023-05-01 19:10:58 1563

原创港交所ESG报告爬虫记录贴

按一般思路（比如我之前爬虫上交所和深交所的CSR报告），是设定时间，然后直接进行搜索，设置页面的一些参数，或者获得页数和条目数再一页页去爬虫。这个代码非常常规，就是post请求，设置参数StockId进行遍历爬取就行。不过需要注意的是，遇到一个经常碰到的问题，就是xpath竟然解析不到东西（list out range报错）。在网上搜了一下，发现是因为。于是我自己仔细看了一下源码的结构，自行构造了想爬虫的元素的xpath。

2023-04-13 21:42:27 1945 1

原创 pandas基础用法——数据校验

（笔记：python数据分析学不会？，看大佬如何用pandas玩转数据分析!_哔哩哔哩_bilibili）pandas数据校验import pandas as pd# 用assert校验def ScoreValidation(row): try: assert 0 <= row.Score <= 100 except: print(f"#{row.ID}\tstudent {row.Name} has an invalid sco

2022-04-08 20:48:43 1499

原创 pandas最基础用法（Series和DataFrame对象创建调用）

series对象 1. 列表创建series对象# pandas.Serieslist = ['杨倩文', '加油', '学习']s1 = pd.Series(list, index=['名字', '修饰词', '动词'])print(s1)print('===============================================')2. 字典创建series对象# 还可以用字典创建Seriesdic = {'名字': 'yang', '修饰词': '努..

2022-04-08 14:12:58 2825

原创 gensim中corpus的列表化还原|大型嵌套列表字符串转为原列表

gensim中corpus的格式是：corpus = "[[(文本1第1个词的id),(文本1第1个词的tf),(文本1第2个词的id),(文本1第2个词的tf),……,(文本1第n个词的id),(文本1第n个词的tf)],[(文本2第1个词的id),(文本2第1个词的tf),(文本2第2个词的id),(文本2第2个词的tf),……,(文本2第n个词的id),(文本2第n个词的tf)]……,]]"可以看出，最内层是（id，tf）的元组，外层是一个文本中所有词语的元组数据的列表，最外层是所有文本。

2022-01-19 13:47:33 1162

原创 gensim进阶：TFIDF模型训练以及查找具体词汇的tfidf值

经过整整一天的不懈奋斗，我终于破解了gensim的语料导入！首先把完整的训练模型和保存的代码放上：from gensim import modelsfrom gensim import corporafrom gensim.models import TfidfModelwith open("文件.txt","r"，encoding='utf-8') as f: txts = eval(f.read()) # 用eval()把字符串化的列表还原为列表dictionary =

2022-01-17 19:40:50 5704

原创记录：将字符串化的列表还原为列表；谨慎使用eval()

第一种方法：jsonimport jsonjson.loads('[[123],[456],[789]]')第二种方法：eval()string = '[[123],[456],[789]]'list = eval(string)

2022-01-16 12:47:01 409

原创两种方式用you-get下载网站视频

导入库import osimport sysfrom you_get import common①用Python代码下载（可批量）url = "" # 想要下载视频的网址common.any_download(url,stream_id='dash-flv480', info_only=False, output_dir=r'E://文档//', merge=True)# stream_id表示格式，可以先用-i查看format，merge表示合并视频②模拟命令行进行下载

2021-11-06 21:10:51 2241

原创 gensim简单使用

首先是安装，看了网上各种教程，需要先按顺序安装numpy、scipy以及smartopen，最后才是gensim，另外有博主说numpy需要mkl版本。不过我自己电脑上已经有各种所需要的库了，直接pip install gensim就行了。中途碰到过问题：①模型训练参数没有“size”的属性，目前是采取去掉这一参数②gensim导入出现scipy报错：cannot import name '_ccallback_c' from 'scipy._lib'；反复卸载重装都没用，最终将E盘（Pyt

2021-10-21 18:47:23 1142

原创 pdfplumber使用中一些问题及解决

pdfplumber加载路径import syssys.path.append('绝对路径')# 注：先加载路径再导入模块，顺序很重要pdfplumber调用import pdfplumber# 打开pdf文件pdf = pdfplumber.open('文件路径')for page in pdf.pages: text = page.extract_text() # 提取文本pdfplumber与pdfminer串用在使用pdfplumber之前是用的pdfm

2021-10-11 09:56:23 3698

weixin_51143561的博客