- 博客(24)
- 收藏
- 关注
原创 [kairey] Ubuntu下使用中文xeLatex+vscode+zotero
在windows环境下,使用ctex就好,但放在ubuntu下,不知为何不行了.于是在网上搜索答案,改用xeLatex引擎,使用xeCJK包.为了使用xeLatex引擎,在设置中加入。
2022-11-03 05:48:43 244
原创 [KR] pandas并行计算,内存管理
来自我的笔记文章,这里多增加一点内容对一个两千多万行的df进行transform操作,每秒只能处理大概3600行,tqdm估计要50分钟。。。于是决定找包,dask,rapids,pandarelle 似乎我都配置成功,不行。。。算了还是自己写一个并行吧。尝试了两种方法:a. 把要并行运算的df拆分后分开保存,在subprocess里面分别读取:结果不可行,因为io太耗时间。
2022-10-31 23:13:47 467
原创 [kr] pandas category类型数据使用groupby出现的问题
但后续处理使用map把分数据贴回主数据时出现报错TypeError: Cannot setitem on a Categorical with a new category, set the categories first,才想起是否可能和category类型有关,于是做了一个实验。很显然了,这里fips是category,导致就算df里面没有对应的year-fips,也会在所有year把所有fips显示出来。
2022-10-31 14:59:40 1879
原创 pandas的dataFrame传入函数后发生了变化以及拷贝问题
今天发现,全局定义的pandas的DataFrame被传入到函数中的时候,如果函数改变了slice,比如df.loc[…] = x,全局变量df也会跟着变。险些造成错误计算,幸好发现及时。这里探讨一下这个问题的规避方法。使用的dataframe很大的情况下,复制列,在复制的列上进行想要的操作,如果很小,使用df.copy()首先是实验环节:定义dataframe。
2022-10-03 21:34:18 2089
原创 folium技巧
创建地图:默认使用openStreetMap作为底图,但该图对于争议领土没有按中国标准来画,因此替换为高德地图作为底图在define map的时候,将参数prefer_canvas=True可以在marker多的情况下提高地图加载速度def create_map(): world_map = folium.Map(prefer_canvas=True, # 在define map的时候,设置prefer_canvas=True可以在marker多的情况下提高速度 .
2022-05-19 20:24:30 536
原创 [kr]使用plotly创建热力图
安装在windows环境下最好使用Conda install而不是pip install,因为涉及到c extension。conda install plotlyconda install geopandas
2022-05-19 13:03:39 260
原创 将conll-2003格式的语料按句子切分
最近在做ner,需要随机抽取语料划分训练集和测试集,没有找到现成方法,自己写了一个。Conll-2003格式用空行区别句子EU NNP B-NP B-ORGrejects VBZ B-VP OGerman JJ B-NP B-MISCcall NN I-NP Oto TO B-VP Oboycott VB I-VP OBritish JJ B-NP B-MISClamb NN I-NP O. . O OPeter NNP B-NP B-PERBlackburn NNP I-NP I
2021-03-28 19:12:14 692
原创 Pandas常用命令
# 读取Excel文件;原表格中的空白单元格值是nan,这里把nan转化为空字符串 self.excelData = read_excel(dataPath, sheet_name = 'Sheet1').fillna(value='')
2021-03-08 20:42:29 105
原创 封装openpyxl以直接按表头读取数据
openpyxl没有提供原生api直接按表头数值读取列值,这里做一个简单的封装。笔者想到两种方法,经过测试,第二种方法比第一种方法大概快一倍左右。注意,空单元格的value是None;openpyxl只能按名字读取表格的sheet。第一种方法:# -*- coding: utf-8 -*-"""Created on Mon Mar 8 13:15:13 2021@author: KaireyX1C6th"""from openpyxl import load_workbookwb =
2021-03-08 15:03:29 3339 3
原创 从负数(不会编程)开始刷leetcode 【1-4】229. Majority Element II
摩尔投票法首先,已知要大于(n/k)时的众数数量不能超过k-1个,因为sum({m1,m2…mn}*k)>n。那么就假设有k-1个众数。将n分成ceil(n/(k-1))段,在每段中比较,至少平均每段都有出现一次候选人,就可以断言候选人票数>(n/k-1)>(n/k)在这里插入代码片...
2020-06-03 20:05:44 146
原创 从负数(不会编程)开始刷leetcode 【1-3】41. First Missing Positive
class Solution: def firstMissingPositive(self, nums: List[int]) -> int: ''' ''' if 1 not in nums: return 1 n = len(nums) for i in range(n): if nums[i] > n or nums[i] < 1:
2020-05-24 17:38:57 151
原创 从负数(不会编程)开始刷leetcode 【1-2】189. Rotate Array
三种解法1.copy:时间复杂度 O(n) 空间复杂度 O(n),尽管如此,leetcode中文站显示我的空间使用量超越了100%……class Solution: def rotate(self, nums: List[int], k: int) -> None: """ Do not return anything, modify nums in-place instead. """ temp = nums.copy().
2020-05-23 21:33:32 252
原创 从负数(不会编程)开始刷leetcode 【1】80. Remove Duplicates from Sorted Array II
使用语言: python刷题顺序:https://medium.com/@yjiao7/1-leetcode-%E5%88%86%E7%B1%BB%E9%A1%BA%E5%BA%8F%E8%A1%A8%E7%AC%AC%E4%BA%8C%E7%89%88-%E5%A2%9E%E5%8A%A0%E9%87%8D%E7%82%B9250%E9%A2%98-bbf97a646edc题目:解题: 题目要求给出一个修改后的list,使得list的前n个元素满足单种元素最多重复一次的要求。思路:将list想成两部
2020-05-19 20:38:04 153
原创 Pandas中的切片与选择
row_data[['Sales']]得到的是df对象而row_data['Sales']得到是series对象究其原因,可能在于[]是一维数组,而[[]]就是二维数组了切片操作与array一样df.iloc[0:1,0:1]或者df.iloc[]得到的是一行一列df.iloc[:,0]表示所有行与第0列不连续的行和列,用一个二维数组表示:df.iloc[[1,...
2019-06-26 19:21:35 932
原创 Pandas中的排序
Pandas中的排序根据数值排序可使用ad=ad.sort_values(by='AdvertisingCost',ascending = True)来进行,注意 df.sort_values method创建了新的object且排序后对应index不会变,而是跟着排序走所以需要重新设定indexobj = ad.reset_index(drop=True)#重新设定index,...
2019-06-26 19:18:05 412
原创 将三维向量改为二维,一个加速程序运行的方法
原函数function [routeflow]=calculateX(X,route3D)maxDay=130;routeflow=sparse(zeros(118,maxDay));%路线/60天for i = 1:21 for j = 1:maxDay-20 t=X(i,j).*reshape(route3D(i,:,:),[118,130]); ...
2019-06-26 10:58:09 1594
原创 学习MATLAB的无奈
我非数学专业,亦非理科生。平时也比较忙,只有参加数学建模比赛的短短几天才有机会学习MATLAB,故在此处将学习心得保存下来,以备日后咨用,不至于忘却。...
2019-06-26 10:07:10 217
原创 MATLAB将数组写入xls文件的方法
MATLAB将数组写入xls文件的方法使用的函数,xlsread,xlswrite,mat2cell,num2cell主要思想:将数据与数据名一起存储到一个cell中,再使用xlswrite函数直接将cell保存到xls文件中。%{mat2cell函数用法,第一个参数是matrix,第二个和第三个参数分别为两个vector,用于表示每个cell中获取原matrix的几行几列。%}da...
2019-06-26 10:00:47 7928
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人