自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

yiyang的博客

学习打卡记录

  • 博客(35)
  • 收藏
  • 关注

原创 图数据库初体验——Neo4j & Cypher

图数据库初体验——Neo4j & Cypher1. 下载与启动Neo4j官网可以免费下载社区版Neo4j以及Neo4j Desktop。以macOS为例,Desktop为常规客户端程序下载安装直接用,社区版下载下来以后需要解压,通过终端进入解压位置启动Neo4j,为了方便可以设置一下访问路径。进入终端,输入vim ~/.bash_profile,按一下i进入编辑模式,加一行代码export PATH="your_path/bin:$PATH"其中your_path为解压后Neo4j的路径

2021-04-22 17:27:19 267 1

原创 LeetCode 腾讯精选练习50--88,104

88给你两个有序整数数组 nums1 和 nums2,请你将 nums2 合并到 nums1 中,使 nums1 成为一个有序数组。初始化 nums1 和 nums2 的元素数量分别为 m 和 n 。你可以假设 nums1 的空间大小等于 m + n,这样它就有足够的空间保存来自 nums2 的元素。【思路】① 合并nums1和nums2 直接返回排序后的列表;② 双指针遍历,在nums1上插入nums2的值【实现】class Solution: def merge(self, n

2021-03-05 15:10:10 108

原创 LeetCode 腾讯精选练习50--62, 70, 78

62 不同路径一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为 “Start” )。机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角(在下图中标记为 “Finish” )。问总共有多少条不同的路径?【思路】不加任何修饰,标准的动态规划题。状态方程:dp[i][j]=dp[i−1][j]+dp[i][j−1]dp[i][j] = dp[i-1][j] + dp[i][j-1]dp[i][j]=dp[i−1][j]+dp[i][j−1]即坐标第(i,j)格

2021-01-27 17:54:46 152

原创 LeetCode 腾讯精选练习50--54, 59, 61

54 螺旋矩阵给定一个包含 m x n 个元素的矩阵(m 行, n 列),请按照顺时针螺旋顺序,返回矩阵中的所有元素。示例 1:输入:[[ 1, 2, 3 ],[ 4, 5, 6 ],[ 7, 8, 9 ]]输出: [1,2,3,6,9,8,7,4,5]【思路】菜鸡如我用了暴力解法,由于矩阵是一个四边形,每次通过矩阵大小记录位置,判断位置然后添加一条边然后矩阵再减去一条边。然后看到有个大佬用了更优化的解法,不需要判断位置,每次取首行,原矩阵去掉首行后,翻转获得新矩阵,递归求解。

2021-01-26 14:52:14 115

原创 LeetCode 腾讯精选练习50--43, 46, 53

43. 字符串相乘给定两个以字符串形式表示的非负整数 num1 和 num2,返回 num1 和 num2 的乘积,它们的乘积也表示为字符串形式。示例 1:输入: num1 = “2”, num2 = “3”输出: “6”【思路】注意哦,这道题的本意并不是让我们把字符串变为整数直接返回运算结果,考的其实是进位的计算。所以我们需要使用原始竖式乘法的方法去计算,并且优化。本菜鸡目前只能写出如下代码,储存进位和当前位的方法目前还不能熟练掌握。【实现】class Solution: d

2021-01-24 18:34:25 119

原创 LeetCode 腾讯精选练习50--23, 26, 33

23. 合并K个升序链表给你一个链表数组,每个链表都已经按升序排列。请你将所有链表合并到一个升序链表中,返回合并后的链表。示例 1:输入:lists = [[1,4,5],[1,3,4],[2,6]]输出:[1,1,2,3,4,4,5,6]解释:链表数组如下:[1->4->5,1->3->4,2->6]将它们合并到一个有序链表中得到。1->1->2->3->4->4->5->6【思路】合并两个链表的升级

2021-01-20 11:28:49 110

原创 LeetCode 腾讯精选练习50--16, 20, 21

16. 最接近的三数之和给定一个包括 n 个整数的数组 nums 和 一个目标值 target。找出 nums 中的三个整数,使得它们的和与 target 最接近。返回这三个数的和。假定每组输入只存在唯一答案。示例:输入:nums = [-1,2,1,-4], target = 1输出:2解释:与 target 最接近的和是 2 (-1 + 2 + 1 = 2) 。【思路】与三数之和一致,将数列排序,固定一个点,另外两个点使用指针对撞法。【实现】class Solution:

2021-01-18 18:05:47 106

原创 LeetCode 腾讯精选练习50--11, 14, 15

11. 盛最多水的容器给你 n 个非负整数 a1,a2,…,an,每个数代表坐标中的一个点 (i, ai) 。在坐标内画 n 条垂直线,垂直线 i 的两个端点分别为 (i, ai) 和 (i, 0) 。找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多的水。【思路】显而易见,这道题可以求得面积公式:max⁡((j−i)∗min⁡(height[i],height[j]))\max( (j - i ) * \min( height[i], height[j]) )max((j−i)∗mi

2021-01-16 12:49:38 199 1

原创 2021年1月学习清单

昨天由于自己对于数据库原理以及spyder的不熟悉,导致了客户数据库崩溃,收到了血淋淋的教训。数据挖掘实习做了近一个月,第一次从事技术岗的工作,有了不少体会和感悟,清晰的认识到了自己的不足,要学的东西还有非常多,公司内部的学习资料也很丰富,在这里列一份学习清单:学习清单数据库原理;sql性能优化;spark权威指南1~4章复习一遍python深度学习跟一边datawhale的nlp和推荐系统项目linux基础 https://www.runoob.com/linux/linux-tutori

2021-01-15 18:12:24 143

原创 LeetCode 腾讯精选练习50--7, 8, 9

7. 整数反转给出一个 32 位的有符号整数,你需要将这个整数中每位上的数字进行反转。假设我们的环境只能存储得下 32 位的有符号整数,则其数值范围为 [−2^31, 2^31 − 1]。请根据这个假设,如果反转后整数溢出那么就返回 0。示例 1:输入:x = 123输出:321【思路】将其转化为字符串反转【实现】class Solution: def reverse(self, x: int) -> int: if x == 0 : return

2021-01-13 16:15:46 100

原创 LeetCode 腾讯精选练习50--2, 4, 5

两数相加题号:2难度:中等https://leetcode-cn.com/problems/add-two-numbers/给出两个 非空 的链表用来表示两个非负的整数。其中,它们各自的位数是按照 逆序 的方式存储的,并且它们的每个节点只能存储 一位 数字。示例 1:输入:(2 -> 4 -> 3) + (5 -> 6 -> 4)输出:7 -> 0 -> 8原因:342 + 465 = 807【思路】建立一个新的节点为初始节点,使用一个变量保存

2021-01-06 11:53:27 110

原创 【总结】2020年度总结

总感觉今年像是人生开启了新的篇章,取得了不少收获也经历了一些挫折,在这里做一个记录,将从学习、竞赛、求职和生活四个方面总结。【学习】今年正式的接触到了数据分析、数据挖掘,学习了机器学习和深度学习,对于分布式框架也有了一定的了解,工具方面更加熟悉python,新增了sql和tableau的技能。深度学习方面仍停留在非常初级的阶段,可以说是没有入门。今年要通过以赛代练的方式入门一个方向,NLP或者推荐系统。大数据方面需要熟悉mapreduce以及spark,做到会用,懂得原理即可。论文迟迟没有启动,目

2021-01-02 00:44:16 430 3

原创 风控扫盲--指标

风控扫盲–指标在数据分析、数据挖掘的求职过程中,有不同的业务背景,其中风控是很重要的一块,在这里记录一下基本的知识点,虽然比较皮毛,但是最为一个基本了解,做到在面试的时候不至于名词都没听说过。参考整理自知乎大佬https://zhuanlan.zhihu.com/p/79682292文章目录风控扫盲--指标PSI指标KS指标WOE与IV总结PSI指标【公式】:PSI=∑i=1n(实际占比−预期占比)∗ln⁡(实际占比/预期占比)\text {PSI} = \sum_{i=1}^{n} (实际

2020-11-13 14:02:43 667

原创 天池风控新人赛1-赛题理解

1.1 比赛&数据比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/introduction赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。数据包括80w训练集和40w测试集,包含47个变量,其中15个为匿名变量。提交结果为每个测试样本是1的概率,也就是y为1的概率。评价方法为AUC评估模型效果(越大越好)。1.2 评估指标对于

2020-09-15 10:52:56 181

原创 Leetcode编程实践-查找-滑动数组&二分查找

5.1 滑动数组算法应用Leetcode219 存在重复元素2给定一个整数数组和一个整数 k,判断数组中是否存在两个不同的索引 i 和 j,使得 nums [i] = nums [j],并且 i 和 j 的差的 绝对值 至多为 k。【思路】使用长度为k的滑动窗口查找,若窗口内去重元素小于k,则返回true,否则继续滑动。class Solution: def containsNearbyDuplicate(self, nums: List[int], k: int) -> bo

2020-09-02 16:17:13 237

原创 Leetcode编程实践-查找-对撞指针

leetcode 1 两数之和给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素不能使用两遍。示例:给定 nums = [2, 7, 11, 15], target = 9因为 nums[0] + nums[1] = 2 + 7 = 9所以返回 [0, 1]力扣第一题,就像词汇书的abandon,无脑解法就是套两个循环遍历,这里使用复杂度更低的写法。【思路】

2020-08-26 22:44:56 206

原创 Leetcode编程实践-查找

3.1 考虑的基本数据结构第一类:查找有无–set某元素是否存在:集合set只储存键,而不需要对应相应的值,set中的键不允许重复。第二类:查找对应关系(键值对应)–dict某元素出现了几次:dictdict中的键不允许重复第三类:改变映射关系–map通过将原有序列的关系映射统一表示为其他3.2 算法应用leetcode242 有效的字母异位词示例 1:输入: s = “anagram”, t = “nagaram”输出: true【思路】两个词需要每个字母出现的次数都一样

2020-08-22 21:08:58 176

原创 Leetcode编程实践-动态规划

2.1 主要思想通过解决子问题,递归的求出原问题的解。2.2 动态规划模板步骤确定动态规划状态;写出状态转移方程(画出状态转移表);考虑初始化条件;考虑输出状态;考虑对时间、空间复杂度优化。2.3 例题leetcode300 最长上升子序列给定一个无序的整数数组,找到其中最长上升子序列的长度。示例:输入: [10,9,2,5,3,7,101,18]输出: 4解释: 最长的上升子序列是 [2,3,7,101],它的长度是 4。【思路】计算由每个位置结尾的最长上升子序列,

2020-08-21 13:59:03 154

原创 Leetcode编程实践-分而治之

1.1 主要思想分治算法的主要思想是将原问题 若干个子问题,直到子问题 ,停止递归。将子问题逐个 击破(一般是同种方法),将已经解决的子问题合并,最后,算法会 得到原问题的答案。1.2 分治算法步骤分:递归将问题分解为各个的子问题 (性质相同的、相互独立的子问题);治:将子问题逐个击破;合:将已解决的子问题逐层合并,最终得出原问题的解。1.3 分治法使用的情况原问题能被分解为子问题;子问题的结构与性质与原问题一样,并且相互独立,子问题之间不包含公共的子子问题;子问题可以合并为原问题的

2020-08-19 21:37:56 238

原创 python基础_文件读写

【例】打开一个文件,并返回文件对象,如果该文件无法被打开,会抛出OSError。f = open('将进酒.txt')print(f)# <_io.TextIOWrapper name='将进酒.txt' mode='r' encoding='cp936'>for each in f: print(each)# 君不见,黄河之水天上来,奔流到海不复回。# 君不见,高堂明镜悲白发,朝如青丝暮成雪。# 人生得意须尽欢,莫使金樽空对月。# 天生我材必有用,千金散尽还复来。

2020-08-08 21:25:13 135

原创 python基础_文字转时间的一种方式

在处理含有字符串日期的数据集或表格时,我们需要一种自动解析字符串的方法,无论它是什么格式的,都可以将其转化为 datetime 对象。这时,就要使用到 dateutil 中的 parser 模块。from dateutil import parsers = '2020-06-25'dt = parser.parse(s)print(dt) # 2020-06-25 00:00:00print(type(dt)) # <class 'datetime.datetime'>s =

2020-08-07 22:43:40 194

原创 python基础 类与对象 魔法方法

类与对象对象=属性+方法class Turtle: # Python中的类名约定以大写字母开头 """关于类的一个简单例子""" # 属性 color = 'green' weight = 10 legs = 4 shell = True mouth = '大嘴' # 方法 def climb(self): print('我正在很努力的向前爬...') def run(self): pr

2020-08-05 22:18:53 107

原创 NLP入门_基于Bert的文本分类

预训练过程使用了Google基于Tensorflow发布的BERT源代码。首先从原始文本中创建训练数据,由于本次比赛的数据都是ID,这里重新建立了词表,并且建立了基于空格的分词器class WhitespaceTokenizer(object): """WhitespaceTokenizer with vocab.""" def __init__(self, vocab_file): self.vocab = load_vocab(vocab_file) s

2020-08-04 21:11:59 526

原创 python基础巩固_函数

可变参数def printinfo(arg1, *args): print(arg1) for var in args: print(var)printinfo(10) # 10printinfo(70, 60, 50)# 70# 60# 50关键字参数def printinfo(arg1, *args, **kwargs): print(arg1) print(args) print(kwargs)printinfo(70, 60, 50, a=1, b=2

2020-08-03 00:03:28 89

原创 NLP入门_基于深度学习的文本分类

TextCNN#模型搭建self.filter_sizes = [2, 3, 4] # n-gram windowself.out_channel = 100self.convs = nn.ModuleList([nn.Conv2d(1, self.out_channel, (filter_size, input_size), bias=True)for filter_size in self.filter_sizes])#前向传播pooled_outputs = []for i in ra

2020-07-31 23:34:56 139

原创 python基础巩固_字典集合序列

字典笔记参考:https://github.com/datawhalechina/team-learning-program/blob/master/PythonLanguage/09.%20%E5%AD%97%E5%85%B8.md集合笔记参考:https://github.com/datawhalechina/team-learning-program/blob/master/PythonLanguage/10.%20%E9%9B%86%E5%90%88.md序列笔记参考https://git

2020-07-31 23:28:46 107

原创 python基础巩固4 列表、元组、字符串

列表添加元素:append、extend、insert、+;删除元素:pop、remove、del;统计、排序:count、index、sort;添加元素x=[1,2,3]x.append([1,2])print(x)x=[1,2,3]x.extend([1,2])print(x)x=[1,2,3]x+=[1,2]print(x)x=[1,2,3]x.insert(1,[1,2])print(x)'''result:[1, 2, 3, [1, 2]][1,

2020-07-28 16:59:59 231

原创 NLP入门_基于深度学习的文本分类_Fasttext

基于机器学习的文本分类存在如下缺陷:转换得到的维度较高,训练时间较长;没有考虑单词之间的联系;深度学习也可以用于文本表示,还可以将其映射到低维空间,比较典型的例子有:FastText、Word2Vec和Bert。FastTextFastText是一种典型的深度学习词向量表示方式,它可以非常简单的通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。FastText在文本分类任务上是由于TF-IDF的:F方法用单词的Emb

2020-07-27 23:15:08 167

原创 NLP入门打卡_基于机器学习的文本分类

在处理自然语言问题时,需要将文字处理为计算机可以理解的语言,由于文本长度不定,因此需要进行词嵌入(Word Embedding)。词嵌入将不定长的文本转换到定长的空间内,是文本分类的第一步。常见词嵌入方法:one-hot这里的One-hot与数据挖掘任务中的操作是一致的,即将每一个单词使用一个离散的向量表示。具体将每个字/词编码一个索引,然后根据索引进行赋值。One-hot表示方法的例子如下:句子1:我 爱 北 京 天 安 门句子2:我 喜 欢 上 海首先对所有句子的字进行索引,即将每个字确定一

2020-07-25 19:00:20 154

原创 python基础巩固3 异常处理

Python 标准异常总结BaseException:所有异常的 基类Exception:常规异常的 基类StandardError:所有的内建标准异常的基类ArithmeticError:所有数值计算异常的基类FloatingPointError:浮点计算异常OverflowError:数值运算超出最大限制ZeroDivisionError:除数为零AssertionError:断言语句(assert)失败AttributeError:尝试访问未知的对象属性EOFError:没有内建

2020-07-25 10:31:21 76

原创 python基础巩固_位运算

异或计算性质:n ^ 0 = n 任何数异或0=自己n ^ n = 0 任何数异或自己=02n+1 ^ 1 = 2n 奇数异或1=奇数-12n ^ 1 = 2n+1 偶数异或1=偶数+1a ^ b ^ c = c ^ (b ^ a) 异或满足交换律和结合律

2020-07-23 20:19:20 52

原创 python基础巩固2 条件、循环

assertassert 1>3# AsserationError作用:在进行单元测试时,可以用来在程序中置入检查点,只有条件为 True 才能让程序正常工作。while-elsecount = 0while count < 5: print("%d is less than 5" % count) count = count + 1else: print("%d is not less than 5" % count) # 0 is les

2020-07-23 16:07:41 105

原创 NLP入门打卡_数据读取与数据分析

读取数据data=pd.read_csv('train_set.csv',sep='\t')data.head()数据格式如下:标签为数字,文字内容为单词转化为数字的映射。描述分析# 统计每个样本所包含的单词数量data['text_len']=data['text'].apply(lambda x:len(x.split()))print(data['text_len'].describe()) # 描述统计data['text_len'].plot(kind='hist',bins

2020-07-22 22:11:59 267

原创 python基础巩固1

位运算print(1^2)# 异或 结果3print(1|2)# 或 结果3print(1&2)# 与 结果0print(~4)# 按位取反 ~x=-(x+1)print(1<<2)# 按照二进制左移 左移一位相当于乘以2# 结果4print(3>>1)# 按照二进制左移 右移一位相当于整除2# 结果1计算执行顺序print(1 << 3 + 2 & 7)# resut (1<< (3+2)) &7)

2020-07-21 21:52:42 88

原创 NLP入门打卡_赛题理解&报名

赛题理解通过匿名数据以及所给出的标签训练模型,以F1-score作为评价标准:fscore=2∗ppv∗tprppv+tprfscore=2*\frac {ppv*tpr} {ppv+tpr}fscore=2∗ppv+tprppv∗tpr​可以使用tf-idf、词向量(FastText、WordVerc、Bert等)方法。赛题理解:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.6.6406111aIKCSLV

2020-07-20 21:19:18 159

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除