- 博客(28)
- 收藏
- 关注
原创 TIANCHI 电商搜索算法赛学习
以下学习笔记来源于 Datawhale202203 NLP竞赛学习课程的任务二:词向量介绍与训练。地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/ECommerceSearch竞赛链接:https://tianchi.aliyun.com/specials/promotion/opensearch赛题介绍本次题目围绕电商领域搜索算法,开发者们可以通过基于阿里巴巴集团自研的高性能分布式搜索引擎问天引擎
2022-03-19 23:35:26 729
原创 千言数据集:文本相似度——BERT完成NSP任务
以下学习笔记来源于 Coggle 30 Days of ML(22年1&2月)链接:https://coggle.club/blog/30days-of-ml-202201比赛链接:https://aistudio.baidu.com/aistudio/competition/detail/45/0/task-definition了解BERT和NSPBERTBERT的全称为Bidirectional Encoder Representation from Transformers,是一个预
2022-01-26 11:35:52 8848 2
原创 千言数据集:文本相似度—— 训练中文词向量
以下学习笔记来源于 Coggle 30 Days of ML(22年1&2月)链接:https://coggle.club/blog/30days-of-ml-202201比赛链接:https://aistudio.baidu.com/aistudio/competition/detail/45/0/task-definition加载数据集,训练中文词向量导入所需库import pandas as pdimport jiebafrom gensim.models import Word
2022-01-22 16:05:39 1448
原创 Datawhale组队学习——数据分析Task05 模型建立与评估
以下学习笔记来自Datawhale组队学习的数据分析课程第二章,此次数据分析课程主要是完成kaggle上泰坦尼克的任务,实战数据分析全流程。链接:https://github.com/datawhalechina/hands-on-data-analysis模型建立与评估数据导入导入基本库和plt配置import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom IP
2022-01-20 17:51:26 239
原创 千言数据集:文本相似度——提取TFIDF以及统计特征,训练和预测
以下学习笔记来源于 Coggle 30 Days of ML(22年1&2月)链接:https://coggle.club/blog/30days-of-ml-202201比赛链接:https://aistudio.baidu.com/aistudio/competition/detail/45/0/task-definition提取TFIDF以及统计特征,训练和预测导入所需库import numpy as npimport pandas as pdimport jiebaimpor
2022-01-17 19:10:48 1872 2
原创 Datawhale组队学习——数据分析Task04 数据可视化
以下学习笔记来自Datawhale组队学习的数据分析课程第二章,此次数据分析课程主要是完成kaggle上泰坦尼克的任务,实战数据分析全流程。链接:https://github.com/datawhalechina/hands-on-data-analysis前面我们对泰坦尼克号数据有了基本的了解,也学到了一些基本的统计方法,下面我们对数据进行简单的可视化数据可视化首先导入包和数据%matplotlib inlineimport pandas as pdimport numpy as npim
2022-01-17 13:42:17 225
原创 Datawhale组队学习——数据分析Task03 数据重构
以下学习笔记来自Datawhale组队学习的数据分析课程第二章,此次数据分析课程主要是完成kaggle上泰坦尼克的任务,实战数据分析全流程。链接:https://github.com/datawhalechina/hands-on-data-analysis在前面我们已经学习了Pandas基础,第二章我们开始进入数据分析的业务部分,在第二章第一节的内容中,我们学习了数据的清洗,而这一节学习的是数据重构,数据重构依旧属于数据理解(准备)的范围。导入基本库:import numpy as npimpo
2022-01-15 16:34:59 602
原创 Datawhale组队学习——数据分析Task02 数据清洗及特征处理
以下学习笔记来自Datawhale组队学习的数据分析课程第二章,此次数据分析课程主要是完成kaggle上泰坦尼克的任务,实战数据分析全流程。链接:https://github.com/datawhalechina/hands-on-data-analysis数据清洗及特征处理首先导入pandas和numpyimport pandas as pdimport numpy as np加载数据:train_data=pd.read_csv('D:/jupyter_note/Datawhale_da
2022-01-12 22:56:37 281
原创 Datawhale组队学习——数据分析Task01 数据加载及探索性数据分析
以下学习笔记来自Datawhale组队学习的数据分析课程第一章,此次数据分析课程主要是完成kaggle上泰坦尼克的任务,实战数据分析全流程。链接:https://github.com/datawhalechina/hands-on-data-analysis数据加载及初步观察载入数据数据集下载 https://www.kaggle.com/c/titanic/overview导入numpy和pandasimport numpy as npimport pandas as pd载入数据使用
2022-01-11 23:07:45 386
原创 千言数据集:文本相似度——数据读取部分
以下学习笔记来源于 Coggle 30 Days of ML(22年1&2月)链接:https://coggle.club/blog/30days-of-ml-202201比赛链接:https://aistudio.baidu.com/aistudio/competition/detail/45/0/task-definition赛题介绍文本相似度旨在识别两段文本在语义上是否相似。文本相似度在自然语言处理领域是一个重要研究方向,同时在信息检索、新闻推荐、智能客服等领域都发挥重要作用,具有很高
2022-01-11 13:31:37 1004
原创 Datawhale组队学习——推荐系统Task05 用户倒排索引表的构建
以下学习笔记来自Datawhale组队学习的推荐系统课程,项目地址:https://github.com/datawhalechina/fun-rec当我们了解了新闻物料的构建以及前后端交互的基础之后,剩下的就是去了解推荐流程在当前项目中是怎么实现的了,另外,以下内容主要是看的项目里docs下的md文件来的,实际代码有一些更改,不过大体逻辑应该是一样的。倒排索引一个未经处理的数据库中,一般是以文档ID作为索引,以文档内容作为记录。而倒排索引简单来说就是将单词或记录作为索引,将文档ID作为记录,这样
2021-12-30 23:05:42 1251
原创 Datawhale组队学习——推荐系统Task04前后端交互基础
以下学习笔记来自Datawhale组队学习的推荐系统课程,项目地址:https://github.com/datawhalechina/fun-rec本次任务为前后端的交互,目的是为了更加细致的了解整个系统的前后端交互细节,以及更全面的了解一个推荐系统所需的组成部分。用户注册登录为了对每个用户进行个性化推荐,需要每个使用该系统的人都先进行注册登入,使用雪花算法(一种ID生成算法)为每个用户生成唯一的用户id,根据用户的历史行为,实现对用户进行个性化推荐的效果。注册部分server.py的regi
2021-12-27 23:50:48 586
原创 Redis 缓存穿透、缓存击穿及缓存雪崩
缓存穿透用户查询数据,若redis内存数据库没有(未命中),就会向持久化数据库查询,也没有,则此次查询失败。当存在大量用户去请求这些redis内存数据库中没有的数据时,就都去请求了持久层数据库,会给持久层数据库造成较大压力,这种现象叫缓存穿透。解决方法:持久层数据库:当存储层未命中,即使缓存空对象也将其缓存起来,同时设置过期时间,之后再访问此数据就会从redis内存数据库中获取,从而减轻持久层数据库的压力。布隆过滤器:布隆过滤器为一种数据结构,对所有可能查阅的参数以Hash形式存储,在控制层先进行
2021-12-25 15:59:52 571
原创 Datawhale组队学习——推荐系统Task03 离线物料系统的构建
以下学习笔记参考自Datawhale12月组队学习的推荐系统课程,内容主要为离线物料系统的构建。项目原链接: https://github.com/datawhalechina/fun-rec离线物料系统基本流程物料侧画像的构建:首先添加新物料,新物料通过每天凌晨在新闻网站上爬取并存储在MongoDB中,对于旧物料画像,通过用户的交互记录(阅读,点赞,收藏)进行更新并将其拆分为静态和动态分别存入Redis中。用户侧画像的构建:主要分为新注册用户画像的更新和老用户画像的更新两方面。用户通过前
2021-12-22 22:50:51 954
原创 PyMongo的一些简单使用
以下学习笔记参考自:https://github.com/datawhalechina/fun-rec/blob/master/docs/%E7%AC%AC%E4%BA%8C%E7%AB%A0%20%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F%E5%AE%9E%E6%88%98/2.2%E6%96%B0%E9%97%BB%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F%E5%AE%9E%E6%88%98/docs/2.2.1.2%20MongoDB%E5
2021-12-19 22:04:30 1284
原创 PyMySQL的一些基本使用
以下学习笔记参考自:https://github.com/datawhalechina/fun-rec/blob/master/docs/%E7%AC%AC%E4%BA%8C%E7%AB%A0%20%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F%E5%AE%9E%E6%88%98/2.2%E6%96%B0%E9%97%BB%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F%E5%AE%9E%E6%88%98/docs/2.2.1.1%20Mysql%E5%9
2021-12-19 16:44:06 658
原创 Datawhale组队学习——推荐系统Task02 数据库的基本使用
以下学习笔记参考自Datawhale12月组队学习的推荐系统课程,内容包括MySQL、MongoDB以及Redis的一些基本命令的使用。项目原链接: https://github.com/datawhalechina/fun-recMySQL学习参考:https://github.com/datawhalechina/fun-rec/blob/master/docs/%E7%AC%AC%E4%BA%8C%E7%AB%A0%20%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F%E
2021-12-18 23:52:57 859
原创 Datawhale组队学习——推荐系统Task01 熟悉新闻推荐系统基本流程
以下学习笔记来自Datawhale12月组队学习推荐系统课程Task1——【Task01 熟悉新闻推荐系统基本流程】,参照了群里 天国之影-JustForFun 大佬的笔记及视频进行了项目环境的搭载,少踩了很多坑,最终跑通了代码。项目链接:https://github.com/datawhalechina/fun-rec大佬的笔记:https://share.weiyun.com/u3ZIjZfg使用软件操作系统:Windows10MySQL:8.0.27Redis:5.0.9Mongodb:
2021-12-14 20:16:01 2618
原创 训练词向量时报错 TypeError: __init__() got an unexpected keyword argument ‘size‘
训练词向量的时候报错:TypeError: __init__() got an unexpected keyword argument 'size'解决方法:将size改为vector_size
2021-12-12 20:52:08 3768 1
原创 windows下jupyter notebook指定虚拟环境
创建虚拟环境首先创建一个虚拟环境(可以指定想要的python版本,这里使用python3.7)(base) C:\Users\19635>conda create -n ssvep_env python=3.7激活虚拟环境输入(base) C:\Users\19635>conda activate ssvep_env安装ipykernel(这一步在虚拟环境下)(ssvep_env) C:\Users\19635>pip install ipykernel在虚拟环境下执
2021-12-04 18:19:12 790
原创 windows下Git的下载与安装以及Pycharm “Cannot Run Git”问题的解决方法
Git简介Git是目前世界上最先进的分布式版本控制系统。可以简单理解为一种管理的工具,通过git可以将github上的代码拉到本地或者把电脑里的代码push到github。Windows环境下Git的下载与安装地址:https://git-scm.com/download这里选择64位的下载完成后,双击即可进入安装界面选择自己想要安装的位置,默认C盘,这里选择了D盘一些组件:(这里选择在桌面上创建git的图标 Additional icons–On the Desktop,其他的默认即
2021-12-01 10:08:32 6751
原创 Datawhale2021年11月组队学习——循环神经网络
以下学习笔记源于Datawhale“水很深的深度学习”课程的循环神经网络原文链接: https://datawhalechina.github.io/unusual-deep-learning/RNN计算图计算图的引入是为了更方便的表示网络,计算图是描述计算结构的一种图,它的元素包括节点(node)和边(edge),节点表示变量,可以是标量、矢量、张量等,而边表示的是某个操作,即函数。复合函数:计算图的求导,有两种情况:情况1情况2求导举例:例1:a = 3,
2021-11-30 21:32:59 790
原创 Datawhale2021年11月组队学习——卷积神经网络
以下内容为对Datawhale2021年11月组队学习中“水很深的深度学习”课程的卷积神经网络的简要总结。原文链接: https://datawhalechina.github.io/unusual-deep-learning/卷积神经网络CNNCNN的引出:全连接神经网络的权重矩阵的参数非常多,而且往往自然图像中的物体都具有局部不变性特征,即尺度缩放、平移、旋转等操作不影响其语义信息,但是全连接前馈网络很难提取这些局部不变特征,这就引出了我们将要介绍的卷积神经网络卷积神经网络也是一种前馈神经网络,
2021-11-25 12:44:23 2840
原创 矩阵运算中一个圆圈中间一个乘号的运算是什么
在学习CNN的时候,发现卷积层的映射关系的式子(其中X为输入,W为卷积核,Y为输出):其中有个圆圈中间一个乘号的运算符不认识,查了之后知道这个叫克罗内克积,是张量积的一种特殊形式。举例:(图片来自百度百科 qwq)...
2021-11-23 19:12:04 6565
原创 Datawhale2021年11月组队学习——前馈神经网络
以下内容为对Datawhale2021年11月组队学习中“水很深的深度学习”课程的前馈神经网络的简要总结。原文链接: https://datawhalechina.github.io/unusual-deep-learning/前馈神经网络神经元模型神经元(M-P)1943 年,美国神经生理学家沃伦·麦卡洛克( Warren McCulloch ) 和数学家沃尔特 ·皮(Walter Pitts )对生物神经元进行建模,首次提出了一种形式神经元模型,并命名为McCulloch-Pitts模型,即后
2021-11-21 19:26:39 709
原创 Datawhale2021年11月组队学习——机器学习基础
机器学习基本概念机器学习是指让计算机具有像人一样的学习和思考能力的技术的总称。具体来说是从已知数据中获得规律,并利用规律对未知数据进行预测的技术。机器学习分类按学习结果分类:预测:一般用回归(Regression,Arima)等模型。聚类:如K-means等方法。分类:如支持向量机,逻辑回归等。降维:如主成分分析(PCA)。按学习方法分类:监督学习(如深度学习)。无监督学习(如聚类)。半监督学习。强化学习。数据集数据集:观测样本的集合。具体地,D=x1,x2,x3,x
2021-11-19 15:25:49 546
原创 Datawhale2021年11月组队学习——绪论与深度学习概述&数学基础
以下内容为对Datawhale2021年11月组队学习中“水很深的深度学习”课程的绪论与深度学习概述以及数学基础的简要总结,其中小部分内容参考了网上一些资料。原文链接: https://datawhalechina.github.io/unusual-deep-learning/绪论与深度学习概述人工智能定义:利用数字计算机或者数字计算机控制的机器模拟、延伸 和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理 论、方法、技术及应用系统。弱人工智能:认为不可能制造出能真正进行推理和解决问
2021-11-16 20:15:58 869 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人