![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 72
XINFINFZ
24岁。毕业于武汉大学心理学本科。
展开
-
python基于机器学习的姓名预测性别网页app开发
使用tensorflow构建中文姓名-性别预测模型,并使用dash构建网页app。原创 2023-04-18 16:40:00 · 1751 阅读 · 1 评论 -
python五十行代码批量下载热榜回答
使用beautifulsoup和request库爬取热榜回答。原创 2023-04-07 10:01:56 · 755 阅读 · 1 评论 -
TfidfVectorizer计算复现和细节探究
简介tf-idf算法,我想很多人都知道它的由来和公式,更进一步,会在纸上用笔计算,但是在sklearn的实际实现中,却鲜有人去复现背后的计算细节和逻辑。本文将提出并解决以下细节问题:1.TfidfVectorizer和TfidfTransformer是什么关系?2.tf-idf中tf和idf在代码中分别是怎么实现计算的?3.idf中的文档是怎么定义的?4.为什么我用笔计算的和sklearn中计算出来的向量不一样?问题一直接上答案,TfidfVectorizer是由CountVectorizer原创 2021-10-28 09:05:03 · 1614 阅读 · 1 评论 -
python使用numpy库将一个list中多段文本生成字典并统计词频
目的将形如 L = [‘I have an apple …’,‘I have an egg…’,‘I don’t like pen…’]的列表进行预处理,并使用numpy.unique函数进行统计,生成提供给tf-idf使用的字典。ps:也就是除了基础的科学计算库外不用其他库,造轮子行为。实现先来稍微复杂一点的实现:import numpy as npLA = np.array(['addc cdba ddaa dcaa dcba dcaa dcba dcaa dbaa dbbb cdba db原创 2021-10-26 11:04:56 · 649 阅读 · 0 评论 -
genism训练小说《剑来》word2vec词向量学习笔记
任务选一本小说,用gensim库训练它的word2vec词向量,进行初步探索。分析网上下载小说一般为txt格式,首先需要将它一行行的读入并进行分词处理。(同时去除停用词)word2vec需要输入sentences,也就是包含许多词语list的一个list。关键步骤也就是将分词处理后的结果合适地存入list中。实践首先下载小说,这里下载了未完本的《剑来》作为素材训练,大小20几M。其次下载中文停用词表,网上有很多不同的中文停用词表可供选择。import jiebastop_path='cn原创 2021-06-07 14:03:36 · 569 阅读 · 0 评论