实用项目
文章平均质量分 69
江 东
脚踏实地
展开
-
判断两篇文章的相似度
判断相似度基于jieba 关键字提取的方法textrank·关键字的提取代码:tf-idf·关键字的提取代码:统计数据统计数据的代码:完整代码:基于jieba 关键字提取的方法textrank1,将待抽取关键词的文本进行分词2,以固定窗口大小(默认为5,通过span属性调整),词之间的共现关系,构建图3,计算图中节点的PageRank,注意是无向带权图·关键字的提取代码:#textrankdef testRank(corpus1, corpus2): keywords_textran原创 2021-11-21 20:22:14 · 1565 阅读 · 0 评论 -
爬虫+基本的天气对话机器人
查询天气的对话机器人基本思路关于数据的爬取基础知识爬取的过程分析数据可视化数据的保存声音处理录音及其转文字关于语音播报代码基本思路 使用selenium模块来进行谷歌驱动,爬取相关的数据,然后将数据进行处理,利用正则分离数据,然后就是把每个功能包装成一个函数,利用得到的数据,实现存入数据库,以及存入csv等相关功能,还有一个就是数据可视化,先后荣立使用的是matplotlib和Pyecharts两个库,相对于matplotlib而言,Pyecharts做出的数据可视化更加的真实,可以动态交互的展现图表原创 2021-11-13 11:16:22 · 4139 阅读 · 1 评论 -
爬虫动态爬取京东商品的数据
动态爬取京东导入包对DataFrame处理评论处理查询的网页爬取过程关闭浏览器导入包from time import sleepfrom selenium import webdriverimport pandas as pdfrom urllib.parse import quoteimport refrom datetime import datetime对DataFrame处理pd.set_option('display.max_columns', None)pd.set_op原创 2021-11-12 13:56:26 · 2615 阅读 · 0 评论 -
爬虫动态爬取苏宁的商品名称、评论数、价格
爬取苏宁商品信息导入包对DataFrame进行基本的处理设置网页的像素处理评论浏览器初始化爬取过程浏览器的操作写入数据库或存入CSV文件 ·爬取苏宁的商品信息我们需要使用chrome浏览器,需要下载相应版本的去驱动,然后将驱动放在解释器的根目录下面,驱动版本要和浏览器的版本一致,下面是下载驱动的链接:http://npm.taobao.org/mirrors/chromedriver/下面就是爬取的代码以及详细的解释:导入包from time import sleepfrom seleniu原创 2021-11-12 13:51:26 · 2124 阅读 · 0 评论 -
学生信息管理系统的解析
学生信息管理系统的七大模块学生信息管理系统基本理解系统业务流程系统开发环境主函数数设计流程由函数图得出函数基本骨架录入学生信息业务流程代码如下删除学生信息业务流程代码如下修改学生信息业务流程图代码如下查找学生信息功能业务流程图代码如下统计学生总人数业务流程图代码如下排序业务流程图代码如下显示所有学生信息业务图代码如下最后得出这个工程完整的代码学生信息管理系统基本理解系统业务流程系统开发环境·操作系统:Win10·Python解释器版本:Python3.8·开发工具:PyCharm·P原创 2021-11-11 22:57:49 · 9098 阅读 · 1 评论