Cachel wood
这个作者很懒,什么都没留下…
展开
-
自然语言处理nlp:SnowNLP自主训练情感分析模型
分别提取100条正负样本用于验证,首先用初始的SnowNLP进行情感分析。,该数据集已标注好每条评论的正负情感属性值,共119989条评论。可以看到有些评论出现分类错误的情况,e.g.,将sentiment情感分析的路径作为更改。初始分类结果图,对正面评论的分类效果较差。snownlp中支持情感分析的模块在。训练耗时19min,比较耗时。下面使用新文本进行训练。文件夹中,其核心代码为。下载weibo数据集。原创 2023-02-07 17:01:19 · 3715 阅读 · 2 评论 -
python 热度榜并存储到MongoDB数据库
获取数据使用助教提供的代码获取B站五个小分区的数据存入数据库使用批量插入的insert_many方法,将json型数据批量插入MongoDB数据库对比更新数据库按照要求方法,对比更新数据库,使用insert_one和update_one等函数。代码部分"""一个简单的????,主要关于协程网络爬虫与邮件发送务必使用py3.6及以上版本运行此文件代码包含的内容:- 协程爬取bilibili生活区5个小分区的热榜- 爬取完成后发送邮件通知请勿在作业中直接使用本代码,因为其存在以下已原创 2022-01-18 12:55:48 · 58 阅读 · 0 评论 -
python协程和网易云歌单
文章目录任务分析核心代码爬取效果任务分析首先通过网易分页歌单的url获取每份歌单的url,然后通过每份歌单的url提取歌单中的前十首歌的url,通过每首歌的url获取一些歌曲的作者和专辑等信息,整个过程通过协程来加快速度。核心代码import timeimport csvimport geventimport requestsimport asyncioimport aiofilesfrom io import BytesIOfrom PIL import Imageimport .原创 2022-01-05 14:16:44 · 612 阅读 · 0 评论 -
python多线程网易云歌单
import timeimport csvimport requestsfrom io import BytesIOfrom PIL import Imageimport requests as reqfrom queue import Queuefrom threading import Threadfrom bs4 import BeautifulSoup#使用生产者消费者模式,生产者产生的id链接传给消费者执行def producer(q,url): headers.原创 2021-12-28 17:18:22 · 690 阅读 · 0 评论 -
python socket和多线程实现多人对话聊天室
具体实现实现两个python文件,其中server.py包含Manager类,用于充当服务器记录用户的信息,并广播通话内容,实现私聊模式,管理成员的进入和退出。使用多线程服务多个用户。client.py文件包含Chatter类,用于与Manager类建立一对一关联,向管理员发送加入和退出请求。其中发送和退出分别使用不同的线程完成。最后在用户退出之后log.txt文件可以记录用户的日志并保存到本地磁盘上。代码实现server.py文件import socket,timefrom threadi.原创 2021-12-28 17:17:34 · 4233 阅读 · 0 评论 -
python MongoDB数据库操作与连接和ORM
文章目录数据库连接与操作pymongo使用ORM简介数据库连接与操作关系数据库:PostgreSQL、MySQL非关系数据库:MongoDBpymongo使用创建连接from pymongo import MongoClientclient = MongoClient()client = MongoClient('localhost:27017/')指定数据库db = client.test_databasedb = client['test-database']指定集原创 2021-12-24 20:38:55 · 1213 阅读 · 0 评论 -
python异步IO和协程
文章目录IO模型同步IO异步IO事件驱动模型事件列表模型协程Event Loop协程的优点协程的缺点协程的实现通过gevent实现协程通过asyncio实现协程通过aiofiles实现文件的异步读写IO模型同步IO在IO过程中当前线程被挂起,当前线程其他需要CPU计算的代码无法执行一般的io是同步的多线程可解决该问题计算和IO任务可以由不同的线程负责但会带来线程创建、切换的成本,而且线程数不能无上限地增加异步IO当前线程只发出IO指令,但不等待其执行结束,而是先执行其他代码,避免原创 2021-12-20 14:49:40 · 1048 阅读 · 0 评论 -
python多进程实现MapReduce模型下的文档库词频统计功能
import osimport globimport timeimport jiebafrom multiprocessing import Process,Managerdef Map(path,lis): for pa in path: file = open(pa,'r',encoding='utf-8') text_lis = jieba.lcut(file.read()) file.close() for i i.原创 2021-12-17 09:18:36 · 1288 阅读 · 0 评论 -
python网络编程
文章目录网络结构网络结构UDP的优势SMTPPOP3IMAP网络结构ISPInternet Service Provider一个或多个分组交换机在多段通信链路组成的网络提供不同类型的网络接入独立运营ISP分层第一层:因特网主干Sprint,AT&T,Level3第二层:具有区域性或国家性覆盖规模,引导流量通过,也可以跟其他第二层ISP交换流量Provider-custonerPeer-peer较低层:通过一个或多个第二层ISP与更大的因特网连接网络结构原创 2021-12-11 10:42:24 · 612 阅读 · 0 评论 -
python实现抽象类和适配类
第一部分构造抽象类Plotter,实现抽象方法plot()。第二部分继承元类Plotter实现子类,实现元类的方法plot()。第三部分分别实现子类的适配类Adapter。import osimport cv2import abcimport globimport jiebaimport imageioimport librosaimport librosa.displayfrom PIL import Imagefrom celluloid import Cameraimpor.原创 2021-12-06 20:52:43 · 654 阅读 · 0 评论 -
python多进程和多线程、内存共享和进程池、多线程编程
文章目录内存共享创建进程池ProcessPoolExecutor多进程多线程编程内存共享通过Value,Array实现内存共享返回一个从共享内存上创建的ctypes对象从共享内存中申请并返回一个具有ctypes类型的数组对象通过Manager实现内存共享Manager返回的管理器对象控制一个服务进程,且由该进程保存Python对象并允许其他进程通过代理操作对象返回的管理器支持类型支持list、dict等进程池进程开启过多导致效率下降(同步、切换成本)应固定工作进程的原创 2021-12-03 22:18:05 · 1032 阅读 · 0 评论 -
python类处理可视化中国各省CO2排放数据,pyecharts绘制Timeline、Map、Pie、River、Treemap图
文章目录1.1 Map-中国地图1.2 Pie-时间线饼图1.3 River-河流图1.4 Treemap-矩形树图2.1 PCA主成分分析降维+Kmeans聚类2.2 线性相关性分析本文使用的所有图片均已上传到github仓库,地址为https://github.com/Watson-swx/identity/,有需要的同学可以自行下载。同时我使用github的Pages服务,可以在浏览器输入https://watson-swx.github.io/identity/ 查看图片链接。点击对应的连接即可.原创 2021-11-29 21:31:50 · 4210 阅读 · 10 评论 -
python随机游走生成器和批量加载数据迭代器
import numpy as npimport matplotlib.pyplot as pltdef random_walk(mu,x,sigma,N): i = 0 while i<N: yield x w = np.random.normal(0,sigma,1) #print(x,end = ' ') x = round(mu*x + w[0],3) i+=1N = 100walk1.原创 2021-11-29 21:07:08 · 866 阅读 · 0 评论 -
python多进程与多线程、互斥锁与信号量
文章目录并行与并发进程与线程多进程同步和异步临界区多进程并行与并发并行 parallel:同一时刻多条指令在多个处理器上同时执行并发 concurrency:同一时刻只有一条指令执行,但多个指令快速轮换执行。在宏观上表现多个指令同时执行的效果进程与线程进程 process:操作系统分配资源的基本单位线程 thread:CPU调度和分派的基本单位应用程序至少有一个进程和一个线程同一进程的多个线程可以并发执行进程在执行过程中拥有独立的内存单元,而线程共享内存多进程编程需要考虑进程间的通原创 2021-11-29 21:06:17 · 578 阅读 · 0 评论 -
python装饰器获取程序运行时间、新建文件夹及播放音乐
import osimport timeimport pygamefrom tqdm import tqdmfrom functools import wrapsfrom memory_profiler import profilefrom line_profiler import LineProfilerclass Process: def __init__(self): pass @profile #查看内存时间装饰器 def generat.原创 2021-11-25 19:58:17 · 502 阅读 · 0 评论 -
python抽象类、接口、泛函数、适配器模式
文章目录抽象类type()函数元类抽象类接口泛函数适配器模式 Adapter抽象类type()函数并非仅仅返回对象的类型Python使用type()函数创建类对象函数和类不是编译时定义的,而是在运行时动态创建type()函数依次传入3个参数• 类名称• 继承的父类集合(tuple)• 属性(数据或方法)字典元类控制类的创建行为• 先定义metaclass,然后创建类,最后创建实例• 类可以看成metaclass创建的“实例”元类的定义• metaclass的类名总是以Me原创 2021-11-21 15:21:45 · 1406 阅读 · 0 评论 -
python生成器和迭代器
文章目录观察者模式迭代生成器迭代器创建迭代器迭代器相关工具观察者模式亦称– 发布(publish )-订阅(Subscribe)模式– 模型-视图(View)模式– 源-收听者(Listener)模式– 从属者模式要义– 一个目标对象管理所有依赖于它的观察者对象,并且在它本身的状态改变时主动发出通知– 观察者模式完美地将观察者和被观察的对象分离优点– 观察者与被观察者之间抽象耦合– 可以触发多个符合单一职责的模块– 可以很方便地实现广播场景– 消息交换,如消息队列;– 多级原创 2021-11-20 15:57:05 · 456 阅读 · 0 评论 -
python代码内存占用、执行时长、运行频率、执行进度分析
文章目录代码的内存占用分析代码的执行时长分析代码运行频率的分析代码执行进度的可视化代码的内存占用分析from memory_profiler import profile@profiledef my_func(): a = [1] * (10 ** 6) b = [2] * (2 * 10 ** 7) del b return amy_func()Line # Mem usage Increment Occurences Line Conten原创 2021-11-20 15:56:23 · 600 阅读 · 0 评论 -
python 代理模式和装饰器总结
文章目录代理模式proxy pattern常见类型装饰器函数式编程高阶函数返回函数偏函数闭包装饰器装饰器类装饰器的顺序property类方法与静态方法代理模式proxy pattern在访问某个对象之前执行一个或多个重要的额外操作访问敏感信息或关键功能需要具备足够的权限将计算成本较高的对象创建过程延迟到用户首次真正使用时才进行常见类型远程代理:实际存在于不同地址空间的对象在本地的代理者虚拟代理:用于惰性求值,将一个大计算量对象的创建延迟到真正需要的时候进行保护/防护代理:控制对敏感对原创 2021-11-13 22:46:04 · 527 阅读 · 0 评论 -
python基于类继承实现滤波器使用效果并使用pillow实现图像处理
import globimport osimport matplotlib.pyplot as pltfrom PIL import Image, ImageFilter#基类Filterclass Filter: def __init__(self,image,parameters): self.image = image self.parameters = parameters def filter(self): pass.原创 2021-11-13 22:45:43 · 968 阅读 · 0 评论 -
python简单实现文本处理的tokenizer类
import jiebaclass Tokenizer: def __init__(self,chars,coding='c',PAD=0): dic = {} dic['PAD'] = 0 self.coding = coding self.PAD = PAD i = 1 if coding=='c': for char in chars: .原创 2021-11-01 19:39:31 · 1150 阅读 · 0 评论 -
python自己创建分析网络图的库
文章目录node.pygraph.pystat.pyplotnodes.pyplotgraph.py最终得到的结果的文件夹结构与题目要求相同GraphStat_init_.pyNetworkBuilder_init_.pynode.pygraph.pystat.pyVisualization_init_.pyplotnodes.pyplotgraph.pynode.py#返回字典,key为节点的属性,值为对应的属性值def init_node(pa...原创 2021-10-29 23:50:35 · 521 阅读 · 0 评论 -
python工厂模式和异常处理
工厂模式两个类A和B之间的关系应该仅仅是A创建B或 是A使用B,而不能两种关系都有将对象的创建和使用分离,也使得系统更加符合“单一职责原则”,有利于对功能的复用和系统的维护防止用来实例化一个类的数据和代码在多个类中到处都是异常处理异常捕获try: <statements>except; <statements>执行try子句,无异常发生时except子句被忽略。包含多个except子句时最多只有一个分支会被执行。定义清理行为无论try子句有无发原创 2021-10-29 22:42:11 · 208 阅读 · 0 评论 -
python networkx库分析newmovies数据集
networkx是一个处理图结构的python第三方库,提供简洁的API,方便用户画图。newmovies.txt保存了相关数据,其中*Vertices 34282 下的每一行为一个节点,表示一位明星、编剧或电影。每一行中属性以\t分割,分别为节点id,名称,节点权重,节点类型,其他信息(其他信息以";"分割)。注意,节点里的权重信息是原数据集提供的,本次作业用不到,另外edges部分的参数每行三个数,前两个是边所连接的节点id,第三个值均为1。newmovies.txt数据集*Vertices 34原创 2021-10-24 12:40:11 · 697 阅读 · 0 评论 -
python类的继承和单例模式 singleton、运算符重载
文章目录设计模式单例模式类的继承super()方法运算符重载 operator overload类的专有方法设计模式开闭模式 open close principle对扩展开放,对修改关闭里氏代换原则 liskov substitution principle任何基类可以出现的地方,派生类一定可以出现– 即基类可被派生类替换依赖倒转原则 Dependence Inversion Principle针对接口编程,依赖抽象而不依赖具体接口隔离原则(Interface Segregation原创 2021-10-22 17:00:46 · 309 阅读 · 0 评论 -
python实现微博评论情绪分析,并生成情绪时空分布图
import jieba #用于分词import re #正则匹配import matplotlib.pyplot as plt #绘图from pyecharts.charts import Geofrom pyecharts import options as optsfrom pyecharts.globals import GeoType#jieba添加自定义字典def addword(filename): path = '.\emotion_lexicon\\'.原创 2021-10-19 19:18:54 · 3687 阅读 · 4 评论 -
python 面向对象程序设计、类
文章目录面向对象程序设计 OO类一些重要概念类与类之间的关系自定义类创建类辨析类的方法初始化方法面向对象程序设计 OO一种程序设计范式程序由对象组成,每个对象包含对用户公开的特定功能和隐藏的实现部分对象是数据与相关行为的集合不必关心对象的具体实现,只要能满足用户的需求即可类对象的类型,用来描述对象构造对象的模板定义了该集合中每个对象所共有的属性和方法由类构造对象的过程称之为实例化,或创建类的实例一些重要概念多态:可以对不同类型的对象执行相同的操作封装:将数据和行为组合原创 2021-10-16 13:05:07 · 214 阅读 · 0 评论 -
python实现文本词频统计分析,计算距离重心和词云可视化
import jiebaimport mathimport wordcloudimport matplotlib.pyplot as plt#构建停用词列表def stopword(path1): file = open(path1,'r',encoding='utf-8') stopwords = [line.strip() for line in file.readlines()] return stopwords #统计词频和高频词def comme.原创 2021-10-09 20:09:15 · 1118 阅读 · 0 评论 -
python模块、包和作用域,format和f-strings方法
文章目录moduleimportdir()包内引用命名空间三种类型内置名称 built-in names全局名称 global names局部名称 local names查找顺序命名空间的生命周期四种作用域format函数f-strings序列化与反序列化序列化 serialization反序列化 deserializationmodule模块能定义函数,类和变量,模块里也能包含可执行的代码相关的代码进行单独的组织会使代码更容易理解并被复用python module.py 时,其__name__被原创 2021-10-08 16:44:08 · 174 阅读 · 0 评论 -
python控制流和函数参数、匿名函数和闭包
文章目录函数的参数传递不可变类型传值可变类型传引用参数类型必须参数关键字参数默认参数不定长参数参数列表的分拆匿名函数return语句嵌套函数闭包函数的参数传递不可变类型传值如数、字符串、元组def fa(a): a = 100 print(hex(id(a))) print(hex(id(100)))a = 10print(hex(id(a)))print(hex(id(100)))fa(a)print(hex(id(a)))print(hex(id(100))原创 2021-09-25 11:07:32 · 201 阅读 · 0 评论 -
python基础:关键字、代码格式、标识符与变量、数据类型
文章目录关键字上下文管理器拉平列表按列遍历矩阵字典的有序输出构造有序字典eval推导式关键字>>> import keyword>>> print(keyword.kwlist)['False', 'None', 'True', 'and', 'as', 'assert', 'async', 'await', 'break', 'class', 'continue', 'def', 'del', 'elif', 'else', 'except', 'finally原创 2021-09-18 21:12:00 · 283 阅读 · 0 评论