wlddn的博客

私信 关注
进击的丑胖
码龄2年

一个有梦想的妻奴,一个进击的小白

  • 15,644
    被访问量
  • 19
    原创文章
  • 231,760
    作者排名
  • 30
    粉丝数量
  • 于 2019-02-16 加入CSDN
获得成就
  • 获得35次点赞
  • 内容获得14次评论
  • 获得87次收藏
荣誉勋章
兴趣领域
  • #算法
    #排序算法#NLP
TA的专栏
  • python
    16篇
  • liunx
    1篇
  • 算法
    2篇
  • 杂谈
    2篇
  • mysql
    1篇
  • 最近
  • 文章
  • 资源
  • 问答
  • 课程
  • 帖子
  • 收藏
  • 关注/订阅

根据词频生成词云

#-*- coding: utf-8 -*-#.py文件名不能和引用的库名重复"""Created on Sun Mar 8 11:01:44 2020@author: toto""" import os,jieba from wordcloud import WordCloudfrom PIL import Imageimport numpy as np cwd = os.getcwd()#当前工作路径 #os.path.join(cwd,文件名)== 文件名jieba.
原创
29阅读
0评论
0点赞
发布博客于 1 月前

Yelp点评网站官方数据集json转csv格式方法

Yelp点评网站官方数据集json转csv格式方法import csvimport jsonimport sysimport osimport pandas as pdimport numpy as np#我这里.py文件和数据放在同一个路径下了,如果不在同一个路径下,自己可以修改,注意路径要用//json_file_path='yelp_academic_dataset_review.json'csv_file_path='yelp_academic_dataset_review.c
转载
18阅读
0评论
0点赞
发布博客于 2 月前

PyCharm使用技巧及常用快捷键

常用快捷键1、Ctrl + Enter:在下方新建行但不移动光标;2、Shift + Enter:在下方新建行并移到新行行首;3、Ctrl + /:注释(取消注释)选择的行;4、Ctrl + Alt + L:格式化代码(与QQ锁定热键冲突,关闭QQ的热键);5、Ctrl + Shift + +:展开所有的代码块;6、Ctrl + Shift + -:收缩所有的代码块;7、Ctrl + Alt + I:自动缩进行;8、Alt + Enter:优化代码,提示信息实现自动导包;9、Ctrl +
转载
48阅读
0评论
0点赞
发布博客于 6 月前

知乎登录s

知乎登录s
py
发布资源于 6 月前

正则

匹配括号不包活小括号()contacts=re.findall(r'(?<=\()[^\(\)]*(?=\))',xinxi, re.I)匹配邮箱 mail_pattern = re.compile( r'(?<=[\s::\<\(\>])[0-9a-zA-Z_\.\*-]{1,50}@[0-9a-zA-Z-\.]{1,50}...
原创
63阅读
0评论
0点赞
发布博客于 1 年前

python爬虫之js逆向(三)

目标网站 http://webapi.cninfo.com.cn/overview.html#/home首先 ,请求是post请求,没有data参数,试了一下直接复制请求头去发送post请求不对。然后看到mcode这个参数,是是加密的,ctrl+shift+r 全局搜索mcode这个参数,找到红框里面的调用方法继续研究。肯定是这个方法生成的mecode这就是生成mcode的函数 直接拿下...
原创
440阅读
1评论
1点赞
发布博客于 1 年前

mysql 行转列

SELECT A.company_name, max( A.contacts ) AS contact, max( A.email ) AS email FROM (SELECT company_name,CASE WHEN items = "contacts" THEN item_values ELSE "" END AS contacts,CASE WHEN i...
原创
33阅读
0评论
0点赞
发布博客于 2 年前

matplotlib基础(二)

#会折线图plt.figure(figsize=(8,7)) #设置画布plt.plot(values[:,0],values[:,2],color='r',linestyle='--',marker="o") #marker 绘制点线图plt.xlabel("年份")plt.ylabel("生产总值")plt.ylim((0,225000))plt.xticks(range(0,7...
原创
85阅读
0评论
0点赞
发布博客于 2 年前

Matpltlib基础学习篇(一)

import matplotlib.pyplot as pltdata=np.arange(0,1,0.1)plt.title('line') #添加标题plt.xlabel('x') #添加x轴的名称plt.ylabel('y') #添加y轴的名称plt.xlim((0,1)) #确定x轴的范围plt.ylim((0,1))#确定y轴de范围plt.xticks([0,0.2,0...
原创
55阅读
0评论
0点赞
发布博客于 2 年前

numpy基础(二)

arr1=np.array([[0,0,0],[1,1,1],[2,2,2],[3,3,3]])print(arr1.shape)arr2=np.array([1,2,3])print(arr1+arr2)arr3=np.array([1,2,3,4]).reshape((4,1))print(arr3)print(arr1+arr3)arr=np.arange(100).resha...
原创
93阅读
0评论
1点赞
发布博客于 2 年前

Numpy的基本语法

import numpy as nparr1=np.arange(12).reshape(3,4)print(arr1)arr2=arr1*3print(arr2)print(np.hstack((arr1,arr2)))print(np.vstack((arr1,arr2)))print(arr1.reshape(3,4).ndim) #查看数组维度print("数...
原创
83阅读
0评论
0点赞
发布博客于 2 年前

初识KNN(k-近邻算法)

from numpy import *import operatorimport matplotlibimport operatorfrom os import listdirimport matplotlib.pyplot as pltdef classify0(inX, dataSet, labels, k): # 用于分类的输入向量是inX,输入的训练样本集为data...
原创
120阅读
0评论
1点赞
发布博客于 2 年前

xpath获取当前标签的兄弟节点,父节点

<div> <a id="1" href="www.baidu.com">我是第1个a标签</a> <p>我是p标签</p> <a id="2" href="www.baidu.com">我是第2个a标签</a> <a id="3" href="www.baidu.com"&g...
转载
286阅读
0评论
0点赞
发布博客于 2 年前

python 爬虫 GB2312 乱码

python 爬虫 GB2312 乱码 问题话不多说上图解决
原创
185阅读
0评论
0点赞
发布博客于 2 年前

python 爬取淘宝第二弹(淘宝数据爬取)

python 爬取淘宝第二弹(淘宝数据爬取)经过上次淘宝登录以后,可以进行淘宝商品的采集了,首先我们需要知道的是我们需要的数据在哪里,我通过搜索第一个手机的名字可以看到在这个页面中有我们想要的数据,但是他是镶嵌在script标签里面的我们只能通过正则拿到他。首先经验可知get请求一般搜索关键字都会在链接里出现,页数也是会显示在链接里面 淘宝我们不能只采集一页,所以说我们需要分析链接进行翻页操...
原创
1662阅读
7评论
2点赞
发布博客于 2 年前

重复的子字符串

力扣上看到的一道题分享一下大佬的思想。给定一个非空的字符串,判断它是否可以由它的一个子串重复多次构成。给定的字符串只含有小写英文字母,并且长度不超过10000。示例 1:输入: “abab”输出: True解释: 可由子字符串 “ab” 重复两次构成。示例 2:输入: “aba”输出: False示例 3:输入: “abcabcabcabc”输出: True解释: 可由子字...
原创
79阅读
0评论
1点赞
发布博客于 2 年前

百度批量翻译

工作需要进行批量翻译。调用百度翻译api接口,获取appid和secretKeyimport httpimport hashlibimport urllib.requestimport randomimport jsonimport pymysqldef baidufanyi(eachLine,id,sql,cur): result=[] appid = '' ...
原创
432阅读
1评论
1点赞
发布博客于 2 年前

python 爬取淘宝第一弹(淘宝登录)

前言2018年7月份,当时我正在学习爬虫,看过一个教程视频是用selenium爬取淘宝,当时因为种种原因(当然还是因为自己太lan)没有去写,但当11月份想找工作时,想找一个爬虫练手,能够写上简历充当项目,当我在去看视频的时候学习的时候,当时自信满满的写完代码,竟然没有登录不能进行搜索!!!好吧那我就做一个滑块功能吧,写完了代码,不知道为何划过去不好使,但是我自己手动滑动滑块完全ok,当时就蒙了...
原创
1401阅读
3评论
4点赞
发布博客于 2 年前

时间复杂度O(n)什么意思

时间复杂度算法分析同一问题可用不同算法解决,而一个算法的质量优劣将影响到算法乃至程序的效率。算法分析的目的在于选择合适算法和改进算法。一个算法的评价主要从时间复杂度和空间复杂度来考虑。一、时间复杂度(1)时间频度一个算法执行所耗费的时间,从理论上是不能算出来的,必须上机运行测试才能知道。但我们不可能也没有必要对每个算法都上机测试,只需知道哪个算法花费的时间多,哪个算法花费的时间少就可以了...
转载
6073阅读
0评论
6点赞
发布博客于 2 年前

python 操作excel表

excel写入操作#导入xlwt库import xlwtimport os# 步骤1:获取excel文件的绝对路径dirPath = os.path.join(os.getcwd(),"data")if not os.path.exists(dirPath): os.mkdir(dirPath)excelPath = os.path.join(dirPath,"data.x...
原创
81阅读
0评论
2点赞
发布博客于 2 年前

MYSQL 命令行大全 (简洁、明了、全面)

MYSQL常用命令 1.导出整个数据库 mysqldump -u 用户名 -p –default-character-set=latin1 数据库名 > 导出的文件名(数据库默认编码是latin1) mysqldump -u wcnc -p smgp_apps_wcnc > wcnc.sql 2.导出一个表 mysqldump -u 用户名 -p 数据库名 表名&g...
转载
120阅读
0评论
3点赞
发布博客于 2 年前

socket 套接字服务器端和客户端发送信息

socket 套接字服务器端和客户端发送信息这是以前刚开始接触python的时候写的。记录一下服务器端import socketimport threadinghost=''port=6889def cilenThred(conn,addr): print("成功接受客户端{}的连接:{}".format(addr[0],str(addr[1]))) #服务器向客户...
原创
149阅读
0评论
2点赞
发布博客于 2 年前

linux Centos7下安装python3及pip3

linux Centos7下安装python3及pip3先去python官网下载python3安装包执行命令:wget https://www.python.org/ftp/python/3.6.5/Python-3.6.5.tgz安装zlib-devel包(后面安装pip需要用到,这里先下载,后面就不用重复编译)yum install zlib-devel解压命令: tar -xvf ...
原创
252阅读
0评论
2点赞
发布博客于 2 年前

python爬虫之js逆向(二)

python爬虫之js逆向(二)写在前面每天一更,养成好习惯从我做起。真正想做成一件事,不取决于你有多少热情,而是看你能多久坚持。千万别奢望光有热情就能得偿所愿。网站分析今天的带大家了解一下md5加密,目标网站是有道翻译:http://fanyi.youdao.com/首先第一步打开网址(我用的是google)f12,查看是否是post请求,随便输入一个字,右击查看网页源代码,ctrl+...
原创
667阅读
0评论
3点赞
发布博客于 2 年前

python爬虫之js逆向(一)

python爬虫之js逆向(一)写在前面 现在各种反爬手段很多,虽然我在工作的时候并没有遇到过(我的工作就是爬虫,但是基本上都是爬外网,google,都是企业级爬虫,很少像这样写垂直爬虫)。在平时的技术交流群中经常看到大神们说一些我没遇到过的的反爬手段,为了能够插上话题,为了升职加薪,今天终于下定决心开始学习各种反爬,并在此记录分享心得。本人刚刚上班没几个月,小白一个,有不对的地方希望大神能够...
原创
1645阅读
2评论
5点赞
发布博客于 2 年前

开发人员上网工具

~~超级好用的学习工具~
crx
发布资源于 2 年前

天眼查抓取脚本tianyancha.py

天眼查抓取脚本tianyancha.py
py
发布资源于 2 年前

搞“两弹一星”也离不开计算尺

        转载地址:http://story.kedo.gov.cn/c/...
转载
608阅读
0评论
0点赞
发布博客于 2 年前

大众点评源码.zip

最新大众点评源码
zip
发布资源于 2 年前

130套简历

简历模板
rar
发布资源于 2 年前

裁判文书爬虫

裁判文书爬虫
zip
发布资源于 2 年前

关于知网的爬虫

关于知网的爬虫
zip
发布资源于 2 年前

12306爬虫源码

12306爬虫源码 仅供参考
zip
发布资源于 2 年前

京东书城爬虫

京东书城爬虫!!毕设可以参考
zip
发布资源于 2 年前

scrapy的智联招聘爬虫

用scrapy写的智联爬虫!!
zip
发布资源于 2 年前

京东商品爬虫

爬虫京东商品爬虫~
zip
发布资源于 2 年前

html图书管理系统

完整的前端代码 图书管理系统~~
zip
发布资源于 3 年前