愚人弘毅-CSDN博客

原创 NLP结巴分词

1 正则表达式# encoding: UTF-8import re# 将正则表达式编译成Pattern对象pattern = re.compile(r'hello.*\!')# 使用Pattern匹配文本，获得匹配结果，无法匹配时将返回Nonematch = pattern.match('hello, NLP! How are you?')if match: # 使用Match获得分组信息 print(match.group())regex_1 = re.compil

2021-03-10 17:57:20 204

原创气泡检测

气泡检测# 胶囊瑕疵检测import cv2import osimport numpy as npdef bub_check(img_path, img_file, im, im_gray): # 二值化 t, im_bin = cv2.threshold(im_gray, 170, 255, cv2.THRESH_BINARY) cv2.imshow

2021-02-17 18:56:17 1861 1

原创人脸检测

利用PaddleHub实现人脸检测1. 安装库命令!pip install paddlehub==1.6.2 -i https://pypi.tuna.tsinghua.edu.cn/simple2. Paddle代码import matplotlib.pyplot as pltimport matplotlib.image as mpimgimport paddlehub as hubtest_img_path = ["./zhouyu.png", "./yzd.png", "./you

2021-02-16 16:42:15 192

原创 YOLO3

# -*- coding: UTF-8 -*-"""训练常基于dark-net的YOLOv3网络，目标检测"""from __future__ import absolute_importfrom __future__ import divisionfrom __future__ import print_functionimport osos.environ["FLAGS_fraction_of_gpu_memory_to_use"] = '0.82'import uuidimpo

2021-02-15 18:52:19 295

原创目标检测_笔记

目标检测（Object Detection）一、基本概念1. 什么是目标检测目标检测（Object Detection）的任务是找出图像中所有感兴趣的目标（物体），确定它们的类别和位置，是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态，加上成像时光照、遮挡等因素的干扰，目标检测一直是计算机视觉领域最具有挑战性的问题。计算机视觉中关于图像识别有四大类任务：（1）分类-Classification：解决“是什么？”的问题，即给定一张图片或一段视频判断里面包含什么类别的目标。（2）

2021-02-14 20:45:43 5038

原创图像样本

图像样本预处理import cv2import numpy as npimport osimport randomimport matplotlib.pyplot as pltfrom global_var import *from math import *data_root_path = "/home/tarena/MagneticTile/"不切边旋转def remote(img, angle): h, w = img.shape[:2] h_new = int

2021-02-11 10:46:01 234

原创实现水果分类

利用CNN实现水果分类############### 第一部分：预处理 ##################import osname_dict = {"apple":0, "banana":1, "grape":2, "orange":3, "pear":4}data_root_path = "data/fruits/" # 数据集路径test_file_path = data_root_path + "test.txt"#测试集路径train_file_path

2021-01-26 14:40:35 2190 2

原创 PaddlePaddle概述

PaddlePaddle概述PaddlePaddle简介为什么要学PaddlePaddle什么是PaddlePaddlePaddlePaddle优点PaddlePaddle缺点学习资源什么是PaddlePaddlePaddlePaddle（Parallel Distributed Deep Learning，中文名飞桨）是百度公司推出的开源、易学习、易使用的分布式深度学习平台源于产业实践，在实际中有着优异表现支持多种机器学习经典模型为什么学习PaddlePaddle开源、国产

2021-01-25 23:24:45 6532

原创数据分析

数据分析什么是数据分析？数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析经典案例（一）啤酒与尿布沃尔玛在对消费者购物行为分析时发现，男性顾客在购买婴儿尿片时，常常会顺便搭配几瓶啤酒来犒劳自己，于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加了。（二）数据新闻让英国撤军2010年10月23日《卫报》利用维基解密的数据做了一篇“数据新闻”。将伊拉克战争中所有的人员伤亡情况均标

2021-01-25 17:25:28 422

原创 Tensorflow

图像样本读取# 利用tf提供API随机、批量读取图像样本import tensorflow as tfimport osdef img_read(filelist): # 读取图像样本 # 1.构建文件列队 file_queue = tf.train.string_input_producer(filelist) # 定义reader,读取图像、解码 reader = tf.WholeFileReader() # 一次性读取整个文件内容 # 读取，返回

2021-01-24 16:30:29 94

原创 Tensorflow

Tensorflow简介什么是Tensorflow • TensorFlow由谷歌人工智能团队谷歌大脑（Google Brain）开发和维护的开源深度学习平台，是目前人工智能领域主流的开发平台，在全世界有着广泛的用户群体。Tensorflow的特点优秀的构架设计，通过“张量流”进行数据传递和计算，用户可以很容易地、可视化地看到张量流动的每一个环节可轻松地在CPU/GPU上部署，进行分布式计算，为大数据分析提供计算能力的支撑 •跨平台性好，灵活性强。TensorFlow不仅可在Linu

2021-01-24 08:20:43 422 1

原创 OpenCV部分

OpenCV安装执行以下命令安装opencv-python库（核心库）和opencv-contrib-python库（贡献库）。注意：命令拷贝后要合成一行执行，中间不要换行。# 安装opencv核心库pip3 install --user opencv-python==3.4.2.16 --index-url https://pypi.tuna.tsinghua.edu.cn/simple/ --trusted-host https://pypi.tuna.tsinghua.edu.cn# 安

2021-01-23 12:15:59 164

原创深度学习

图像色彩操作二值化与反二值化# 二值化处理import cv2 as cv# 读取图像img = cv.imread("../data/lena.jpg", 0)cv.imshow("img", img) # 显示原始图像# 二值化t, rst = cv.threshold(img, 127, 255, cv.THRESH_BINARY)cv.imshow("rst", rst) # 显示二值化图像# 反二值化t, rst2 = cv.threshold(img, 127,

2021-01-22 17:45:13 99

原创模型优化

超参数优化① 什么是超参数超参数是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。超参数的设置主要依赖于经验、实验或经过比较的优选值。以下是一些模型中常见的超参数：决策树模型树的最大深度；随机森林模型树的数量；交叉验证中折叠的额数量；训练集/测试集的比例等等.超参数选择主要有随机搜索、网格搜索等方法。② 网格搜索网格搜索指将主要参数以及这些参数的主要取值，通过穷举法产生不同组合，计算并比较预测结果，来寻找这些参数的最优组合。以下是利用网格搜索法，寻找SVM的最优超参数的

2021-01-21 16:11:59 272

原创分类_朴素贝叶斯

朴素贝叶斯Time: 2021-01-14 星期四 17:30import sklearn.cluster as scimport numpy as np加载数据x = []with open('../data/multiple3.txt', 'r') as f: for line in f.readlines(): # 每一行数据按照,分隔 data = [float(substr) for substr in line.split(',')]

2021-01-20 18:57:28 95

原创数据预处理

均值移除出实例# 均值移除：对每列特征进行变换，变换后均值为0# 标准差为1(数据分布更加规范)# 样本数据import numpy as npimport sklearn.preprocessing as spraw_sample = np.array([[3.0, -1.0, 2.0], [0.0, 4.0, 3.0], [1.0, -4.0, 2.0]])std_sample

2021-01-19 21:20:47 135

原创使用AdaBoosting预测波士顿房价

AdaBoosting示例使用AdaBoosting预测波士顿房价决策树示例：波士顿房价预测根据13个特征预测房价价格import sklearn.datasets as sdimport sklearn.utils as suimport sklearn.tree as stimport sklearn.metrics as smimport sklearn.ensemble as se读取数据集boston = sd.load_boston()# for sample in bo

2021-01-14 18:57:40 296

原创妙计旅行面试题

1.python 主要内置数据类型都有那些？print dir(‘a’)的输出？python可变数据类型：列表list[ ]、字典dict{ }、集合 set（）、字节数组bytearraypython不可变数据类型：整型int、字符串str’ '、元组tuple（）、布尔bool ,复数complex , 浮点型float ,字节 bytes ……2.给定两个listA,B,请用python找出A、B中相同的元素和不同的元素？lista = [1,2,3,4,5,6,'hello','world

2021-01-13 16:38:34 240

原创 python面试题

第一题：def delList(L):L1 = []for i in L:if i not in L1:L1.append(i)return L1print(delList(a))第二题：1.浅拷贝：使用copy.copy,它可以进行对象的浅拷贝(shallow copy),它复制了对象,但对于对象中的元素,依然使用引用（换句话说修改拷贝对象元素，则被拷贝对象元素也被修改）2.深拷贝：使用copy.deepcopy，它可以进行深拷贝，不仅拷贝了对象，同时也拷贝了对象中的元素，获.

2021-01-13 16:28:19 84

原创皮卡丘绘制

＃皮卡丘的头部分#-- coding:utf-8 --from turtle import *def face(x,y): """画脸""" begin_fill() penup() # 将海龟移动到指定的坐标 goto(x, y) pendown() # 设置海龟的方向 setheading(40) circle(-150, 69) fillcolor("#FBD624")将海龟移动到指定的坐标 penup()

2021-01-13 10:44:08 852

原创 selenium　爬虫

1. selenium爬虫1.1 selenium概述【1】定义 1.1) 开源的Web自动化测试工具【2】用途 2.1) 对Web系统进行功能性测试,版本迭代时避免重复劳动 2.2) 兼容性测试(测试web程序在不同操作系统和不同浏览器中是否运行正常) 2.3) 对web系统进行大数量测试【3】特点 3.1) 可根据指令操控浏览器 3.2) 只是工具，必须与第三方浏览器结合使用【4】安装 4.1) Linux:

2021-01-12 09:09:19 13125 5

原创一辆奔驰的小火车

在linux实现小火车你想看一辆奔驰的小火车吗？安装sudo apt install sl执行sl就能看到了

2021-01-11 19:16:33 92

原创 python笔记

python注释目标注释的作用单行注释（行注释）多行注释（块注释）注释的作用使用用自己熟悉的语言，在程序中对某些代码进行标注说明，增强程序的可读性001_未使用注释的python程序001_未使用注释的python程序02. 单行注释(行注释)以 # 开头，# 右边的所有东西都被当做说明文字，而不是真正要执行的程序，只起到辅助说明作用示例代码如下：这是第一个单行注释print(“hello python”) 为了保证代码的可读性，# 后面建议先添加一个空格，然后再编写相

2021-01-11 19:05:34 1075

原创数据预处理

1. 数据预处理的目的1）去除无效数据、不规范数据、错误数据2）补齐缺失值3）对数据范围、量纲、格式、类型进行统一化处理，更容易进行后续计算2. 预处理方法1）标准化（均值移除）让样本矩阵中的每一列的平均值为0，标准差为1. 如有三个数a, b, c，则平均值为：m=(a+b+c)/3a′=a−mb′=b−mc′=c−mm = (a + b + c) / 3 \\a' = a - m \\b' = b - m \\c' = c - mm=(a+b+c)/3a′=a−mb′=b−mc′

2021-01-11 14:00:57 10565

原创文件的上传和下载

ftp 文件服务器【1】分为服务端和客户端，要求可以有多个客户端同时操作。【2】客户端可以查看服务器文件库中有什么文件。【3】客户端可以从文件库中下载文件到本地。【4】客户端可以上传一个本地文件到文件库。【5】使用print在客户端打印命令输入提示，引导操作FTP --> 服务端"""文件服务器服务端程序"""from socket import *from threading import Threadimport os, time# 全局变量定

2021-01-10 15:31:57 161

原创群聊聊天室

聊天室需求分析: 建立产品的使用雏形(客户端) visio根据需求,规划要实现的功能技术分析: 根据功能确定实现技术网络通信 : udp 网络技术消息收发模型 * 转发客户端--> 服务端-->其他客户端 * 用户进入聊天室时要存储用户地址怎么存 {name:address} [(name,address),....] class Person:

2021-01-10 15:16:28 461 1

原创项目开发流程

在线词典项目开发流程GIT概述： 4个部分配置GIT 基本命令： add/mv/rm commit status log版本管理： reset reflog tag工作区保存： stash apply分支管理： branch checkout mergeGitHub 获取项目地址： https ssh git clone xxxxxx1. 需求分析2. 技术分析 * 并发模型： proc

2021-01-10 14:32:42 295

原创 Vid2Vid安装

Vid2Vid先决条件Linux或macOSPython 3NVIDIA GPU + CUDA cuDNN入门安装从https://pytorch.org安装PyTorch和依赖项安装python dominate和requests库。pip install dominate requests克隆这个仓库：git clone https://github.com/NVIDIA/vid2vidcd vid2vid测试我们在datasets文件夹中包含一个示例Cityscapes

2021-01-09 11:46:33 813 4

原创面试题

英语面试以下用I表示面试官（Interviewer），用C表示面试者（Candidate）。开场寒暄I: Thanks for waiting. (Please follow me.)C: It’s no problem.I: How are you doing this morning?C: I’m great. / I’m doing fine. Thank you. / How about you?I: How did you get here?C: I took the

2021-01-09 10:34:04 179

原创爬虫概述

文章目录爬虫知识点：1. 爬虫的概念知识点：了解爬虫的概念2. 爬虫的作用知识点：了解爬虫的作用3. 爬虫的分类3.1 根据被爬取网站的数量不同，可以分为：3.2 根据是否以获取数据为目的，可以分为：3.3 根据url地址和对应的页面内容是否改变，数据增量爬虫可以分为：知识点：了解爬虫的分类4. 爬虫的流程知识点：掌握爬虫的流程爬虫知识点：了解爬虫的概念了解爬虫的作用了解爬虫的分类掌握爬虫的流程1. 爬虫的概念模拟浏览器，发送请求，获取响应网络爬虫

2021-01-09 10:25:53 192

转载学生信息管理系统

学生信息管理系统"""env: python3.6 pycharm"""import re # 导入正则表达式模块import os # 导入操作系统模块filename = "students.txt" # 定义保存学生信息的文件名def menu(): # 输出菜单 print(''' ╔———————学生信息管理系统————————╗ │ │ │

2021-01-09 10:11:05 359

原创删除普通文件

练习小例子使用input输入一个目录位置,删除该目录下所有大小小于1kb的普通文件import osdir = input(">>") # 输入要处理的目录# 逐个文件获取for file in os.listdir(dir): # 注意拼接路径 filename = dir+'/'+file # 判断大小和类型 if os.path.getsize(filename) < 1024 and os.path.isfile(filename):

2021-01-09 10:02:18 96

原创 Jupyter notebook使用

ipython与Jupyter notebook使用一：ipython介绍安装方法： pip install ipython科学计算标准工具集的组成部分IPython是一个免费、开源的项目，支持Linux、Unix、Mac OS X和Windows平台，其官方网址是http://ipython.org/。IPython中包括各种组件，其中的两个主要组件是：基于终端方式和基于Qt的交互式Python shell，支持多媒体和绘图功能的基于Web的notebook（版本号为0.12以上的IPyth

2021-01-08 17:47:43 2455

原创 python 面试题

一、选择题1.下列哪个语句在Python中是非法的？（B）A．x=y=z=1 B. x=(y=z+1)C. x,y=y,x D. x+=y2. 下面哪个不是Python合法的标识符（B）A . int32 B. 40XL C. self D. name3python不支持的数据类型（A）A . char B. int C. float D. list4.python序列类型不包括（C）A. 列表 B. 字符串

2021-01-08 17:29:29 1966

原创数据结构

数据结构与算法算法概述算法-前序【1】Everybody!全场动作必须跟我整齐划一，来，我们一起来做一道题若n1+n2+n3=1000,且n1^2+n2^2=n3^2(n1,n2,n3为自然数),求出所有n1、n2、n3可能的组合【2】解题思路 n1 = 0 n2 = 0 n3 = 0 判断n1+n2+n3是否等于1000,之后变n3=1,n3=2,n3=3,... 然后再变n2【3】代码实现 import time start_

2021-01-08 17:15:26 90 1

原创 hive介绍

1. hive1.1 Hive概述1.1.1 Hive概述Hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张表，并提供完整的sql查询功能，本质上还是一个文件底层是将sql语句转换为MapReduce任务进行运行本质上是一种大数据离线分析工具学习成本相当低，不用开发复杂的mapreduce应用，十分适合数据仓库的统计分析hive可以用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在hadoop上的数据。1.1.2 数据仓库数据是集成的，数

2021-01-08 17:11:29 563

原创 Hadoop介绍

1.1 Hadoop总结**1.1.1 Hadoop组成分布式存储 - HDFS分布式计算 - MapReduce资源管理 - Yarn1.2.1 HDFS特点HDFS优点高可靠性高扩展性高效性高容错性低成本：与一体机、商用数据仓库等相比，hadoop是开源的，项目的软件成本因此会大大降低HDFS缺点不能做到低延迟，由于hadoop针对高数据吞吐量做了优化，牺牲了获取数据的延迟，所以对于低延迟数据访问，不适合hadoop不适合大量小文件存储，由于namenod

2021-01-08 17:08:29 143

原创爬虫多级页面

多级页面scrapy爬虫项目需求目标说明【1】在抓取一级页面的代码基础上升级【2】一级页面所抓取数据（和之前一样）: 2.1) 汽车链接 2.2) 汽车名称 2.3) 汽车价格【3】二级页面所抓取数据 3.1) 行驶里程: //ul[@class="assort clearfix"]/li[2]/span/text() 3.2) 排量: //ul[@class="assort clearfix"]/li[3]/span/text() 3.3

2021-01-08 16:57:36 554

原创小说爬虫

笔趣阁小说爬虫项目需求【1】官网地址：https://www.biqukan.cc/list/ 选择一个类别，比如：'玄幻小说' 【2】爬取目标 '玄幻小说'类别下前20页的 2.1》小说名称 2.2》小说链接 2.3》小说作者 2.4》小说描述思路流程1】查看网页源码，确认数据来源响应内容中存在所需抓取数据【2】翻页寻找URL地址规律第1页：https://www.biqukan.cc/fenlei1/1.html 第2页：https://www.

2021-01-08 16:54:29 1150

原创 scrapy框架

1. scrapy框架1.1 scrapy概述定义异步处理框架,可配置和可扩展程度非常高,Python中使用最广泛的爬虫框架安装【1】Ubuntu安装 sudo pip3 install Scrapy 【2】Windows安装 python -m pip install Scrapy 如果安装过程中报如下错误 : 'Error: Microsoft Vistual C++ 14.0 is required xxx' 则安装Windows下的Micr

2021-01-08 16:51:42 154

paddle_hub_face_detection.zip

利用PaddleHub实现人脸检测

2021-02-16

hadoop-2.10.0.zip

Hadoop通过可用的计算机集群分配数据，完成存储和计算任务，这些集群可以方便地扩展到数以千计的节点中，具有高扩展性

2021-01-17

机器学习及项目实战.pdf

在机器学习中，你将大量内容留给机器去学习数据。机器学习的一个显著特征是不需要构建模型。这个复杂而有意义的任务是由机器学习算法执行的。如下图所示，与传统编程最大的区别在于机器学习把数据交给机器进行学习，而传统编程由程序员自己编写。

2021-01-08

冷启动原理与项目实战.pdf

推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣，因此大量的用户行为数据就称为推荐系统的重要组成部分和先决条件。很多在开始阶段就希望有个性化推荐应用的网站来说，在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统，就是冷启动问题。本质：商品或用户多、但行为历史数据或特征历史数据少

2021-01-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人