2020年08月_yukai08008

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

原创 Python - 装机系列7 sh脚本制作

说明从后台运行的方便性考虑，制作sh脚本方便调度和运行。内容参考教程Shell 是一个用 C 语言编写的程序，它是用户使用 Linux 的桥梁。Shell 既是一种命令语言，又是一种程序设计语言。Shell 是指一种应用程序，这个应用程序提供了一个界面，用户通过这个界面访问操作系统内核的服务。Ken Thompson 的 sh 是第一种 Unix Shell，Windows Explorer 是一个典型的图形界面 Shell。基本上使用多的是 Bourne Again Shell(bash

2020-08-31 11:44:31 495

原创 Python - 装机系列6 Ubuntu 安装Docker

说明使用Docker来构建所需要的环境。1内容方法1：最简单的方法（推荐）安装好Docker后使用Docker-Compose部署。sudo apt-get install docker.iosudo apt-get install docker-compose方法2：无法连接阿里云时比较奇怪的问题，估计是公司的ip地址出问题(估计是nginx配置的问题，ip地址后面多了’ 80’)。(或者是阿里云自己的安全策略比较变态，因为清华的源就好使了)步骤1：修改apt的镜像源# 切换到目录

2020-08-31 10:09:57 182

原创 Python 全栈系列12 - Flask 令牌登录

0 说明令牌登录主要为了服务使用接口获取数据或者访问网页（前后端分离）的应用。通常的用户登录是使用Session维护用户和服务的会话状态，缓存等信息。按照Restful的规范，要求服务要可以「无状态」的访问和操作，这意味着不能使用Session；而每次都使用用户和密码与服务器通信也不是很安全。因此可以使用令牌登录的方式访问网站。接口访问的方式也带来一个好处：减少了Session的维护（节约了资源）。总体上：第一次向服务器发送带用户密码的请求，获得一个具有一定时间TTL的令牌。（HTTPS + B

2020-08-28 11:28:45 689

原创 Python - 深度学习系列3-图像区域标注及抠图

说明一种最简单的标注是用文件名给某张图片标注。这里主要讨论的是给图像进行区域的划分和标注后，把这部分的图像和标注拉下来保存成单独的图片。想象在图片上拉一个小矩形，给这个矩阵打了类别的文本，最后我们根据这个矩形和文本把图扣下来单独的保存。介绍的内容：1 VOC标注格式和工具2 Pytorch的Dataset格式3 对应的转换脚本进行目标识别通常需要coco和voc两种数据集格式，本文主要讨论voc格式的使用。coco 数据集。COCO 的全称是Common Objects in COnte

2020-08-27 17:39:20 3426 1

原创 Python - 深度学习系列2-人脸比对 Siamese

说明使用Siamese网络进行目标的相似度比较，其好处在于避免了许多复杂的数学处理（仿射变换）。本文参考了PyTorch练手项目四：孪生网络（Siamese Network）,并结合github上的源码进行了实现,和修改（源码只能使用CUDA)。涉及到的内容有：1 模型流程及其对应部分的内容准备2 主要代码的拆解分析3 新数据集的实验4 原理分析（因为神经网络以应用为主，理论反而在后）本文的实验环境是Mac(CPU模式) + Pytorch。1 模型流程及其对应部分的内容准备从模型的本

2020-08-26 17:41:43 3216 3

原创 Python - 装机系列4 深度学习主机

愿每行代码更有意义，每个字节更有价值说明配置一个普通的深度学习主机单元，作为计算网络的一个节点。考虑：经济性。单主机预算不超过1.5万元，功率不超过1kw合理的内存分配。cpu的每个核分配4~8G内存。单显卡。只要主机具有显卡计算能力即可。配置1 CPU采用10代i9 CPU。8核16线程。价格：30002 内存一定要选国货之光。估计主板只有4个槽，选单条32G X 4 = 128G （每核8G)价格：25003 硬盘还是选国货之光。1TX2价格：15004 .

2020-08-21 23:55:46 422

原创 Python - 装机系列3 FRP

说明为什么要做内网穿透？为了实现随时随地的多主机访问。场景：1 一台台式机放在公司 ubuntu 16：用来跑程序，可能有jupyter2 一台台式机放在家里1 ubuntu 18:用来跑程序，可能有web13 一台台式机放在家里2 ubuntu 18：用来跑程序，可能有web24 一台Mac笔记本：用来写算法和实验需求：只要Mac能够连入公网，那么可以使用ssh登录任意一台机器操作，并且可以访问任何一台机器的web服务。方法：使用一台云主机（具有公网ip)进行中转，加上frp软

2020-08-21 18:31:35 800

原创 Python - 深度学习系列1-目标识别 yolo

目的实现基于yolo网络的目标识别。使用github上开源的代码。那么需要做的事只有几样：1 原理。多少还是知道一下yolo的原理以及应用特点。2 环境。对应的安装包，特别是cpu、gpu的配置。3 数据。yolo的标签格式还是稍有不同的。4 模型。模型没啥可说的，但是预训练的参数怎么选要看看。5 服务封装。模型训练好了就可以封装为服务调用了。环境准备数据准备基于voc 2007 数据生成表yolo标签(voc_label.py)import xml.etree.ElementT

2020-08-21 16:11:11 2593 2

原创建模杂谈系列19-人工智能与人

说明人工智能覆盖的领域很大，本身又是建立在诸多学科（计算机、通信、数学）的基础之上的，所以其体系特别庞杂。本文试图用人工智能模仿人的功能进行一些简单的分类。先粗粗的分一下，以后慢慢完善。模仿人的功能人人工智能脑广义规则（监督模型，X->y）, 关系推理（图模型），无监督模型眼机器视觉：目标识别，人脸识别…口语音识别：小爱同学，自然语言手（部分）自然语言身体，口传感器姿态和动作控制系统（这个稍微超出传统的人工智能）模仿人的方法

2020-08-21 10:09:56 243

原创建模杂谈系列18-人与人工智能

说明探讨和分析人的能力，探索人工智能的设计思想1 人的分类人生而平等，以下仅从专业能力进行客观讨论和分析，不涉及人格的歧视。如以做事的成功率来定义人的等级，可分为三等：一等人：有强烈的目标导向，擅于「未学而知」，做事情通常一次性成功。二等人：有较强的自我反省意识，习惯于「知错能改」，做事情通常会先失败一次或少数几次。三等人：有较强的自尊心，具有韧性，做事情通常会失败较多次才成功。这三等人对应平时我们口中的超级聪明、很聪明和有点笨。通常来说，越聪明的人权威越高：一等人>二等人

2020-08-19 10:07:19 227

原创 Python 全栈系列11 - 一个小型服务系统的设计思想

1 说明这里从三方面讨论一个小型服务系统的设计思想：（架构）设计、（代码）实现、（使用）交互。细节后补2 内容机制的建立，简与繁的选择，步步为营的推进2.1 设计 Design两个字归纳：合理维度简繁维护容易维护难以维护性能性能较高（没有什么overhead)性能较低稳定性较差较好功能较少较多2.2 代码 Code两个字归纳：优雅维度不优雅优雅准确性多bug少bug容错差好灵活耦合差

2020-08-07 14:10:10 106

原创 Python 全栈系列10 - 三层结构

说明目标是一个简单，又具有弹性的架构内容示意图：图中分为三层：Layer1（部署层） : 主机级别的概念。假设有了一个云主机，如何去规划。首先是一些配置类的，包括端口、反向代理、文件目录这些，还有一些必要的软件。同时主机还需要有授权认证（部分在主机端，部分在应用端）。Layer2（逻辑接口层）: 虚机（容器）级别概念。主机已经搭建了服务可以运行的基本条件，最简单的方式应该是把服务环境搬到主机，然后使用工具进行维护（主机命令，代码更新）Layer3（计算层）: 函数包级别概念。这个级别下假

2020-08-07 12:08:10 326

原创建模杂谈系列15-贝叶斯思维1 Monty Hall问题

说明贝叶斯方法属于两大统计学派之一（另一个是频率派），内容比较多，就随便选一个地方开始吧。更好的带入先验（经验），以减少冷启动、无数据的偏差；当数据量足够大时，贝叶斯和频率派的结果是相同的。内容横看成岭侧成峰贝叶斯公式很有意思，每次从不同的角度去理解它的概念感觉都不一样。暂时认为贝叶斯公式可以帮助我们更容易的去逆推吧。p(H|D) = p(H)p(D|H) / p(D)p - 代表概率H - 代表假设（Hypothesis)D - 代表数据（Data）D |H - 似然度 -

2020-08-06 15:45:38 287

原创建模杂谈系列16-设备故障预测方法

1 说明整体上未来的设备都是智能设备,所以应用数据进行故障诊断应该是比较靠谱的。智能设备（intelligent device）是指任何一种具有计算处理能力的设备、器械或者机器。功能完备的智能设备必须具备灵敏准确的感知功能、正确的思维与判断功能以及行之有效的执行功能。假设：这里假设设备可以连接互联网，以一定频次（例如5秒/次）向服务器发送数据。（需要的话服务器也可以秒级的将数据返回设备）如果未来使用5G连接的化，这个时间周期最短可以缩短至数十毫秒一次交换（主要看数据处理的复杂度了）。2 故障处

2020-08-06 11:17:07 2928

原创建模杂谈系列14-建模流程1 从数据开始

说明探索建模的流程和处理步骤。从数据/文件的角度看，在整个建模过程中会发生什么：1 数据的获取和存储结构化数据。这里假设结构化数据已经形成了一张excel表，或者有结构化数据库的连接。非结构化数据。会经过一些清洗才能得到，假设是以图的方式获取的。（节点，属性，关系）2 文件和变量的命名在一个大的项目空间下，要区分通用的和个性化的，项目之间的命名空间应该是完全不冲突的3 持久化（文件存储、数据库）应该说肯定会涉及大量的文件本地存储，数据库的交互可能只是开始和结束文件比较方便

2020-08-06 09:36:59 2424

原创 Python一些可能用的到的函数系列6 自定义时间对象

说明python的时间模块实在有点让人晕。主要的有两个，一个是time模块，一个是datetime模块。这两个模块的有部分功能还是重叠的，实在不想忍了- - ！我打算重新造一个轮子，只要效率还可以，然后直观好用就行了。实现的功能有以下几块：字符串和时间戳的互转实现月偏移：月偏移从计算上是不精确的，尽量保证号相同。（例如4.1到5.1,偏移一个月是30天；但5.1到6.1偏移一个月是31天）。不过通常来说，如果要按做偏移尽量还是选1号吧，毕竟每个月都有（月末可就不一定哪天了）。实现秒偏移（周、天

2020-08-05 00:41:10 315

原创 Python Tips系列2

说明更快找到好用的东西使用numpy做标量的离散化通过标量和一维向量的一次广播计算就完成了（还很自然的遵守了左闭右开的习惯）# 使用一维向量（ruler)对一个标量离散化def scalar_dis(some_val, some_1dim_ruler): some_val = float(some_val) some_1dim_ruler = np.array(some_1dim_ruler).astype(float) return (some_val >= s

2020-08-04 21:45:19 400

原创建模杂谈系列13-自然语言处理之我见

1 说明梳理一下个人对于自然语言处理的理解和思路。不打算按照现有的循环神经网络的套路去分析，我觉得这个技术已经有很多大牛在搞了，如果有希望的话他们一定可以成功的。以下是我对于自然语言处理的另一种思路：既然是个人都可以听和说（读和写要求高一点），那么基于现有的计算机能力，应该可以做到的。2 分析虽然人类的视觉是二维的，但是语言一直是一维的。有点像互联网上的数据传输：都得压扁成字符串流进行传输。语言有意思的点是，虽然其表现是一维的（一个时间点你只能蹦出一个音节），但其表达的信息确是富有层次的，多维的

2020-08-03 17:38:51 226

原创建模杂谈系列12-书籍目录

1 说明学而不思则罔，思而不学则殆看书是为了看结构，而不是只靠看书能干出什么；但如果只陷入工程实现，那么就容易陷入局部的陷阱。列个书单提醒下自己，别忘了看书。正好也有很多人对人工智能越来越感兴趣，就算是一石二鸟吧。编程语言的后端基本上都是Python，前端主要就是各类的JS。总量估计会在几百本，慢慢更新把。2 基础内容有很多看过的书已经记不得了，亡羊补牢，为时未晚吧。2.1 Python入门序号书名语言文件类型出版社作者内容建议评级1利用Pyt

2020-08-03 16:42:21 363

原创 Python 全栈系列9 - 一个小型的弹性架构

1 说明设想一个以人工智能（更偏重算法）而非电商（更偏重流量吞吐）的场景。这种场景的核心在于处理集成的、复杂的逻辑, 其价值在于更快更直接的把算法价值投送到用户。2 架构概述架构分为A端和B端两部分。从硬件上来说，目前公有云的算力租用太贵，带宽也非常有限，这决定了不太可能把所有的内容都放到公有云上；另外从（软件）安全性上来说，既然硬件基础由别人运营，那么代码就没有什么绝对的秘密可言。因此，建议把服务分为两部分， A端需要尽量轻，主要进行服务的路由和消息转发，起到中转站的作用。B端则进行比较重的计算

2020-08-03 00:12:50 209

sh000016.csv

沪深300的日线数据

2021-12-21

customer_segmentation.zip

使用sklearn kmeans客户分群

2021-05-04

credit_scoring.zip

使用german credit数据做的多模型选择例子

2021-05-04

churn_sample.zip

用python实现knime的churn prediction

2021-05-03

正则表达式.ipynb

简单梳理了一下python正则表达式的几个函数

2021-01-13

python语言基础

python基本的语法、规范，数据对象等。适合0基础想学python的人。内容只有一个jupyter，极度精简，1个小时应该能看完。

2021-01-11

1 python的三种类方法

Python对象里有三类方法： 1 类方法 @classmethod :基于类的一些属性进行调用,第一个参数是cls 2 静态方法 @staticmethod: 本质上和普通函数没什么不同，归集到一个类下面，相当于整理 3 实例方法 :需要结合对象的实例使用，第一个参数是cls

2021-01-10

DataManipulation-0.1.12.1-py3-none-any.whl

数据处理的基本函数包。主要基于Pandas,Numpy。 import pandas as pd import numpy as np import pickle import datetime import os import hashlib import pika import json import time

2020-07-11

DataManipulation-0.1.7-py3-none-any.whl

包含了一些数据操作用的函数，当前版本0.1.6。用于建模的数据清洗、重采样、离散化、计算信息值等操作。拷贝后使用pip3 install + 路径/文件名即可。依赖的包目前为numpy,pandas和pickle，都是常用基础包

2020-05-30

netflix_titles.csv

TV Shows and Movies listed on Netflix This dataset consists of tv shows and movies available on Netflix as of 2019. The dataset is collected from Flixable which is a third-party Netflix search engine. In 2018, they released an interesting report which shows that the number of TV shows on Netflix has nearly tripled since 2010. The streaming service’s number of movies has decreased by more than 2,000 titles since 2010, while its number of TV shows has nearly tripled. It will be interesting to explore what all other insights can be obtained from the same dataset. Integrating this dataset with other external datasets such as IMDB ratings, rotten tomatoes can also provide many interesting findings. Inspiration Some of the interesting questions (tasks) which can be performed on this dataset - Understanding what content is available in different countries Identifying similar content by matching text-based features Network analysis of Actors / Directors and find interesting insights Is Netflix has increasingly focusing on TV rather than movies in recent years.

2020-05-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

yukai08008的博客