weixin_54475711-CSDN博客

原创 omaha图谱调研评测

诊断里面包含疾病，异常发现+ 正常发现 + 症状关系尾部实体其他需要予以区分。国家标准为ICD临床2.0，和药监局统一标识。主数据更新至2021年12月。药品 schema 稍不一致。节点数量： 1033987。各实体类别唯一性做的都不好。关系数量：2946774。关系查询多跳查询准确性。

2022-12-28 15:21:54 336 1

一、鸢尾花数据的决策树分类及树深度与过拟合关系import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport matplotlib as mplfrom sklearn import treefrom sklearn.tree import DecisionTreeClassifierfrom sklearn.model_selection import train_test_splitfrom sklea

2021-05-13 21:57:15 425

原创机器学习强化(回归)

一、鸢尾花(线性回归)import numpy as npimport pandas as pdfrom sklearn import preprocessingfrom sklearn.linear_model import LogisticRegressionfrom sklearn.preprocessing import StandardScaler, PolynomialFeaturesfrom sklearn.pipeline import Pipelineimport matpl

2021-05-11 21:06:05 352

原创机器学习强化(数据清洗、实战理解)

一、计算赔率(素数、合数赌博)import operatorimport numpy as npimport matplotlib.pyplot as pltimport matplotlib as mplfrom time import timeimport mathfrom collections import Counterdef is_prime(x): return 0 not in [x % i for i in range(2, int(math.sqrt(x)) +

2021-05-09 16:09:55 180

原创机器学习(线性回归)

一、线性回归1、定义：线性回归通过一个或者多个自变量与因变量之间之间进行建模的回归分析。其中特点为一个或多个称为回归系数的模型参数的线性组合一元线性回归：涉及到的变量只有一个多元线性回归：涉及到的变量两个或两个以上2、损失函数(误差大小)y_i为第i个训练样本的真实值ℎ_w(x_i)为第i个训练样本特征值组合预测函数总损失定义：3、优化模型中的W使损失值最小a、正规方程(用于小数据集)b、梯度下降(用于大数据集)4、sklearn线性回归正规方程、梯度下降APIa、正规方程

2021-04-28 19:41:14 68

原创机器学习(决策树、随机森林)

一、决策树1、定义：程序设计中的条件分支结构就是if-then结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法2、信息熵(H，单位为比特)3、信息增益(决策树的划分依据之一)4、sklearn决策树APIclass sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)决策树分类器criterion:默认是’gini’系数，也可以选择信息增益的熵’entr

2021-04-27 19:27:29 157

原创机器学习(数据特征工程--特征选择、机器学习-- sklearn数据集、转换器与估计器)

三、特征选择(sklearn.feature_selection.VarianceThreshold)特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征，特征在选择前和选择后可以改变值、也不改变值，但是选择后的特征维数肯定比选择前小，毕竟我们只选择了其中的一部分特征。主要方法（三大武器）：Filter(过滤式):VarianceThresholdEmbedded(嵌入式)：正则化、决策树Wrapper(包裹式)VarianceThreshold(threshold = 0.0)

2021-04-25 20:05:05 270

原创机器学习(数据特征工程--特征提取及其处理)

一、数据得特征抽取：1、字典特征抽取：sklearn.feature_extraction.DictVectorizerDictVectorizer(sparse=True,…)DictVectorizer.fit_transform(X)X:字典或者包含字典的迭代器返回值：返回sparse矩阵DictVectorizer.inverse_transform(X)X:array数组或者sparse矩阵返回值:转换之前数据格式DictVectorizer.get_feature_names(

2021-04-24 01:07:52 1247 1

原创 Linux（安装、四大远程工具、基本命令）

一、linux基本命令清空屏幕Clear创建用户#useradd beifengLinux下每个用户都有密码默认情况下创建一个用户的同时会给这个用户在系统的目录下创建一个属于自己的用户目录，称之为用户主目录规则：/home/username，用户主目录可以用 ~ 代替切换用户#|$ su – beifeng管理员切换到普通用户不需要密码，反之需要；显示当前用户所在的目录$ pwdlinux主机名称查看：#|$ hostname设置：#hostname hadoop-senior

2021-04-15 23:37:36 144

原创 MySQL(运算符、函数及函数库)

一、MySQL中的运算符1.算数运算符2.比较运算符3.逻辑运算符4.运算符的优先级可以通过括号()改变优先级二、MySQL中的函数1.数学函数2.字符串函数3.日期时间函数4.条件判断函数5.系统信息函数6.加密函数7.其它常用函数三、MySQL函数库的使用1.为什么使用MySQL函数库？通过MySQL函数库可以实现应用程序操纵数据库2.MySQL函数库操纵数据库的步骤？连接数据库mysql_connect(host,host,host,username,passwo

2021-04-14 18:50:29 83

原创 MySQL(查询数据、连接查询、子查询)

一、查询数据操作(DQL)4.GROUP BY查询结果分组配合GROUP_CONCAT()得到分组详情配合聚合函数COUNT()MAX()MIN()AVG()SUM()配合WITH ROLLUP记录上面所有记录的总和5.HAVING子句通过HAVING子句对分组结果进行二次筛选6.ORDER BY排序通过ORDER BY对查询结果排序7.LIMIT限制查询结果显示条数LIMIT 显示条数LIMIT 偏移量，显示条数二、MySQL连接查询1.什么是连接查询？连接查询是将两

2021-04-13 22:50:54 89

原创 MySQL(修改表结构、数据操作、查询数据)

一、修改表结构修改表名ALTER TABLE tbl_name RENAME [TO|AS] new_nameRENAME TABLE tbl_name TO new_name添加字段ALTER TABLE tbl_name ADD 字段名称字段类型 [完整性约束条件] [FIRST|AFTER 字段名称]删除字段ALTER TABLE tbl_name DROP 字段名称修改字段ALTER TABLE tbl_name MODIFY 字段名称字段类型 [完整性约束条件] [FIRST

2021-04-12 23:26:52 97

原创 pandas(时间序列、各案例分析)

使用matplotlib呈现出店铺总数排名前10的国家# coding=utf-8import pandas as pdfrom matplotlib import pyplot as pltfile_path = ".\starbucks_store_worldwide.csv"df = pd.read_csv(file_path)#使用matplotlib呈现出店铺总数排名前10的国家#准备数据data1 = df.groupby(by="Country").count()["Brand

2021-04-02 15:27:08 274

原创 Pandas(数据的合并、分组、聚合)

对于这一组电影数据，如果我们想rating，runtime的分布情况，应该如何呈现数据？# coding=utf-8import pandas as pdfrom matplotlib import pyplot as pltfile_path = "./IMDB-Movie-Data.csv"df = pd.read_csv(file_path)#print(df.head(1))#print(df.info())#rating,runtime分布情况#选择图形，直方图#准备数据

2021-04-01 00:00:22 179

原创 pandas(Series、DataFrame)

import pandas as pd#Series的构成和相关方法t1 = pd.Series([1,2,3,4,5,6])print(t1)#t2 = pd.Series([1,2,3,4,5,6],index=['a','b','c','d','e','f'])t2 = pd.Series([1,2,3,4,5,6],index=list('abcdef'))print(t2)#字典创建：键为索引，值为值dict1 = {'name':'xiaohong','age':30,"t

2021-03-29 17:13:37 60

原创 numpy(创建数组、对数组进行操作)

numpy创建一个数组：import numpy as npt1 = np.array([1,2,3])print(t1)print(type(t1))t2 = np.array(range(10))print(t2)print(type(t2))t3 = np.arange(10)print(t3)print(type(t3))输出：F:\Softwares\Anaconda\python.exe F:/PycharmProjects/HMdatesys/matplotli

2021-03-26 23:18:32 207

原创数据科学库(matplotlib折线图、散点图、条形图、直方图)

折线图# coding=utf-8from matplotlib import pyplot as pltimport randomimport matplotlibfrom matplotlib import font_manager#windws和linux设置字体的放# font = {'family' : 'MicroSoft YaHei',# 'weight': 'bold',# 'size': 'larger'}# matplotlib.rc

2021-03-24 21:59:01 61

原创数据结构（归并排序、二分法、树）

归并排序：def merge_sort(alist): n=len(alist) if n <= 1: return alist mid = n//2 left_li = merge_sort(alist[:mid]) right_li = merge_sort(alist[mid:]) left_pointer = 0 right_pointer = 0 result = [] while left_point

2021-03-02 21:05:25 42

原创数据结构（选择、插入、希尔、快速排序）

选择排序def select_sort(list): n = len(list) for j in range(n-1): min = j for i in range(j+1,n): if list[i] < list[min]: min = i list[j],list[min] = list[min],list[j]if __name__ == "__main__":

2021-02-25 23:18:49 47

原创数据结构（单向循环列表、栈、队列、冒泡排序）

单项循环链表class Node(object): def __init__(self,item): self.item = item self.next = None self.prev = Noneclass DLinkList(object): def __init__(self,node=None): self._head = node def is_empty(self): #链表是否为

2021-02-24 23:56:59 103

原创 Python数据结构（双向列表、单项循环列表）

双向链表```pythonclass Node(object): def __init__(self, item): # _item存放数据元素 self.item = item # _next是下一个节点的标识 self.next = Noneclass SingleLinkList(object): #单链表 def __init__(self,node=None):

2021-02-23 22:51:17 169

原创 2021-02-22

链表（链表（Linked list）是一种常见的基础数据结构，是一种线性表，但是不像顺序表一样连续存储数据，而是在每一个节点（数据存储单元）里存放下一个节点的位置信息（即地址））单向链表：单向链表也叫单链表，是链表中最简单的一种形式，它的每个节点包含两个域，一个信息域（元素域）和一个链接域。这个链接指向链表中的下一个节点，而最后一个节点的链接域则指向一个空值。• 表元素域elem用来存放具体的数据。• 链接域next用来存放下一个节点的位置（python中的标识）• 变量p指向链表的头节点（

2021-02-22 23:29:47 37

原创 2021-02-21

int占4个字节；Char占1个字节顺序表：图a表示的是顺序表的基本形式，数据元素本身连续存储，每个元素所占的存储单元大小固定相同，元素的下标是其逻辑地址，而元素存储的物理地址（实际内存地址）可以通过存储区的起始地址Loc (e0)加上逻辑地址（第i个元素）与存储单元大小（c）的乘积计算而得，即：Loc(ei) = Loc(e0) + c*i故，访问指定元素时无需从头遍历，通过计算便可获得对应地址，其时间复杂度为O(1)。如果元素的大小不统一，则须采用图b的元素外置的形式，将实际数据元素另行存

2021-02-21 19:25:03 164

原创 2021-02-20

时间复杂度：1、import timestart_time = time.time()for a in range(0, 1001):for b in range(0, 1001):for c in range(0, 1001):if a2 + b2 == c**2 and a+b+c == 1000:print(“a, b, c: %d, %d, %d” % (a, b, c))end_time = time.time()print(“elapsed: %f” % (end_time -

2021-02-20 22:50:37 70

原创 2021-02-05

模块的导入import 语句导入import 语句的基本语法格式如下：import 模块名#导入一个模块import 模块1，模块2… #导入多个模块import 模块名as 模块别名#导入模块并使用新名字import 加载的模块分为四个通用类别：a.使用python 编写的代码（.py 文件）；b.已被编译为共享库或DLL 的C 或C++扩展；c.包好一组模块的包d.使用C 编写并链接到python 解释器的内置模块；from…import 导入from 模块名import 成员1

2021-02-05 14:54:41 214

原创 2021-02-02

文件操作（IO技术）名称说明io 模块文件流的输入和输出操作input outputos 模块基本操作系统功能，包括文件操作glob 模块查找符合特定规则的文件路径名fnmatch 模块使用模式来匹配文件路径名fileinput 模块处理多个输入文件filecmp 模块用于文件的比较cvs 模块用于csv 文件处理pickle 和cPickle 用于序列化和反序列化xml 包用于XML 数据处理bz2、gzip、zipfile、zlib、tarfile 用于处理压缩和解压缩文件（分别对

2021-02-02 21:22:47 43

原创 2021-01-30

python方法不能重载：定义多个同名方法，只有最后一个有效class Person: def say_hi(self,name): print("{0},hello".format(name)) def say_hi(self): print("hello")p1 = Person()p1.say_hi()方法的动态性：动态的为类添加新的方法，或者动态的修改类的已有的方法。class Person: def work(self):

2021-01-30 00:05:03 42

原创 2021-01-27

text1:def suan(a):return a[::-1]print(int(suan(‘3245’)))print(isinstance(int(suan(‘3245’)),int))text2def ff(n):if n==1:return 1/2else:return n/(n+1)+ff(n-1)print(ff(2))text3import mathdef isvalid(a=0.0, b=0.0, c=0.0):“”“判断三条边长是否符合三角形的定义：任意两边

2021-01-27 22:50:03 70

原创 2021-01-26

for循环：for 变量in 可迭代对象：循环体语句d = {‘name’:‘gaoqi’,‘age’:18,‘address’:‘西三旗001 号楼’}for x in d: #遍历字典所有的keyprint(x)for x in d.keys():#遍历字典所有的keyprint(x)for x in d.values():#遍历字典所有的valueprint(x)for x in d.items():#遍历字典所有的"键值对"print(x)range对象：range(start

2021-01-26 00:20:11 61

原创 2021-01-24

字典：键值对a = {‘name’:‘gaoqi’,‘age’:18,‘job’:‘programmer’}通过{}创建：a={‘name’:‘pp’}通过dict（）创建通过zip（）创建（元组）通过fromkeys（）创建（值为空，只有键）访问字典元素：get（）a.get(‘sex’,‘一个男人’)‘一个男人’in检查是否字典元素添加：a[‘bbb’]=‘ccc’a.update(b) b覆盖a，没有的键直接添加字典中元素的删除：可以使用 del()方法；或者 c

2021-01-24 23:21:21 40

原创 2021-01-24

序列（字符串、列表、元组、字典、集合）列表：方法要点描述list.append(x) 增加元素将元素 x 增加到列表 list 尾部list.extend(aList) 增加元素将列表 alist 所有元素加到列表 list 尾部list.insert(index,x) 增加元素在列表 list 指定位置 index 处插入元素 xlist.remove(x) 删除元素在列表 list 中删除首次出现的指定元素 xlist.pop([index]) 删除元素删除并返回列表 lis

2021-01-24 15:33:12 60

原创 2021-01-22

一、赋值x=y=123a,b,c=4,5,6a,b=b,apython常量可以更改（全大写+_形式）二、数据类型整型浮点型布尔型字符串型/：浮点型除法//：整型除法0B/0b 二进制0O/0o 八进制0X/0x 十六进制int（12.2）/int（true）/int（“整数”）整数和浮点运算=浮点Python整数大小没有限制加强符号a‘符号’=2------------a=a’符号’2当前时间（ms单位）import timeb = int(time.tim

2021-01-22 21:33:32 126 1

原创 D1笔记

D1笔记一、1、恰当空格，缩进2、大小写3、注释行注释#段注释’’’二、基础讲解import turtlet = turtle.Pen()for x in range(360): t.forward(x) t.left(10)三、奥运五环```pythonimport turtleturtle.width(10)turtle.color("blue")turtle.circle(50)turtle.color("black")turtle.penu

2021-01-21 23:54:09 62

weixin_54475711的博客

原创 omaha图谱调研评测

原创机器学习强化(决策树和随机森林)

原创机器学习强化(回归)

原创机器学习强化(数据清洗、实战理解)

原创机器学习(线性回归)

原创机器学习(决策树、随机森林)

原创机器学习(数据特征工程--特征选择、机器学习-- sklearn数据集、转换器与估计器)

原创机器学习(数据特征工程--特征提取及其处理)

原创 Linux（安装、四大远程工具、基本命令）

原创 MySQL(运算符、函数及函数库)

原创 MySQL(查询数据、连接查询、子查询)

原创 MySQL(修改表结构、数据操作、查询数据)

原创 pandas(时间序列、各案例分析)

原创 Pandas(数据的合并、分组、聚合)

原创 pandas(Series、DataFrame)

原创 numpy(创建数组、对数组进行操作)

原创数据科学库(matplotlib折线图、散点图、条形图、直方图)

原创数据结构（归并排序、二分法、树）

原创数据结构（选择、插入、希尔、快速排序）

原创数据结构（单向循环列表、栈、队列、冒泡排序）

原创 Python数据结构（双向列表、单项循环列表）

原创 2021-02-22

原创 2021-02-21

原创 2021-02-20

原创 2021-02-05

原创 2021-02-02

原创 2021-01-30

原创 2021-01-27

原创 2021-01-26

原创 2021-01-24

原创 2021-01-24

原创 2021-01-22

原创 D1笔记

空空如也

空空如也