黄星 .-CSDN博客

原创 [Selenium+Pyecharts]爬取建筑设计师招聘信息，数据清洗并可视化

前言：8个小时内完成爬虫，数据清洗并可视化。因为自己也是小白，做的时候时间还挺赶的。很多地方没有做到完美，比如一些数据清洗的步骤走了捷径。有不足的地方，欢迎大神们留言指教。 selenium :3.141.0 pyecharts:1.9.01.Selenium爬取信息我个人是喜欢用selenium做爬虫的，可以享受web自动化的这个过程。因为要爬取的东西不是很多，如果要爬取很多内容的同学，还是老老实实用request的吧。此次爬取的是51job前程无忧，这里的url可以替换成你想查

2021-02-01 17:21:53 1165 7

原创【区块链学习笔记01】BTC-密码学原理-哈希函数

一. 哈希函数区块链中最基础的密码学原理就是哈希算法，以下为哈希函数的简单介绍：哈希函数是一种只只能加密但是不能解密的算法，哈希函数可以将任意长度的信息转化为固定长度的字符串。类似“8b46ec792e943de34605981980751a3c1e008218f77eeb27e474b594f7685019”这样。当输入相同的值时，得到的输出值也一定相同。就算输入值有一点不同，得到的输出值会天差地别。（这里可以看到虽然只改了一位数，但是输出的哈希值完全不同）输入值与输出值之间没有反向推

2022-05-10 23:40:55 4347

原创【Pyecharts+WordCloud】从dataframe到词云图

这个一个小可视化做了2个小时，因为忘了改变输入数据的数据格式：）import pandas as pd from pyecharts import options as optsfrom pyecharts.charts import WordCloudfrom pyecharts.globals import SymbolTypedata = pd.read_csv('语言选择30(1).csv')words = []for i in range(30): words.append((

2021-08-01 23:23:30 819

原创【Python地图可视化】Folium展示悉尼Airbnb房价

根据价格进行分类，为不同价格打上价格标签标签#对价格进行分类price_tag = []for i in range(len(train)): if train.loc[i+2000,'price'] <= 100: price_tag.append('0-100') elif train.loc[i+2000,'price']<=200: price_tag.append("100-200") elif train.loc[i+2000,'price']&l

2021-07-26 13:57:44 496

原创【爬虫】旅游网站的游客评论

因为一门市场营销的课程要用旅游网站的游客评论讲NLP的一些基本知识，本来老师让我们复制粘贴评论数据的（不少于10条）。我觉得数据太少可能效果不好，自己写了个小代码自动爬。from selenium import webdriverimport pandas as pdimport timewd = webdriver.Chrome()wd.get("https://www.tripadvisor.com.au/Attraction_Review-g529031-d264758-Reviews-M

2021-04-23 16:33:15 489 1

原创【学习笔记】线性回归：Lasso和Ridge的区别

老会记不住这两个的区别Lasso：在常规的loss function后面加一个L1范式。惩罚项越大意味着模型越简单，越来越多的特征系数被压缩到0，当惩罚项无限大的时候，只剩一个常数项，此时bias大variance小；惩罚项越小意味着模型越复杂，当惩罚项为0时，Lasso和OLS是一样的。Lasson即可以做特征选择，也可以做压缩。当两个或多个特征相关时，Lasso会选把其余的特征都压缩为0，只剩一个特征，所以lasso是可以解决多元共线性的问题（ridge也可以）Ridge：只能做压缩。因为Ri

2021-04-23 16:23:51 2825

原创超详细 Sklearn中逻辑回归的参数说明（Logistic Regression）

先看看有那些参数：penalty='l2',dual=False,tol=0.0001,C=1.0,fit_intercept=True,intercept_scaling=1,class_weight=None,random_state=None,solver='lbfgs',max_iter=100,multi_class='auto',verbose=0,warm_start=False,n_jobs=None,l1_ratio=None,penalty：‘l1’

2021-03-19 14:59:10 4641

原创【Python爬虫】IOS苹果商店指定APP评论爬取

import requestsimport jsonimport timeimport randomimport pandas as pd from random import randintapp_id='1288515333'### 设置部分# app_id='1419975581' # 设置app的idreviews_count=450 # 设置采集的数量### 采集部分all_list=[]for page_num in range(10000000):

2021-03-09 22:53:15 4165 7

原创 [机器学习]概率模型的可靠性曲线及校准

1.什么是可靠性曲线？可靠性曲线是一个概率类模型的评估指标，适用于朴素贝叶斯，SVM，逻辑回归等概率类算法。是以y预测值为横坐标，y真实值为纵坐标的曲线。因此当我们画出的可靠性曲线越接近对角线时，我们认为这个学习器的性能越好。2. 代码展示sklearn的可靠性曲线和学习曲线相同都是不能直接画图而是返回画图所需要的值，因此下面代码是根据calibration_curve返回的值对三个算法的可靠性曲线的探索。from sklearn.datasets import make_classificati

2021-02-04 13:18:04 3844 2

原创 [Selenium+Pyecharts]爬虫悉尼租房信息，清洗数据并可视化

1.主要目的：对于刚来悉尼的留学生，房价不透明，很容易被无良黑心中介或个人骗钱（还记得大概6年前，第一次在悉尼和我史大哥租房，930刀一周一房一卫，被坑的不要不要的），因此这个程序也许能快速帮助留学生了解悉尼某区域不同房型的平均价格，以及各种类型的房型有多少在租。时至今日，澳洲边境不开，租房的需求越来越低，如何有理有据的和房东或者中介讨论新的房租，这些数据可能可以帮到你。2.功能实现：1 用户自主查询想要了解的区域2 爬虫今日悉尼该区域的最新租房信息，自动化清洗数据和自动可视化选取今日悉尼作为爬

2021-02-02 18:20:32 542 2

原创机器学习之探索学习曲线learning curve

import numpy as npimport matplotlib.pyplot as pltfrom sklearn.naive_bayes import GaussianNBfrom sklearn.svm import SVCfrom sklearn.ensemble import RandomForestClassifier as RFCfrom sklearn.tree import DecisionTreeClassifier as DTCfrom sklearn.dataset

2021-01-31 16:40:48 461 2

原创【学习笔记】西瓜书机器学习之第六章：支持向量机及代码实现和调参

前言支持向量机下文简称SVM，是目前学习的所有算法中最难（数学上）的一个算法。但是他同样也是目前学习的算法中用途最广泛，最流行的明星算法。他可以用来分类，用来回归，用来进行检测异常。1.什么是硬间隔SVM？在二维空间中划分正反例的就是一条直线，在多维空间中我们可以想象有一个超平面能够帮助我们完成分类任务。硬间隔支持向量机有两个目的：1是完美划分正反例，2 是尽可能使超平面远离最近的正反例（下图红圈圈出的一正一反的向量，也叫支持向量），或者叫寻找最大间隔（两条虚线之间的距离）。目的1是所有分类器都

2021-01-30 20:04:34 1927 3

原创【学习笔记】西瓜书机器学习之第三章：逻辑回归南非男性心脏病分类预测（二）

（手写推导的公式传了好几次都传不上来）以下是南非男性心脏病的一个逻辑回归例子：传统的逻辑回归的代码应该将偏置加入到X中，再在weights的首位加个1，方便矩阵运算。我这里是分开算得import pandas as pdimport numpy as npimport randomimport matplotlib.pyplot as plt"""强烈建议一步一步来，每一步看看输出的结果是不是自己想要的。"""#载入数据南非男性心脏病数据SAHeart_df = pd.read_cs

2021-01-29 12:11:18 1027

原创【学习笔记】西瓜书机器学习之第四章：决策树

1.什么是决策树？决策树是一种常见的机器学习方法，以二分类为例，根据一系列的子决策来判断出样本是否为正例。决策的过程是选择一个属性，来进行判断。以西瓜问题为例，假设已经训练好了一个模型。我们有一个西瓜，先看它的色泽，色泽为青绿色，然后一步一步往下走，最后得到这个西瓜是否为正例（好瓜）2. 三种选择最优化分属性的方法现在我们知道了决策树是如何工作的，但是该如何选择每个子决策所对应的属性呢？“纯度”将帮助我们解决这一问题，我们当然希望决策树分支节点所包含的样本尽可能属于同一类别，因此纯度越高越好。2

2021-01-22 14:19:40 1106

原创【学习笔记】西瓜书机器学习之第三章：一元线性回归公式推导(一)

都在图里了下章多元线性推导

2021-01-19 14:42:52 299

原创【学习笔记】西瓜书机器学习之第三章：梯度下降和牛顿拉弗森法下的逻辑回归（一）

前言：本章将讨论尽可能简单的白话的逻辑回归（尽量降低数学要求）。我自己琢磨了好多天，也没有琢磨透彻，只能记录一下自己的理解和思路。1.什么是分类任务？以西瓜书中的西瓜问题为例，我们走到水果店想要买一个西瓜。我们只能通过一些外部特征来挑选西瓜，比如颜色，根蒂，拍击声。假设我们已经买了一万个西瓜，记录他们的颜色，根蒂，拍击声，再切开它们记录瓜瓤的颜色和味道。将西瓜分为两类：甜的瓜为好瓜（记为1），不甜的坏瓜（记为0）。并将这些数据丢进学习器进行学习，当我们下一次去水果店买西瓜的时候的时候，通过外部特征我们

2021-01-14 13:45:34 841

原创【学习笔记】西瓜书机器学习之第二章模型评估与选择及统计假设检验基础

1.评估方法为了对学习器的泛化误差进行评估，需要采用一个测试集（不在训练集里）来测试模型的能力。这时我们会将数据集D进行适当的处理，从D中获取训练集S和测试集T。不仅如此，有时在D中还需要有一个验证集（Validation）用于比较不同模型的结果。1.1 留出法(Hold-Out)直接讲数据集分为两个互斥的集合。比如把数据集按照37分，7分作为训练集，3分作为测试集。一般会采用若干次随机划分，重复进行实验评估后取平均值作为留出法的结果。需要注意的是划分比例，因为：S 太多 -----T 太少 ---

2021-01-10 19:44:22 952 3