winnertakeall-CSDN博客

原创常见的算法

//冒泡排序import java.util.Arrays;public class BubbleSort { public static void main(String[] args) { int arr[]={3,9,-1,10,-2};// int arr[]={-2,-1,3,9,10}; //第一趟排序，就是将最大的...

2019-11-19 21:23:06 529

原创 hadoop之MapReduce的MapJoin

MapjoinMapper:import org.apache.commons.io.IOUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.filecache.DistributedCache;import org.apache.hadoop.fs.FSDataInputStream...

2019-08-05 20:36:46 256

原创 hadoop之MapReduce的ReduceJoin

ReduceJoinMapper:import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.InputSplit;import org.apache.hadoop.mapreduce.Mapper;import org.apach...

2019-08-05 20:31:14 236

原创 hadoop之MapReduce上网流量统计（3）

需求三：手机号码分区FlowBean:import org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;/** * 这里暂时不需要做排序，所以直接实现writable接口就可以了 */public class ...

2019-08-05 20:22:55 257

原创 hadoop之MapReduce上网流量统计（2）

需求二：上行流量倒序排序（递减排序）FlowBeanSort :import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public class FlowBeanSort impleme...

2019-08-04 23:40:08 249

原创 hadoop之MapReduce上网流量统计（1）

需求一：统计求和统计每个手机号的上行流量总和，下行流量总和，上行总流量之和，下行总流量之和FlowBean：import org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;/** * 这里暂时不需要做排序，...

2019-08-04 23:30:35 610

原创大数据之mapreduce的排序和规约

SortMapper:import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Counter;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOExcept...

2019-08-04 23:18:08 375

原创大数据之mapreduce的数据分区

PartitionerMapper：import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IO...

2019-08-04 22:48:57 496

原创大数据之mapreduce的wordcount

WordCountMapper:import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOExc...

2019-08-04 22:26:35 206

原创大数据之hdfs文件操作

package hdfs.demo1;import org.apache.commons.io.IOUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.testng.annotations.Test;import java.io.*;import ja...

2019-08-02 15:04:00 234

原创爬虫之静态网页

import requestsfrom lxml import etreefrom urllib import requestimport collectionsimport timeimport osimport randomimport datetimeimport pandas as pddef getUA(): user_agent_list = [ \ ...

2019-04-07 20:30:24 973

原创爬虫之selenium

from selenium import webdriverfrom lxml import etreeimport reimport timefrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfr...

2019-03-04 21:24:56 175

原创多线程

单线程的方式import timedef coding(): for x in range(3): print("正在写代码%s"%x) time.sleep(1) def drawing(): for x in range(3): print("正在画图%s"%x) time.sleep(1...

2019-02-26 20:54:40 135

原创 csv文件进行操作

import csvheaders = ["username", "age", "height"]#values = [# ("张三", 18, 180),# ("李四", 19, 190),# ("王五", 20, 160)# ]##with open("classroom.csv", &qu

2019-02-25 23:28:05 420

原创爬虫之中国天气网

import requestsfrom bs4 import BeautifulSoupfrom pyecharts import BarALL_DATA = []headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko...

2019-02-24 23:23:47 892

原创电影天堂爬虫

from lxml import etreeimport requestsBASE_DOMIN = "http://dytt8.net"url = "http://dytt8.net/html/gndy/dyzz/list_23_1.html"headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) ...

2019-02-19 23:39:36 4405

原创 case when end

select * from employees select distinct name,age,case when address like '%广州%' then '广州中山大' when address like '%朝阳%' then '朝阳区' end as addrefrom employees

2019-02-18 22:04:11 348

原创豆瓣爬虫

import requestsfrom lxml import etreeheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.96 Safari/537.36', 'Host'...

2019-02-17 23:51:11 262

原创 lxml的使用

from lxml import etreetext = ''' <div> <ul> <li class="item-1"><a>first item</a></li> <li class="item-1"><a hr

2019-02-05 17:37:10 222

原创 Dataframe之join,merge的使用

In [1]: import pandas as pdIn [2]: import numpy as npIn [3]: df1 = pd.DataFrame(np.ones((2,4)),columns=list("abcd"), index=list("AB"))In [4]: df1Out[4]: a b c dA 1.0 1.0 1...

2019-01-27 00:32:58 5206

原创 json的str类型和python类型的转换

parse_url.py# coding=utf-8import requestsfrom retrying import retryheaders={"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239...

2019-01-23 23:53:04 635

原创装饰器用在爬虫即retrying模块的安装

import requestsfrom retrying import retryheaders={"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36"}@retry(st...

2019-01-22 23:16:24 362

原创爬虫实现百度翻译

import requestsimport jsonimport sysquery_string = sys.argv[1]headers = {"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11....

2019-01-20 16:09:39 1806

原创实现任意贴吧的爬虫，保存网页到本地

# coding=utf-8import requestsclass TiebaSpider: def __init__(self, tieba_name): self.tieba_name = tieba_name self.url_temp = "https://tieba.baidu.com/f?kw="+tieba_name+"&pn=...

2019-01-20 13:27:02 935

原创代参数的url发送请求

import requestsheaders = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"}url = "https://www.baidu.com/s?"p = {"wd":"csdn"}...

2019-01-20 09:44:13 383

原创 response.text和response.content

In [1]: import requests In [2]: response = requests.get("http://www.baidu.com") In [3]: response ...

2019-01-19 20:58:55 801

原创 pyhon基础知识

查看python的版本pc@pc-HP-ProDesk-680-G3-PCI-MT:~$ pip3 --versionpip 9.0.1 from /usr/lib/python3/dist-packages (python 3.6)

2019-01-19 20:17:21 158

原创 str bytes如何转换

str 使用encode方法转换为bytes(爬虫的得到的响应以二进制的方式传送)In [9]: a = "你好" In [10]: type(a) ...

2019-01-19 15:24:22 879

原创 NLP之tfidf作词向量

from sklearn.feature_extraction.text import TfidfVectorizerdef cutword(): con1 = jieba.cut("今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。") con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到...

2019-01-14 16:25:59 3533 1

原创 NLP之词频作向量

def cutword(): con1 = jieba.cut("今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。") con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。") con3 = jieba.cut("如果只用一种方式了解某样事物，你就不会真...

2019-01-14 15:48:44 1214

原创 NLP之jieba分词

from sklearn.feature_extraction.text import CountVectorizer# 实例化CountVectorizervector = CountVectorizer()# 调用fit_transform输入并转换数据res = vector.fit_transform(["life is is short, i like python", "li...

2019-01-14 15:31:28 206

原创 python下之numpy操作

# coding=utf-8import numpy as npimport randomt1 = np.array([1, 2, 3, ])print(t1)print(type(t1))t2 = np.array(range(10))print(t2)print(type(t2))t3 = np.arange(4, 10, 2)print(t3)print(type...

2019-01-12 21:29:43 184

原创 python下的os

import osos.getcwd() 表示当前的路径'/home/shnu/demo/NLP/第九章'os.sep 表示/'/'c_root = os.getcwd() + os.sep + "source_data" + os.sep'/home/shnu/demo/NLP/第九章/source_data/'os.listdir(c_root) 把当前文件下的所...

2019-01-03 21:56:38 347

原创 XGBoost的参数使用说明

直接调用XGBoost–import xgboost as xgb与scikit-learn一起使用– from xgboost import XGBClassifier其使用的步骤： • 1. 构造学习器实例 – 模型参数在构造时传递 • 2. 模型训练：fit/GridSearchCV • 3. 预测• xgboost.XGBC...

2018-12-24 16:50:16 3328

原创 XGBoost

根据目标函数用泰勒展开式进行展开

2018-12-24 16:25:41 118

原创机器学习训练的评价指标

线性回归的评价指标：RMSEMAER2_score R2_score越大越好，比如完全拟合，预测值和真实值一样，其残差就为0，则R的平方就为1。 Logistic 回归log_lossneg_logloss越大越好。 ...

2018-12-22 10:38:29 991

原创决策树

决策树：从根节点开始一步步走到叶子节点（决策），既可以做分类也可以做回归。树有以下几部分组成：根节点：第一个选择点非叶子节点与分支：中间过程叶子节点：最终的决策结果决策树特征的切分通过一种衡量标准，来计算通过不同特征进行分支选择后的分类情况，找出来最好的那个当成根节点。衡量标准-熵熵：熵是表示随机变量不确定性的度量（解释：说白了就是物体内部的混乱程度，比如杂...

2018-12-19 16:49:47 432

原创关于 python下的路径

import osc_root=os.getcwd()+os.sep+"source_data"+os.sepc_root'/home/shnu/demo/NLP/第九章/source_data/'os.getcwd() 获取当前的路径'/home/shnu/demo/NLP/第九章'os.sep'/' ...

2018-12-12 14:24:01 218

原创 NLP之常见关键词提取算法运用

1.TextRank# -*- coding=utf8 -*-from jieba import analyse# 引入TextRank关键词抽取接口textrank = analyse.textrank #原始文本text = "央视网消息：全球首个以进口为主题的国家级博览会——中国国际进口博览会，11月5日将在上海举办，来自130多个国家和地区的2800多家企业、国内外超过15万...

2018-12-01 15:08:31 3565

原创 NLP调试常见的错误

import jieba.posseg as psgseg_list = psg.cut(sentence)print(" ".join(seg_list))TypeError: sequence item 0: expected str instance, pair found解决办法：词性分词的时候不能用join方法，要分别要将其词和词性分别取出，才能从生成器里面看到结果i...

2018-12-01 14:43:22 671 1

空空如也

空空如也