- 博客(15)
- 资源 (1)
- 收藏
- 关注
原创 python机器学习----利用sklearn进行情感分析
import jieba from collections import defaultdict import os from sklearn.feature_extraction.text import TfidfTransformer from sklearn.feature_extraction.text import CountVectorizer def readfile(filename
2017-07-29 17:20:35 6369 1
原创 python机器学习-----文本分类笔记
#1.数据准备 import pandas as pda import numpy as npy filename="" dataf=pda.read_csv(filename) x=dataf.iloc[:,1:4].as_matrix() y=dataf.iloc[:,0:1].as_matrix()#2.数据的归一化 from sklearn import preprocessing #归一化
2017-07-29 17:15:24 1919
原创 python机器学习---用贝叶斯算法实现垃圾邮件分类预测
import numpy from os import listdir import jieba import operator from gensim import corpora,models,similarities from numpy import *#贝叶斯算法的实现 class Bayes: def __init__(self): self.length=-1
2017-07-29 17:13:26 1307
原创 python自然语言处理-----计算文本相似度
from gensim import corpora,models,similarities import jieba from collections import defaultdict import urllib.request#d1=open("C:/Users/yyq/Desktop/毕业论文/文档1.txt").read() #d2=open("C:/Users/yyq/Desktop/
2017-07-12 17:24:10 2198
原创 python自然语言处理---jieba中文处理
#关键词提取 #基于 TF-IDF 算法的关键词抽取 #sentence 为待提取的文本 #topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20 #withWeight 为是否一并返回关键词权重值,默认值为 False #allowPOS 仅包括指定词性的词,默认值为空,即不筛选import jieba.analyse as analyse lines = open('NBA.txt
2017-07-09 20:46:42 990
原创 python案例---正则表达式:re模块
#Python通过re模块提供对正则表达式的支持。 import re # 将正则表达式编译成Pattern对象 pattern = re.compile(r'hello.*\!') # 使用Pattern匹配文本,获得匹配结果,无法匹配时将返回None match = pattern.match('hello, mryang! How are you?') if match: # 使用
2017-07-09 17:27:38 456
原创 python自然语言处理---NLP基础技能
#去空格及特殊字符 s=' hello,world!' print(s.strip()) print(s.lstrip(' hello,')) print(s.rstrip('!'))#查找字符 sstr1='strchr' sstr2='r' npos=sstr1.index(sstr2) print(npos)#字符串大小写转换 sstr1='JSDvfgfgfd' sstr1=sstr1.
2017-07-09 14:27:52 413
原创 机器学习----图与网络结构的可视化
from numpy import * import matplotlib.pyplot as pltdist = mat([[0.1,0.1],[0.9,0.5],[0.9,0.1],[0.45,0.9],[0.9,0.8],[0.7,0.9],[0.1,0.45],[0.45,0.1]]) m,n = shape(dist) fig = plt.figure() # 绘图 ax = fig.ad
2017-07-05 15:25:45 685
原创 机器学习----numpy矢量化编程
#Numpy 提供了专门的矩阵数据结构和线性代数库,完全实现了矢量化编程 import numpy as np from numpy import * mylist = [1,2,3,4,5] a = 10 mymatrix = np.mat(mylist) print (a*mymatrix)#numpy 矩阵运算 myZero = np.zeros([3,5]) # 3*5 的全零矩阵 prin
2017-07-04 21:35:51 1079
原创 机器学习----一个小程序测试numpy和matplotlib库安装成功
import numpy as np from numpy import * import matplotlib.pyplot as plt # 测试数据集-二维 list dataSet = [[-0.017612,14.053064],[-1.395634 ,4.662541],[-0.752157 ,6.538620],[-1.322371 ,7.152853],[0.423363 ,11
2017-07-04 20:54:32 4776
原创 创建爬虫----爬取大众点评数据并存入mongoDB数据库
#爬取大众点评多页数据 from urllib.request import urlopen from bs4 import BeautifulSoup import pymongo client = pymongo.MongoClient('localhost',27017) dzdp = client['dzdp'] url_list = dzdp['url_list'] item_info =
2017-07-01 16:48:42 722
原创 创建爬虫----遍历单个域名爬取赶集网
爬取赶集网的页面链接#赶集网首页静态页面的链接爬取 from urllib.request import urlopen from bs4 import BeautifulSoup import rehtml=urlopen("http://ty.ganji.com/") bsObj=BeautifulSoup(html)for link in bsObj.find("div",{"class":"
2017-06-30 21:42:02 1031
原创 创建爬虫----导航树
1.处理子标签和其他后代标签 孩子(child)和后代(descendant)from urllib.request import urlopen from bs4 import BeautifulSoup html=urlopen("http://www.pythonscraping.com/pages/page3.html") bsObj=BeautifulSoup(html)for chil
2017-06-30 16:57:53 344
原创 创建爬虫----复杂HTML解析
BeautifulSoup的find()和findAll()可通过标签的不同属性轻松的过滤HTML页面,查找需要的标签组或单个标签#findAll(tag,attributes,recursive,text,limit,keywords) #find(tag,attributes,recursive,text,keywords) #爬取大众点评的一页信息 from urllib.request im
2017-06-30 15:45:00 390
原创 创建爬虫-----爬虫异常处理:
爬虫异常处理:from urllib.request import urlopen from urllib.error import HTTPError,URLError from bs4 import BeautifulSoup def getTitle(url): try: html=urlopen(url) except(HTTPError,URLEr
2017-06-30 14:30:21 371
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人