叶过无痕-CSDN博客

原创纪念系统重装后，再次启动mongodb

1.先删除下面选中的两个文件2.再进入你的mongodb里的bin目录，进入cmd3.执行两行代码分别删除服务，安装服务mongod --logpath "H:\mongodb\log\mongod.log" --logappend --dbpath "H:\mongodb\data" --directoryperdb --serviceName "MongoDB" --se...

2019-09-25 18:05:35 178

转载 Win10下python3和python2同时安装并解决pip共存问题

特别说明，本文是在Windows64位系统下进行的，32位系统请下载相应版本的安装包，安装方法类似。使用python开发，环境有Python2和 python3 两种，有时候需要两种环境切换使用，下面提供详细教程一份。1、下载python3和python2进入python官网，链接https://www.python.org/选择Downloads--->Wind...

2019-05-30 13:07:19 192

转载 python基础之模块之os模块

os模块os模块的作用：　　os，语义为操作系统，所以肯定就是操作系统相关的功能了，可以处理文件和目录这些我们日常手动需要做的操作，就比如说：显示当前目录下所有文件/删除某个文件/获取文件大小……　　另外，os模块不受平台限制，也就是说：当我们要在linux中显示当前路径时就要用到pwd命令，而Windows中cmd命令行下就要用到这个，额...我擦，我还真不知道，（甭管怎

2017-09-07 13:35:18 328

转载基于k-means和tfidf的文本聚类代码简单实现

俗话说“外行看热闹，内行看门道“，作为一个机器学习的门外汉，刚研究python机器学习scikit-learn两周时间，虽然下面这段程序可能对于那些专研算法或机器学习的人来说非常简单，但对于一些入门的同学和我自己还是非常有帮助的。如果文章中有错误或不足之处，还请你微微一笑，原谅之；当然也非常欢迎你提出建议或指正~基本步骤包括： 1.使用python+selenium分析d

2017-08-16 16:48:10 18320 3

转载中文关键词自动分类-----从此解放双手了

论坛大神们搞了很多关键词采集工具，神马易语言的，shell的，python的。发现没有搞了那么多关键词，处理起来真是蛋疼，要么分类去采集，要么采集后分类，还有就是原始数据可能是乱七八糟的。秋夜今天分享一个python脚本实现简易的中文文本自动分类。省不少事。我偷了个懒，没有计算词频，直接提取tf-idf值最高的20个词作为分类依据，当然也可以提取更多词语来分类。使用请先安装结巴分词。（这样分类

2016-11-14 11:43:35 5488

转载 SEO如何处理采集内容（3）

有基友留言说“没图你说个屁”，本渣渣想哪里没留图了，一看上篇结尾还真没把图片加上。因为文章我用markdown排版，图片引用七牛的图床，在微信编辑器转成富文本的时候正常显示，一发布的时候就漏掉了，微信公众号的图片不能引用外部链接采集内容上线逻辑有基友问采集的内容怎么分类，抓取的词怎么分类。其实很简单，做个小网站就都明白了，本渣渣在此科普下采集内容清洗后是要入库的，入库就

2016-11-14 09:34:43 773

转载 SEO如何处理采集内容（4）

两个问题在准备采集前找词的时候，有个蛋疼的问题：无论任何一种找词渠道，固定搜索词（如阿拉巴巴招聘）和个性搜索词（如阿里巴巴工程师级别怎么划分）总是杂糅到一块的，对于同一词根下的扩展词，如何将这两类词分开？固定搜索词往往可以根据固定词缀的出现次数来预估关键词的流量，毕竟同一个词缀出现次数高，流量也会相对高。但个性化搜索词流量和竞争度怎么判断？为什么非要

2016-11-14 09:33:19 863

转载 SEO如何处理采集内容（5）

后台留了一堆问题，本篇是对其中两个问题的答疑正文抽取在【SEO如何处理采集内容 ①】中的“泛采集”部分提到过正文抽取，然后有一些人依旧表示不知道怎么搞。这东西用网上开源的就可以，Google搜索“{编程语言}正文提取算法”便能找到一大堆的解决方案，如：Readability、Boilerpipe、Diffbot……大部分算法已经打包好了，拿过来就可以直接用，用不着自己写

2016-11-14 09:28:25 783

转载前端与SEO ②：页面渲染

一些新创业公司的网站，由于追求时髦或是某种原因，选择了一些高大上的web框架。但某些框架只能前端渲染，即页面中的部分数据只能通过前端浏览器加载后才能调出来，然而搜索引擎蜘蛛并不是浏览器，获取的只是从后端服务器传回来的数据，没办法看到全部数据，所以spider看到的页面信息是不全的。搞SEO常会见到这种情况，比如各种使用ajax的网站。SEO的解决办法各种各样，大部分的原理是用户和搜索引擎各

2016-11-14 09:25:39 2995

翻译 Python 练习册，每天一个小程序

第 0000 题：将你的 QQ 头像（或者微博头像）右上角加上红色的数字，类似于微信未读信息数量那种提示效果。类似于图中效果第 0001 题：做为 Apple Store App 独立开发者，你要搞限时促销，为你的应用生成激活码（或者优惠券），使用 Python 如何生成 200 个激活码（或者优惠券）？第 0002 题：将 0001 题生成的 200 个激活码（或者优惠

2016-08-05 09:32:13 1426

原创 win7 64位 python安装pyquery、lxml

https://pypi.python.org/pypi/lxml/2.3/https://pypi.python.org/pypi/pip/#downloadshttps://pypi.python.org/pypi/setuptools#downloadshttps://pypi.python.org/pypi/pyquery#downloads以上下载自己

2016-06-23 14:07:45 529

转载前端与SEO ①：结构、表现、行为分离

W3C标准定义WEB包含三个层：- 结构层（HTML）- 表现层（CSS）- 行为层（Javascript）提倡“结构、表现、行为，三者分离，互不干涉”的WEB页面。他们各代表这什么？- 内容：让访问者浏览的信息- 结构：使内容具有逻辑性和易用性- 表现：修饰内容的外在表现使之看起来美观

2016-01-29 15:42:10 1984

原创 mysql特殊操作

拼接字符查询select concat('11','22','33');+------------------------+| concat('11','22','33') |+------------------------+| 112233 |+------------------------+

2016-01-28 16:02:03 292

转载分面导航的详细操作方案

最近群里讨论的比较火热的就是分面导航如何处理，在这里我说说我自己的一些想法吧。丑话说在前面，民工不常写文章，文笔是差点，大家能看懂多少就看多少吧。首先，什么是分面导航相信各位都清楚吧，例如中关村的报价库索引页就是采用的分面导航。像太平洋的报价库http://product.pconline.com.cn/mobile/samsung/p3269/ 说一下制作分面导航需要注意

2015-12-03 11:38:00 984

原创简单暴力：关键词自动分类

import jiebaclass fenlei: def __init__(self,kwpath="keyword.txt",stpath="stop.txt",top=2): self.cipin = {} self.fenci = {} self.stop = [word.decode("gbk").strip("

2015-12-03 11:35:47 1887

转载百度关键词挖掘代码（python无限循环版，挖词百万so easy 8月1日更新)

#coding=utf-8import urllib2, re, urllibdef shangq(key): pattern = re.compile(r'"word":"([^"]+)","total":(\d+)') url = 'http://shangqing.baidu.com/recomword/recomWordCache_fin

2015-12-03 11:34:40 1130

转载批量查询URL是否被收录(Python多线程)

#coding=utf-8import urllib,urllib2,re,randomdef get_proxies(): html = urllib2.urlopen('http://www.xici.net.co/nn/').read() pa = re.compile(r'(\d+.\d+.\d+.\d+)[\s\S]+?(\d+)[\s\S]+?')

2015-12-03 11:33:28 1466

原创 mysql常用

创建数据库，id为主键，自增，设定编码create database dz;create table dz_tiezi(id int not null primary key auto_increment,tietle varchar(20) not null,content longtext not null)删除数据表DELETE FROM ta

2015-12-01 16:08:02 395

转载 word2vec使用指导

word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。一、理论概述（主要来源于http://licstar.net/archives/328这篇博客）1.词向量是什么自然语言理解的问题要转化为机器学习的问题，第一步肯定是要找一种方法把这些符号数学化。　　NLP 中最直观，也是到目前

2015-11-04 10:01:56 3030

转载利用word2vec对关键词进行聚类

继上次提取关键词之后，项目组长又要求我对关键词进行聚类。说实话，我不太明白对关键词聚类跟新闻推荐有什么联系，不过他说什么我照做就是了。按照一般的思路，可以用新闻ID向量来表示某个关键词，这就像广告推荐系统里面用用户访问类别向量来表示用户一样，然后就可以用kmeans的方法进行聚类了。不过对于新闻来说存在一个问题，那就量太大，如果给你十万篇新闻，那每一个关键词将需要十万维的向量表示，随着新闻

2015-11-04 10:00:10 1062

转载 python正则表达式

1． Python 正则式的基本用法1.1 基本规则1.2 重复1.2.1 最小匹配与精确匹配1.3 前向界定与后向界定1.4 组的基本知识2． re 模块的基本函数2.1 使用 compile 加速2.2 match 和 search2.3 finditer2.4 字符串的修改与替换3．更深入的了解 re 的组与对象3.1 编译后的

2015-11-04 09:21:58 782

洛川的学习博客