seo
叶过无痕
这个作者很懒,什么都没留下…
展开
-
批量查询URL是否被收录(Python多线程)
#coding=utf-8import urllib,urllib2,re,randomdef get_proxies(): html = urllib2.urlopen('http://www.xici.net.co/nn/').read() pa = re.compile(r'(\d+.\d+.\d+.\d+)[\s\S]+?(\d+)[\s\S]+?')转载 2015-12-03 11:33:28 · 1506 阅读 · 0 评论 -
SEO如何处理采集内容(3)
有基友留言说“没图你说个屁”,本渣渣想哪里没留图了,一看上篇结尾还真没把图片加上。因为文章我用markdown排版,图片引用七牛的图床,在微信编辑器转成富文本的时候正常显示,一发布的时候就漏掉了,微信公众号的图片不能引用外部链接采集内容上线逻辑有基友问采集的内容怎么分类,抓取的词怎么分类。其实很简单,做个小网站就都明白了,本渣渣在此科普下采集内容清洗后是要入库的,入库就转载 2016-11-14 09:34:43 · 786 阅读 · 0 评论 -
SEO如何处理采集内容(4)
两个问题在准备采集前找词的时候,有个蛋疼的问题:无论任何一种找词渠道,固定搜索词(如阿拉巴巴招聘)和个性搜索词(如阿里巴巴工程师级别怎么划分)总是杂糅到一块的,对于同一词根下的扩展词,如何将这两类词分开?固定搜索词往往可以根据固定词缀的出现次数来预估关键词的流量,毕竟同一个词缀出现次数高,流量也会相对高。但个性化搜索词流量和竞争度怎么判断?为什么非要转载 2016-11-14 09:33:19 · 872 阅读 · 0 评论 -
SEO如何处理采集内容(5)
后台留了一堆问题,本篇是对其中两个问题的答疑正文抽取在【SEO如何处理采集内容 ①】中的“泛采集”部分提到过正文抽取,然后有一些人依旧表示不知道怎么搞。这东西用网上开源的就可以,Google搜索“{编程语言}正文提取算法”便能找到一大堆的解决方案,如:Readability、Boilerpipe、Diffbot……大部分算法已经打包好了,拿过来就可以直接用,用不着自己写转载 2016-11-14 09:28:25 · 801 阅读 · 0 评论 -
前端与SEO ②:页面渲染
一些新创业公司的网站,由于追求时髦或是某种原因,选择了一些高大上的web框架。但某些框架只能前端渲染,即页面中的部分数据只能通过前端浏览器加载后才能调出来,然而搜索引擎蜘蛛并不是浏览器,获取的只是从后端服务器传回来的数据,没办法看到全部数据,所以spider看到的页面信息是不全的。搞SEO常会见到这种情况,比如各种使用ajax的网站。SEO的解决办法各种各样,大部分的原理是用户和搜索引擎各转载 2016-11-14 09:25:39 · 3009 阅读 · 0 评论 -
前端与SEO ①:结构、表现、行为分离
W3C标准定义WEB包含三个层:- 结构层(HTML)- 表现层(CSS)- 行为层(Javascript)提倡“结构、表现、行为,三者分离,互不干涉”的WEB页面。他们各代表这什么?- 内容:让访问者浏览的信息- 结构:使内容具有逻辑性和易用性- 表现:修饰内容的外在表现使之看起来美观转载 2016-01-29 15:42:10 · 2066 阅读 · 0 评论 -
百度关键词挖掘代码(python无限循环版,挖词百万so easy 8月1日更新)
#coding=utf-8import urllib2, re, urllibdef shangq(key): pattern = re.compile(r'"word":"([^"]+)","total":(\d+)') url = 'http://shangqing.baidu.com/recomword/recomWordCache_fin转载 2015-12-03 11:34:40 · 1173 阅读 · 0 评论 -
分面导航的详细操作方案
最近群里讨论的比较火热的就是分面导航如何处理,在这里我说说我自己的一些想法吧。丑话说在前面,民工不常写文章,文笔是差点,大家能看懂多少就看多少吧。首先,什么是分面导航相信各位都清楚吧,例如中关村的报价库索引页就是采用的分面导航。像太平洋的报价库http://product.pconline.com.cn/mobile/samsung/p3269/ 说一下制作分面导航需要注意转载 2015-12-03 11:38:00 · 1008 阅读 · 0 评论 -
简单暴力:关键词自动分类
import jiebaclass fenlei: def __init__(self,kwpath="keyword.txt",stpath="stop.txt",top=2): self.cipin = {} self.fenci = {} self.stop = [word.decode("gbk").strip("原创 2015-12-03 11:35:47 · 1919 阅读 · 0 评论 -
中文关键词自动分类-----从此解放双手了
论坛大神们搞了很多关键词采集工具,神马易语言的,shell的,python的。发现没有搞了那么多关键词,处理起来真是蛋疼,要么分类去采集,要么采集后分类,还有就是原始数据可能是乱七八糟的。秋夜今天分享一个python脚本实现简易的中文文本自动分类。省不少事。我偷了个懒,没有计算词频,直接提取tf-idf值最高的20个词作为分类依据,当然也可以提取更多词语来分类。使用请先安装结巴分词。(这样分类转载 2016-11-14 11:43:35 · 5515 阅读 · 0 评论