![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
绯红游侠
以后在说
展开
-
python采集第一步
接下来我们就开始采集数据了,使用pythn采集第一步安装python这个简单,直接到python官方网站下载python,我这里下载的是2,7.3版本(找时间把安装过程放出来)然后安装pippython ../window/get-pip.py 这里需要去下载pip.py最后安装一列模块,如下pip install grab --timeout 600原创 2017-10-31 17:44:40 · 324 阅读 · 0 评论 -
Python的一些基础知识
本节内容列表、元组操作字符串操作字典操作集合操作文件操作字符编码与转码 1. 列表、元组操作列表是我们最以后最常用的数据类型之一,通过列表可以对数据实现最方便的存储、修改等操作定义列表1names = ['Alex',"Tenglan",'Eric']通过下标访问列表中的转载 2017-11-24 14:47:29 · 300 阅读 · 0 评论 -
python语言基础知识——基本数据类型详解
基本数据类型常用功能: 1、整型(int) 在32位机器上,整数的位数为32位,取值范围为-2**31~2**31-1,即-2147483648~2147483647 在64位系统上,整数的位数为64位,取值范围为-2**63~2**63-1,即-9223372036854775808~9223372036854775807bit_length(self) #获转载 2017-11-16 10:44:16 · 619 阅读 · 0 评论 -
Python语言编码问题详解
一、了解字符编码的知识储备1. 文本编辑器存取文件的原理(nodepad++,pycharm,word)打开编辑器就打开了启动了一个进程,是在内存中的,所以在编辑器编写的内容也都是存放与内存中的,断电后数据丢失,因而需要保存到硬盘上,点击保存按钮,就从内存中把数据刷到了硬盘上。在这一点上,我们编写一个py文件(没有执行),跟编写其他文件没有任何区别,都只是在编写一堆字符而已。转载 2017-11-16 09:06:40 · 373 阅读 · 0 评论 -
Python3做采集
出于某些目的,需要在网上爬一些数据。考虑到Python有各种各样的库,以前想试试Pycharm这个IDE,就决定用它了。首先翻完《深入Python3》这本书,了解了它的语法之类的。下面就以下载http://www.meinv68.com/为例子开始干活了:Http协议的实现。那本书里有介绍一个叫httplib2的库,看起来挺好。就用这个库把网页内容抓下来先。Html解析。之前有用过一些解析转载 2017-11-01 10:40:11 · 374 阅读 · 0 评论 -
Python操作MySQL数据库实例
在Windows平台上安装mysql模块用于Python开发用python连接mysql的时候,需要用的安装版本,源码版本容易有错误提示。下边是打包了32与64版本。 MySQL-python-1.2.3.win32-py2.7.exe MySQL-python-1.2.3.win-amd64-py2.7.exe免费下载地址:http://yunpan.cn/cVnTc9i转载 2017-11-20 17:01:34 · 807 阅读 · 0 评论 -
python语法基础之:使用python实现-冒泡排序
冒泡排序(英语:Bubble Sort)是一种简单的排序算法。它重复地遍历要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。遍历数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端。冒泡排序算法的运作如下:比较相邻的元素。如果第一个比第二个大(升序),就交换他们两个。转载 2017-11-20 16:48:56 · 1900 阅读 · 0 评论 -
Python中import机制
Python语言中import的使用很简单,直接使用import module_name语句导入即可。这里我主要写一下"import"的本质。Python官方定义:Python code in one module gains access to the code in another module by the process of importing it.1.定义:转载 2017-11-15 09:48:25 · 372 阅读 · 0 评论 -
Python学习之urllib库
1、urllib2在Python3已拆分更名为urllib.request和urllib.error2、示例 1 import urllib.request 2 3 def getHtml(url): 4 page = urllib.request.urlopen(url) 5 html = page.read() 6 return html转载 2017-11-15 09:44:45 · 190 阅读 · 0 评论 -
老板给了你1000张美女model照片,让你选5位出来参加展会,请问你如何选
A:我会嗖嗖嗖过一遍,然后随机挑5张顺眼的。紫薯:还不如让老板随机选顺眼的。 B:开个小组会,集合大家的意见选5个最漂亮的。紫薯:你真不在乎老板想看到哪几位美女么?C:随机选5个身材满足标准、容貌可佳的就可以了。紫薯:你的决策也很随机哇。紫薯觉得:我们需要考虑老板最喜欢长成什么样的女生,需要知道来看台的客户对美女的偏好,要知道哪些美女的长相与产品、场景更相配。所以...转载 2017-11-05 14:44:37 · 850 阅读 · 0 评论 -
linux Centos6.5 下python2.6升级到2.7
最近安装了centos6.5 发现python是2.6的,升级一下吧由于Centos 6.5中默认安装的是python2.6的版本,现在需要升级到python2.7。1wget //下载源码包1yum groupinstall -y "Devel原创 2017-11-19 19:18:06 · 170 阅读 · 0 评论 -
python中文分词,使用结巴分词对python进行分词
在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法.中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点:基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viter转载 2017-11-04 14:53:08 · 1354 阅读 · 0 评论 -
python里使用正则表达式
在前面学习了比较多模式,有前向搜索的,也有后向搜索的,有肯定模式的,也有否定模式的。这次再来学习一个,就是后向搜索肯定模式,意思就是说已经扫描过了的字符串,还想后悔去看一下,是否可以匹配。它的语法是:(? [python] view plain copy#python 3.6 #蔡军生 #http://www.m4493.com转载 2017-11-14 09:52:59 · 354 阅读 · 0 评论 -
Python——网络爬虫
网络爬虫,又称为网页蜘蛛(WebSpider),非常形象的一个名字。如果你把整个互联网想象成类似于蜘蛛网一样的构造,那么我们这只爬虫,就是要在上边爬来爬去,顺便获得我们需要的资源。我们之所以能够通过百度或谷歌这样的搜索引擎检索到你的网页,靠的就是他们大量的爬虫每天在互联网上爬来爬去,对网页中的每个关键词进行索引,建立索引数据库。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依转载 2017-11-18 11:46:17 · 411 阅读 · 0 评论 -
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。Scratch转载 2017-11-03 14:13:39 · 538 阅读 · 0 评论 -
Python采集实例1
目标是把http://www.gg4493.cn/主页上所有数据爬取下来,获得每一篇新闻的名称、时间、来源以及正文。接下来分解目标,一步一步地做。步骤1:将主页上所有链接爬取出来,写到文件里。python在获取html方面十分方便,寥寥数行代码就可以实现我们需要的功能。复制代码代码如下:def getHtml(url): page = urllib.urlopen(转载 2017-11-02 08:36:14 · 618 阅读 · 0 评论 -
Python采集实例2
上一篇说道我们要采集http://www.gg4493.cn/的数据,接下来:步骤2:对于每一个链接,获取它的网页内容。很简单,只需要打开urls.txt文件,一行一行地读出来就可以了。也许这里会显得多此一举,但是基于我对解耦的强烈愿望,我还是果断地写到文件里了。后面如果采用面向对象编程,重构起来是十分方便的。获取网页内容部分也是相对简单的,但是需要把网页的内容都保存到一个文件夹里转载 2017-11-02 08:41:57 · 346 阅读 · 0 评论 -
使用python进行数据的采集
搞了十多年的程序,最近转行做网站,经过一番的调查研究,最终选择了美女图片站http://www.m4493.com。这就带来了一个问题,必须要到网站各大美女站点进行图片采集,之前都是采用java进行数据采集,每次都要分析html,写n多的代码,听说python的采集功能很强,因此我特意简单学习了下python发现这玩意真的非常好用,额,真是好用到了极点。在采集方面来说,java就像小米加步枪而原创 2017-10-24 11:13:33 · 3836 阅读 · 0 评论 -
Python脚本分析CPU使用情况
在这篇文章中,我将讨论一个工具,用以分析Python中CPU使用情况。CPU分析是通过分析CPU执行代码的方式来测量代码的性能,以此找到代码中的不妥之处,然后处理它们。接下来我们将看看如何跟踪Python脚本使用时CPU使用情况,重点关注以下几个方面: 1、cProfile 2、line_profiler 3、pprofile 4、vprof转载 2017-12-04 17:53:43 · 497 阅读 · 0 评论