![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
文章平均质量分 82
Iam-xyZ
这个作者很懒,什么都没留下…
展开
-
初试Twitter API
今天再看Web Scraping with Python 上Twitter API的部分。由于之前一直没用Twitter所以注册了个账号然后create了一个新的Twitter App。按教程安装twitter包,复制了一段代码并换成了我自己的Token和Secret。from twitter import *t = Twitter(auth=OAuth(,,,))pythonT原创 2016-05-26 01:03:32 · 4546 阅读 · 0 评论 -
Python - 模块与包
Python包总结模块简述:在编写程序中,经常会重复用到某些功能,如果将实现这些功能的函数和变量存放到一个文件中,在需要的时候直接调用,就能节省很多工作量。这就是模块的用处:将函数封装到.py文件中,在需要的时候用 import 命令进行访问。包简述:当你有了很多模块,每个模块都完成不同的功能,且不同的模块间存在互补或依赖关系,那么就可以考虑将这些模块文件封装成一个整体,这就是包。包的构成:最简单...原创 2018-04-22 08:43:47 · 446 阅读 · 0 评论 -
Python - 字符串
1. 字符串的表示Python中,字符串可以用双引号 "..." 或者单引号 '...' 括起来表示。当字符串中包含单引号或者双引号时,就可以用另一种引号来包含字符串"qwer"Out[1]: 'qwer''qwer'Out[2]: 'qwer'"qwer'qwre"Out[3]: "qwer'qwre"'qwer"qwer'Out[4]: 'qwer"qwer'1.1 转义字...原创 2018-04-22 21:57:44 · 400 阅读 · 0 评论 -
数据结构 - 快速排序
快速排序算法快速排序是一种基于划分和迭代的排序算法。主要原理:在每一次迭代时,都把向量分城左,中,右(left, mid, right)三部分,其中左边部分全部都小于中间值,而右边部分全部大于等于中间值。这样,将整个向量分解成一个类似二叉树的结构,从而达到排序的目的。而这种方法减小计算量的关键技术是,在选定mid指针所指的值之后,要用最快的方法将小于mid值和大于mid值的数分开。基本思路:在当前...原创 2018-03-26 22:40:59 · 251 阅读 · 0 评论 -
数据结构 - 折半插入排序
折半插入排序折半插入的原理与普通插入排序完全相同,即在完全排列的子列中寻找插入元素的位置,并将此位置之后直到待排元素前的元素后移一位。区别是:折半插入利用折半查找来提高查找效率。即从中点开始,利用划分的思路进行查找。时间复杂度:每轮比较的次数k,有最少为1次,至多 k^2 = n 即 k = log2(n), 所以 时间复杂度为 O(n*log2(n))。移动的次数最少为0,最多为n。所以移动的时...原创 2018-04-01 09:53:25 · 544 阅读 · 0 评论 -
数据结构 - 插入排序
插入排序插入排序的原理是:当数组中前 n-1 个元素排序完成之后,将第n个元素往前推,直到此元素在前n个元素中被正确排列。因此插入排序每次都排好前n-1个元素,再将第n个元素放到合适的位置,将此位置后面的元素往后推。时间复杂度:插入排序同样需要进行n轮比较,每一轮会将完成排序的数组长度+1. 最优情况下,数组已经排序完成,则只需要比较n-1次。不需要排序 ...原创 2018-04-01 08:12:08 · 292 阅读 · 0 评论 -
数据结构 - 冒泡排序
冒泡排序冒泡排序的主要原理是两两比较,将较大者放在靠后的位置,用此种方法,将最大的值一点一点推到数列的后端。因此,对于一个长为n的数组,经过n-1遍冒泡,一定能将数组排序。时间复杂度:设T(n)为对长度为n的待排序列进行排序的时间。则比较次数为:n-1 + n-2 + ... + 1 = (n-1) * n / 2 = O(n^2) 而且,无论数组排序状况如何,都要进行这么多次的比较交换次数:最...原创 2018-04-01 06:57:45 · 290 阅读 · 0 评论 -
《Pyhton数据分析》阅读摘要 CH2 Introductory Examples
1 usa.gov data from bit.ly1. read txt: open(path).readline()2. converting json: json.loads(line)3. list comprehension: records = [json.loads(line) for line in open(path)]1.2 Counting T原创 2017-01-22 23:19:33 · 446 阅读 · 0 评论 -
Scrapyd 学习记录
最近想找一个用来管理scrapy项目的界面或系统,于是发现了scrapyd,也许会有用。在scrapy项目的目录下,在命令行中运行scrapyd就能打开scrapyd。然后在浏览器中打开http://localhost:6800/ 就能进入scrapyd界面。之后在我安装的curl目录下(在学Elasticsearch时安装),用curl运行了几个 scrapy原创 2016-09-06 21:30:29 · 967 阅读 · 0 评论 -
python2.7下安装scrapy
我自己的电脑是win7 64位系统,最近在学python爬虫,找了本python3的教材,看到scrapy这块安装好scrapy之后才发现win7现在不支持python3的scrapy,于是要换回python2. scrapy主要的问题是其需要的一系列包似乎需要c的一些代码包所以要安装visual studio之类的东西。现在有python2.7.11和3.4.1,其中2.7里有scr原创 2016-05-25 03:12:34 · 11041 阅读 · 1 评论 -
Tweepy抓取twitter数据 1
之前一直想用爬虫登陆并抓取twitter数据,试过scrapy,requests等包,都没成功,可能是我还不太熟悉的原因,不过今天发现了一个新包tweepy,专门用于在python中处理twitter API。先尝试一下教程的第一个例子,经过了自己的一点修改代码如下:__author__ = 'xyz'import reimport tweepyauth = tweepy.O原创 2016-06-15 21:29:58 · 10873 阅读 · 0 评论 -
用BeautifulSoup,urllib,requests写twitter爬虫(1)
在github上找到了一个twitter的爬虫,试了下,修改了其中一个有关编码的问题,可以抓取一定数量的twitterhttps://gist.github.com/TVFlash/cccc2808cdd9a04db1ce代码如下from bs4 import BeautifulSoup, NavigableStringfrom urllib2 import urlopen#No原创 2016-06-15 03:07:35 · 3509 阅读 · 0 评论 -
编码问题:UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0' in position 148:
在写一个用BeautifulSoup抓取twitter网页时遇到的问题# UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0' in position 148:# illegal multibyte sequence在网上找了一篇解决类似问题的文章(http://www.crifan.com/unicod原创 2016-06-14 22:15:16 · 16822 阅读 · 9 评论 -
初试scrapy编写twitter爬虫
第一步要做的当然是生成一个新projectscrapy startproject twitterProject我计划用这个爬虫做的第一件事就是抓取twitter上希拉里的推文以及她的关注。所以新建一个spiderscrapy genspider hillary https://twitter.com/HillaryClinton本文首先参考 https://github.com原创 2016-06-09 21:42:37 · 10954 阅读 · 0 评论 -
scrapy提取wikipedia实践1
1.新建Project首先创建一个新的project,在cmd下执行以下命令scrapy startproject wiki得到一个新的project2.新建spider文件现在新建一个spider来抓取wikipedia英文主页上的内容。使用以下命令新建一个spider文件scrapy genspider main en.wikipedia.org然后在编译器里打开在原创 2016-06-03 19:36:24 · 1611 阅读 · 0 评论 -
Python爬虫之Scrapy 1 stackoverflow示例,基本步骤
放假后看了两周的Web Scraping with Python之前几章看的很happy,尝试了许多小程序,等看到API和Database后开始有点空中楼阁的感觉,觉得应该把前面的内容学好,实践一些后再往下走。所以打算从Scrapy开始一点一点精通Python web crawler,也不枉暑假没实习没RA的苦逼生活。scrapy不仅可以用于web scraping,也同时可以应用API,之前原创 2016-05-26 04:53:51 · 1580 阅读 · 0 评论 -
Jupyter Notebook 导入python文件时的问题
在使用Jupyter Notebook进行数据分析时,有时需要从本地py文件中导入函数。这里出现的问题是,当目前的kernel还在运行中,如果对py文件中的函数名进行修改,并在jupyter中修改导入的函数名,则会出现无法导入的问题。这时必须将当前kernel shutdown,重新开始才能导入...原创 2018-06-14 11:58:18 · 5860 阅读 · 0 评论