- 博客(4)
- 资源 (4)
- 收藏
- 关注
转载 利用Python抓取和解析网页
对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文将详细介绍如何利用Python抓取和解析网页。首先,我们介绍一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块,然后,我们论述如何使用Python
2012-11-21 20:45:09 1323
转载 利用Python中的urllib模块下载文件到本地文件夹
1、下载单个文件到本地文件夹#下载网页文件到本地文件夹import os,urllib2,urllib #设置下载后存放的存储路径'C:\Users\yinyao\Desktop\Python code' path=r'C:\Users\yinyao\Desktop\Python code' file_name=r'MSFT.csv' #文件名,包含文件格式
2012-11-21 20:30:10 24777
原创 利用Python中的matplotlib模块抓取yahoo finance里的历史数据并绘图
如何自动获取各个公司的股票历史数据并绘图是金融文本情感分析项目里的必要部分,诚然这些数据在finance.yahoo.com里可以很方便的看到,但如何利用程序自动获取、实时显示却是个问题。之前一直考虑写爬虫来抓取数据,显然这样做很费力且效率不高,而Python.matplotlib module有一finance module能够很便捷的实现这一功能。 finance.py
2012-11-21 20:15:53 10920
转载 Python抓取框架:Scrapy的架构
一、概述下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示)。下面就来一个个解释每个组件的作用及数据的处理过程。二、组件1、Scrapy Engine(Scrapy引擎)Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程。2、Scheduler(调度)调度程序从Scrap
2012-11-21 14:03:15 791
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人