爬虫之静态网页

import requests from lxml import etree from urllib import request import collections import time import os import random import datetime import panda...

2019-04-07 20:30:24

阅读数 69

评论数 0

爬虫之selenium

from selenium import webdriver from lxml import etree import re import time from selenium.webdriver.support.ui import WebDriverWait from selenium.web...

2019-03-04 21:24:56

阅读数 33

评论数 0

多线程

单线程的方式 import time def coding(): for x in range(3): print("正在写代码%s"%x) time.sleep(1) def drawing(): ...

2019-02-26 20:54:40

阅读数 9

评论数 0

csv文件进行操作

import csv headers = ["username", "age", "height"] #values = [ # ("张三&quo...

2019-02-25 23:28:05

阅读数 15

评论数 0

爬虫之中国天气网

import requests from bs4 import BeautifulSoup from pyecharts import Bar ALL_DATA = [] headers = { "User-Agent": &...

2019-02-24 23:23:47

阅读数 56

评论数 0

电影天堂爬虫

from lxml import etree import requests BASE_DOMIN = "http://dytt8.net" url = "http://dytt8.net/html/gndy/dyzz/list_23_1....

2019-02-19 23:39:36

阅读数 24

评论数 0

case when end

select * from employees     select distinct name,age,case when address like '%广州%' then '广州中山大' when address like '%朝阳%' then '朝阳区' end a...

2019-02-18 22:04:11

阅读数 24

评论数 0

豆瓣爬虫

import requests from lxml import etree headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)...

2019-02-17 23:51:11

阅读数 19

评论数 0

lxml的使用

from lxml import etree text = ''' <div> <ul> <li class="item-1"&a...

2019-02-05 17:37:10

阅读数 16

评论数 0

Dataframe之join,merge的使用

  In [1]: import pandas as pd In [2]: import numpy as np In [3]: df1 = pd.DataFrame(np.ones((2,4)),columns=list("abcd"), index=...

2019-01-27 00:32:58

阅读数 19

评论数 0

json的str类型和python类型的转换

parse_url.py # coding=utf-8 import requests from retrying import retry headers={"User-Agent":"Mozilla/5.0 (Macintosh; I...

2019-01-23 23:53:04

阅读数 25

评论数 0

装饰器用在爬虫即retrying模块的安装

import requests from retrying import retry headers={"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWe...

2019-01-22 23:16:24

阅读数 34

评论数 0

爬虫实现百度翻译

import requests import json import sys query_string = sys.argv[1] headers = {"User-Agent": "Mozilla/5.0 (iPhone; CPU iPho...

2019-01-20 16:09:39

阅读数 43

评论数 0

实现任意贴吧的爬虫,保存网页到本地

# coding=utf-8 import requests class TiebaSpider: def __init__(self, tieba_name): self.tieba_name = tieba_name self.url_temp = &...

2019-01-20 13:27:02

阅读数 86

评论数 0

代参数的url发送请求

import requests headers = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/7...

2019-01-20 09:44:13

阅读数 33

评论数 0

response.text和response.content

In [1]: import requests In [2]: response = requests.get("http://www.baidu.com&...

2019-01-19 20:58:55

阅读数 66

评论数 0

pyhon基础知识

查看python的版本 pc@pc-HP-ProDesk-680-G3-PCI-MT:~$ pip3 --version pip 9.0.1 from /usr/lib/python3/dist-packages (python 3.6)  

2019-01-19 20:17:21

阅读数 20

评论数 0

str bytes如何转换

str        使用encode方法转换为bytes(爬虫的得到的响应以二进制的方式传送) In [9]: a = "你好" ...

2019-01-19 15:24:22

阅读数 39

评论数 0

NLP之tfidf作词向量

from sklearn.feature_extraction.text import TfidfVectorizer def cutword(): con1 = jieba.cut("今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今...

2019-01-14 16:25:59

阅读数 306

评论数 1

NLP之词频作向量

def cutword(): con1 = jieba.cut("今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。") con2 = jieba.cut("我们看到的从很远星系来的光是...

2019-01-14 15:48:44

阅读数 86

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭