自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (6)
  • 收藏
  • 关注

原创 android greendao 找不到表

简单的记录一下,GreenDao中新建表结构的时候,报错找不到表结构,这里主要是表进行了升级了,我们需要在项目的bulid.gradle 进行版本号的升级,如果是在一个高版本号进行低版本号的安装的话,也是会出现数据库出错,这里我们就需要将版本号进行降低。

2017-07-30 20:19:13 1678

原创 杭州三天面试后的感想,热!真热!

很郁闷后的三天后 在从周一面试三天后,到现在周六,也不知道这个周怎么过的这么快,周一到周三的面试完全是在外面晒太阳,顶着近40度的毒太阳,最后把自己的额头给晒出了很多疹子,全是小红点,三个面试下来也是收获不大多。周一面试:第一家也是一家初创公司,公司虽然在离原公司住址不远,但里面的办公环境确实是相对简陋吧,做一个人脸识别的团队,连客服推销的都在同一个地方打,四五个大男人。办公桌感觉是刚拼凑起来

2017-07-23 00:26:17 1001 1

原创 python3 [爬虫入门实战]爬虫之scrapy爬取游天下南京短租房存mongodb

总结:总的来说不是很难,只是提取的字段有些多。总共获取了一个120多个南京房租信息1 爬取的item# -*- coding: utf-8 -*-# Define here the models for your scraped items## See documentation in:# http://doc.scrapy.org/en/latest/topics/items.htmlimp

2017-07-21 10:10:24 1038 1

原创 python3 [爬虫入门实战]scrapy爬取盘多多五百万数据并存mongoDB

总结:虽然是第二次爬取,但是多多少少还是遇到一些坑,总的结果还是好的,scrapy比多线程多进程强多了啊,中途没有一次被中断过。 此版本是盘多多爬取数据的scrapy版本,涉及数据量较大,到现在已经是近500万的数据了。1,抓取的内容主要爬取了:文件名,文件链接,文件类型,文件大小,文件浏览量,文件收录时间一,scrapy中item.py代码# -*- coding: utf-8 -*-# D

2017-07-20 20:04:26 1727 1

原创 python3 [爬虫入门实战]爬虫之scrapy爬取织梦者网站并存mongoDB

主要爬取了编程栏目里的其他编程里的36638条数据 过程是自己一步一步的往下写的,有不懂的也是一边找笔记,一边百度,一边调试。 遗憾:没有进行多栏目数据的爬取,只爬了一个栏目的数据,希望有想法的有钻研精神的可以自己去尝试爬取一下,难度应该不会很大。给一张效果图: 爬取字段:标题,标题链接,标题描述,发布时间,发布类型,发布tag爬取方式:主要是获取div【pull-left ltxt

2017-07-16 22:49:20 815 2

原创 python3 [爬虫入门实战]爬虫之scrapy爬取中国医学人才网

自己第一次试着用scrapy进行爬取网页,总共爬下9240条数据,也就两分钟不到,400多页吧。用的比较简单,但是爬取成功后感觉成就感满满的。来张爬取结果图 爬取字段: “hospitalName”: “hospitalDesc”: “hospitalSize”:”hospitalAddress”: 1爬取字段 这里爬取的内容上面都有标注,只不过,爬取下来没有保存链接(稍微

2017-07-15 22:25:29 1866

原创 python3 [爬虫入门实战]爬虫之scrapy爬取传智播客讲师初体验

心得: 学scrapy估计耽误又耽误了,之前是图文教程,看了两三遍,一部一部的踩过来,经过昨晚看了一晚上的黑马程序员的部分scrapy框架的学习,才慢慢懂得,如何用一个scrapy去进行爬取网上的数据,个人建议如果实在是不能体会的,还是稍微看下视频:能理解的好一些先上爬取截图吧:总的来说, 对于我这脑子学习scrapy过程还是蛮难的,尽管现在只是一个开头,后面的坑还很多。 爬取的内容:姓名

2017-07-13 23:40:55 4312 6

原创 python3 [爬虫入门实战] 查看网站有多少个网页(站点)

前提:进行爬虫的时候需要进行站点的爬取,再选用合适的爬虫框架所以这里不得不需要知道一下一个网站到底有多少个网页组成,一个域名网站中到底有多少个站点 查看的方法很简单: 直接百度就可以了:例如需要知道豆丁网的站点有多少个: 直接在百度中输入:site:www.docin.com 结果都在画圈中进行体现了。

2017-07-11 19:06:27 1378

原创 python3 [爬虫入门实战]爬虫之scrapy安装与配置教程

不得不说,自己经历过的,才是真的经历过,有很多网上的教程并不是很好,都是一把辛酸泪啊。 网上很多教程都是python2.7的,少有python3的教程,找起资料来还是挺难的。搞了算是蛮久的,一个上午加上半个晚上, 不过最终还是搞出来了总结一下:方法对了,安装的方法还是蛮简单的前人的经验,别一开始就上来 pip install Scrapy不论如何这个绝对是有问题的结果就是: erro

2017-07-08 15:38:51 3346

原创 python3 [爬虫入门实战] 爬虫之使用selenium 爬取百度招聘内容并存mongodb

爬取的内容为百度招聘页面下的python 杭州地区 所要爬取的内容 一共爬取的是6个字段 1 招聘岗位 2 招聘城市 3 招聘公司 4 招聘薪资 5 招聘日期 6 招聘来源网站用的是selenium + beautifulsoup + mongodb + re 模块进行爬取的内容总体上难度不是很大,内容清除也不是很完整,记不住的或者没有记牢

2017-07-07 11:21:44 3155 3

原创 python3 [爬虫入门实战] 爬虫之selenium 模拟QQ登陆抓取好友说说内容(暂留)

很遗憾,部分数据有些问题,不过还是可以进行爬取出来的先贴上源代码#encoding=utf8from selenium import webdriverimport refrom bs4 import BeautifulSoupfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.common.act

2017-07-06 12:55:24 702

原创 python3 [爬虫入门实战]爬虫之selenium 安装设置与初步使用

总结:过程还是可以的,成就感还是稍微有些的。耗时一个上午准备:selenium 相对应的可执行文件的下载与安装 解压放在: 就是这两部,如果官网慢的话,可以去csdn上进行下载 。下面是python代码中的模块导包模块:# encoding=utf8from selenium import webdriverimport refrom selenium.webdriver.common

2017-07-06 12:07:07 876

原创 python3 [爬虫入门实战]爬虫之mongoDB数据库的安装配置与可视化

从安装过程到可视化工具可查看数据信息,历时两天,昨天坐了一天的火车,今天早上才到的青岛–> 来找女朋友玩。前天说是要学习如何使用mongoDB的链接与安装。到今天过去了将一天, 不过还是在函兮的唠叨下慢慢的安装好了,确实来之不易,一脸懵逼 安装环境: wind10 还是盗版的 磁盘分析:只有一个C盘, 步骤: 1 . 下载 http://www.mongod

2017-07-05 18:52:23 925

原创 python3 [爬虫入门实战] 爬虫之爬取盘多多文档(百万数据)

有一次在简书上不小心看到这个爬虫上百万的数据,确实是上百万啊。我真的日了仙人板板了。 可以看一下网站:http://www.panduoduo.net/c/4/16 确实是挺多的数据。先上要爬取的内容,虽然比较少,准备的有些少了: 爬取的内容结果 爬取下来的确实很简陋,突然发现自己针对各种各样的tag,属性用的还是不熟悉,这次用的beautifulsoup,还是用的不熟悉,再

2017-07-03 20:08:09 4334

原创 python3 [入门基础实战] 爬虫入门之智联招聘的学习(一)

老实说:懵逼啊 这次爬取的是智联招聘上的求职数据,虽然没有仔细正确核对一下数据是否具有重复性,随机抽查了些,数据大部分还是能对上来的,这次爬取的智联招聘上的数据90页,每页60条,主要抓取的是android开发工程的数据, 抓取的数据为全国的数据,先上张结果图吧,如果是想看大图,可以选中图片,长按,移动到网页最上面的边上就可以了。ide 部分 数据用了多线程的方式,这是第一次用,因为这次

2017-07-02 00:18:16 2389 2

原创 2017,从杭州玛马吉科技有限公司出走之后

之前的老博客:http://blog.csdn.net/snake_son之前的老博客:http://blog.csdn.net/snake_son之前的老博客:http://blog.csdn.net/snake_son重要的事情说三遍,之前的老博客主要是记录了android点滴开发,记录了从16年8月份开始记录的一些,和一些自学python入门教程,在这里重新开启新博客是为了,以后面试找工作,别

2017-07-01 15:31:08 1015

xcode10-xcode14各版本sdk

ios xcode10-xcode14各版本sdk,主要包括7 8 9 10 11 12 13 14个版本以及各小版本,博客中有截图。

2020-12-03

tmdb_5000_credits.csv

数据挖掘 python 数据分析 Kaggle tmdb_5000_credits.csv 更多好文清访问:https://blog.csdn.net/xudailong_blog

2018-05-03

Kaggle 5000部电影数据csv表格

Kaggle 5000部电影数据 数据挖掘 python 更多好文清访问:https://blog.csdn.net/xudailong_blog

2018-05-03

Kaggle5000部电影数据挖掘源码

在python3环境下借助Kaggle资源练习熟悉数据挖掘技能,属于实战部分,适合新手练习。更多博客请访问:https://blog.csdn.net/xudailong_blog

2018-05-03

WinSCPPortable

WinSCPPortable 是一款在win系统中远程连接linux或者服务器进行文件传输的文件,方便快捷,且实用。

2018-01-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除