自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Yvettre的博客

学无止境

  • 博客(6)
  • 收藏
  • 关注

原创 windows下数据挖掘比赛提交文件换行符问题

1. 问题在天池大数据比赛、腾讯算法比赛等中都需要提交结果文件,一般是csv文件win下的默认换行符是CRLF(回车换行),linux或macos下的默认换行符是LF(换行),这些比赛要求提交的文件大多数都需要是LF换行符我是在windows10下使用vscode敲代码的,代码也是在win10下跑的,如果不留心,就会生成CRLF换行符的文件,提交结果总会出现没成绩、格式错误、表头信息错误...

2018-04-18 13:54:00 571

原创 python简单爬虫:爬取并统计自己博客页面的信息(四)

python简单爬虫:爬取并统计自己博客页面的信息(三)中介绍了html解析器的简单实现,接下来介绍mysql模块、结果输出模块,最后展示一下结果。10. 数据库模块:mysql.py因为结果输出模块中使用到了mysql,因此在讲结果输出模块之前,先讲mysql模块。mysql是一个关系型数据库管理系统(DBMS),而数据库则是通过DBMS创建和操纵的容器。一个DBMS中可以有...

2018-04-17 11:43:16 1060 3

原创 python简单爬虫:爬取并统计自己博客页面的信息(三)

python简单爬虫:爬取并统计自己博客页面的信息(二)中介绍了URL管理器和html下载器的简单实现,接下来介绍html解析器的简单实现。9. html解析器(html_parser.py)html解析器的主要任务是从下载好的网页中提取所需要的数据解析html的方法主要有两种:一是正则表达式,这是将整个html内容一个超大字符串来看待,匹配出所需数据;二是使用beautifuls...

2018-04-14 17:29:18 968

原创 python简单爬虫:爬取并统计自己博客页面的信息(二)

python简单爬虫:爬取并统计自己博客页面的信息(一)中介绍了简单的爬虫概念、本文代码的目的、爬虫的整体框架、工程目录结构、全局配置模块以及日志模块,接下来介绍一下简单的URL管理器和html下载器(无登录)的实现7. URL管理器(url_manerger.py)url管理器是用于管理待爬取的url和已爬取的url的,已爬取的url又分为爬取成功的和爬取失败的,主要是为了防止重复...

2018-04-12 17:31:16 1041

原创 python简单爬虫:爬取并统计自己博客页面的信息(一)

1. 什么是爬虫也叫网络爬虫,简单来说,爬虫就是从一个根网站出发,根据某种规则获得更多的相关网站的url,自动下载这些网页并自动解析这些网页的内容,从中获取需要的数据。例如爬取某种图片、某类文本信息等。爬虫还可以用于编纂搜索引擎的网络索引。爬虫所涉及的知识和技术面非常广,在本文中不作讨论;爬虫有很多种实现方法,本文提供的python方法仅是其中一种简单的实现,适用于规模较小的、自娱自乐的应...

2018-04-10 21:49:10 2090 2

原创 C++:string.erase函数

erase函数erase函数的原型:string& erase ( size_t pos = 0, size_t n = npos );iterator erase ( iterator position );iterator erase ( iterator first, iterator last );也就是说,erase函数有三种用法:erase(pos, ...

2018-04-05 14:23:09 1034

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除