2018年04月_Yvettre

原创 windows下数据挖掘比赛提交文件换行符问题

1. 问题在天池大数据比赛、腾讯算法比赛等中都需要提交结果文件，一般是csv文件win下的默认换行符是CRLF（回车换行），linux或macos下的默认换行符是LF（换行），这些比赛要求提交的文件大多数都需要是LF换行符我是在windows10下使用vscode敲代码的，代码也是在win10下跑的，如果不留心，就会生成CRLF换行符的文件，提交结果总会出现没成绩、格式错误、表头信息错误...

2018-04-18 13:54:00 571

原创 python简单爬虫：爬取并统计自己博客页面的信息（四）

python简单爬虫：爬取并统计自己博客页面的信息（三）中介绍了html解析器的简单实现，接下来介绍mysql模块、结果输出模块，最后展示一下结果。10. 数据库模块：mysql.py因为结果输出模块中使用到了mysql，因此在讲结果输出模块之前，先讲mysql模块。mysql是一个关系型数据库管理系统（DBMS），而数据库则是通过DBMS创建和操纵的容器。一个DBMS中可以有...

2018-04-17 11:43:16 1060 3

原创 python简单爬虫：爬取并统计自己博客页面的信息（三）

python简单爬虫：爬取并统计自己博客页面的信息（二）中介绍了URL管理器和html下载器的简单实现，接下来介绍html解析器的简单实现。9. html解析器（html_parser.py）html解析器的主要任务是从下载好的网页中提取所需要的数据解析html的方法主要有两种：一是正则表达式，这是将整个html内容一个超大字符串来看待，匹配出所需数据；二是使用beautifuls...

2018-04-14 17:29:18 968

原创 python简单爬虫：爬取并统计自己博客页面的信息（二）

python简单爬虫：爬取并统计自己博客页面的信息（一）中介绍了简单的爬虫概念、本文代码的目的、爬虫的整体框架、工程目录结构、全局配置模块以及日志模块，接下来介绍一下简单的URL管理器和html下载器（无登录）的实现7. URL管理器（url_manerger.py）url管理器是用于管理待爬取的url和已爬取的url的，已爬取的url又分为爬取成功的和爬取失败的，主要是为了防止重复...

2018-04-12 17:31:16 1041

原创 python简单爬虫：爬取并统计自己博客页面的信息（一）

1. 什么是爬虫也叫网络爬虫，简单来说，爬虫就是从一个根网站出发，根据某种规则获得更多的相关网站的url，自动下载这些网页并自动解析这些网页的内容，从中获取需要的数据。例如爬取某种图片、某类文本信息等。爬虫还可以用于编纂搜索引擎的网络索引。爬虫所涉及的知识和技术面非常广，在本文中不作讨论；爬虫有很多种实现方法，本文提供的python方法仅是其中一种简单的实现，适用于规模较小的、自娱自乐的应...

2018-04-10 21:49:10 2090 2

原创 C++：string.erase函数

erase函数erase函数的原型：string& erase ( size_t pos = 0, size_t n = npos );iterator erase ( iterator position );iterator erase ( iterator first, iterator last );也就是说，erase函数有三种用法：erase(pos, ...

2018-04-05 14:23:09 1034

Yvettre的博客