Regular Expressions
- 当我们想从下面这段字符串中获取年份这个信息的时候,我们并不知道怎么分离这个字符串,什么样的表达形式代表了年份,这个时候就需要用到正则表达式。
'''
- `"Jan 17, 2012"`
- `"9/22/2005"`
- `"Spring 2007"`
- `"New Year's Eve 1999"`
'''
一个正则表达式就是一个字符序列,描述了一个搜索模式。通常情况下我们说一个字符串中存在这个模式,就认为这个字符串匹配了这个正则表达式。最简单的正则表达式就是一个普通的字符序列。
“.”——占位符
- python中有一个模块re可以使用正则表达式,其中有一些特殊字符,比如”.”表示这个位置可以填充任何字符:
“^”——开始符 “$”——终止符
- 特殊字符”^”表示这个是起始位置,”^”后面的就是初始字符,同样的”$”前面的是终止字符:
“^a” will match all strings that start with “a”.
“a$” will match all strings that end with “a”.
Reading And Printing The Dataset
import csv
f = open("askreddit_2015.csv", 'r')
csvreader = csv.reader(f)
posts_with_header = list(csvreader)
'''
posts_with_header
list (<class 'list'>)
[['Title', 'Score', 'Time', 'Gold', 'NumComs'],
['What\'s your internet "white whale", something you\'ve been searching for years to find with no luck?',
'11510',
'1433213314.0'<