Leetcode第8题:
1. 题目:


2.解法一
题目解析:就是从一个字符串的首个非空字符开始匹配,即从一个字符串s的首个非空字符开始向后连续匹配,如果得到的这个新的字符串可以用int()方法转化为数字(例如,string = “-4839”, “+38420”, “977428”,这些字符串都是可以直接转换为数字的,但是例如”-839j”, “98j38”等穿插了其他字符的,则不符合要求)。并且要注意一些问题,比如转化之后的数字格式,如果这个string是一个”+89272”,那么转化的时候应该先将+去掉,”-”则需保留。
如果s是这样的” word 89719”,这样是不符合题意的,因为我们要得到的整数是要从第一个非空字符开始的,除了正负号以外。
下面是我的第一种思路的代码:
class Solution(object):
def myAtoi(self, s):
string = ""
status = 0
# 因为要得到的新字符的第一个字符很关键,所以用这个变量用来判别是否是第一个字符,如果是status=0,否则status=1
s = s.strip() # 这是将字符串首尾的空格去掉。
for item in s:
if status == 0:
if item == "-" or item == "+" or 48 <= ord(item) <= 57: # 匹配首字符(除去非空)
string += item
status = 1
continue
else:
return 0
if status == 1:
if 48 <= ord(item) <= 57:
string = string + item
else:
break
if string == "" or string == "-" or string == "+":
return 0
if string[0] == "+":
string = string[1:]
if int(string) < -2147483648:
return -2147483648
elif int(string) > 2147483647:
return 2147483647
else:
return int(string)
执行结果:


从这个执行用时分布图可以看到,160ms是比较长的。
那么这个基本操作执行次数函数T(n) = n,时间复杂度O(n) = n,这样的复杂度也排名这么靠后?看来正确的方法应该是不能循环。
(1) 这里介绍一下上面代码中用到的一些方法:
ord(str),这个方法是将字符的ascii码返回,比如ord(”0”),结果是48。与之对应方法是chr(int),这个方法是将ascii码对应的数字返回,比如chr(48), 结果是”0”。
(2) 上面的-2147483648,2147483647实际上是-2^31和2^31-1,这也是应题的要求,但是在程序中最好不要用pow(2, 31)这种方法代替2^31,因为如果用这个方法的话,相当于每次都要重新计算一次,这样肯定会增加程序运行的时间。可以用一个变量直接表示这个值,或者直接用这个数值也可以。便于规范的话,最好用一个变量代替。
3. 解法二
经过分析,不就是字符串的匹配行为吗,那说到python匹配字符串,肯定要想到正则表达式了。
代码如下:
import re
class Solution(object):
def myAtoi(self, s):
s = s.strip()
if len(s) == 0: # 如果传入的字符串为空,则直接返回0
return 0
if s[0] in ["-", "+"]:
string = re.findall('^[-+]\d+', s)
else:
string = re.findall('^\d+', s)
if len(string) == 0:
return 0
if len(string[0]) == 0:
return 0
else:
if int(string[0]) < -2147483648:
return -2147483648
elif int(string[0]) > 2147483647:
return 2147483647
else:
return int(string[0])
执行结果:


现在的T(n)=1, O(n)=1,比之前的要好一些,但是这个时间复杂度已经是很低了,为什么还是会差别人很多呢?那就是代码中的判断次数太多了,这样程序每次到这儿就会停下来判断一下。
代码解释:
(1)
if s[0] in ["-", "+"]:
string = re.findall('^[-+]\d+', s)
现在来看这个正则表达式'^[-+]\d+',’^’表示从这个字符串的首个字符开始匹配,注意,我们已经程序的一开始就使用了strip()方法将原始传入的字符串的首尾的空格去掉了。[-+]表示匹配这个[]里的任意一个字符,\d+表示匹配任意多的数字。注意,这些匹配都是要按顺序的。
这句话的意思是: 如果字符串的第0个字符是”+”, 或者”-“,那么久匹配这个字符,然后匹配之后的连续的数字。直到匹配到其他字符时就不匹配了。如果这个字符串是以”-”或者”+”开头,但是后面接的又不是数字,那么就不满足我们写的这个正则表达式,得到的string就会是一个空列表。
(2) 那么接着(1)后的else语句又是什么意思呢?正则表达式是:’^\d+’,因为我们已经确定这个开头的不会是”-”或者“+”,那么我们只需要从头开始匹配所有的连续的数字即可。
(3) 再提一下,re.findall()方法得到的是一个列表。所以要适当的转换一下
4. 解法三
根据上面的分析,现在将程序优化一下,将一些不必要的判断删掉,代码如下:
import re
class Solution(object):
def myAtoi(self, s):
s = s.strip()
upper_limit = 2147483647
lower_linit = -2147483648
try:
if s[0] in ["-", "+"]:
string = re.findall('^[-+]\d+', s)
else:
string = re.findall('^\d+', s)
if int(string[0]) < lower_linit:
return lower_linit
elif int(string[0]) > upper_limit:
return upper_limit
else:
return int(string[0])
except:
return 0
执行结果:


这儿优化的地方并不多,但是好像效果很明显。
我做的改变有如下几点:
(1) 第二次的代码中有这样两句判断语句:
if len(string) == 0:
return 0
if len(string[0]) == 0:
return 0
这两段语句的作用是:如果经过正则表达式之后,得到的string为空,即没有符合规则的字符串,那就直接返回0,因为下面会有字符串的索引,如果字符串为空的话,索引时会报错。还有就是确定字符串的首字符不是0,因为这样的话int之后得到的数可能会出错(其实根本不用担心,因为python中的int()方法可以将以0开头的整数前面的0去掉的)
(2) 还有这段程序中我将2147483647和-2147483648用变量代替了,没替换之前,我的程序的内存消耗是13.3MB,现在是13.2MB,可能你会觉得这个影响也不是很大啊。但是,这只是一个很小的程序,替换的地方并不多,如果在真实的项目中,那效果就会很明显了,而且用变量代替这些常量,也是开发规范。
5. 最优解法:
下面是我看到用时最短的程序:

这个重点关注人家的正则的写法。
还有,他的正则匹配中[ ]里的+和-都是用转义字符 "\" 转义了,这确实比较规范。