众多周知,使用多线程爬虫以后我们的爬取速度就会大大增加,如上篇文章中演示的原本需要6秒的运行速度,在增加两个线程以后只需要3秒就可以执行完成。但是,多线程并非是没有问题的,下面我们来看看这个例子:
import threading
VALUE = 0
def add_value():
global VALUE
for x in range(1000000):
VALUE += 1
print('value: %d' % VALUE)
def main():
for x in range(2):
t = threading.Thread(target=add_value)
t.start()
if __name__ == '__main__':
main()
结果:
value: 1183626
value: 1267435
为什么会出现这种情况呢???
那是因为当我们的数据足够大,运行次数足够多的时候,线程就会把别的线程还没有完成的数据就拿来自己用,所有就会出现结果不对的情况。那应该怎么解决这个问题额,那就需要用到一个叫“锁”的东西,话不多说,立马演示一遍大家就清楚了
import threading
VALUE = 0
glock = threading.Lock()
def add_value():
global VALUE
glock.acquire()
for x in range(1000000):
VALUE += 1
glock.release()
print('value: %d' % VALUE)
def main():
for x in range(2):
t = threading.Thread(target=add_value)
t.start()
if __name__ == '__main__':
main()
value: 1000000
value: 2000000
这样子,结果就对了,但是需要注意的是上面上了锁以后,下面一定要记得释放,不然程序就一直只会进行当前的线程,直到你释放以后才会继续向下执行。