python的poplib模块是用来从pop3收取邮件的,也可以说它是处理邮件的第一步。
POP3协议并不复杂,它也是采用的一问一答式的方式,你向服务器发送一个命令,服务器必然会回复一个信息。pop3命令码如下:
命令 poplib方法 参数 状态 描述
-----------------------------------------------------------------------------------------------
USER user username 认可 用户名,此命令与下面的pass命令若成功,将导致状态转换
PASS pass_ password 认可 用户密码
APOP apop Name,Digest 认可 Digest是MD5消息摘要
-----------------------------------------------------------------------------------------------
STAT stat None 处理 请求服务器发回关于邮箱的统计资料,如邮件总数和总字节数
UIDL uidl [Msg#] 处理 返回邮件的唯一标识符,POP3会话的每个标识符都将是唯一的
LIST list [Msg#] 处理 返回邮件数量和每个邮件的大小
RETR retr [Msg#] 处理 返回由参数标识的邮件的全部文本
DELE dele [Msg#] 处理 服务器将由参数标识的邮件标记为删除,由quit命令执行
RSET rset None 处理 服务器将重置所有标记为删除的邮件,用于撤消DELE命令
TOP top [Msg#] 处理 服务器将返回由参数标识的邮件前n行内容,n必须是正整数
NOOP noop None 处理 服务器返回一个肯定的响应
----------------------------------------------------------------------------------------------
QUIT quit None 更新
python的poplib也针对这些命令分别提供了对应的方法,上面在第二列里已经标出来。收取邮件的过程一般是:
1. 连接pop3服务器 (poplib.POP3.__init__)
2. 发送用户名和密码进行验证 (poplib.POP3.user poplib.POP3.pass_)
3. 获取邮箱中信件信息 (poplib.POP3.stat)
4. 收取邮件 (poplib.POP3.retr)
5. 删除邮件 (poplib.POP3.dele)
6. 退出 (poplib.POP3.quit)
注意的是,上面我在括号里写的是使用什么方法来完成这个操作,在实际的代码中不能那样写,应该是创建poplib.POP3的对象,然后,调用这个对象的方法。比如:
poplib.POP3.quit
应该理解为
a = poplib.POP3(host)
a.quit()
下面看看实际的代码:
#-*- encoding: gb2312 -*-
import os, sys, string
import poplib
# pop3服务器地址
host = "pop3.163.com"
# 用户名
username = "xxxxxx@163.com"
# 密码
password = "xxxxxxx"
# 创建一个pop3对象,这个时候实际上已经连接上服务器了
pp = poplib.POP3(host)
# 设置调试模式,可以看到与服务器的交互信息
pp.set_debuglevel(1)
# 向服务器发送用户名
pp.user(username)
# 向服务器发送密码
pp.pass_(password)
# 获取服务器上信件信息,返回是一个列表,第一项是一共有多上封邮件,第二项是共有多少字节
ret = pp.stat()
print ret
# 需要取出所有信件的头部,信件id是从1开始的。
for i in range(1, ret[0]+1):
# 取出信件头部。注意:top指定的行数是以信件头为基数的,也就是说当取0行,
# 其实是返回头部信息,取1行其实是返回头部信息之外再多1行。
mlist = pp.top(i, 0)
print 'line: ', len(mlist[1])
# 列出服务器上邮件信息,这个会对每一封邮件都输出id和大小。不象stat输出的是总的统计信息
ret = pp.list()
print ret
# 取第一封邮件完整信息,在返回值里,是按行存储在down[1]的列表里的。down[0]是返回的状态信息
down = pp.retr(1)
print 'lines:', len(down)
# 输出邮件
for line in down[1]:
print line
# 退出
pp.quit()
在有些地方,有安全邮件这一说,其实是对pop3做了ssl加密。这样的,poplib一样可以处理,只不过不是用POP3这个类,而是用POP3_SSL, 他们的方法都一样。因此支持ssl在上面代码中,替换创建pop3对象的一行为:
pp = poplib.POP3_SSL(host)
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
再贴2个代码:
#coding=gbk
import poplib
import cStringIO
import email
import base64
import string
# mail.xxx.com ,指的是你的pop收信服务器的地址,可以是域名或者ip
server = poplib.POP3("mail.xxx.com")
server.user("用户")
server.pass_("密码")
print server.stat()
numMessages = len(server.list()[1])
print 'num of messages ', numMessages
addressList=[]
mailnum,mailsize=server.stat()
for selected in range(0,mailnum):
response,message,content=server.retr(selected+1)
messageString=email.message_from_string(string.join(message,'\n'))
type=messageString.get_content_charset()
#if type=='gb2312':
# unicode(messageString.get_payload(),'gb2312')
#if type=='shift_jis':
# unicode(messageString.get_payload(),'shift_jis')
#if type=='None':
# unicode(messageString.get_payload(),'utf-8')
print messageString
#print base64.decodestring(messageString.get_payload(0).get_payload())
messageFrom=email.Header.decode_header(messageString['from'])[0][0]
print messageFrom
#addressList.append(messageFrom)
和:
def retrive_emails(pop3_server, user_name, passwd, server_port):
#POP3
pop_client = poplib.POP3(pop3_server, port=server_port)
pop_client.user(user_name)
pop_client.pass_(passwd)
#print messages num
num_messages, mbox_size = pop_client.stat()
print 'there are %s new emails/n' % num_messages
if num_messages == 0:
pop_client.quit()
return
print('num of messages %s' %str(num_messages))
#mk folder
folder_name = '%s-%s' %(user_name, pop3_server)
if not os.path.exists(folder_name):
os.mkdir(folder_name)
for idx in range(num_messages):
one_mail = pop_client.retr(idx+1)
buf = cStringIO.StringIO()
for j in one_mail[1]:
print >>buf,j
buf.seek(0)
#parse mail content
msg = email.message_from_file(buf)
for part in msg.walk():
contenttype = part.get_content_type()
print('/npart:/n%s/n' % part)
filename = part.get_filename()
print('contenttype : %s' % contenttype)
if filename and (contenttype == 'application/octet-stream'):
# save mail
f = open("%s/mail%d.%s.attach"
%(folder_name, idx+1, filename), 'wb')
f.write(base64.decodestring(part.get_payload()))
f.close()
elif contenttype == 'text/plain':
# save content
f = open("%s/mail%d.txt" %(folder_name, idx+1),'wb')
f.write(base64.decodestring(part.get_payload()))
f.close()
#elif contenttype == 'text/html':
# # save content
# f = open("%s/mail%d.html" %(folder_name, idx+1),'wb')
# f.write(base64.decodestring(part.get_payload()))
# f.close()
print('===========================================')
buf.close()
if idx == 10:
break
pop_client.quit()