tldextract是一个第三方模块,意思就是Top Level Domain extract,即顶级域名提取。
安装tldextract库:
pip install tldextract
示例URL的结构,news.baidu.com 里面的news.baidu.com叫做host,它是注册域名baidu.com的子域名,而com就是顶级域名TLD。
示例代码:
import tldextract
url = 'http://news.baidu.com'
tld = tldextract.extract(url)
print(tld)
main_domain = tld.domain + '.' + tld.suffix
print('main_domain:', main_domain)
运行结果: