爬虫:获取OLD的Oxford 3000 and 5000

Oxford Learner’s Dictionaries
Oxford 3000 and 5000

一、代码

# 导入模块
from selenium import webdriver
from bs4 import BeautifulSoup
import requests
import urllib
import time
import numpy as np
import pandas as pd

# 网页地址
url = "https://www.oxfordlearnersdictionaries.com/wordlists/oxford3000-5000"

# 打开浏览器
driver = webdriver.Chrome(r"C:\Users\53224\_jupyter\chromedriver.exe")

# 打开网页
driver.get(url)  # 点击Filters > List > Oxford 5000

word_li_list = driver.find_elements_by_css_selector("ul.top-g > li")
len(word_li_list)

special_word_dic = {
    'nursing': {
        'uk_pron_url': "https://www.oxfordlearnersdictionaries.com/media/english/uk_pron/n/nur/nursi/nursing__gb_1.mp3",
        'us_pron_url': "https://www.oxfordlearnersdictionaries.com/media/english/us_pron/n/nur/nursi/nursing__us_1.mp3",
    },
}
special_word_dic.keys()

word_list = []
word_url_list = []
pos_list = []
ox3000_list = []
ox5000_list = []
uk_pron_url_list = []
us_pron_url_list = []

# word_li_list = word_li_list[3550:]

cnt = 1
for word_li in word_li_list:
    word = word_li.get_attribute('data-hw')
    word_url = word_li.find_element_by_css_selector("a").get_attribute("href")
    pos = word_li.find_element_by_css_selector("span.pos").text
    ox3000 = word_li.get_attribute('data-ox3000')
    ox5000 = word_li.get_attribute('data-ox5000')
    
    media_div_list = word_li.find_elements_by_css_selector("div > div")
    uk_pron_url = None
    us_pron_url = None
    if len(media_div_list) == 0:
        uk_pron_url = special_word_dic[word]['uk_pron_url']
        us_pron_url = special_word_dic[word]['us_pron_url']
    else:
        uk_pron_url = "https://www.oxfordlearnersdictionaries.com" + media_div_list[0].get_attribute("data-src-mp3")
        us_pron_url = "https://www.oxfordlearnersdictionaries.com" + media_div_list[1].get_attribute("data-src-mp3")
    
    print(cnt, word, word_url, pos, ox3000, ox5000)
    print(uk_pron_url)
    print(us_pron_url)
    
    cnt += 1
    
    word_list.append(word)
    word_url_list.append(word_url)
    pos_list.append(pos)
    ox3000_list.append(ox3000)
    ox5000_list.append(ox5000)
    uk_pron_url_list.append(uk_pron_url)
    us_pron_url_list.append(us_pron_url)

print(len(word_list))
print(len(word_url_list))
print(len(pos_list))
print(len(ox3000_list))
print(len(ox5000_list))
print(len(uk_pron_url_list))
print(len(us_pron_url_list))

word_data = []
for i in range(len(word_list)):
    print(i, [word_list[i], word_url_list[i], pos_list[i], ox3000_list[i], ox5000_list[i], uk_pron_url_list[i], us_pron_url_list[i]])
    word_data.append([word_list[i], word_url_list[i], pos_list[i], ox3000_list[i], ox5000_list[i], uk_pron_url_list[i], us_pron_url_list[i]])
# word_data

columns = ['word', 'word_url', 'pos', 'ox3000', 'ox5000', 'uk_pron_url', 'us_pron_url']
word_table = pd.DataFrame(word_data, columns=columns)
word_table

word_table.to_csv("Oxford_3000_and_5000.csv", index=False)

二、运行结果

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 牛津英语搭配词典 mdx (Oxford Collocation Dictionary)是一本专门为学习英语的人设计的辅助工具。这本词典的目的是帮助学习者更好地理解和正确运用英语单词的搭配。 mdx,即牛津英语搭配词典的扩展格式,提供了更多的例句和详细的用法说明。相比起传统的词典,mdx版本更加全面,有助于学习者更好地理解英语单词的搭配关系。 这本词典的独特之处在于它注重单词的固定搭配和习惯用法。它不仅提供了单词的基本释义,还特别关注单词与其他单词的搭配方式。在词典中,每个单词都会列举出与其搭配频率较高的其他单词或短语,并给出相应的例句以帮助读者理解和正确使用这些搭配。 使用牛津英语搭配词典 mdx 有很多优点。首先,它可以帮助学习者更好地记忆和运用英语单词,因为通过学习单词的搭配方式,我们可以更加自然地使用这些词汇。同时,它也可以帮助学习者提高英语写作和口语表达的准确性和流利度,使其表达更加地道。 总体而言,牛津英语搭配词典 mdx 是一本非常实用的工具,特别适合学习者用来提高英语词汇的运用和理解能力。通过使用这本词典,学习者可以更好地掌握英语单词的搭配规律,提高他们的英语写作和口语表达能力。 ### 回答2: 牛津英语搭配词典(MDX)是一本非常实用的工具,为英语学习者提供了丰富的词汇搭配和固定短语的例证和用法。这本词典的主要目的是帮助学习者更好地掌握英语词汇的正确搭配,提高他们的语言表达能力。 MDX词典的特色之一是提供了大量的例句,这些例句都是原汁原味的真实语言材料,可以帮助学习者了解词汇在实际场景中的使用情况。同时,词典还提供了语境信息,包括词汇的词义、语法搭配和固定短语,使得学习者可以更好地理解和应用这些词汇。 此外,MDX词典还提供了一些专门的标志,以帮助学习者更快地找到需要的信息。例如,词汇搭配中采用星号(*)标记的是常用的、基础的搭配;而加粗的词汇则表示有强调、特殊用法或者是固定短语。这些标志有助于学习者快速准确地获取所需的信息。 总的来说,牛津英语搭配词典MDX是一本值得使用的工具书。它提供了丰富的词汇搭配和固定短语的例证和用法,帮助学习者更好地掌握英语的表达方式。无论是在学术写作、口语交流还是日常使用中,这本词典都能为学习者提供便捷和准确的参考信息。 ### 回答3: 牛津英语搭配词典(OXFORD Collocations Dictionary for students of English,简称mdx)是一本为英语学习者设计的辞典。该词典主要旨在帮助学习者掌握和应用英语中的搭配用法。 mdx收录了大量的常用短语、固定搭配和习惯用语,并提供了相关的词汇解释和例句。通过使用该词典,学习者可以更好地理解单词在具体语境中的使用方式,从而提升自己的英语表达能力。 该词典的特点之一是使用简洁明了的解释和例句,使学习者能够更快地理解和掌握词语的搭配用法。此外,mdx还提供了大量的短语和常用搭配的近义替换,帮助学习者扩展自己的表达方式。 mdx还配备了一份详细的语言学习指导,指导学习者如何有效地使用该词典进行学习。词典中还包含了一些学习技巧和对于英语语法和用法的简明介绍,帮助学习者更好地运用词典提升自己的英语水平。 总之,牛津英语搭配词典mdx是一本非常实用的工具,适用于所有有需求学习英语搭配用法的学习者。通过使用该词典,学习者可以快速准确地学习和运用英语中的搭配用法,提高自己的英语表达能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值