Python+pyecharts研究周杰伦歌词中的秘密

席地而坐不谈国事

已于 2022-03-02 18:25:44 修改

阅读量1.2k

点赞数 2

文章标签： Python 周杰伦歌词

于 2018-07-26 21:43:05 首次发布

本文链接：https://blog.csdn.net/xueaalei1/article/details/81219359

版权

一个朋友很喜欢周杰伦。

所以，前两天我跟别人去KTV，就唱的是“七里香”。

唱着唱歌，突然就好奇了起来。周杰伦的歌里，是不是还有很多的麻雀

后来发现，270首歌，140786个字，千言万语，说来说去，都是“我”，“的”，“你”

路人：咦，怎么没有你我他中的他

我：你我之间，没有他。

路人：不对啊，不是每首歌都是你呀我呀的吗这跟是不是周杰伦也没啥关系吧？

我：......我不听我不听。

还有去除所有单字的，只考虑词的。

等等，为毛......双节棍......三个字，出现的频率如此之高....

啥......阳光宅男里也有双截棍吗......宅男也用双截棍打人吗

本文完

--------------------------------源代码

url ='https：//music.163.com/#/search/m/？id = 6452＆limit = 100＆offset = 100＆s =％E5％91％A8％E6％9D％B0％E4％BC％A6＆type = 1'

这个是网易云音乐里的关键词“周杰伦”的搜索结果。利用硒大法，可以强行弄出歌名歌手名歌曲编号。

http://music.163.com/api/song/media?id=186001 这个链接，不断替换后面的ID，可直接看到歌词JSON。

from selenium import webdriver
import re,time,requests,json
from bs4 import BeautifulSoup
import pandas as pd
driver = webdriver.Chrome()
url = 'https://music.163.com/#/search/m/?id=6452&limit=100&offset=100&s=%E5%91%A8%E6%9D%B0%E4%BC%A6&type=1'
driver.get(url)

#自动爬取周杰伦歌曲的 歌曲代号/歌名/歌星
#反爬也不做了.什么时候停了,就是弄好了.
while True:
    driver.switch_to.default_content()
    driver.switch_to.frame("contentFrame")  # 2.用id来定位


    pattern=re.compile('/artist\?id=[0-9]+"><span class="s-fc7">(.*?)<.*?title="《(.*?)》">')
    html = driver.page_source 
    soup= BeautifulSoup(html,'html.parser')
    list_song=[]
    for row in soup.find("div",{"class":"srchsongst"}):
        list_song.append([re.search('data-res-id="([0-9]+)"',str(row)).group(1),  #歌曲代号
                          re.search('b title="(.*?)"',str(row)).group(1),   #歌名
                          re.search(pattern,str(row)).group(1)])  #歌星
    print('Done')
    Data=pd.DataFrame(list_song)
    Data.to_csv(r"C:\Users\Jack\Desktop\OutData.csv",encoding = "utf-8",mode="a+",index=0,header=0)

    #翻页
    button = driver.find_element_by_xpath('//*[@id="auto-id-Uf7JxlNgQEttTgGT"]')
    button.click()
    time.sleep(1)


#清洗出一个没有重复歌名的名单. (一首歌会有各种版本)
data=pd.read_csv("C:\\Users\\Jack\\Desktop\\outData.csv")
songData=data.values.tolist()

newlist=[]
for i in  songData  :
    if re.sub(u"\\(.*?\\)|\\{.*?}|\\[.*?]|\s?\-", "",i[1]) not in [ i[1] for i in newlist]:  
#正则是为了洗出没有符号,尽可能简洁的歌曲名. 并且not in newlist 是为了保证不会重复
        newlist.append([i[0],re.sub(u"\\(.*?\\)|\\{.*?}|\\[.*?]|\s?\-", "",i[1]),i[2]])


def load(songid):  #获取歌词信息
    url= 'http://music.163.com/api/song/media?id=' +str(row[0])
    r = requests.get(url,headers=headers)
    return json.loads(r.text)['lyric']

list_new = []
for row in newlist:
    try:
        lyric = load(row[0])
        list_new.append([row[0],row[1],row[2],lyric])
    except:
        print('---')
        print(row[0])
        time.sleep(1)
    print('|',end='')
    time.sleep(0.2)
print('爬取歌词完成')


#stopwords是为了防止进来奇怪的东西. 因为有些歌词里面是会夹杂歌手名的... 
#这样可去除异常的高词频的词,防止wordcloud异常.(人为控制啊你)
#用空格作间隔符,加快输入速度. 之前我可是输了两三行...
stopWords='周杰伦 录音师 录音室'
import jieba
list=[]
for i in jieba.cut_for_search(''.join([i[3] for i in list_new])):
#用jieba.cut_for_search,俗称 搜索引擎模式. 是为了尽可能保证一句话多拆成 词,而不是 字.
    word= (re.sub('[0-9.:\/\(\)\[\]\s：]+|\\r|\\n|[\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b]','',i))
    if word != ''  and word not in stopWords.split(' ') :
        list.append(word)


from pandas import DataFrame
df = DataFrame({"word":[i for i in list ],"count":1})

df2 = df.groupby('word').count().sort_values(by = 'count',axis = 0,ascending = False)
df2.insert(0,"index",[i for i in df2.index])


df2.columns=['word','count']

wordlist=df2.values.tolist()

from pyecharts import WordCloud
wordcloud = WordCloud('周杰伦歌词次云','Made By Jack',width=800, height=620)
wordcloud.add("",[i[0] for i in wordlist], [i[1] for i in wordlist], word_size_range=[10, 70],shape='pentagon')
wordcloud

这样子就能弄出歌词WordCloud啦〜

后来寻思着，唱歌是不是要讲究押韵来着？但是不知道啥叫必然的规律..

所以尝试了一下

yunmulist=[]
from pypinyin import lazy_pinyin
for row in [i[3].split('\n') for i in list_new]:
    for row2 in row:
        row3=re.sub('[\[\],.:\(\)\s）]|[0-9]','',row2)
        try:
            lastword = (row3[-1])
            word_pinyin =pinyin(lastword)
            if word_pinyin!=[]:
                yunmulist.append(lazy_pinyin(lastword,style=Style.FINALS_TONE, strict=False,errors='ignore'))
        except:
            pass
        

df = DataFrame({"word":[i[0] for i in yunmulist if i !=[]],"count":1})
df.groupby('word').count().sort_values(by = 'count',axis = 0,ascending = False)
df2 = df.groupby('word').count().sort_values(by = 'count',axis = 0,ascending = False)
df2.insert(0,"index",[i for i in df2.index])


df2.columns=['word','count']

wordlist=df2.values.tolist()

from pyecharts import Bar
wordcloud = Bar('周杰伦歌词韵母次云',width=1200, height=420)
wordcloud.add("",[i[0] for i in wordlist][0:30], [i[1] for i in wordlist][0:30], word_size_range=[20, 60],shape='pentagon')
wordcloud

只截取了前20的。前后差异太大了。