怎么用Python爬取酷狗音乐TOP500

这篇文章主要介绍“怎么用Python爬取酷狗音乐TOP500”,在日常操作中,相信很多人在怎么用Python爬取酷狗音乐TOP500问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么用Python爬取酷狗音乐TOP500”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

创新互联建站专注于昌平企业网站建设,成都响应式网站建设公司,电子商务商城网站建设。昌平网站建设公司,为昌平等地区提供建站服务。全流程按需定制制作,专业设计,全程项目跟踪,创新互联建站专业和态度为您提供的服务

怎么用Python爬取酷狗音乐TOP500

上面是网址,

怎么用Python爬取酷狗音乐TOP500

改变数字就可以实现翻页,所以这个不能翻页的问题解决了。然后就是老套路按F12查看找network.

怎么用Python爬取酷狗音乐TOP500

往下翻,发现这些都有注释,那就更好办了。

解析这个数据,拿出来hash值和filename,歌词lyric。

也没什么要说的了,直接贴代码

import requests
from lxml import etree
import json
import re
import os

class kugou():

   def startkugou(self):
       for i in range(23, 24):
           print(i)
           res = requests.get('https://www.kugou.com/yy/rank/home/%s-8888.html?from=rank' % str(i))
           self.get_song(res)

   def get_song(self, res):
       html = etree.HTML(res.content.decode('utf8'))
       content = html.xpath('//script[10]')
       content2 = content[0].text
       # 解析出json列表,类型是str
       content1 = content2.split('global.features =')[1].split('(function()')[0].strip()[0:-1]
       try:
           # 转换成json数据
           content = json.loads(content1)
           for i in range(len(content)):
               hash = content[i]["Hash"]
               file_name = content[i]["FileName"]
               hash_url = "http://www.kugou.com/yy/index.php?r=play/getdata&hash=" + hash
               hash_content = requests.get(hash_url)
               play_url = ''.join(re.findall('"play_url":"(.*?)"', hash_content.text))
               lyrics = ''.join(re.findall('"lyrics":"(.*?)"', hash_content.text))
               real_download_url = play_url.replace("\\", "")
               try:
                   # if os.path.exists('kugou/' + file_name + '.txt'):
                   #     print(file_name + " 歌词已经存在")
                   #     # continue
                   # else:
                   with open('kugou/' + file_name + '.txt', 'w', encoding='utf8')as f:
                       f.write(lyrics.encode('utf8').decode('unicode_escape'))
                   print(file_name + "歌词已下载完成!")
                   # if os.path.exists('kugou/' + file_name + '.mp3'):
                   #     print(file_name+" 歌曲已经存在")
                   #     # continue
                   # else:
                   with open('kugou/' + file_name + ".mp3", "wb")as fp:
                       fp.write(requests.get(real_download_url).content)
                   print(file_name + "歌曲已下载完成!")
               except OSError as e:
                   print("出现异常" + file_name)
                   file_name = self.validateTitle(file_name)
                   # if os.path.exists('kugou/' + file_name + '.txt'):
                   #     print(file_name + " 歌词已经存在")
                   #     # continue
                   # else:
                   with open('kugou/' + file_name + '.txt', 'w', encoding='utf8')as f:
                       f.write(lyrics.encode('utf8').decode('unicode_escape'))
                   print(file_name + "歌词已下载完成!")
                   # if os.path.exists('kugou/' + file_name + '.mp3'):
                   #     print(file_name + " 歌曲已经存在")
                   #     # continue
                   # else:
                   with open('kugou/' + file_name + ".mp3", "wb")as fp:
                       fp.write(requests.get(real_download_url).content)
                   print(file_name + "歌曲已下载完成!")


       except json.decoder.JSONDecodeError as e:
           print(e)
           print(content2)
           content1 = content2.split('global.features =')[1].strip().split('(function() {')[0].strip()
           content1 = content1[0:-1]
           print(content1)

   def validateTitle(self, file_name):
       """ 将 title 名字 规则化
       :param title: title name 字符串
       :return: 文件命名支持的字符串        """
       rstr = r"[\=\(\)\,\/\\\:\*\?\"\<\>\|\' ']"  # '= ( ) , / \ : * ? " < > |  '   还有空格
       new_title = re.sub(rstr, "_", file_name)  # 替换为下划线
       return new_title

if __name__ == '__main__':
   kugou().startkugou()

怎么用Python爬取酷狗音乐TOP500

到此,关于“怎么用Python爬取酷狗音乐TOP500”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注创新互联网站,小编会继续努力为大家带来更多实用的文章!


分享文章:怎么用Python爬取酷狗音乐TOP500
转载注明:http://lszwz.com/article/gsdhds.html

其他资讯

售后响应及时

7×24小时客服热线

数据备份

更安全、更高效、更稳定

价格公道精准

项目经理精准报价不弄虚作假

合作无风险

重合同讲信誉,无效全额退款