【一、项目配景】
3、生存.torrent文档。
【二、项目目的】
four = i.xpath('.//p[@class="episode-title"]//text()')[0].strip()
【三、涉及的库和网站】
res = requests.get(url=url, headers=self.headers)
2、将下载乐成的图片信息显示在控制台如下图所示。
2、涉及的库:**reques****ts、****lxml、**fake_useragent
Siper = Mikan()
【四、项目分析】
html = res.content.decode("utf-8")
if __name__ == '__main__':
import requests
from lxml import etree
1、运行法式在控制台输入起始页终止页如下图所示。
【五、反爬措施】
self.parse_page(html)
t = "https://mikanani.me" + fif
【六、项目实施】
print("n%s下载乐成" % four)
f.write(html3)
'User-Agent': ua.random,
yr = "https://mikanani.me" + li
for i in range(1, 50):
https://mikanani.me/Home/Classic/3
4、如何打开种子文件?先上传到百度云盘如下图所示。
[蜜柑计划 - Mikan Project] :新一代的动漫下载站。
是一个专门为喜欢动漫的小同伴们打造的动漫视频在线播放网站为大家第一时间分享最新动漫资源逐日精选最优质的动漫推荐。
def get_page(self, url):
实现获取动漫种子链接并下载生存在文档。
class Mikan(object):
pass
for page in range(stat, end + 1):
dirname = "./种子/" + four[:15] + four[-20:] + '.torrent'
5、双击剖析下载如下图所示。
https://mikanani.me/Home/Classic/2
https://mikanani.me/Home/Classic/1
for li in one:
2、使用 fake_useragent 发生随机的UserAgent举行会见。
8、挪用方法实现功效。
one = parse_html.xpath('//tbody//tr//td[3]/a/@href')
self.headers = {
}
4、发送请求 获取响应, 页面回调利便下次请求。
3、 随机发生UserAgent。
print(url)
url = self.url.format(page)
return html
5、xpath剖析一级页面数据,for循环遍历补全网址获取二级页面网址。
parse_html = etree.HTML(html)
end = int(input(" end:"))
stat = int(input("start :"))
2、主方法(main):for循环实现多个网页请求。
6、二级页面请求 先找到页面父节点for循环遍历再用path获取到种子的下载地址。补全种子链接地址。
tow = parse_html2.xpath('//body')
for i in tow:
Siper.main()
fif = i.xpath('.//div[@class="leftbar-nav"]/a[1]/@href')[0].strip()
# print(four)
def main(self):
print(t)
7、生存在word文档。
self.url = "https://mikanani.me/Home/Classic/{}"
# print(dirname)
html3 = requests.get(url=t, headers=self.headers).content
with open(dirname, 'wb') as f:
def __init__(self):
from fake_useragent import UserAgent
1、我们界说一个class类继续object然后界说init方法继续self再界说一个主函数main继续self。导入需要的库和网址。
html = self.get_page(url)
1、获取正常的 http请求头并在requests请求时设置这些通例的http请求头。
【七、效果展示】
点击下一页时每增加一页Classic/()自增加1用{}取代变换的变量再用for循环遍历这网址实现多个网址请求。
首先需要解决如何对下一页的网址举行请求的问题。可以点击下一页的按钮视察到网站的变化划分如下所示:
3、软件**:PyCharm**
https://mikanani.me/Home/Classic/{}
1、网址如下:
【八、总结】
1、不建议抓取太多数据容易对服务器造成负载浅尝辄止即可。
2、本文章就python爬取Mikan Project在下载种子的难点和重点以及如何防止反爬做出了相对于的解决方案。
3、先容了如何去拼接字符串以及列表如何举行类型的转换。
4、接待大家努力实验有时候看到别人实现起来很简朴可是到自己动手实现的时候总会有种种各样的问题切勿眼妙手低勤动手才可以明白的越发深刻。
。本文来源:金年会-www.xzxkaoqifang.com