全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

IP归属甄别会员请立即修改密码
12
返回列表 发新帖
楼主: 改过自新
打印 上一主题 下一主题

火车头的大佬了? 一包烟钱,帮忙写一下西瓜视频的分页

[复制链接]
11#
发表于 2020-9-30 00:30:27 | 只看该作者
采集与 防采集的 PK
12#
发表于 2020-9-30 09:46:53 | 只看该作者
本帖最后由 yjsx86 于 2020-9-30 09:48 编辑

你给的网站 我爬取试过, _signature的生成看下图(一个图我就不上图床了)
1.jpg (14.71 KB, 下载次数: 0)
代码在js文件里 https://sf1-ttcdn-tos.pstatp.com/obj/rc-web-sdk/acrawler.js
在window对象上挂载了方法 byted_acrawler.sign()
我用python复现js代码, 简单的我可以, 这个我不行
后来我把acrawler.js下载下来用python运行 可以分页爬取了, 但是由于方法是挂载到window上的, 所以本机需要安装nodejs和jsdom
想着你要火车头的规则, 这个明显不行

一般来说移动端网页要比pc端好爬, 这个也不意外
我就直接给你答案了
首页:
https://m.ixigua.com/video/app/user/home/?to_user_id=1508145346906638&format=json&subtype=played&notea=true
返回的json数据, 在data里面的最后一条数据里找到 behot_time (本例为 behot_time: 1594618959)
构造下一页的网址:
https://m.ixigua.com/video/app/user/home/?to_user_id=1508145346906638&format=json&subtype=played&notea=true&max_behot_time=1594618959

至于需不需要cookie或者user-agent或者referrer这些你自己去尝试了
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2026-1-14 01:13 , Processed in 0.069620 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表