全球主机交流论坛

标题: 火车头的大佬了? 一包烟钱,帮忙写一下西瓜视频的分页 [打印本页]

作者: 改过自新    时间: 2020-9-29 21:03
标题: 火车头的大佬了? 一包烟钱,帮忙写一下西瓜视频的分页
本帖最后由 改过自新 于 2020-9-29 21:49 编辑

如这个地址:https://www.ixigua.com/home/1508145346906638/video/?subtype=played&notea=true

如何用火车头拼接出多页地址,一包烟钱30不成敬意,要告诉我原理哈。


第一个回复的大佬得,pm我留下qq或wx,我加你发红包。谢谢


自己解决了,谢谢各位大佬。
作者: llmwxt    时间: 2020-9-29 21:03
提示: 作者被禁止或删除 内容自动屏蔽
作者: 小蓝姐姐    时间: 2020-9-29 21:13
提示: 作者被禁止或删除 内容自动屏蔽
作者: 1121744186    时间: 2020-9-29 21:24
如果没看错的话,下一页 &format=json&max_behot_time=1594618959 中 max_behot_time的意思是获取这段时间之前的一页,只要取每一页的最后一条发布时间戳,当下一页的时间参数应该就可以
作者: 改过自新    时间: 2020-9-29 22:39
小蓝姐姐 发表于 2020-9-29 21:13
来看看楼主被喷!

被喷? 菜鸡一个都不想给你解释太多,就问你知道头条的加密吗?
作者: 木木子    时间: 2020-9-29 22:41
提示: 作者被禁止或删除 内容自动屏蔽
作者: 木易酱    时间: 2020-9-29 22:43
需要有referer
  1. https://www.ixigua.com/api/videov2/author/hot_video_list?_signature=_02B4Z6wo00f010rL2HgAAIBD8g2mJBSAYvdKytzAAI3Kba&author_id=1508145346906638&type=video&offset=0&limit=30

  2. https://www.ixigua.com/api/videov2/author/hot_video_list?_signature=_02B4Z6wo00f010rL2HgAAIBD8g2mJBSAYvdKytzAAI3Kba&author_id=1508145346906638&type=video&offset=30&limit=30

  3. https://www.ixigua.com/api/videov2/author/hot_video_list?_signature=_02B4Z6wo00f010rL2HgAAIBD8g2mJBSAYvdKytzAAI3Kba&author_id=1508145346906638&type=video&offset=60&limit=30
复制代码

作者: 改过自新    时间: 2020-9-29 22:49
木易酱 发表于 2020-9-29 22:43
需要有referer

这个很容易。
是signature的算法解不出来
作者: malu6688    时间: 2020-9-29 23:53
lz是不是要用这个做坏事
作者: 小蓝姐姐    时间: 2020-9-30 00:22
提示: 作者被禁止或删除 内容自动屏蔽
作者: citywar    时间: 2020-9-30 00:30
采集与 防采集的 PK
作者: yjsx86    时间: 2020-9-30 09:46
本帖最后由 yjsx86 于 2020-9-30 09:48 编辑

你给的网站 我爬取试过, _signature的生成看下图(一个图我就不上图床了)
(, 下载次数: 0)
代码在js文件里 https://sf1-ttcdn-tos.pstatp.com/obj/rc-web-sdk/acrawler.js
在window对象上挂载了方法 byted_acrawler.sign()
我用python复现js代码, 简单的我可以, 这个我不行
后来我把acrawler.js下载下来用python运行 可以分页爬取了, 但是由于方法是挂载到window上的, 所以本机需要安装nodejs和jsdom
想着你要火车头的规则, 这个明显不行

一般来说移动端网页要比pc端好爬, 这个也不意外
我就直接给你答案了
首页:
https://m.ixigua.com/video/app/user/home/?to_user_id=1508145346906638&format=json&subtype=played&notea=true
返回的json数据, 在data里面的最后一条数据里找到 behot_time (本例为 behot_time: 1594618959)
构造下一页的网址:
https://m.ixigua.com/video/app/user/home/?to_user_id=1508145346906638&format=json&subtype=played&notea=true&max_behot_time=1594618959

至于需不需要cookie或者user-agent或者referrer这些你自己去尝试了




欢迎光临 全球主机交流论坛 (https://hostloc.9hanju.com/) Powered by Discuz! X3.4