【JS 逆向百例】网洛者反爬练习平台第六题:JS 加密,环境模拟检测

递归蝉翼
• 阅读 1703
关注微信公众号:K哥爬虫,持续分享爬虫进阶、JS/安卓逆向等技术干货!

声明

本文章中所有内容仅供学习交流,抓包内容、敏感网址、数据接口均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系我立即删除!

逆向目标

  • 目标:网洛者反反爬虫练习平台第六题:JS加密,环境模拟检测
  • 链接:http://spider.wangluozhe.com/...
  • 简介:同样是要求采集100页的全部数字,并计算所有数据加和。请注意!不要重复使用一个参数值,不要欺骗自己哦!

【JS 逆向百例】网洛者反爬练习平台第六题:JS 加密,环境模拟检测

抓包分析

通过抓包分析,可以发现本题不像前面几题一样 Payload 中参数有变化,而是在 Request Headers 里有个 hexin-v 的,每次请求都会变化,如果有朋友做过某花顺财经爬虫的话,会发现这个参数在某花顺的站点里也大量使用,如下图所示:

【JS 逆向百例】网洛者反爬练习平台第六题:JS 加密,环境模拟检测

【JS 逆向百例】网洛者反爬练习平台第六题:JS 加密,环境模拟检测

查找加密

首先尝试直接搜索一下 hexin-v,只在 6.js 里有值,很明显这个 JS 是被混淆了的,无法定位,仔细观察一下,整个 6.js 为一个自执行函数(IIFE),传入的参数是7个数组,分别对应 n,t,r,e,a,u,c,如下所示:

!function (n, t, r, e, a, u, c) {
}(
    [],[],[],[],[],[],[]
);

6.js 在调用值的时候都是通过元素下标取值的,所以这个混淆也很简单,如果你想去还原的话,直接写个脚本将数组对应的值进行替换即可,当然在本例中比较简单,不用解混淆。

因为 hexin-v 的值在 Request Headers 里,所以我们可以通过 Hook 的方式,捕获到设置 header 的 hexin-v 值时就 debugger 住(注入 Hook 代码的方法K哥以前的文章有详细讲解,本文不再赘述):

(function () {
    'use strict';
    var org = window.XMLHttpRequest.prototype.setRequestHeader;
    window.XMLHttpRequest.prototype.setRequestHeader = function (key, value) {
        if (key == 'hexin-v') {
            debugger;
        }
        return org.apply(this, arguments);
    };
})();

【JS 逆向百例】网洛者反爬练习平台第六题:JS 加密,环境模拟检测

接下来就是跟栈了,往上跟一个就可以在 6.js 里看到 h 的值就是我们想要的值,h = ct.update()ct.update() 实际上又是 x(),如下图所示:

【JS 逆向百例】网洛者反爬练习平台第六题:JS 加密,环境模拟检测

继续跟进 x(),t 是我们想要的值,t = N()

【JS 逆向百例】网洛者反爬练习平台第六题:JS 加密,环境模拟检测

继续跟进 N()et.encode(n) 就是最终值,可以看到有一些类似鼠标移动、点击等函数:

【JS 逆向百例】网洛者反爬练习平台第六题:JS 加密,环境模拟检测

前面我们已经分析过,6.js 是个自执行方法,而且代码量也不是很多,所以我们这里直接定义一个全局变量,把这个 N 方法导出即可,就不再挨个方法扣了,伪代码如下:

// 定义全局变量
var Hexin;

!function (n, t, r, e, a, u, c) {
    // 省略 N 多代码
    function N() {
        S[T]++,
        S[f] = ot.serverTimeNow(),
        S[l] = ot.timeNow(),
        S[k] = zn,
        S[I] = it.getMouseMove(),
        S[_] = it.getMouseClick(),
        S[y] = it.getMouseWhell(),
        S[E] = it.getKeyDown(),
        S[A] = it.getClickPos().x,
        S[C] = it.getClickPos().y;
        var n = S.toBuffer();
        return et.encode(n)
    }
    // 将 N 方法赋值给全局变量
    Hexin = N
}(
    [],[],[],[],[],[],[]
);

// 自定义函数获取最终的 hexin-v 值
function getHexinV(){
    return Hexin()
}

环境补齐

经过如上改写后,我们在本地调试一下,会发现 window、document 之类的未定义,我们先按照以前的方法,直接定义为空,后续还会报错 getElementsByTagName is not a function,我们知道 getElementsByTagName 获取指定标签名的对象,属于 HTML DOM 的内容,我们本地 node 执行肯定是没有这个环境的。

这里我们介绍一种能够直接在 Node.js 创建 DOM 环境的方法,使用的是 jsdom 这个库,官方是这么介绍的:

jsdom 是许多 Web 标准的纯 JavaScript 实现,特别是 WHATWG DOM 和 HTML 标准,用于 Node.js。一般来说,该项目的目标是模拟足够多的 Web 浏览器子集,以用于测试和抓取真实的 Web 应用程序。最新版本的 jsdom 需要 Node.js v12 或更新版本。(低于 v17 的 jsdom 版本仍然适用于以前的 Node.js 版本,但不受支持。)具体的用法可以参考 jsdom 文档

需要注意的是,jsdom 也依赖 canvas,所以也需要另外安装 canvas 这个库,HTML canvas 标签用于通过脚本(通常是 JavaScript)动态绘制图形,具体介绍和用法可以参考 canvas 文档

我们在本地 JS 中添加以下代码后,就有了 DOM 环境,即可成功运行:

// var canvas = require("canvas");
var jsdom = require("jsdom");
var {JSDOM} = jsdom;
var dom = new JSDOM(`<!DOCTYPE html><p>Hello world</p>`);
window = dom.window;
document = window.document;
navigator = window.navigator;

配合 Python 代码,在请求头中,每次携带不同的 hexin-v,挨个计算每一页的数据,最终提交成功:

【JS 逆向百例】网洛者反爬练习平台第六题:JS 加密,环境模拟检测

完整代码

GitHub 关注 K 哥爬虫,持续分享爬虫相关代码!欢迎 star !https://github.com/kgepachong/

以下只演示部分关键代码,不能直接运行! 完整代码仓库地址:https://github.com/kgepachong...

JavaScript 加密关键代码

/* ==================================
# @Time    : 2021-12-20
# @Author  : 微信公众号:K哥爬虫
# @FileName: challenge_6.js
# @Software: PyCharm
# ================================== */


var TOKEN_SERVER_TIME = 1611313000.340;
var Hexin;
var jsdom = require("jsdom");
var {JSDOM} = jsdom;
var dom = new JSDOM(`<!DOCTYPE html><p>Hello world</p>`);
window = dom.window;
document = window.document;
navigator = window.navigator;

!function(n, t, r, e, a, u, c) {
    !function() {
        function Gn() {}
        var Qn = [new a[23](n[20]), new e[3](f + l + d + p)];
        function Zn() {}
        var Jn = [new t[16](c[13]), new u[9](e[19])], qn = a[24][u[16]] || a[24].getElementsByTagName(st(r[19], r[20]))[a[25]], nt;
        !function(o) {}(nt || (nt = {}));
        var tt;
        !function(o) {}(tt || (tt = {}));
        var rt = function() {}(), et;
        RT = rt
        !function(o) {}(et || (et = {}));
        function at() {}
        var ot;
        !function(o) {}(ot || (ot = {}));
        var it;
        !function(o) {}(it || (it = {}));
        var ut;
        !function(s) {}(ut || (ut = {}));
        var ct;
        !function(o) {
            function x() {}
            function L() {}
            function M() {}
            o[a[105]] = M;
            
            function N() {
                S[T]++,
                S[f] = ot.serverTimeNow(),
                S[l] = ot.timeNow(),
                S[k] = zn,
                S[I] = it.getMouseMove(),
                S[_] = it.getMouseClick(),
                S[y] = it.getMouseWhell(),
                S[E] = it.getKeyDown(),
                S[A] = it.getClickPos().x,
                S[C] = it.getClickPos().y;
                var n = S.toBuffer();
                return et.encode(n)
            }
            Hexin = N
            o[r[81]] = x
        }(ct || (ct = {}));

        function st() {}
        var vt;
        !function(o) {}(vt || (vt = {}));
        var ft;
        !function(r) {}(ft || (ft = {}))
    }()
}(
    [],[],[],[],[],[],[]
);


function getHexinV(){
    return Hexin()
}

// 测试输出
// console.log(getHexinV())

Python 计算关键代码

# ==================================
# --*-- coding: utf-8 --*--
# @Time    : 2021-12-20
# @Author  : 微信公众号:K哥爬虫
# @FileName: challenge_6.py
# @Software: PyCharm
# ==================================


import execjs
import requests


challenge_api = "http://spider.wangluozhe.com/challenge/api/6"
headers = {
    "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
    "Cookie": "cookie 换成你自己的!",
    "Host": "spider.wangluozhe.com",
    "Origin": "http://spider.wangluozhe.com",
    "Referer": "http://spider.wangluozhe.com/challenge/6",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36",
    "X-Requested-With": "XMLHttpRequest"
}


def get_hexin_v():
    with open('challenge_6.js', 'r', encoding='utf-8') as f:
        wlz_js = execjs.compile(f.read())
    hexin_v = wlz_js.call("getHexinV")
    print("hexin-v: ", hexin_v)
    return hexin_v


def main():
    result = 0
    for page in range(1, 101):
        data = {
            "page": page,
            "count": 10,
        }
        headers["hexin-v"] = get_hexin_v()
        response = requests.post(url=challenge_api, headers=headers, data=data).json()
        for d in response["data"]:
            result += d["value"]
    print("结果为: ", result)


if __name__ == '__main__':
    main()

【JS 逆向百例】网洛者反爬练习平台第六题:JS 加密,环境模拟检测

点赞
收藏
评论区
推荐文章
Karen110 Karen110
4年前
Python爬虫 | 批量爬取今日头条街拍美图
专栏作者:霖hero,在职爬虫工程师,熟悉JS逆向与分布式爬虫。喜欢钻研,热爱学习,乐于分享。公众号后台回复入群,拉你进技术群与大佬们近距离交流。01前言大家好,我是J哥🚀在以前的文章中我们学了Ajax数据爬取,这篇文章我们以今日头条为例,通过分析Ajax请求来抓取今日头条的街拍美图,并将图片下载到本地保存下来。准备好没,我们现在开始!0
Android逆向前期准备
本公众号分享的所有技术仅用于学习交流,请勿用于其他非法活动,如果错漏,欢迎留言指正《Android软件安全与逆向分析》丰生强《Android应用安全防护和逆向分析》姜维Android逆向前期准备一、前置知识为什么学习安卓逆向1.学习研究去广告破解内购自动化
Java层逆向分析方法和技巧
本公众号分享的所有技术仅用于学习交流,请勿用于其他非法活动,如有错漏,欢迎留言指正Java层逆向分析方法和技巧一、smali汇编1.Dalvik字节码java字节码、Dalvik字节码、机器码之间的关系?在Android上,Java代码首先经过编译器编译成
Stella981 Stella981
3年前
Python数据可视化:折线图、柱状图、饼图代码
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。作者:godweiyang来源:算法码上来Python爬虫、数据分析、网站开发等案例教程视频免费在线观看https://space.bilibili.com/523606542!(https://oscimg.oschi
Wesley13 Wesley13
3年前
CTF
CTFPwn\BJDCTF2nd\r2t4博客说明文章所涉及的资料来自互联网整理和个人总结,意在于个人学习和经验汇总,如有什么地方侵权,请联系本人删除,谢谢!本文仅用于学习与交流,不得用于非法用途!CTP平台网址https://buuoj.cn/cha
Stella981 Stella981
3年前
Python爬取网易云音乐辑的图片、专辑名和专辑出版时间
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。作者:阿里波特来源:CSDNPython爬虫、数据分析、网站开发等案例教程视频免费在线观看https://space.bilibili.com/523606542!(https://oscimg.oschina.net/
Stella981 Stella981
3年前
Python列表去重的方式有很多,了解它们,进行性能的对比
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于Python实用宝典,作者Python实用宝典!(https://oscimg.oschina.net/oscnet/up0647b4a837d357255bd6f04110912d68.jpg)前言列表
Stella981 Stella981
3年前
Python js逆向 爬取X天下数据,好好看,好好学
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。之前讲过execjs这个库可以在python中运行js代码,这将极大的帮助我们解决逆向问题,找到加密位置不会重写怎么办、js代码太复杂怎么办,用execjs秒杀它。本次的受害者aHR0cHM6Ly9wYXNz
可莉 可莉
3年前
12306 抢票系列之只要搞定RAIL_DEVICEID的来源,从此抢票不再掉线(上)
郑重声明:本文仅供学习使用,禁止用于非法用途,否则后果自负,如有侵权,烦请告知删除,谢谢合作!开篇明义本文针对自主开发的抢票脚本在抢票过程中常常遇到的请求无效等问题,简单分析了12306网站的前端加密算法,更准确的说,是探究RAIL_DEVICEID的生成过程.因为该cookie值是抢票请求
Stella981 Stella981
3年前
12306 抢票系列之只要搞定RAIL_DEVICEID的来源,从此抢票不再掉线(上)
郑重声明:本文仅供学习使用,禁止用于非法用途,否则后果自负,如有侵权,烦请告知删除,谢谢合作!开篇明义本文针对自主开发的抢票脚本在抢票过程中常常遇到的请求无效等问题,简单分析了12306网站的前端加密算法,更准确的说,是探究RAIL_DEVICEID的生成过程.因为该cookie值是抢票请求
Wesley13 Wesley13
3年前
HTB
本篇文章仅用于技术交流学习和研究的目的,严禁使用文章中的技术用于非法目的和破坏,否则造成一切后果与发表本文章的作者无关靶机是作者购买VIP使用退役靶机操作,显示IP地址为10.10.10.68本次使用https://github.com/Tib3rius/AutoRecon进行自动化全方位扫描执行命令 autorecon10.10.10.68