指挥Agent操作 在你自己的VPS上尝试复现 VLESS-Reality-cracker 在Hermes-agent官方免费白嫖的qwen-3.6-plus的帮助下

装一个能操作你的VPS的agent 用你自己最熟悉的方法. 我这里以 hermes 为例, 有官方提供免费白嫖的 qwen-3.6-plus 搭一个能运行的Reality服务端 用你自己最熟悉的方法. 检查这个Reality服务端能正常工作 略 在 Docker 里面部署一个 宿主机上运行的Real...
指挥Agent操作 在你自己的VPS上尝试复现 VLESS-Reality-cracker 在Hermes-agent官方免费白嫖的qwen-3.6-plus的帮助下
指挥Agent操作 在你自己的VPS上尝试复现 VLESS-Reality-cracker 在Hermes-agent官方免费白嫖的qwen-3.6-plus的帮助下

装一个能操作你的VPS的agent

用你自己最熟悉的方法. 我这里以 hermes 为例, 有官方提供免费白嫖的 qwen-3.6-plus

搭一个能运行的Reality服务端

用你自己最熟悉的方法.

检查这个Reality服务端能正常工作

在 Docker 里面部署一个 宿主机上运行的Reality服务端的复制. 宿主机上运行的 Reality 服务端不要改动. Docker 里面这个Reality服务端不要监听宿主机的外网, 只能在宿主机 内部使用.

跟你的agent讲上面这些话即可.

根据Docker 里的Reality服务端的配置文件, 在宿主机运行一个Reality客户端. 检查这个Docker 里的Reality服务端能正常工作

跟你的agent讲上面这些话即可.

https://github.com/Anonymous376c1d0cf28/VLESS-cracker 拉到本地, 分析一下代码

跟你的agent讲上面这些话即可.

根据现在 宿主机运行Reality客户端 - Docker里运行Reality服务端 的这个环境, 验证这个POC

跟你的agent讲上面这些话即可.

你的agent应该给你一份 A/B 对比报告.

用这个页面的探针 进一步 测试 https://github.com/Anonymous376c1d0cf28/VLESS-cracker/issues/29

跟你的agent讲上面这些话即可.

你的agent应该向你回报类似这样的内容

• A轮完成: 29/29
• A超时: 1

• B轮完成: 27/29
• B超时: 2(未完成)

A/B 差异分析
22个差异中,20个只是1-2字节响应大小波动(4152↔️4154),属于同一二进制的正常噪音。真正有意义的差异:

#12
• 探针: #12
• A轮: TO(4130)
• B轮: TO(4130)
• 说明: 两轮都超时 — 稳定特征

#19
• 探针: #19
• A轮: FIN(4129)
• B轮: FIN(4130)
• 说明: 大小差1字节

#22
• 探针: #22
• A轮: FIN(4128)
• B轮: FIN(4130)
• 说明: 大小差2字节

#28
• 探针: #28
• A轮: ALERT(4153)
• B轮: MISSING
• 说明: B轮卡住未完成

#29
• 探针: #29
• A轮: ALERT(4153)
• B轮: MISSING
• 说明: B轮卡住未完成

如果你还有额外的VPS, 也可以从外部进行测试. 如下:

从你现在的VPS-A 给你的另一台VPS-B 添加密钥登录

SSH登录到 VPS-B; 用户 root; 我已经添加好了密钥登录 ; 做这样的测试: 把Reality客户端 和 POC测试程序复制到 VPS-B; 测试 现在这个宿主机的 Reality 服务端

跟你的agent讲上面这些话即可.

image

你的agent应该向你回报类似这样的内容

A/B 轮对比结果

Round 1(原始重放): 29/29 探针全部有结果 — 27 个 ALERT,2 个 TIMEOUT(#8, #12)
Round 2(随机 session ID): 29/29 探针全部有结果 — 25 个 ALERT,3 个 FIN(#18, #19, #22),1 个 TIMEOUT(#12)

#8 内外长度倒挂
• 探针: #8 内外长度倒挂
• Round 1: TIMEOUT (5182)
• Round 2: ALERT (5204)
• 差异: ✗

#18 CCS 在 ClientHello 前
• 探针: #18 CCS 在 ClientHello 前
• Round 1: ALERT (5205)
• Round 2: FIN (5181)
• 差异: ✗

#19 未定义 Alert 级别
• 探针: #19 未定义 Alert 级别
• Round 1: ALERT (5205)
• Round 2: FIN (5181)
• 差异: ✗

#22 超长 Alert 附加数据
• 探针: #22 超长 Alert 附加数据
• Round 1: ALERT (5205)
• Round 2: FIN (5181)
• 差异: ✗

差分结论:4 个探针 A≠B

后记

我的水平有限, 只能在自然语言层面进行逻辑推演, 底层操作必须依赖agent和模型.
我用的模型不是SOTA, 智能水平有限, 不排除模型给我虚构了测试报告的可能性.
欢迎大家提出改进建议.

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文