防投毒方案：利用codex pretooluse hook让第三方LLM审查agent tool use

编辑部 2026-05-21T21:07:13.639836 27795 阅读 tech

最近中转投毒的报告比较多，向AGENT接入不可信任的第三方LLM API必定伴随着巨大的安全风险。除了尽可能做到沙盒隔离之外，利用可信的LLM审查agent的读取、编辑等指令也是一个办法。作为一个纯小白，经过和AI的商讨，AI大概给我讲明白了。这个是codex的方案，claude code我没有研...

防投毒方案：利用codex pretooluse hook让第三方LLM审查agent tool use

最近中转投毒的报告比较多，向AGENT接入不可信任的第三方LLM API必定伴随着巨大的安全风险。除了尽可能做到沙盒隔离之外，利用可信的LLM审查agent的读取、编辑等指令也是一个办法。作为一个纯小白，经过和AI的商讨，AI大概给我讲明白了。

这个是codex的方案，claude code我没有研究。

官方文档：Hooks – Codex | OpenAI Developers

pretooluse hook可以让codex每次执行tool use的指令前，执行提前配置好的指令并等待返回确认，例如运行一个python脚本，并将tool use相关信息传递过去。
随后，py脚本就可以调用deepseek api，让可信任又便宜的ds flash来检查codex要做的事情是否危险，要写的代码是否夹带私货。

这样做的好处是可以让可信任的AI智能地判断安全风险，但同时也受到审查AI本身表现不稳定的局限。

一个示例如下：

（AI生成代码，请谨慎使用。我测试了简单的读取目录下.env并成功拦截，未做更多测试。）

~/.codex/hooks.json

{
  "hooks": {
    "PreToolUse": [
      {
        "matcher": "Bash|apply_patch|.*powershell.*",
        "hooks": [
          {
            "type": "command",
            "command": "python3 ~/.codex/hooks/deepseek_reviewer.py",
            "statusMessage": "🛡️ 正在通过可信安全链路审查指令...",
            "timeout": 45
          }
        ]
      }
    ]
  }
}

~/.codex/hooks/deepseek_reviewer.py

#!/usr/bin/env python3
import sys
import json
import os
from datetime import datetime
from openai import OpenAI

# 配置本地审计与调试日志路径
LOG_FILE_PATH = os.path.expanduser("~/.codex/hooks/reviewer_debug.log")

def log_audit(session_id, turn_id, tool_name, command, decision, reason):
    """本地审计日志记录器，用于观测 Codex 传入的真实载荷"""
    try:
        os.makedirs(os.path.dirname(LOG_FILE_PATH), exist_ok=True)
        log_entry = {
            "timestamp": datetime.now().isoformat(),
            "session_id": session_id,
            "turn_id": turn_id,
            "tool_name": tool_name,
            "intercepted_command": command,
            "decision": decision,
            "reason": reason
        }
        with open(LOG_FILE_PATH, "a", encoding="utf-8") as f:
            f.write(json.dumps(log_entry, ensure_ascii=False) + "\n")
    except Exception as log_err:
        # 日志写入失败时不阻塞核心安全流，仅向标准错误输出
        sys.stderr.write(f"[Log Error] 无法写入审计日志: {str(log_err)}\n")

def main():
    session_id = "unknown"
    turn_id = "unknown"
    tool_name = "unknown"
    command_content = ""

    # 1. 严格读取并解析 Codex 标准输入 (stdin)
    try:
        input_data = sys.stdin.read()
        if not input_data.strip():
            raise ValueError("接收到空的 stdin 输入")
            
        payload = json.loads(input_data)
        
        # 提取公共字段与事件扩展字段
        session_id = payload.get("session_id", "unknown")
        turn_id = payload.get("turn_id", "unknown")
        tool_name = payload.get("tool_name", "unknown")
        
        # 对齐官方定义：Bash 和 apply_patch 的具体指令存在于 tool_input.command
        tool_input = payload.get("tool_input", {})
        if isinstance(tool_input, dict):
            command_content = tool_input.get("command", json.dumps(tool_input))
        else:
            command_content = str(tool_input)

    except Exception as e:
        error_msg = f"Codex 协议解析失败，触发安全熔断: {str(e)}"
        log_audit(session_id, turn_id, tool_name, "解析失败", "deny_fallback", error_msg)
        sys.stderr.write(error_msg + "\n")
        sys.exit(2)

    # 2. 检查可信 API 密钥
    api_key = os.getenv("DEEPSEEK_API_KEY")
    if not api_key:
        error_msg = "环境缺失 DEEPSEEK_API_KEY，安全审查层未激活。"
        log_audit(session_id, turn_id, tool_name, command_content, "deny_fallback", error_msg)
        sys.stderr.write(error_msg + "\n")
        sys.exit(2)

    # 3. 构建大模型安全上下文
    client = OpenAI(api_key=api_key, base_url="https://api.deepseek.com/v1")
    
    system_prompt = """
    你是一个安全隔离层。你的任务是审查由不可信的第三方 Agent 生成并即将执行的终端命令、PowerShell脚本或文件修改补丁。
    
    【核心审查法则】
    1. 阻断数据窃取：任何针对敏感凭证（如 .env, .git, id_rsa, config.toml, 各种云服务密钥令牌）的读取、打包或打印操作，一律视为高风险泄密并拒绝。
    2. 阻断恶意破坏：禁止破坏性删除（rm -rf /, Remove-Item -Force 等）、停用系统防灾机制。
    3. 阻断非正常外联：禁止隐蔽的反弹 shell、不明域名的 curl/wget 下载执行流、或不符合当前开发上下文的内网探测扫描。
    4. 阻断混淆规避：凡是使用 Base64 编码执行命令、故意字符串拼接、或利用恶意执行策略绕过（如 ExecutionPolicy Bypass）的行为，一律拒绝。

    你必须严格输出如下格式的 JSON 字典，不得夹带任何 Markdown 标记：
    {"decision": "allow" | "deny", "reason": "若拒绝，提供具体的风险说明和修复建议"}
    """

    user_prompt = f"当前触发工具: {tool_name}\n待执行指令/内容片段:\n```\n{command_content}\n
```"

    # 4. 调用 Deepseek 判决
    try:
        response = client.chat.completions.create(
            model="deepseek-chat",
            messages=[
                {"role": "system", "content": system_prompt},
                {"role": "user", "content": user_prompt}
            ],
            response_format={"type": "json_object"},
            temperature=0.0
        )
        review_result = json.loads(response.choices[0].message.content)
        decision = review_result.get("decision", "deny")
        reason = review_result.get("reason", "未给出明确原因")
    except Exception as api_err:
        error_msg = f"Deepseek 连通异常或超时，安全熔断拦截: {str(api_err)}"
        log_audit(session_id, turn_id, tool_name, command_content, "deny_fallback", error_msg)
        sys.stderr.write(error_msg + "\n")
        sys.exit(2)

    # 5. 对齐官方标准输出协议进行响应路由
    log_audit(session_id, turn_id, tool_name, command_content, decision, reason)

    if decision == "allow":
        # 官方规范：向 stdout 输出 permissionDecision: allow
        output_response = {
            "hookSpecificOutput": {
                "hookEventName": "PreToolUse",
                "permissionDecision": "allow"
            }
        }
        sys.stdout.write(json.dumps(output_response))
        sys.exit(0)
    else:
        # 官方规范：向 stdout 输出 deny 以及拒绝原因，Codex 会将此反馈给主 Agent 进行闭环重写
        output_response = {
            "hookSpecificOutput": {
                "hookEventName": "PreToolUse",
                "permissionDecision": "deny",
                "permissionDecisionReason": f"[可信拦截] 经 Deepseek 安全审查，由于该操作【{reason}】，执行已被硬性拦截。请修正你的生成策略。"
            }
        }
        sys.stdout.write(json.dumps(output_response))
        sys.exit(0) # 打印标准拒绝 JSON 时，脚本本身正常退出 0 即可，Codex 会解析结构并阻断命令。

if __name__ == "__main__":
    main()

2 个帖子 - 2 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文

投毒方案利用 codex pretooluse 一个 AI 问题

防投毒方案：利用codex pretooluse hook让第三方LLM审查agent tool use

Free号池，使用需要ip代理吗

请问pixel渠道gemini怎么自己弄，看了代弄的仅要38，但怕自己谷歌密码本泄露

（AI生成代码，请谨慎使用。我测试了简单的读取目录下.env并成功拦截，未做更多测试。）

相关推荐