[问与答] 寻找视觉处理大佬,多目标 mask 跟踪, SAM2, CoTracker3 / TAPIR (点跟踪)等

自己在做一个牌类游戏过程的视觉跟踪学习项目, 想把麻将一次完整洗牌前 40 张牌的位置追踪到洗牌结束, 输出"洗牌前 → 洗牌后"的位置对应表. 类似学术里 shell game / cups-and-balls tracking 的视觉问题, 目标数 = 40 , 纯学习 + 探索 SOTA 边界...
[问与答] 寻找视觉处理大佬,多目标 mask 跟踪, SAM2, CoTracker3 / TAPIR (点跟踪)等
[问与答] 寻找视觉处理大佬,多目标 mask 跟踪, SAM2, CoTracker3 / TAPIR (点跟踪)等


┌──── 输入: 单视角 RGB 1080p@25fps ────┐
│ │
│ pre 段 (静止) │
│ ● ● ● ● ● ● ● ● ● ● ← 40 张牌 │
│ ● ● ● ● ● ● ● ● ● ● (位置/身份 │
│ ● ● ● ● ● ● ● ● ● ● 都已知) │
│ ● ● ● ● ● ● ● ● ● ● │
│ │
│ ↓ 洗牌 60-120s │
│ ░ ▓ ░ 手覆盖 60-80% 帧 ░ ▓ ░ │
│ 牌频繁互相遮挡 + 翻面 + 滑动 │
│ ↓ │
│ │
│ post 段 (静止) │
│ ? ? ? ? ? ? ? ? ? ? ← 40 张牌 │
│ ? ? ? ? ? ? ? ? ? ? (位置已知, │
│ ? ? ? ? ? ? ? ? ? ? 求映射回 │
│ ? ? ? ? ? ? ? ? ? ? pre 身份) │
│ │
└──────────────────────────────────────┘

难点 (按破坏性排序)
40 个目标外观高度相似 — 没有 re-ID 特征, 背面同色; 不像行人有衣服, 车辆有车牌
持续密集遮挡 — 一只/两只手覆盖 60-80% 帧, 单牌完全遮挡可持续 1-3 秒
频繁翻面 + 旋转 — 外观跳变, 视觉特征短时不稳
严格目标数上限 = 40 — 不能新增 (新 ID 一定是 ByteTrack 错了)
信息论根本极限 — 完全被手压住时, 单视角 RGB 没有该牌的任何线索
已试方案 + 失败模式
管线 状态 失败原因
────────────────────────────────────────────────────────────
YOLO11-Seg 检测 ✓部分 静态准, 密集遮挡漏检

ByteTrack 短时关联 ✗ 60s 累积 1942 ID (理应 40)
卡尔曼+IoU 假设被遮挡彻底破坏

匈牙利 + lost-recovery 跨段 ✗ 中段 cost matrix 信号退化为噪声
强制 ID 上限 40 也救不回

关键帧聚类 (pre/post 各自) ✓ 静止聚类可以精确出 40 位置

跨段匹配 (pre 40 ↔ post 40) ✗ 中段无信号, 等价随机映射

人工逐帧 fallback (PySide6) ✓ 但 ~60 min/副, 成本不可接受
ByteTrack ID 累积大致这样:

理想: ──────────── 40 (上限)
实际: ▁▂▃▄▅▆▇▇████████████ 1942
0s 30s 60s
↑ 每次遮挡断开就开一个新 ID


前在考虑的 SOTA 路线
SAM 2 video predictor (Meta 2024) — 用 pre 40 位置作为 40 个 box prompt, 整段自动跟 mask
Cutie / DAM / MASA — 长 memory VOS 网络, 学术上比 SAM2 更稳
CoTracker3 / TAPIR 点跟踪 — 牌中心点跟踪, 不跟 mask
手部物理推断 — HaMeR 估 3D 手势 + 接触推断, 覆盖完全遮挡段
ProPainter 擦除手 — 让 SAM 2 在更多帧"看见目标"
半自动 interactive annotation — 算法跟 60-80%, 人工巡视修正 20-40%, 目标压到 10-15 min/副
想请教的问题
做过类似的人: surgical instrument tracking, sports player tracking (足球/篮球队员同队服), shell game CV 的同行, 你们最后落在哪个技术栈?
SAM 2 实战表现: 在"40 个相似目标 + 密集遮挡"这种 regime, memory bank 会不会失效? 有没有人压测过 50+ 目标的并行?
VOS 模型选型: Cutie / DAM / MASA 这几个在长视频 + 多目标的实际差异?
半自动工具栈: CVAT / Roboflow 之外, 有没有更专门的"算法跟踪 + 人工修正"工具? (现在自己撸了一个 PySide6 的, 但比较粗糙)
有没有更适合的 SOTA 我完全没想到 (比如基于 3D scene flow / event camera / NeRF tracking 的思路)?
非常希望听到一线的实践经验, 论文 / 代码 / 工程踩坑都欢迎. 评论或私信均可.
来源: v2ex查看原文