数据特点
40 张牌外观近似, 无 re-ID 特征, 背面同色
手覆盖 60-80% 帧, 单牌可完全遮挡 1-3s
频繁翻面, 严格目标数上限 = 40
已试 + 失败
YOLO11-Seg 检测 ✓ 静态准, 密集叠加漏
ByteTrack ✗ 60s 累积 1942 ID (理应 40), 卡尔曼+IoU 假设被遮挡彻底破坏
匈牙利 + lost-recovery 跨段匹配 ✗ 中段 cost matrix 退化为噪声
人工逐帧 fallback ✓ 但 60 min/副, 成本太高
在看的方案 SAM 2 video predictor / Cutie / DAM / MASA / CoTracker3 / TAPIR / HaMeR (3D 手部 pose) / ProPainter (擦手部)
求建议
玩过 SAM 2 / Cutie / CoTracker3 实战, 或做过 surgical instrument tracking / 同队服球员跟踪 / shell game 视觉问题的同行 — 哪条路在"40 个相似目标 + 持续遮挡"这个 regime 最稳? 论文 / 代码 / 工程踩坑都欢迎. 评论或私信均可.