这个点儿了,还在进行测试,你要说生理上,那确实没多累,毕竟全自动测试都跑起来了,心理上累的不行,这个项目我从一月份就开始做,1月17干到4月20了
从3月底,其实整个项目就已经完成了全部的开发,但,完成整个框架的开发和整个系统可用,再到整个系统达到一个发布标准,完全是三件事儿,现在就是从系统可用到达到发布标准,这里真的是折磨人
我设置了6个任务,这6个任务我都要求它使用较差的模型(glm5.1)通过系统架构,至少能跑出90分以上的水平才可以进行发布(满分100),没有什么特殊优化,没有针对这6个任务的优化,全部依赖系统架构来做这件事儿。
那为什么说累呢?因为6个任务,跑一个任务,短的是2个小时起,大部分3个小时起,跑完评分,得出分数是否达标,再去优化,然后有的时候经常冲突,就是,A 任务经过这轮优化评分达标了,B 任务又不达标了;B 任务达标了,A 任务又不达标了,来回折腾,也没啥好的解决办法,吐槽一下,发发帖,发泄一下
其实也想过,干脆就直接发正式版吧,但是不行,跟我预期差的太少了。这6个任务必须,能够,在系统架构下全自动的,完成全部的开发和测试,并且,产出的东西达到,90分,这才是我预想的发布
(补充一下背景,这个项目是做 AI 全自动开发的,详细内容可以看往期帖子,这里就不赘述了,吐槽贴嘛,没必要说这么多)
一直说发,一直说发,到现在也发不出来,一天根本测不了几个任务,跑完一轮,基本半天就过去了,一天最多优化两轮 ![]()
最后分享一下这个 AI 全自动开发项目的测试任务和评分标准吧,难不成真的是我定的标准太高了?佬们看看
# SoloDawn V1.0 测试任务清单
> **评分标准**: `V1.0-Acceptance-Criteria.md`
> **修复报告**: `V1.0-六任务质量验收评审报告.md`
---
## 任务总览
| # | 任务名称 | 执行模式 | 需求类型 | 仓库目录 |
|---|----------|----------|----------|----------|
| 1 | 从零构建团队知识库系统 | 编排工作区 | 模糊需求(需追问) | 任务1-knowledge-base |
| 2 | Hoppscotch 新增 API 负载测试模块 | 编排工作区 | 精确需求 | 任务2-hoppscotch |
| 3 | Express.js → Rust Axum 完整迁移 | 编排工作区 | 精确需求 | 任务3-express-to-rust |
| 4 | 祖传代码重构 + 测试覆盖率 0→80% | 编排工作区 | 精确需求 | 任务4-refactor-test |
| 5 | 微服务电商系统从零并行构建 | 编排工作区 | 模糊需求(需追问) | 任务5-ecommerce |
| 6 | 安全审计 + 性能优化 + 监控全家桶 | DIY 手动编排 | 精确需求 | 任务6-kutt-security |
| 7 | 飞书双向同步 — 从零构建 Web 备忘录 | 编排工作区 | 精确需求(飞书发起) | 任务7-web-memo |
所有仓库位于 `E:\V1.0.0的7个测试任务\` 下。
## 测试执行与日志
测试时按需创建日志,事后清理。建议格式:
- 进度日志: `V1-progress-YYYYMMDD.md`(按日期,记录当日执行的任务和结果)
- 评审报告: 更新 `V1.0-六任务质量验收评审报告.md`(评审完成后更新评分表和修复记录)
---
## 任务 1:从零构建团队知识库系统(类 Notion/Outline)
**执行模式**:编排工作区(Agent-Planned)
**需求类型**:模糊需求 — 需要 AI 追问澄清
### 用户输入
> "我想做一个团队内部用的知识管理工具,类似 Notion 那种,能写文档、搜索、团队协作。"
### AI 追问后的补充回答
- "登录注册肯定要的,最好能用 GitHub 登录"
- "小团队用的,几十个人吧"
- "像 Notion 那种编辑器就行,能插图片、写标题"
- "如果能看到谁在看哪个文档就好了"
- "技术栈你来决定"
- "要能一键部署的那种"
### 交付要求
- 用户认证系统(注册/登录,含 GitHub OAuth)
- 文档编辑器(富文本或 Markdown)
- 文档目录/组织结构
- 搜索功能
- REST API
- 部署配置(Docker Compose 或等价)
- 依赖可安装,构建命令零错误
---
## 任务 2:在 Hoppscotch(78k★)上新增 API 负载测试模块
**执行模式**:编排工作区(Agent-Planned)
**需求类型**:精确需求 — 直接执行
### 用户输入
> "在 Hoppscotch 中新增一个完整的 API Load Testing(负载测试)模块。具体要求:
>
> 1. 新增一个 Load Testing 标签页,入口放在主导航栏
> 2. 并发引擎:支持配置并发数(1-1000)、总请求数、持续时间、Ramp-up 策略
> 3. 实时数据面板:测试运行时实时显示 RPS、平均延迟、P95/P99 延迟、错误率
> 4. 图表:Latency Distribution 直方图、Throughput 时序图、Error Rate 饼图
> 5. 测试报告:支持导出 JSON 和 HTML 两种格式
> 6. 必须复用 Hoppscotch 已有的 Collections 中的请求配置
> 7. 必须遵循 Hoppscotch 现有代码规范和组件库
> 8. 包含测试历史记录保存和对比功能"
### 交付要求
- 新增代码遵循 Hoppscotch 现有 Vue 3 + TypeScript 规范
- `pnpm build` 构建成功
- 所有分支合并,无遗留冲突
---
## 任务 3:Express.js → Rust Axum 完整迁移
**执行模式**:编排工作区(Agent-Planned)
**需求类型**:精确需求 — 直接执行
### 用户输入
> "将这个 Express.js REST API 项目完整迁移到 Rust Axum,要求:
>
> 1. 所有 API 端点功能完全对等,可以用同一套 API 测试集跑通
> 2. 数据库从 MongoDB 迁移到 PostgreSQL(用 SQLx)
> 3. JWT 认证迁移(jsonwebtoken crate)
> 4. Joi 验证逻辑迁移到 validator crate
> 5. Express 中间件迁移到 Axum 的 tower middleware(日志用 tracing、错误处理用 thiserror)
> 6. 密码加密用 argon2
> 7. 保留 Docker 部署配置
> 8. 包含完整的 cargo test 测试
> 9. 包含 API 文档(utoipa/swagger)"
### 交付要求
- 最终产物为纯 Rust 项目,无 JS/TS 残留
- `cargo check` 和 `cargo build` 无错误
- `cargo test` 可运行
- 包含 Dockerfile 和 API 文档配置
- 所有分支合并
---
## 任务 4:祖传代码重构 + 测试覆盖率 0→80%
**执行模式**:编排工作区(Agent-Planned)
**需求类型**:精确需求 — 直接执行
### 用户输入
> "重构这个 Node.js REST API 项目并补全测试,要求:
>
> 1. 架构分层重构:Route → Controller → Service → Repository → Model
> 2. 统一错误处理:自定义 AppError 类 + 全局错误中间件
> 3. 输入验证层:每个端点用 Joi 或 Zod 做 schema 验证
> 4. 环境变量管理:dotenv + config schema 验证,去掉所有硬编码
> 5. ESLint + Prettier 配置 + pre-commit hook
> 6. 单元测试:每个 Service 文件对应测试,mock 数据库层
> 7. 集成测试:supertest 跑完整 API,用 mongodb-memory-server 做测试隔离
> 8. 测试覆盖率目标 80%+,生成覆盖率报告
> 9. GitHub Actions CI:lint → test → coverage 报告 → 覆盖率 badge
> 10. 保留所有现有 API 的功能不变"
### 交付要求
- 分层架构代码完整
- `npm install` + `npm test` 可执行
- 测试覆盖率 ≥ 80%
- ESLint 零错误
- GitHub Actions CI 配置存在
- 所有分支合并
---
## 任务 5:微服务电商系统从零并行构建
**执行模式**:编排工作区(Agent-Planned)
**需求类型**:模糊需求 — 需要 AI 追问澄清
### 用户输入
> "我想做一个电商系统,微服务架构的那种。"
### AI 追问后的补充回答
- "需要用户注册登录、商品浏览、下单购买这些基本功能"
- "微服务之间怎么通信你来决定"
- "每个服务要有自己的数据库"
- "要能 Docker 一键启动所有服务"
- "来个简单的管理后台能看看订单数据"
- "下单成功要有通知,WebSocket 推送或者什么都行"
### 交付要求
- 至少 3 个独立微服务(User / Product / Order)
- 每个服务独立目录、独立依赖
- Docker Compose 编排文件,可一键启动
- 服务间通信机制已实现
- 所有分支合并
---
## 任务 6:安全审计 + 性能优化 + 监控全家桶
**执行模式**:DIY 手动编排
**需求类型**:精确需求 — 3 个 Task 并行执行
### Task 1:安全加固(分支 `security-hardening`)
> "对这个项目做全面安全审计和加固:
>
> 1. XSS 防护(输入消毒 + CSP 头 + HttpOnly Cookie)
> 2. CSRF 保护
> 3. 速率限制(IP 维度 + 用户维度,防短链接滥用)
> 4. 安全响应头全套(Helmet.js — HSTS/X-Frame-Options/X-Content-Type-Options)
> 5. URL 验证(防恶意跳转/钓鱼链接、域名黑名单)
> 6. 认证加固(密码强度策略 + 账户锁定 + JWT 刷新令牌轮换)
> 7. 依赖漏洞扫描修复(npm audit)"
### Task 2:性能优化(分支 `performance-optimization`)
> "对这个项目做全面性能优化:
>
> 1. Redis 缓存层(短链接 → 原始 URL 映射缓存,热点 Key LRU 策略)
> 2. 数据库查询优化(分析面板的统计聚合查询添加索引)
> 3. 短链接解析路径的响应时间优化(目标 <10ms)
> 4. 静态资源压缩和缓存策略
> 5. 包含性能基准测试(优化前后对比数据)"
### Task 3:监控体系(分支 `monitoring-stack`)
> "为这个项目搭建完整监控体系:
>
> 1. Prometheus metrics 埋点(QPS/延迟/缓存命中率/错误率)
> 2. Grafana Dashboard 配置文件(JSON 导入即用)
> 3. 健康检查端点
> 4. 结构化日志(JSON 格式 + 请求追踪 ID)
> 5. Docker Compose 更新(加 Redis + Prometheus + Grafana 容器)"
### 交付要求
- 安全加固:Helmet.js + 速率限制 + 输入验证
- 性能优化:Redis 缓存层
- 监控体系:Prometheus 埋点 + 健康检查
- Docker Compose 更新(含新增容器)
- 3 个分支全部合并,无冲突
- `npm install` 无错误
---
## 任务 7:飞书双向同步 — 从零构建 Web 备忘录
**执行模式**:编排工作区(Agent-Planned),通过飞书同步入口发起
**需求类型**:精确需求 — 从飞书通道发送
### 用户输入(通过飞书同步入口发送)
> "我想做一个网页的备忘录。我希望在 E:\V1.0.0的7个测试任务\任务7-web-memo 目录下。功能要包含备忘录的全部功能,同时要有标签和分类系统。这个网页要很现代化、很好看,暖色调风格。"
### 交付要求
- 备忘录 CRUD(创建、编辑、删除、搜索)
- 标签系统(创建标签、添加/移除标签、按标签筛选)
- 分类系统(创建分类、设置分类、按分类筛选)
- 标签 + 分类组合筛选
- 暖色调现代化 UI 设计
- 前端页面可正常打开使用
- 所有分支合并
SoloDawn V1.0 任务质量验收指令
你是谁:你是一名资深代码审查员(Senior Code Auditor),拥有 20 年软件工程经验。你将对 SoloDawn 编排系统交付的项目代码进行严格的代码质量评审。
评审对象:SoloDawn 指挥 AI CLI 产出的项目代码,不是 SoloDawn 自身代码。
你的任务:逐个进入每个任务仓库,阅读代码、执行构建、运行测试、审查架构,按照本文档的评分标准逐项打分,最终输出评分报告和评级。
评分制度:百分制(100 分满分),90 分为通过线,95 分优秀
核心原则:你必须实际执行每个验证步骤(读代码、跑命令、检查输出)。不可凭猜测打分。如果某个目录不存在或仓库为空,该任务整体记 0 分。
相关文档: 任务清单 V1.0-Task-List.md / 修复报告 V1.0-六任务质量验收评审报告.md
内置自动验收: SoloDawn 编排器现已内置 LLM 验收审查机制 — 终端每次 commit 后,编排器读取实际源码并对照任务需求逐条验证。未达标的代码会被自动打回修改。本文档用于人工复核。
准备工作
步骤 1:确认任务仓库根目录
执行:ls "E:/V1.0.0的7个测试任务/"
预期:看到 任务1 ~ 任务7 共 7 个目录
步骤 2:逐个确认仓库有内容(非仅初始 README)
对每个任务目录,执行:
git -C <目录> log --oneline | head -5
ls <目录>
如果只有初始 "init" commit 或仅 README.md → 该任务未执行,记 0 分
评分体系
维度 满分 说明
每任务质量评分 各 100 分 7 个任务各自独立打分
总评 100 分 7 个任务加权平均(权重见下方)
任务权重
任务 权重 原因
任务 1(知识库) 15% 从零构建完整应用
任务 2(Hoppscotch) 20% 大型开源项目上新增模块,难度最高
任务 3(Express→Rust) 15% 跨语言迁移
任务 4(重构+测试) 15% 代码质量核心验证
任务 5(微服务电商) 15% 多服务架构设计
任务 6(安全+性能+监控) 10% 三方向并行改造
任务 7(飞书备忘录) 10% 从零构建 + UI 质量
通用评分维度(每个任务都按此 5 个维度打分)
维度 1:可构建性(20 分)
执行步骤:
1. 进入任务目录
2. 识别项目类型(检查 package.json / Cargo.toml / go.mod / requirements.txt 等)
3. 安装依赖:
Node.js: npm install 或 pnpm install
Rust: cargo check
Python: pip install -r requirements.txt
Go: go build ./...
4. 执行构建:
Node.js: npm run build(如果有 build 脚本)
Rust: cargo build
前端: npm run build 或 pnpm build
5. 记录输出中的 error 和 warning 数量
评分:
20 分:依赖安装 + 构建命令全部零错误
15 分:有 warning 但无 error
10 分:有少量 error 但核心模块可构建
5 分:大量构建错误,仅部分文件可编译
0 分:完全无法构建,或项目文件不完整
维度 2:功能完整性(25 分)
执行步骤:
1. 阅读任务需求(见下方各任务详细需求清单)
2. 逐条检查需求中列出的功能点是否有对应代码实现
搜索关键文件和目录
读取核心文件,确认不是空壳/桩代码
判断实现是否完整(有完整逻辑,非 TODO/placeholder)
3. 统计:已实现功能数 / 需求总功能数 = 完成率
评分:
25 分:完成率 100%,全部功能有实质性实现
20 分:完成率 ≥ 80%
15 分:完成率 ≥ 60%
10 分:完成率 ≥ 40%
5 分:完成率 < 40%
0 分:基本无实现
维度 3:代码质量(30 分)
执行步骤:
1. 阅读至少 5 个核心源文件的代码
2. 按以下子项逐一评估:
a) 架构设计(10 分)
目录结构是否清晰、关注点是否分离
是否有合理的分层(如 MVC、Clean Architecture 等)
模块间耦合度是否合理
执行:find . -type d -maxdepth 3 | head -30(查看目录结构)
执行:阅读入口文件和核心模块文件
b) 代码规范(10 分)
命名是否一致且有意义(变量、函数、文件)
是否有适当的错误处理(try/catch、Result 类型等)
是否有明显的代码异味(超长函数、深嵌套、重复代码、硬编码)
是否遵循项目所用语言的惯用写法
执行:对 Node.js 项目运行 npx eslint . 2>&1 | tail -20
执行:对 Rust 项目运行 cargo clippy 2>&1 | tail -20
执行:阅读 3-5 个文件检查代码风格
c) 安全性(10 分)
是否有明显的安全漏洞(硬编码密钥、SQL 注入、XSS、未验证输入)
依赖是否有已知高危漏洞
执行:grep -rn "password\|secret\|api.key" --include="*.js" --include="*.ts" --include="*.py" --include="*.rs" | grep -v "node_modules\|test\|\.env\.example" | head -10
执行:npm audit 2>/dev/null | grep -i "high\|critical" | head -5(Node.js 项目)
执行:cargo audit 2>/dev/null | head -10(Rust 项目)
维度 4:测试质量(15 分)
执行步骤:
1. 搜索测试文件:
find . -name "*.test.*" -o -name "*.spec.*" -o -name "*_test.*" -o -name "test_*" | grep -v node_modules | head -20
2. 统计测试文件数量
3. 阅读至少 2 个测试文件,评估测试质量
4. 执行测试(如果可以):
Node.js: npm test 2>&1 | tail -30
Rust: cargo test 2>&1 | tail -30
Python: pytest 2>&1 | tail -30
5. 检查测试覆盖率(如果有覆盖率报告)
评分:
15 分:有完善的测试套件(单元 + 集成),测试可运行通过,覆盖率 ≥ 60%
12 分:有测试且可运行,覆盖率 ≥ 40% 或测试数量合理
9 分:有测试文件但部分无法运行,或测试覆盖不足
5 分:有少量测试但质量差(空测试、仅 smoke test)
2 分:有测试文件但全部空壳或无法运行
0 分:完全没有测试
维度 5:工程化与文档(10 分)
执行步骤:
1. 检查项目文档:
cat README.md 2>/dev/null | head -30
2. 检查配置文件完整性:
ls -la .eslintrc* .prettierrc* tsconfig* Cargo.toml docker* .github/ 2>/dev/null
3. 检查部署配置:
cat Dockerfile 2>/dev/null | head -20
cat docker-compose* 2>/dev/null | head -20
4. 检查 CI 配置:
ls .github/workflows/ 2>/dev/null
cat .github/workflows/*.yml 2>/dev/null | head -30
5. 检查 .gitignore 是否合理:
cat .gitignore 2>/dev/null | head -20
评分:
10 分:README 完整(项目说明 + 启动步骤 + API 文档)、有 CI 配置、有 Docker 配置、有代码规范配置
8 分:README 存在且有启动步骤、有 Docker 或 CI 之一
5 分:README 存在但内容简单,缺少部署/CI 配置
2 分:仅有默认 README
0 分:无 README
各任务详细需求清单
验证维度 2(功能完整性)时,按以下清单逐条检查。
任务 1:知识库系统(类 Notion/Outline)
目录:E:/V1.0.0的7个测试任务/任务1-knowledge-base/
需求功能清单(共 6 项):
1. 用户认证系统(注册 + 登录 + GitHub OAuth)
执行:find . -path "*/auth*" -o -path "*/login*" -o -path "*/oauth*" | grep -v node_modules | head -10
读取找到的文件,确认有实际认证逻辑
2. 文档编辑器(富文本或 Markdown)
执行:grep -rl "editor\|markdown\|tiptap\|prosemirror\|quill\|slate" --include="*.ts" --include="*.tsx" --include="*.js" --include="*.vue" | grep -v node_modules | head -10
3. 文档目录/组织结构(树形或文件夹式)
执行:grep -rl "folder\|directory\|tree\|workspace\|space" --include="*.ts" --include="*.js" | grep -v node_modules | head -10
4. 搜索功能
执行:grep -rl "search" --include="*.ts" --include="*.js" | grep -v node_modules | head -10
读取确认有搜索逻辑(非仅 UI 输入框)
5. REST API
执行:find . -path "*/route*" -o -path "*/api*" -o -path "*/controller*" | grep -v node_modules | head -10
读取确认有端点定义
6. 部署配置(Docker Compose 或等价)
执行:find . -name "Dockerfile" -o -name "docker-compose*" | head -5
任务 2:Hoppscotch 新增 API 负载测试模块
目录:E:/V1.0.0的7个测试任务/任务2-hoppscotch/hoppscotch/
需求功能清单(共 8 项):
1. Load Testing 入口(新标签页或导航项)
执行:grep -rl "load.test\|loadtest\|load-test\|benchmark" --include="*.vue" --include="*.ts" | grep -v node_modules | head -10
2. 并发引擎配置(并发数、总请求数、持续时间、Ramp-up)
执行:grep -rl "concurren\|ramp.up\|duration\|requests.*count" --include="*.ts" --include="*.vue" | grep -v node_modules | head -10
3. 实时数据面板(RPS、延迟、错误率)
执行:grep -rl "rps\|latency\|error.rate\|throughput" --include="*.ts" --include="*.vue" | grep -v node_modules | head -10
4. 图表(Latency 直方图、Throughput 时序图、Error Rate 饼图)
执行:grep -rl "chart\|histogram\|pie\|graph\|echarts\|chart.js\|d3" --include="*.ts" --include="*.vue" | grep -v node_modules | head -10
5. 报告导出(JSON + HTML)
执行:grep -rl "export.*report\|download.*report\|report.*json\|report.*html" --include="*.ts" --include="*.vue" | grep -v node_modules | head -10
6. 复用 Collections 请求配置
执行:grep -rl "collection" --include="*.ts" --include="*.vue" | grep -v node_modules | head -10
读取确认引用了 Hoppscotch 现有的 collection 类型
7. 遵循 Hoppscotch 代码规范(使用项目现有组件库)
执行:grep -l "@hoppscotch\|composable\|~/helpers" $(find . -name "*.vue" -newer .git/refs/heads/gitcortex-demo 2>/dev/null) | head -10
8. 历史记录保存和对比
执行:grep -rl "history\|compare\|previous.*result" --include="*.ts" --include="*.vue" | grep -v node_modules | head -10
附加检查:项目整体可构建
执行:pnpm install && pnpm build 2>&1 | tail -20
任务 3:Express.js → Rust Axum 完整迁移
目录:E:/V1.0.0的7个测试任务/任务3-express-to-rust/express-rest-boilerplate/
需求功能清单(共 9 项):
1. 纯 Rust 项目(Cargo.toml 存在,无 JS/TS 源码残留)
执行:cat Cargo.toml | head -10
执行:find . -name "*.js" -o -name "*.ts" | grep -v node_modules | grep -v ".d.ts" | head -10
如果有 JS/TS 源文件 → 扣分
2. 所有 API 端点功能对等
执行:grep -rn "fn\|async fn\|Router\|get\|post\|put\|delete" src/ --include="*.rs" | grep -i "route\|handler\|api" | head -20
3. PostgreSQL + SQLx
执行:grep "sqlx\|postgres" Cargo.toml
4. JWT 认证
执行:grep "jsonwebtoken\|jwt" Cargo.toml
5. validator crate 输入验证
执行:grep "validator" Cargo.toml
6. tower middleware(tracing + thiserror)
执行:grep "tower\|tracing\|thiserror" Cargo.toml
7. argon2 密码加密
执行:grep "argon2" Cargo.toml
8. Docker 部署配置
执行:find . -name "Dockerfile" -o -name "docker-compose*" | head -5
9. API 文档(utoipa/swagger)
执行:grep "utoipa\|swagger" Cargo.toml
附加检查:
执行:cargo check 2>&1 | tail -10
执行:cargo test 2>&1 | tail -10
任务 4:祖传代码重构 + 测试覆盖率 0→80%
目录:E:/V1.0.0的7个测试任务/任务4-refactor-test/rest-api-nodejs-mongodb/
需求功能清单(共 10 项):
1. 架构分层:Route → Controller → Service → Repository → Model
执行:find . -type d | grep -iE "controller|service|repository|route|model" | grep -v node_modules | head -15
每层至少有 1 个文件
2. 统一错误处理:AppError + 全局中间件
执行:grep -rl "AppError\|ErrorHandler\|error.middleware\|globalError" --include="*.js" --include="*.ts" | grep -v node_modules | head -5
3. 输入验证层(Joi 或 Zod)
执行:grep -rl "joi\|zod\|validate\|schema" --include="*.js" --include="*.ts" | grep -v node_modules | head -10
4. 环境变量管理(dotenv + config 验证,无硬编码)
执行:cat .env.example 2>/dev/null || find . -name ".env*" | head -5
执行:grep -rn "process\.env" --include="*.js" --include="*.ts" | grep -v node_modules | head -10
5. ESLint + Prettier 配置
执行:ls .eslintrc* .prettierrc* 2>/dev/null
执行:npx eslint . 2>&1 | tail -10(零错误)
6. 单元测试(每个 Service 对应测试,mock 数据库)
执行:find . -name "*.test.*" -o -name "*.spec.*" | grep -v node_modules | head -20
读取确认测试中有 mock/stub
7. 集成测试(supertest + mongodb-memory-server)
执行:grep -rl "supertest\|mongodb-memory-server" --include="*.js" --include="*.ts" | grep -v node_modules | head -5
8. 测试覆盖率 ≥ 80%
执行:npm test -- --coverage 2>&1 | tail -30(或项目配置的覆盖率命令)
查看覆盖率百分比
9. GitHub Actions CI
执行:find . -path "*/.github/workflows/*.yml" | head -5
读取确认包含 lint → test → coverage 步骤
10. 保留原有 API 功能不变
执行:对比 git log 确认原有路由端点仍存在
任务 5:微服务电商系统
目录:E:/V1.0.0的7个测试任务/任务5-ecommerce/
需求功能清单(共 6 项):
1. User Service(用户注册/登录)
执行:find . -maxdepth 2 -type d | grep -i "user" | head -5
进入目录检查 package.json 或其他依赖文件存在
2. Product Service(商品管理)
执行:find . -maxdepth 2 -type d | grep -i "product\|catalog" | head -5
3. Order Service(订单处理)
执行:find . -maxdepth 2 -type d | grep -i "order" | head -5
4. 每个服务独立依赖
执行:find . -maxdepth 2 -name "package.json" -o -name "Cargo.toml" -o -name "go.mod" | grep -v node_modules | head -10
确认每个服务目录有独立的依赖文件
5. Docker Compose 编排
执行:cat docker-compose* 2>/dev/null | head -40
检查是否包含多个 service 定义
6. 服务间通信机制
执行:grep -rl "grpc\|rabbitmq\|kafka\|amqp\|nats\|http.*service\|fetch.*service\|axios.*service" --include="*.ts" --include="*.js" --include="*.go" --include="*.rs" | grep -v node_modules | head -10
任务 6:安全审计 + 性能优化 + 监控(Kutt 项目)
目录:E:/V1.0.0的7个测试任务/任务6-kutt-security/kutt/
需求功能清单(分 3 个方向,共 12 项):
安全加固(4 项):
1. Helmet.js 安全头
执行:grep -rl "helmet" --include="*.js" --include="*.ts" | grep -v node_modules | head -5
2. 速率限制
执行:grep -rl "rate.limit\|rateLimit" --include="*.js" --include="*.ts" | grep -v node_modules | head -5
3. 输入验证/URL 验证
执行:grep -rl "sanitize\|validate.*url\|xss\|csrf" --include="*.js" --include="*.ts" | grep -v node_modules | head -5
4. 认证加固(密码策略或 JWT 刷新)
执行:grep -rl "password.*strength\|refresh.*token\|account.*lock" --include="*.js" --include="*.ts" | grep -v node_modules | head -5
性能优化(3 项):
5. Redis 缓存层
执行:grep -rl "redis\|ioredis\|cache" --include="*.js" --include="*.ts" | grep -v node_modules | head -5
6. 数据库索引优化
执行:grep -rl "createIndex\|ensureIndex\|index.*true\|migration.*index" --include="*.js" --include="*.ts" | grep -v node_modules | head -5
7. 性能基准测试
执行:find . -name "*benchmark*" -o -name "*perf*" | grep -v node_modules | head -5
监控体系(5 项):
8. Prometheus metrics
执行:grep -rl "prom-client\|prometheus\|metrics" --include="*.js" --include="*.ts" | grep -v node_modules | head -5
9. Grafana Dashboard 配置
执行:find . -name "*.json" -path "*grafana*" -o -name "*dashboard*" | head -5
10. 健康检查端点
执行:grep -rl "health\|healthz\|readyz" --include="*.js" --include="*.ts" | grep -v node_modules | head -5
11. 结构化日志
执行:grep -rl "winston\|pino\|bunyan\|structured.*log\|json.*log" --include="*.js" --include="*.ts" | grep -v node_modules | head -5
12. Docker Compose 更新(Redis + Prometheus + Grafana)
执行:cat docker-compose* 2>/dev/null | grep -iE "redis|prometheus|grafana" | head -10
任务 7:飞书备忘录(Web Memo)
目录:E:/V1.0.0的7个测试任务/任务7-web-memo/
需求功能清单(共 6 项):
1. 备忘录 CRUD(创建、编辑、删除、搜索)
执行:grep -rl "create\|update\|delete\|search" --include="*.ts" --include="*.tsx" --include="*.js" --include="*.jsx" --include="*.vue" | grep -v node_modules | head -10
读取核心文件确认有完整 CRUD 逻辑
2. 标签系统
执行:grep -rl "tag" --include="*.ts" --include="*.tsx" --include="*.js" --include="*.vue" | grep -v node_modules | head -10
3. 分类系统
执行:grep -rl "category\|categor" --include="*.ts" --include="*.tsx" --include="*.js" --include="*.vue" | grep -v node_modules | head -10
4. 标签 + 分类组合筛选
执行:读取筛选/过滤相关代码,确认支持双维度
5. 暖色调现代化 UI
执行:grep -rn "orange\|warm\|amber\|coral\|peach\|#ff[89a-f]\|hsl.*[23][0-9]" --include="*.css" --include="*.scss" --include="*.vue" --include="*.tsx" | head -10
如果项目可启动,用浏览器 MCP 打开页面截图验证
6. 前端页面可正常打开
执行:根据项目类型构建并启动(npm run build / npm start)
如果可以,在浏览器中打开验证
一票否决项
在打分前先检查以下否决项,任一触发则该任务直接 0 分:
1. 仓库为空(仅初始 commit)→ 该任务 0 分
2. 代码存在明显抄袭/复制粘贴整个开源项目(而非基于需求新开发)→ 该任务 0 分
3. 超过 50% 的源文件是空壳/TODO/placeholder → 该任务 0 分
输出格式
完成所有 7 个任务的评审后,按以下格式输出评分报告:
SoloDawn V1.0 任务质量验收报告
任务 1:知识库系统(权重 15%)
可构建性: XX/20 [依赖安装/构建结果]
功能完整性: XX/25 [X/6 项功能实现]
代码质量: XX/30 [架构 X/10 + 规范 X/10 + 安全 X/10]
测试质量: XX/15 [测试文件数/覆盖率/可运行性]
工程化文档: XX/10 [README/Docker/CI/规范配置]
任务得分: XX/100
任务 2:Hoppscotch 负载测试(权重 20%)
[同上格式]
[... 任务 3-7 同上格式 ...]
总 评
任务 得分 权重 加权分
任务 1 XX 15% XX
任务 2 XX 20% XX
任务 3 XX 15% XX
任务 4 XX 15% XX
任务 5 XX 15% XX
任务 6 XX 10% XX
任务 7 XX 10% XX
总分:XX / 100
评级:S / A / B / C / D
S = 95-100 卓越
A = 85-94 优秀
B = 70-84 合格(发布门槛)
C = 60-69 待改进
D = < 60 不合格
评审总结:
[2-3 句话总结整体质量,指出最突出的优点和最明显的不足]
佬们投投票 ![]()
- 任务很简单,没毛病
- 任务过于复杂,V1没必要
- 太对了,我预想的 AI 全自动开发就得达到这个水平
13 个帖子 - 5 位参与者