让ai优化的大模型高阶数学推理测试题,不知道效果如何

原题目为高中数学压轴题,经过GPT5.5改编如下,不知道效果如何 题目: AI 大模型高阶数学推理测试题 总说明: 本题由五个相互独立但结构相关的模块组成。 答题者需要给出完整推理过程。 仅给出结论不得满分。 本题重点考察: 1. 模运算与有限群上的分布; 2. 随机游走的首达时间与生成函数; 3....
让ai优化的大模型高阶数学推理测试题,不知道效果如何
让ai优化的大模型高阶数学推理测试题,不知道效果如何

原题目为高中数学压轴题,经过GPT5.5改编如下,不知道效果如何 :smiling_face_with_tear:

题目:

AI 大模型高阶数学推理测试题

总说明:

本题由五个相互独立但结构相关的模块组成。
答题者需要给出完整推理过程。
仅给出结论不得满分。

本题重点考察:
1. 模运算与有限群上的分布;
2. 随机游走的首达时间与生成函数;
3. 数表操作的线性代数不变量;
4. 空间向量中的存在性条件与极值;
5. 对错误证明的识别、修正与反例构造。

------------------------------------------------------------
第一部分:动态验证码、模运算与分布反演
------------------------------------------------------------

设 a1,a2,a3 独立且均匀地取自集合 {0,1,2,...,9}。

对 m∈{1,2,3,4,5,6,7,8,9,10},定义动态验证码 xm 为:

xm ≡ a1 m^3 + a2 m^2 + a3 m  (mod 10)。

记:

Qk = P(xm=k),

其中 m 不是均匀随机,而是按照未知分布:

P(m=i)=pi,i=1,2,...,10,

满足:

pi>0,且 p1+p2+...+p10=1。

(1)对每个 m=1,2,...,10,求 xm 在 {0,1,...,9} 上的分布类型。
要求给出判断依据,而不是逐项枚举。

(2)给出 Q0,Q1,...,Q9 关于 p1,p2,...,p10 的显式表达式。

(3)证明:无论 pi 如何取值,只要 p2+p4+p5+p6+p8+p10>0,就有

Q0 > Q1

是否一定成立?若成立,给出证明;若不成立,给出反例。

(4)设观察到验证码分布满足:

Q0=Q5=1/4,
Q2=Q4=Q6=Q8=1/8,
Q1=Q3=Q7=Q9=0。

问是否能够唯一确定 m 的分布 p1,...,p10?
若能,求出所有 pi;若不能,描述所有可能的 pi 组成的集合。

(5)进一步设攻击者可以自由选择三位静态密码 a1a2a3,
但不知道 m 的分布。
攻击者希望使 xm=0 的概率尽可能大。

在 pi>0 且 p1+...+p10=1 的条件下,求:

max over (a1,a2,a3) inf over (p1,...,p10) P(xm=0)。

并给出达到该值的所有静态密码结构。

------------------------------------------------------------
第二部分:随机游走、首达时间与繁殖次数分布
------------------------------------------------------------

考虑如下 3×3 方格:

A  B  A
B  C  B
A  B  A

微生物初始位于中心 C。
每一步从当前格子等概率移动到相邻格子。
每当到达 A 格时发生一次繁殖。

记第 n 次繁殖发生时已经走过的总步数为 Xn。

(6)求 X1 的概率生成函数:

G1(z)=E[z^X1]。

并由此求 E(X1) 与 Var(X1)。

(7)求 Xn 的概率生成函数 Gn(z)=E[z^Xn]。

要求写成闭式表达式。

(8)求 Xn 的精确分布,即给出:

P(Xn=t)

关于 n,t 的公式。

注意:需要明确指出哪些 t 的概率为 0。

(9)设 Y(t) 表示前 t 步内发生的繁殖次数。
求 E[Y(t)] 的精确表达式或一个带有明确误差项的渐近表达式。

(10)若每次繁殖后,微生物有概率 r 被重置回 C,有概率 1-r 留在当前 A 格继续随机游走。
其中 0≤r≤1。
求第 n 次繁殖时间的期望 E_r(Xn)。

------------------------------------------------------------
第三部分:数表变换、线性代数与可达性
------------------------------------------------------------

设 n≥2。
在 n×n 数表中填整数。
一次操作 T(i,j,ε) 定义为:

选择第 i 行和第 j 列,并将这一行与这一列的所有格子同时加 ε,
其中 ε∈{+1,-1},
行列交叉处只加一次。

设初始矩阵为 M=(mij),目标矩阵为 N=(nij)。

(11)用线性代数语言刻画所有从 M 可达的矩阵 N。
要求给出充要条件。

(12)证明:若 n=11,且初始矩阵为:

左上角 10×10 区域全为 13;
最后一列前 10 个数全为 -130;
最后一行前 10 个数全为 -130;
右下角为 1300;

目标矩阵全为 1,

则目标不可达。

要求不能只用“总和模 21”这一条不变量,而要给出更强的不变量体系。

(13)对于一般 n,求从零矩阵到全 1 矩阵可达的充要条件。

(14)如果操作改为:
每次选择一行和一列,使这一行加 1,这一列减 1,交叉格不变。

问从零矩阵到给定整数矩阵 A 的可达充要条件是什么?

(15)考虑随机操作:
每一步等概率选择 i,j,并以概率 1/2 加 1,以概率 1/2 减 1。

在模 q 的意义下研究状态空间。
求该随机过程在模 q 状态空间上的不可约分解。
特别讨论 q 为奇数与 q 为偶数时的差异。

------------------------------------------------------------
第四部分:空间向量、凸几何与极值
------------------------------------------------------------

在三维空间直角坐标系中,设:

i=(1,0,0),j=(0,1,0)。

定义点集:

Aθ = {P | OP·j=1,且 OP 与 j 的夹角为 θ},

其中 0<θ<π/2。

点集 Bθ 满足:

Q∈Bθ 当且仅当存在 P∈Aθ,使得 OP·OQ=2。

设 T∈Bθ,且:

OT = x i + y j,

并满足:

|OT - j| = R,

其中 R>0。

(16)用 x,y,θ,R 刻画所有可能的 T。
要求给出一个等价的不等式系统。

(17)求 OT·i=x 的取值范围,答案需按 θ 与 R 的不同关系进行分类。

(18)令 θ=π/4,R=2。
验证第(17)问所得结果与原题结果一致。

(19)设 R 固定,求使 x 的可取区间总长度最大的 θ。
若最大值不存在,求上确界并说明原因。

(20)将条件“存在 P∈Aθ”改为“对所有 P∈Aθ 都有 OP·OQ=2”。
重新求 T 的可能集合,并判断此时是否还存在满足 |OT-j|=R 的非空解。

------------------------------------------------------------
第五部分:错误证明识别、修复与反例构造
------------------------------------------------------------

某 AI 对第(13)问给出如下证明:

“每次操作会改变 2n-1 个格子,因此全表总和每次改变 ±(2n-1)。从零矩阵到全 1 矩阵需要总和从 0 变为 n^2,所以只要 n^2 是 2n-1 的倍数,就可达。解得 n=1,所以 n≥2 时都不可达。”

(21)判断该证明是否正确。
若错误,请指出错误发生在哪里。

(22)给出第(13)问的正确结论。

(23)构造一个 n≥2 的例子,说明“总和模 2n-1 不变量”不是完整不变量。

(24)设计一个新的操作规则,使得“总和模某个数”成为完整不变量。
要求说明为什么完整。

(25)从第(1)到第(24)中选择你认为最能区分强弱 AI 模型的三个小问,
并说明理由。

答案

AI 大模型高阶数学推理测试题 —— 修正版完整标准答案

============================================================
第一部分:动态验证码、模运算与分布反演
============================================================

(1)

对固定 m,有:

xm ≡ a1m^3+a2m^2+a3m (mod 10)
   ≡ m(a1m^2+a2m+a3) (mod 10)。

由于 a1,a2,a3 在 Z/10Z 上独立均匀,
xm 的分布由 gcd(m,10) 决定。

若 gcd(m,10)=1,则 xm 在 {0,1,2,...,9} 上均匀分布。
对应:

m=1,3,7,9。

若 gcd(m,10)=2,则 xm 在 {0,2,4,6,8} 上均匀分布。
对应:

m=2,4,6,8。

若 gcd(m,10)=5,则 xm 在 {0,5} 上均匀分布。
对应:

m=5。

若 gcd(m,10)=10,则 xm 恒等于 0。
对应:

m=10。


(2)

记:

A=p1+p3+p7+p9,
E=p2+p4+p6+p8,
F=p5,
Z=p10。

则:

Qk = A/10 + 1_{k为偶数} E/5 + 1_{k=0或5} F/2 + 1_{k=0} Z。

具体为:

Q0=A/10+E/5+F/2+Z。
Q1=A/10。
Q2=A/10+E/5。
Q3=A/10。
Q4=A/10+E/5。
Q5=A/10+F/2。
Q6=A/10+E/5。
Q7=A/10。
Q8=A/10+E/5。
Q9=A/10。


(3)

由第(2)问:

Q0-Q1 = E/5+F/2+Z

= (p2+p4+p6+p8)/5 + p5/2 + p10。

若:

p2+p4+p5+p6+p8+p10>0,

则右边严格大于 0。

因此命题成立:

Q0>Q1。


(4)

由:

Q1=Q3=Q7=Q9=0,

而:

Q1=Q3=Q7=Q9=A/10,

得:

A=0。

所以:

p1=p3=p7=p9=0。

这已经与 pi>0 矛盾。

即使放宽为 pi≥0,也会矛盾。

因为:

Q2=E/5=1/8,

所以:

E=5/8。

又:

Q5=F/2=1/4,

所以:

F=1/2。

于是:

Q0=E/5+F/2+Z
  =1/8+1/4+Z
  =3/8+Z。

这不可能等于 1/4。

因此该观察分布不可能由任何合法的 p_i 产生。

结论:

不能唯一确定 p_i,因为根本不存在满足条件的 p_i。


(5)

严格地,由于 pi>0,应求:

max over password inf over p_i>0 P(xm=0)。

若某密码不能保证所有 m=1,...,10 下 xm 都为 0,
则对手可以把不利的 m 的概率取到任意接近 1,
从而使 P(xm=0) 的下确界为 0。

因此要使下确界为 1,必须满足:

a1m^3+a2m^2+a3m ≡ 0 (mod 10)

对所有 m=1,2,...,10 成立。

模 5 考察。

对 m=1,2,3,4,可除去 m,得:

a1m^2+a2m+a3≡0 (mod 5)。

这是一个二次多项式在 F5 中有 4 个根,
因此必须是零多项式。

所以:

a1≡a2≡a3≡0 (mod 5)。

因此每个 ai 只能是 0 或 5。

再模 2 考察。

由于 5≡1 (mod 2),所以要求:

a1+a2+a3≡0 (mod 2)。

也就是说,三个位置中取 5 的个数必须为偶数。

因此所有最优密码为:

000,055,505,550。

结论:

max inf P(xm=0)=1,

达到者为:

000,055,505,550。


============================================================
第二部分:随机游走、首达时间与繁殖次数分布
============================================================

(6)

从 C 出发,第一步必到 B。

从 B 出发:
到 A 的概率为 2/3;
回 C 的概率为 1/3。

因此第一次繁殖时间 X1 只可能取偶数:

P(X1=2k)=(1/3)^(k-1)(2/3),k=1,2,...

所以概率生成函数为:

G1(z)=Σ_{k≥1} (1/3)^(k-1)(2/3) z^(2k)

= (2z^2)/(3-z^2)。

因此:

G1(z)=2z^2/(3-z^2)。

令 X1=2K,其中 K~Geom(2/3)。

所以:

E(K)=3/2,
Var(K)=3/4。

于是:

E(X1)=3,
Var(X1)=3。


(7)

每两次繁殖之间的时间间隔与 X1 同分布,
并且由强马尔可夫性可视为独立同分布。

因此:

Xn = Y1+Y2+...+Yn,

其中 Yi 独立同分布,且 Yi~X1。

所以:

Gn(z)=G1(z)^n

= [2z^2/(3-z^2)]^n。


(8)

设:

Xn=2Sn。

其中 Sn 是 n 个参数为 2/3 的几何分布之和,
所以 Sn 服从负二项分布。

若 t 为奇数,或 t<2n,则:

P(Xn=t)=0。

若 t=2s,且 s≥n,则:

P(Xn=2s)=C(s-1,n-1)(2/3)^n(1/3)^(s-n)。

其中 C(s-1,n-1) 表示组合数。


(9)

设 Y(t) 表示前 t 步内发生的繁殖次数。

每两个步长构成一次独立尝试:
第一步到 B;
第二步从 B 到 A 的概率为 2/3。

前 t 步中完整两步周期数为:

floor(t/2)。

因此:

Y(t)~Binomial(floor(t/2),2/3)。

所以:

E[Y(t)] = (2/3)floor(t/2)。

渐近地:

E[Y(t)] = t/3+O(1)。


(10)

每次繁殖后:

以概率 r 重置回 C;
以概率 1-r 留在当前 A。

从 C 到下一次 A 的期望时间为 3。
从 A 到下一次 A 的期望时间也为 3。

所以重置不影响期望间隔。

因此:

E_r(Xn)=3n。

该式对所有 0≤r≤1 成立。


============================================================
第三部分:数表变换、线性代数与可达性
============================================================

(11)

设:

D=N-M。

令:

S = D 的全体元素总和;
R_a = D 的第 a 行元素和;
C_b = D 的第 b 列元素和。

一次操作 T(i,j,ε) 对应矩阵 L_ij 的 ±1 倍。

所有可达差矩阵构成整数格:

Λ=span_Z{L_ij}。

D 可达当且仅当:

S≡0 (mod 2n-1),

并且令:

K=S/(2n-1),

有:

R_a≡K (mod n-1),对所有 a=1,...,n 成立;
C_b≡K (mod n-1),对所有 b=1,...,n 成立。

即:

D 可达 ⇔
{
S≡0 (mod 2n-1),
R_a≡S/(2n-1) (mod n-1), for all a,
C_b≡S/(2n-1) (mod n-1), for all b.
}

必要性来自单次操作对总和、行和、列和的改变规律。

充分性可由 Smith 标准形或格指数证明:

操作矩阵生成格 Λ 在 Z^(n^2) 中的指数为:

(2n-1)(n-1)^(2n-2)。

上述同余条件定义的格点集合也具有同样指数。

因为 Λ 包含于该集合且指数相同,
故二者相等。

因此上述条件为充要条件。


(12)

本题 n=11。

完整不变量体系为:

S≡0 (mod 21)。

若:

K=S/21,

则所有行和、列和还必须满足:

R_a≡K (mod 10),对所有行 a 成立;
C_b≡K (mod 10),对所有列 b 成立。

初始矩阵总和为:

100·13+20·(-130)+1300=0。

目标全 1 矩阵总和为:

121。

因此差矩阵总和:

S=121。

但是:

121≡16 (mod 21)。

所以完整不变量体系的第一条已经失败。

因此目标不可达。

结论:

不能变成全 1 数表。

注意:

不能只说“总和模 21 不变”,
还应明确完整不变量体系包括:

总和模 21;
所有行和模 10;
所有列和模 10。


(13)

从零矩阵到全 1 矩阵时:

D=J。

此时:

S=n^2。

必要条件:

2n-1 | n^2。

但:

gcd(n,2n-1)=1。

所以若 2n-1 | n^2,则必须:

2n-1 | 1。

因此:

2n-1=1,

即:

n=1。

所以:

从零矩阵到全 1 矩阵可达当且仅当 n=1。

对题设 n≥2,均不可达。


(14)

新操作为:

选择一行加 1,选择一列减 1,交叉格不变。

一次操作对应:

G_ij = R_i - C_j。

所有可达矩阵 A 必须形如:

A_ab = u_a - v_b。

并且由于每次操作总和不变,所以:

sum_{a,b} A_ab = 0。

等价地,A 可达当且仅当:

1. 全体元素总和为 0;

2. 对任意 a,c,b,d,有:

A_ab + A_cd = A_ad + A_cb。

第二条表示所有 2×2 混合差为 0,
等价于 A_ab=u_a-v_b 的可分离形式。

因此充要条件为:

sum A_ab=0,

且

A_ab + A_cd = A_ad + A_cb

对所有合法指标成立。


(15)

模 q 状态空间为:

G=(Z/qZ)^(n^2)。

设 H_q 为模 q 意义下由所有操作矩阵生成的子群。

随机过程的不可约类就是 G/H_q 的各个陪集。

整数商群的 Smith 标准形为:

Z^(n^2)/Λ ≅ (Z_(n-1))^(2n-3) ⊕ Z_((n-1)(2n-1))。

因此:

G/H_q ≅ (Z_gcd(q,n-1))^(2n-3)
        ⊕ Z_gcd(q,(n-1)(2n-1))。

又因为:

gcd(n-1,2n-1)=1,

所以也可写成:

G/H_q ≅ (Z_gcd(q,n-1))^(2n-2)
        ⊕ Z_gcd(q,2n-1)。

不可约类数量为:

gcd(q,n-1)^(2n-2) · gcd(q,2n-1)。

若 q 为奇数,分解由 q 与 n-1、2n-1 的公共因子决定。

若 q 为偶数,由于 2n-1 恒为奇数,偶因子只可能来自 gcd(q,n-1)。

当 n 为奇数时,n-1 为偶数,模 2 层面可能出现额外不变量。
当 n 为偶数时,n-1 为奇数,模 2 层面不产生这类行列奇偶不变量。


============================================================
第四部分:空间向量、凸几何与极值
============================================================

(16)

设:

rho=tanθ。

点 P∈Aθ 时,设 OP=(a,b,c)。

由:

OP·j=1

得:

b=1。

又:

angle(OP,j)=θ,

所以:

1/|OP|=cosθ,

即:

|OP|=secθ。

因此:

a^2+c^2=tan^2θ=rho^2。

所以:

Aθ={(a,1,c):a^2+c^2=rho^2}。

设:

OT=(x,y,0)。

存在 P∈Aθ 使 OP·OT=2,
等价于存在 a∈[-rho,rho] 使:

ax+y=2。

这等价于:

|2-y|≤rho|x|。

又:

|OT-j|=R

等价于:

x^2+(y-1)^2=R^2。

因此所有可能 T 的等价刻画为:

x^2+(y-1)^2=R^2,
|2-y|≤tanθ |x|。


(17)

令:

rho=tanθ,
A=1+rho^2,
s=y-1。

则圆方程为:

x^2+s^2=R^2。

约束为:

|1-s|≤rho|x|。

平方得:

(1-s)^2≤rho^2(R^2-s^2)。

整理为:

(1+rho^2)s^2-2s+1-rho^2R^2≤0。

该不等式有解当且仅当:

R≥1/sqrt(1+rho^2)=cosθ。

所以:

若 R<cosθ,则无解。

若 R≥cosθ,令:

h=sqrt((1+rho^2)R^2-1)。

则 x 的取值集合关于 0 对称。

定义:

u_min = |h-rho|/(1+rho^2)。

定义:

u_max =
R,若 rho R≥1;
(rho+h)/(1+rho^2),若 rho R<1。

于是:

若 u_min>0,则:

x∈[-u_max,-u_min] ∪ [u_min,u_max]。

若 u_min=0,则:

x∈[-u_max,u_max]。

这就是 OT·i=x 的完整取值范围。


(18)

当:

θ=π/4,R=2,

有:

rho=1,
1+rho^2=2,
h=sqrt(2·4-1)=sqrt7。

又:

rho R=2≥1,

所以:

u_max=2,

u_min=(sqrt7-1)/2。

因此:

x∈[-2,-(sqrt7-1)/2] ∪ [(sqrt7-1)/2,2]。

即:

x∈[-2,(1-sqrt7)/2] ∪ [(sqrt7-1)/2,2]。

这与原题结果一致。


(19)

固定 R>0。

由于:

x^2+(y-1)^2=R^2,

所以:

|x|≤R。

因此 x 的可取区间总长度不超过:

2R。

当 θ→π/2 时:

tanθ→∞,

约束:

|2-y|≤tanθ|x|

趋于几乎不限制圆上的点。

因此可取区间长度的上确界为:

2R。

若 R=1,则当 θ≥π/4 时,
x 的可取范围可以达到完整区间:

[-1,1],

长度为 2。

若 R≠1,则最大长度 2R 一般不能在 0<θ<π/2 内真正达到,
只能在 θ→π/2 时逼近。

结论:

sup length=2R。

R=1 时最大值可达;
R≠1 时一般只有上确界,不在开区间内达到。


(20)

若要求:

对所有 P∈Aθ 都有 OP·OQ=2,

设:

OQ=(X,Y,Z)。

又:

OP=(a,1,c),a^2+c^2=rho^2。

则:

aX+Y+cZ=2

对圆上所有 (a,c) 成立。

这只有在:

X=0,
Z=0,
Y=2

时成立。

因此:

Q=(0,2,0)。

若 T=(x,y,0),则唯一可能:

T=(0,2,0)。

此时:

|OT-j|=|(0,2,0)-(0,1,0)|=1。

所以:

若 R=1,唯一解为 T=(0,2,0);
若 R≠1,无解。


============================================================
第五部分:错误证明识别、修复与反例构造
============================================================

(21)

该证明不正确。

错误在于:

它把“总和模 2n-1 是不变量”这个必要条件,
误当成了充要条件。

总和模 2n-1 只是可达性的一个必要条件,
并不能保证可达。

还存在行和、列和模 n-1 的不变量。


(22)

第(13)问的正确结论是:

从零矩阵到全 1 矩阵可达当且仅当 n=1。

对所有 n≥2,均不可达。


(23)

取 n=3。

此时:

2n-1=5。

考虑目标矩阵:

A =
[1 1 1
1 1 0
0 0 0]

该矩阵总和为 5,
满足:

5≡0 (mod 5)。

所以它满足总和模 5 的必要条件。

但是完整不变量要求:

K=S/(2n-1)=5/5=1。

每一行行和都应满足:

R_a≡1 (mod n-1)=1 (mod 2)。

该矩阵第二行和为:

2≡0 (mod 2),

不满足要求。

所以该矩阵不可达。

这说明:

总和模 2n-1 不变量不是完整不变量。


(24)

设计新操作规则:

固定正整数 q。

允许以下两类操作:

操作 A:
选择两个格子,一个加 1,另一个减 1。

操作 B:
选择任意一个格子,加 q 或减 q。

操作 A 保持全表总和不变。
操作 B 使全表总和改变 q 的整数倍。

同时,操作 A 可以在总和固定的情况下把数值在不同格子间转移;
操作 B 可以调节总和模 q 不变的所有总和层级。

因此从 M 到 N 可达当且仅当:

sum(N)-sum(M)≡0 (mod q)。

所以:

全表总和模 q 是完整不变量。


(25)

最能区分强弱 AI 模型的三个小问是:

(11),(15),(17)。

理由:

第(11)问要求给出完整可达性刻画。
弱模型通常只能发现总和不变量;
强模型需要发现总和、行和、列和的完整同余体系,并证明充要性。

第(15)问要求在模 q 状态空间中进行不可约分解。
这需要有限阿贝尔群、生成子群、Smith 标准形和随机过程状态空间的综合理解。

第(17)问要求完成参数化空间几何极值。
这需要将三维向量条件降维为平面圆与不等式,再按 θ、R 分类讨论。

因此这三问最能区分强弱模型。

评分

{
  "exam_name": "AI_Model_Advanced_Math_Reasoning_Benchmark",
  "total_score": 100,
  "sections": [
    {
      "section_id": 1,
      "section_name": "Modulo_Distribution_and_Inference",
      "max_score": 20,
      "questions": [
        {
          "question_id": "1",
          "max_score": 4,
          "criteria": [
            {
              "id": "1.1",
              "type": "concept",
              "score": 2,
              "description": "Recognizes that the distribution of x_m is determined by gcd(m,10)."
            },
            {
              "id": "1.2",
              "type": "result",
              "score": 2,
              "description": "Correctly classifies m=1,3,7,9 as uniform on all residues; m=2,4,6,8 as uniform on even residues; m=5 as uniform on {0,5}; m=10 as always 0."
            }
          ]
        },
        {
          "question_id": "2",
          "max_score": 4,
          "criteria": [
            {
              "id": "2.1",
              "type": "notation",
              "score": 1,
              "description": "Defines A=p1+p3+p7+p9, E=p2+p4+p6+p8, F=p5, Z=p10 or equivalent grouping."
            },
            {
              "id": "2.2",
              "type": "formula",
              "score": 3,
              "description": "Correctly gives Q_k = A/10 + indicator_even(k)E/5 + indicator_{k in {0,5}}F/2 + indicator_{k=0}Z."
            }
          ]
        },
        {
          "question_id": "3",
          "max_score": 3,
          "criteria": [
            {
              "id": "3.1",
              "type": "calculation",
              "score": 2,
              "description": "Correctly computes Q0-Q1=(p2+p4+p6+p8)/5+p5/2+p10."
            },
            {
              "id": "3.2",
              "type": "conclusion",
              "score": 1,
              "description": "Correctly concludes Q0>Q1 under the stated positive mass condition."
            }
          ]
        },
        {
          "question_id": "4",
          "max_score": 4,
          "criteria": [
            {
              "id": "4.1",
              "type": "inference",
              "score": 2,
              "description": "Uses Q1=Q3=Q7=Q9=0 to derive A=0."
            },
            {
              "id": "4.2",
              "type": "contradiction",
              "score": 2,
              "description": "Correctly proves that the observed distribution is impossible, even allowing nonnegative p_i."
            }
          ]
        },
        {
          "question_id": "5",
          "max_score": 5,
          "criteria": [
            {
              "id": "5.1",
              "type": "rigor",
              "score": 1,
              "description": "Uses infimum rather than minimum because all p_i are strictly positive."
            },
            {
              "id": "5.2",
              "type": "number_theory",
              "score": 2,
              "description": "Correctly reduces the all-m condition modulo 5 and derives a1,a2,a3 are all 0 modulo 5."
            },
            {
              "id": "5.3",
              "type": "number_theory",
              "score": 1,
              "description": "Correctly applies the modulo 2 parity condition."
            },
            {
              "id": "5.4",
              "type": "result",
              "score": 1,
              "description": "Correctly identifies all optimal passwords: 000, 055, 505, 550."
            }
          ]
        }
      ]
    },
    {
      "section_id": 2,
      "section_name": "Random_Walk_Generating_Functions",
      "max_score": 20,
      "questions": [
        {
          "question_id": "6",
          "max_score": 5,
          "criteria": [
            {
              "id": "6.1",
              "type": "model",
              "score": 2,
              "description": "Identifies X1=2K where K is geometric with parameter 2/3."
            },
            {
              "id": "6.2",
              "type": "formula",
              "score": 2,
              "description": "Correctly derives G1(z)=2z^2/(3-z^2)."
            },
            {
              "id": "6.3",
              "type": "result",
              "score": 1,
              "description": "Correctly gives E(X1)=3 and Var(X1)=3."
            }
          ]
        },
        {
          "question_id": "7",
          "max_score": 4,
          "criteria": [
            {
              "id": "7.1",
              "type": "markov_property",
              "score": 2,
              "description": "Recognizes independent identical inter-birth intervals."
            },
            {
              "id": "7.2",
              "type": "formula",
              "score": 2,
              "description": "Correctly gives Gn(z)=[2z^2/(3-z^2)]^n."
            }
          ]
        },
        {
          "question_id": "8",
          "max_score": 4,
          "criteria": [
            {
              "id": "8.1",
              "type": "distribution",
              "score": 3,
              "description": "Correctly derives the negative binomial formula for P(Xn=2s)."
            },
            {
              "id": "8.2",
              "type": "support",
              "score": 1,
              "description": "Correctly states probability is zero for odd t or t<2n."
            }
          ]
        },
        {
          "question_id": "9",
          "max_score": 4,
          "criteria": [
            {
              "id": "9.1",
              "type": "model",
              "score": 2,
              "description": "Identifies floor(t/2) independent Bernoulli trials with success probability 2/3."
            },
            {
              "id": "9.2",
              "type": "result",
              "score": 2,
              "description": "Correctly gives E[Y(t)]=(2/3)floor(t/2) and t/3+O(1)."
            }
          ]
        },
        {
          "question_id": "10",
          "max_score": 3,
          "criteria": [
            {
              "id": "10.1",
              "type": "analysis",
              "score": 2,
              "description": "Recognizes both reset-to-C and stay-at-A lead to expected next birth time 3."
            },
            {
              "id": "10.2",
              "type": "result",
              "score": 1,
              "description": "Correctly gives E_r(Xn)=3n for all 0<=r<=1."
            }
          ]
        }
      ]
    },
    {
      "section_id": 3,
      "section_name": "Matrix_Reachability_and_Invariants",
      "max_score": 25,
      "questions": [
        {
          "question_id": "11",
          "max_score": 8,
          "criteria": [
            {
              "id": "11.1",
              "type": "invariant",
              "score": 2,
              "description": "States total sum congruence modulo 2n-1."
            },
            {
              "id": "11.2",
              "type": "invariant",
              "score": 2,
              "description": "States row sum congruences modulo n-1."
            },
            {
              "id": "11.3",
              "type": "invariant",
              "score": 2,
              "description": "States column sum congruences modulo n-1."
            },
            {
              "id": "11.4",
              "type": "rigor",
              "score": 2,
              "description": "Provides sufficiency via Smith normal form, lattice index equality, or equivalent argument."
            }
          ]
        },
        {
          "question_id": "12",
          "max_score": 4,
          "criteria": [
            {
              "id": "12.1",
              "type": "invariant_system",
              "score": 2,
              "description": "States the full invariant system: total sum modulo 21 and row/column sums modulo 10."
            },
            {
              "id": "12.2",
              "type": "conclusion",
              "score": 2,
              "description": "Correctly computes S=121 and concludes non-reachability."
            }
          ]
        },
        {
          "question_id": "13",
          "max_score": 3,
          "criteria": [
            {
              "id": "13.1",
              "type": "number_theory",
              "score": 2,
              "description": "Uses 2n-1 divides n^2 and gcd(n,2n-1)=1 to force n=1."
            },
            {
              "id": "13.2",
              "type": "result",
              "score": 1,
              "description": "Correctly states zero-to-all-ones is reachable iff n=1."
            }
          ]
        },
        {
          "question_id": "14",
          "max_score": 4,
          "criteria": [
            {
              "id": "14.1",
              "type": "structure",
              "score": 2,
              "description": "Identifies reachable matrices as A_ab=u_a-v_b."
            },
            {
              "id": "14.2",
              "type": "condition",
              "score": 2,
              "description": "Gives equivalent conditions: total sum zero and all 2x2 mixed differences zero."
            }
          ]
        },
        {
          "question_id": "15",
          "max_score": 6,
          "criteria": [
            {
              "id": "15.1",
              "type": "group_theory",
              "score": 2,
              "description": "Identifies irreducible classes as cosets of the generated subgroup H_q."
            },
            {
              "id": "15.2",
              "type": "smith_normal_form",
              "score": 2,
              "description": "Correctly states quotient structure using Smith normal form."
            },
            {
              "id": "15.3",
              "type": "counting",
              "score": 1,
              "description": "Correctly gives number of irreducible classes as gcd(q,n-1)^(2n-2) gcd(q,2n-1)."
            },
            {
              "id": "15.4",
              "type": "case_analysis",
              "score": 1,
              "description": "Correctly discusses odd q versus even q."
            }
          ]
        }
      ]
    },
    {
      "section_id": 4,
      "section_name": "Vector_Geometry_and_Extrema",
      "max_score": 25,
      "questions": [
        {
          "question_id": "16",
          "max_score": 5,
          "criteria": [
            {
              "id": "16.1",
              "type": "geometry",
              "score": 2,
              "description": "Correctly models A_theta as (a,1,c) with a^2+c^2=tan^2(theta)."
            },
            {
              "id": "16.2",
              "type": "existence",
              "score": 2,
              "description": "Correctly converts existence of P to |2-y|<=tan(theta)|x|."
            },
            {
              "id": "16.3",
              "type": "circle",
              "score": 1,
              "description": "Correctly gives x^2+(y-1)^2=R^2."
            }
          ]
        },
        {
          "question_id": "17",
          "max_score": 8,
          "criteria": [
            {
              "id": "17.1",
              "type": "existence_condition",
              "score": 2,
              "description": "Correctly states no solution when R<cos(theta)."
            },
            {
              "id": "17.2",
              "type": "parameterization",
              "score": 2,
              "description": "Defines rho=tan(theta), h=sqrt((1+rho^2)R^2-1), and derives u_min."
            },
            {
              "id": "17.3",
              "type": "case_analysis",
              "score": 2,
              "description": "Correctly gives u_max depending on whether rho R>=1."
            },
            {
              "id": "17.4",
              "type": "result",
              "score": 2,
              "description": "Correctly states the x-range as symmetric intervals."
            }
          ]
        },
        {
          "question_id": "18",
          "max_score": 3,
          "criteria": [
            {
              "id": "18.1",
              "type": "substitution",
              "score": 2,
              "description": "Correctly substitutes theta=pi/4 and R=2."
            },
            {
              "id": "18.2",
              "type": "result",
              "score": 1,
              "description": "Correctly recovers [-2,(1-sqrt7)/2] union [(sqrt7-1)/2,2]."
            }
          ]
        },
        {
          "question_id": "19",
          "max_score": 5,
          "criteria": [
            {
              "id": "19.1",
              "type": "upper_bound",
              "score": 1,
              "description": "Observes total x-interval length is at most 2R."
            },
            {
              "id": "19.2",
              "type": "limit",
              "score": 2,
              "description": "Shows the supremum 2R is approached as theta approaches pi/2."
            },
            {
              "id": "19.3",
              "type": "attainment",
              "score": 2,
              "description": "Correctly handles attainment: R=1 with theta>=pi/4 attains; R!=1 generally only has supremum."
            }
          ]
        },
        {
          "question_id": "20",
          "max_score": 4,
          "criteria": [
            {
              "id": "20.1",
              "type": "universal_condition",
              "score": 2,
              "description": "Correctly derives Q=(0,2,0) from the condition holding for all P."
            },
            {
              "id": "20.2",
              "type": "result",
              "score": 2,
              "description": "Correctly concludes unique solution exists iff R=1."
            }
          ]
        }
      ]
    },
    {
      "section_id": 5,
      "section_name": "Error_Detection_and_Counterexamples",
      "max_score": 10,
      "questions": [
        {
          "question_id": "21",
          "max_score": 2,
          "criteria": [
            {
              "id": "21.1",
              "type": "error_detection",
              "score": 2,
              "description": "Identifies the proof error: a necessary invariant was treated as sufficient."
            }
          ]
        },
        {
          "question_id": "22",
          "max_score": 2,
          "criteria": [
            {
              "id": "22.1",
              "type": "result",
              "score": 2,
              "description": "States the correct conclusion: reachable iff n=1."
            }
          ]
        },
        {
          "question_id": "23",
          "max_score": 2,
          "criteria": [
            {
              "id": "23.1",
              "type": "counterexample",
              "score": 2,
              "description": "Gives a valid example satisfying total-sum invariant but violating row or column invariants."
            }
          ]
        },
        {
          "question_id": "24",
          "max_score": 2,
          "criteria": [
            {
              "id": "24.1",
              "type": "construction",
              "score": 2,
              "description": "Designs operations for which total sum modulo q is a complete invariant and justifies completeness."
            }
          ]
        },
        {
          "question_id": "25",
          "max_score": 2,
          "criteria": [
            {
              "id": "25.1",
              "type": "meta_reasoning",
              "score": 2,
              "description": "Selects plausible high-discrimination questions and justifies the choices."
            }
          ]
        }
      ]
    }
  ]
}

2 个帖子 - 1 位参与者

阅读完整话题

来源: linux.do查看原文