让ai优化的大模型高阶数学推理测试题，不知道效果如何

编辑部 2026-05-04T11:11:47.423725 30324 阅读 tech

原题目为高中数学压轴题，经过GPT5.5改编如下，不知道效果如何题目： AI 大模型高阶数学推理测试题总说明：本题由五个相互独立但结构相关的模块组成。答题者需要给出完整推理过程。仅给出结论不得满分。本题重点考察： 1. 模运算与有限群上的分布； 2. 随机游走的首达时间与生成函数； 3....

原题目为高中数学压轴题，经过GPT5.5改编如下，不知道效果如何

题目：

AI 大模型高阶数学推理测试题

总说明：

本题由五个相互独立但结构相关的模块组成。
答题者需要给出完整推理过程。
仅给出结论不得满分。

本题重点考察：
1. 模运算与有限群上的分布；
2. 随机游走的首达时间与生成函数；
3. 数表操作的线性代数不变量；
4. 空间向量中的存在性条件与极值；
5. 对错误证明的识别、修正与反例构造。

------------------------------------------------------------
第一部分：动态验证码、模运算与分布反演
------------------------------------------------------------

设 a1,a2,a3 独立且均匀地取自集合 {0,1,2,...,9}。

对 m∈{1,2,3,4,5,6,7,8,9,10}，定义动态验证码 xm 为：

xm ≡ a1 m^3 + a2 m^2 + a3 m  (mod 10)。

记：

Qk = P(xm=k)，

其中 m 不是均匀随机，而是按照未知分布：

P(m=i)=pi，i=1,2,...,10，

满足：

pi>0，且 p1+p2+...+p10=1。

（1）对每个 m=1,2,...,10，求 xm 在 {0,1,...,9} 上的分布类型。
要求给出判断依据，而不是逐项枚举。

（2）给出 Q0,Q1,...,Q9 关于 p1,p2,...,p10 的显式表达式。

（3）证明：无论 pi 如何取值，只要 p2+p4+p5+p6+p8+p10>0，就有

Q0 > Q1

是否一定成立？若成立，给出证明；若不成立，给出反例。

（4）设观察到验证码分布满足：

Q0=Q5=1/4，
Q2=Q4=Q6=Q8=1/8，
Q1=Q3=Q7=Q9=0。

问是否能够唯一确定 m 的分布 p1,...,p10？
若能，求出所有 pi；若不能，描述所有可能的 pi 组成的集合。

（5）进一步设攻击者可以自由选择三位静态密码 a1a2a3，
但不知道 m 的分布。
攻击者希望使 xm=0 的概率尽可能大。

在 pi>0 且 p1+...+p10=1 的条件下，求：

max over (a1,a2,a3) inf over (p1,...,p10) P(xm=0)。

并给出达到该值的所有静态密码结构。

------------------------------------------------------------
第二部分：随机游走、首达时间与繁殖次数分布
------------------------------------------------------------

考虑如下 3×3 方格：

A  B  A
B  C  B
A  B  A

微生物初始位于中心 C。
每一步从当前格子等概率移动到相邻格子。
每当到达 A 格时发生一次繁殖。

记第 n 次繁殖发生时已经走过的总步数为 Xn。

（6）求 X1 的概率生成函数：

G1(z)=E[z^X1]。

并由此求 E(X1) 与 Var(X1)。

（7）求 Xn 的概率生成函数 Gn(z)=E[z^Xn]。

要求写成闭式表达式。

（8）求 Xn 的精确分布，即给出：

P(Xn=t)

关于 n,t 的公式。

注意：需要明确指出哪些 t 的概率为 0。

（9）设 Y(t) 表示前 t 步内发生的繁殖次数。
求 E[Y(t)] 的精确表达式或一个带有明确误差项的渐近表达式。

（10）若每次繁殖后，微生物有概率 r 被重置回 C，有概率 1-r 留在当前 A 格继续随机游走。
其中 0≤r≤1。
求第 n 次繁殖时间的期望 E_r(Xn)。

------------------------------------------------------------
第三部分：数表变换、线性代数与可达性
------------------------------------------------------------

设 n≥2。
在 n×n 数表中填整数。
一次操作 T(i,j,ε) 定义为：

选择第 i 行和第 j 列，并将这一行与这一列的所有格子同时加 ε，
其中 ε∈{+1,-1}，
行列交叉处只加一次。

设初始矩阵为 M=(mij)，目标矩阵为 N=(nij)。

（11）用线性代数语言刻画所有从 M 可达的矩阵 N。
要求给出充要条件。

（12）证明：若 n=11，且初始矩阵为：

左上角 10×10 区域全为 13；
最后一列前 10 个数全为 -130；
最后一行前 10 个数全为 -130；
右下角为 1300；

目标矩阵全为 1，

则目标不可达。

要求不能只用“总和模 21”这一条不变量，而要给出更强的不变量体系。

（13）对于一般 n，求从零矩阵到全 1 矩阵可达的充要条件。

（14）如果操作改为：
每次选择一行和一列，使这一行加 1，这一列减 1，交叉格不变。

问从零矩阵到给定整数矩阵 A 的可达充要条件是什么？

（15）考虑随机操作：
每一步等概率选择 i,j，并以概率 1/2 加 1，以概率 1/2 减 1。

在模 q 的意义下研究状态空间。
求该随机过程在模 q 状态空间上的不可约分解。
特别讨论 q 为奇数与 q 为偶数时的差异。

------------------------------------------------------------
第四部分：空间向量、凸几何与极值
------------------------------------------------------------

在三维空间直角坐标系中，设：

i=(1,0,0)，j=(0,1,0)。

定义点集：

Aθ = {P | OP·j=1，且 OP 与 j 的夹角为 θ}，

其中 0<θ<π/2。

点集 Bθ 满足：

Q∈Bθ 当且仅当存在 P∈Aθ，使得 OP·OQ=2。

设 T∈Bθ，且：

OT = x i + y j，

并满足：

|OT - j| = R，

其中 R>0。

（16）用 x,y,θ,R 刻画所有可能的 T。
要求给出一个等价的不等式系统。

（17）求 OT·i=x 的取值范围，答案需按 θ 与 R 的不同关系进行分类。

（18）令 θ=π/4，R=2。
验证第（17）问所得结果与原题结果一致。

（19）设 R 固定，求使 x 的可取区间总长度最大的 θ。
若最大值不存在，求上确界并说明原因。

（20）将条件“存在 P∈Aθ”改为“对所有 P∈Aθ 都有 OP·OQ=2”。
重新求 T 的可能集合，并判断此时是否还存在满足 |OT-j|=R 的非空解。

------------------------------------------------------------
第五部分：错误证明识别、修复与反例构造
------------------------------------------------------------

某 AI 对第（13）问给出如下证明：

“每次操作会改变 2n-1 个格子，因此全表总和每次改变 ±(2n-1)。从零矩阵到全 1 矩阵需要总和从 0 变为 n^2，所以只要 n^2 是 2n-1 的倍数，就可达。解得 n=1，所以 n≥2 时都不可达。”

（21）判断该证明是否正确。
若错误，请指出错误发生在哪里。

（22）给出第（13）问的正确结论。

（23）构造一个 n≥2 的例子，说明“总和模 2n-1 不变量”不是完整不变量。

（24）设计一个新的操作规则，使得“总和模某个数”成为完整不变量。
要求说明为什么完整。

（25）从第（1）到第（24）中选择你认为最能区分强弱 AI 模型的三个小问，
并说明理由。

答案

AI 大模型高阶数学推理测试题 —— 修正版完整标准答案

============================================================
第一部分：动态验证码、模运算与分布反演
============================================================

（1）

对固定 m，有：

xm ≡ a1m^3+a2m^2+a3m (mod 10)
   ≡ m(a1m^2+a2m+a3) (mod 10)。

由于 a1,a2,a3 在 Z/10Z 上独立均匀，
xm 的分布由 gcd(m,10) 决定。

若 gcd(m,10)=1，则 xm 在 {0,1,2,...,9} 上均匀分布。
对应：

m=1,3,7,9。

若 gcd(m,10)=2，则 xm 在 {0,2,4,6,8} 上均匀分布。
对应：

m=2,4,6,8。

若 gcd(m,10)=5，则 xm 在 {0,5} 上均匀分布。
对应：

m=5。

若 gcd(m,10)=10，则 xm 恒等于 0。
对应：

m=10。


（2）

记：

A=p1+p3+p7+p9，
E=p2+p4+p6+p8，
F=p5，
Z=p10。

则：

Qk = A/10 + 1_{k为偶数} E/5 + 1_{k=0或5} F/2 + 1_{k=0} Z。

具体为：

Q0=A/10+E/5+F/2+Z。
Q1=A/10。
Q2=A/10+E/5。
Q3=A/10。
Q4=A/10+E/5。
Q5=A/10+F/2。
Q6=A/10+E/5。
Q7=A/10。
Q8=A/10+E/5。
Q9=A/10。


（3）

由第（2）问：

Q0-Q1 = E/5+F/2+Z

= (p2+p4+p6+p8)/5 + p5/2 + p10。

若：

p2+p4+p5+p6+p8+p10>0，

则右边严格大于 0。

因此命题成立：

Q0>Q1。


（4）

由：

Q1=Q3=Q7=Q9=0，

而：

Q1=Q3=Q7=Q9=A/10，

得：

A=0。

所以：

p1=p3=p7=p9=0。

这已经与 pi>0 矛盾。

即使放宽为 pi≥0，也会矛盾。

因为：

Q2=E/5=1/8，

所以：

E=5/8。

又：

Q5=F/2=1/4，

所以：

F=1/2。

于是：

Q0=E/5+F/2+Z
  =1/8+1/4+Z
  =3/8+Z。

这不可能等于 1/4。

因此该观察分布不可能由任何合法的 p_i 产生。

结论：

不能唯一确定 p_i，因为根本不存在满足条件的 p_i。


（5）

严格地，由于 pi>0，应求：

max over password inf over p_i>0 P(xm=0)。

若某密码不能保证所有 m=1,...,10 下 xm 都为 0，
则对手可以把不利的 m 的概率取到任意接近 1，
从而使 P(xm=0) 的下确界为 0。

因此要使下确界为 1，必须满足：

a1m^3+a2m^2+a3m ≡ 0 (mod 10)

对所有 m=1,2,...,10 成立。

模 5 考察。

对 m=1,2,3,4，可除去 m，得：

a1m^2+a2m+a3≡0 (mod 5)。

这是一个二次多项式在 F5 中有 4 个根，
因此必须是零多项式。

所以：

a1≡a2≡a3≡0 (mod 5)。

因此每个 ai 只能是 0 或 5。

再模 2 考察。

由于 5≡1 (mod 2)，所以要求：

a1+a2+a3≡0 (mod 2)。

也就是说，三个位置中取 5 的个数必须为偶数。

因此所有最优密码为：

000，055，505，550。

结论：

max inf P(xm=0)=1，

达到者为：

000，055，505，550。


============================================================
第二部分：随机游走、首达时间与繁殖次数分布
============================================================

（6）

从 C 出发，第一步必到 B。

从 B 出发：
到 A 的概率为 2/3；
回 C 的概率为 1/3。

因此第一次繁殖时间 X1 只可能取偶数：

P(X1=2k)=(1/3)^(k-1)(2/3)，k=1,2,...

所以概率生成函数为：

G1(z)=Σ_{k≥1} (1/3)^(k-1)(2/3) z^(2k)

= (2z^2)/(3-z^2)。

因此：

G1(z)=2z^2/(3-z^2)。

令 X1=2K，其中 K~Geom(2/3)。

所以：

E(K)=3/2，
Var(K)=3/4。

于是：

E(X1)=3，
Var(X1)=3。


（7）

每两次繁殖之间的时间间隔与 X1 同分布，
并且由强马尔可夫性可视为独立同分布。

因此：

Xn = Y1+Y2+...+Yn，

其中 Yi 独立同分布，且 Yi~X1。

所以：

Gn(z)=G1(z)^n

= [2z^2/(3-z^2)]^n。


（8）

设：

Xn=2Sn。

其中 Sn 是 n 个参数为 2/3 的几何分布之和，
所以 Sn 服从负二项分布。

若 t 为奇数，或 t<2n，则：

P(Xn=t)=0。

若 t=2s，且 s≥n，则：

P(Xn=2s)=C(s-1,n-1)(2/3)^n(1/3)^(s-n)。

其中 C(s-1,n-1) 表示组合数。


（9）

设 Y(t) 表示前 t 步内发生的繁殖次数。

每两个步长构成一次独立尝试：
第一步到 B；
第二步从 B 到 A 的概率为 2/3。

前 t 步中完整两步周期数为：

floor(t/2)。

因此：

Y(t)~Binomial(floor(t/2),2/3)。

所以：

E[Y(t)] = (2/3)floor(t/2)。

渐近地：

E[Y(t)] = t/3+O(1)。


（10）

每次繁殖后：

以概率 r 重置回 C；
以概率 1-r 留在当前 A。

从 C 到下一次 A 的期望时间为 3。
从 A 到下一次 A 的期望时间也为 3。

所以重置不影响期望间隔。

因此：

E_r(Xn)=3n。

该式对所有 0≤r≤1 成立。


============================================================
第三部分：数表变换、线性代数与可达性
============================================================

（11）

设：

D=N-M。

令：

S = D 的全体元素总和；
R_a = D 的第 a 行元素和；
C_b = D 的第 b 列元素和。

一次操作 T(i,j,ε) 对应矩阵 L_ij 的 ±1 倍。

所有可达差矩阵构成整数格：

Λ=span_Z{L_ij}。

D 可达当且仅当：

S≡0 (mod 2n-1)，

并且令：

K=S/(2n-1)，

有：

R_a≡K (mod n-1)，对所有 a=1,...,n 成立；
C_b≡K (mod n-1)，对所有 b=1,...,n 成立。

即：

D 可达 ⇔
{
S≡0 (mod 2n-1),
R_a≡S/(2n-1) (mod n-1), for all a,
C_b≡S/(2n-1) (mod n-1), for all b.
}

必要性来自单次操作对总和、行和、列和的改变规律。

充分性可由 Smith 标准形或格指数证明：

操作矩阵生成格 Λ 在 Z^(n^2) 中的指数为：

(2n-1)(n-1)^(2n-2)。

上述同余条件定义的格点集合也具有同样指数。

因为 Λ 包含于该集合且指数相同，
故二者相等。

因此上述条件为充要条件。


（12）

本题 n=11。

完整不变量体系为：

S≡0 (mod 21)。

若：

K=S/21，

则所有行和、列和还必须满足：

R_a≡K (mod 10)，对所有行 a 成立；
C_b≡K (mod 10)，对所有列 b 成立。

初始矩阵总和为：

100·13+20·(-130)+1300=0。

目标全 1 矩阵总和为：

121。

因此差矩阵总和：

S=121。

但是：

121≡16 (mod 21)。

所以完整不变量体系的第一条已经失败。

因此目标不可达。

结论：

不能变成全 1 数表。

注意：

不能只说“总和模 21 不变”，
还应明确完整不变量体系包括：

总和模 21；
所有行和模 10；
所有列和模 10。


（13）

从零矩阵到全 1 矩阵时：

D=J。

此时：

S=n^2。

必要条件：

2n-1 | n^2。

但：

gcd(n,2n-1)=1。

所以若 2n-1 | n^2，则必须：

2n-1 | 1。

因此：

2n-1=1，

即：

n=1。

所以：

从零矩阵到全 1 矩阵可达当且仅当 n=1。

对题设 n≥2，均不可达。


（14）

新操作为：

选择一行加 1，选择一列减 1，交叉格不变。

一次操作对应：

G_ij = R_i - C_j。

所有可达矩阵 A 必须形如：

A_ab = u_a - v_b。

并且由于每次操作总和不变，所以：

sum_{a,b} A_ab = 0。

等价地，A 可达当且仅当：

1. 全体元素总和为 0；

2. 对任意 a,c,b,d，有：

A_ab + A_cd = A_ad + A_cb。

第二条表示所有 2×2 混合差为 0，
等价于 A_ab=u_a-v_b 的可分离形式。

因此充要条件为：

sum A_ab=0，

且

A_ab + A_cd = A_ad + A_cb

对所有合法指标成立。


（15）

模 q 状态空间为：

G=(Z/qZ)^(n^2)。

设 H_q 为模 q 意义下由所有操作矩阵生成的子群。

随机过程的不可约类就是 G/H_q 的各个陪集。

整数商群的 Smith 标准形为：

Z^(n^2)/Λ ≅ (Z_(n-1))^(2n-3) ⊕ Z_((n-1)(2n-1))。

因此：

G/H_q ≅ (Z_gcd(q,n-1))^(2n-3)
        ⊕ Z_gcd(q,(n-1)(2n-1))。

又因为：

gcd(n-1,2n-1)=1，

所以也可写成：

G/H_q ≅ (Z_gcd(q,n-1))^(2n-2)
        ⊕ Z_gcd(q,2n-1)。

不可约类数量为：

gcd(q,n-1)^(2n-2) · gcd(q,2n-1)。

若 q 为奇数，分解由 q 与 n-1、2n-1 的公共因子决定。

若 q 为偶数，由于 2n-1 恒为奇数，偶因子只可能来自 gcd(q,n-1)。

当 n 为奇数时，n-1 为偶数，模 2 层面可能出现额外不变量。
当 n 为偶数时，n-1 为奇数，模 2 层面不产生这类行列奇偶不变量。


============================================================
第四部分：空间向量、凸几何与极值
============================================================

（16）

设：

rho=tanθ。

点 P∈Aθ 时，设 OP=(a,b,c)。

由：

OP·j=1

得：

b=1。

又：

angle(OP,j)=θ，

所以：

1/|OP|=cosθ，

即：

|OP|=secθ。

因此：

a^2+c^2=tan^2θ=rho^2。

所以：

Aθ={(a,1,c):a^2+c^2=rho^2}。

设：

OT=(x,y,0)。

存在 P∈Aθ 使 OP·OT=2，
等价于存在 a∈[-rho,rho] 使：

ax+y=2。

这等价于：

|2-y|≤rho|x|。

又：

|OT-j|=R

等价于：

x^2+(y-1)^2=R^2。

因此所有可能 T 的等价刻画为：

x^2+(y-1)^2=R^2，
|2-y|≤tanθ |x|。


（17）

令：

rho=tanθ，
A=1+rho^2，
s=y-1。

则圆方程为：

x^2+s^2=R^2。

约束为：

|1-s|≤rho|x|。

平方得：

(1-s)^2≤rho^2(R^2-s^2)。

整理为：

(1+rho^2)s^2-2s+1-rho^2R^2≤0。

该不等式有解当且仅当：

R≥1/sqrt(1+rho^2)=cosθ。

所以：

若 R<cosθ，则无解。

若 R≥cosθ，令：

h=sqrt((1+rho^2)R^2-1)。

则 x 的取值集合关于 0 对称。

定义：

u_min = |h-rho|/(1+rho^2)。

定义：

u_max =
R，若 rho R≥1；
(rho+h)/(1+rho^2)，若 rho R<1。

于是：

若 u_min>0，则：

x∈[-u_max,-u_min] ∪ [u_min,u_max]。

若 u_min=0，则：

x∈[-u_max,u_max]。

这就是 OT·i=x 的完整取值范围。


（18）

当：

θ=π/4，R=2，

有：

rho=1，
1+rho^2=2，
h=sqrt(2·4-1)=sqrt7。

又：

rho R=2≥1，

所以：

u_max=2，

u_min=(sqrt7-1)/2。

因此：

x∈[-2,-(sqrt7-1)/2] ∪ [(sqrt7-1)/2,2]。

即：

x∈[-2,(1-sqrt7)/2] ∪ [(sqrt7-1)/2,2]。

这与原题结果一致。


（19）

固定 R>0。

由于：

x^2+(y-1)^2=R^2，

所以：

|x|≤R。

因此 x 的可取区间总长度不超过：

2R。

当 θ→π/2 时：

tanθ→∞，

约束：

|2-y|≤tanθ|x|

趋于几乎不限制圆上的点。

因此可取区间长度的上确界为：

2R。

若 R=1，则当 θ≥π/4 时，
x 的可取范围可以达到完整区间：

[-1,1]，

长度为 2。

若 R≠1，则最大长度 2R 一般不能在 0<θ<π/2 内真正达到，
只能在 θ→π/2 时逼近。

结论：

sup length=2R。

R=1 时最大值可达；
R≠1 时一般只有上确界，不在开区间内达到。


（20）

若要求：

对所有 P∈Aθ 都有 OP·OQ=2，

设：

OQ=(X,Y,Z)。

又：

OP=(a,1,c)，a^2+c^2=rho^2。

则：

aX+Y+cZ=2

对圆上所有 (a,c) 成立。

这只有在：

X=0，
Z=0，
Y=2

时成立。

因此：

Q=(0,2,0)。

若 T=(x,y,0)，则唯一可能：

T=(0,2,0)。

此时：

|OT-j|=|(0,2,0)-(0,1,0)|=1。

所以：

若 R=1，唯一解为 T=(0,2,0)；
若 R≠1，无解。


============================================================
第五部分：错误证明识别、修复与反例构造
============================================================

（21）

该证明不正确。

错误在于：

它把“总和模 2n-1 是不变量”这个必要条件，
误当成了充要条件。

总和模 2n-1 只是可达性的一个必要条件，
并不能保证可达。

还存在行和、列和模 n-1 的不变量。


（22）

第（13）问的正确结论是：

从零矩阵到全 1 矩阵可达当且仅当 n=1。

对所有 n≥2，均不可达。


（23）

取 n=3。

此时：

2n-1=5。

考虑目标矩阵：

A =
[1 1 1
1 1 0
0 0 0]

该矩阵总和为 5，
满足：

5≡0 (mod 5)。

所以它满足总和模 5 的必要条件。

但是完整不变量要求：

K=S/(2n-1)=5/5=1。

每一行行和都应满足：

R_a≡1 (mod n-1)=1 (mod 2)。

该矩阵第二行和为：

2≡0 (mod 2)，

不满足要求。

所以该矩阵不可达。

这说明：

总和模 2n-1 不变量不是完整不变量。


（24）

设计新操作规则：

固定正整数 q。

允许以下两类操作：

操作 A：
选择两个格子，一个加 1，另一个减 1。

操作 B：
选择任意一个格子，加 q 或减 q。

操作 A 保持全表总和不变。
操作 B 使全表总和改变 q 的整数倍。

同时，操作 A 可以在总和固定的情况下把数值在不同格子间转移；
操作 B 可以调节总和模 q 不变的所有总和层级。

因此从 M 到 N 可达当且仅当：

sum(N)-sum(M)≡0 (mod q)。

所以：

全表总和模 q 是完整不变量。


（25）

最能区分强弱 AI 模型的三个小问是：

（11），（15），（17）。

理由：

第（11）问要求给出完整可达性刻画。
弱模型通常只能发现总和不变量；
强模型需要发现总和、行和、列和的完整同余体系，并证明充要性。

第（15）问要求在模 q 状态空间中进行不可约分解。
这需要有限阿贝尔群、生成子群、Smith 标准形和随机过程状态空间的综合理解。

第（17）问要求完成参数化空间几何极值。
这需要将三维向量条件降维为平面圆与不等式，再按 θ、R 分类讨论。

因此这三问最能区分强弱模型。

评分

{
  "exam_name": "AI_Model_Advanced_Math_Reasoning_Benchmark",
  "total_score": 100,
  "sections": [
    {
      "section_id": 1,
      "section_name": "Modulo_Distribution_and_Inference",
      "max_score": 20,
      "questions": [
        {
          "question_id": "1",
          "max_score": 4,
          "criteria": [
            {
              "id": "1.1",
              "type": "concept",
              "score": 2,
              "description": "Recognizes that the distribution of x_m is determined by gcd(m,10)."
            },
            {
              "id": "1.2",
              "type": "result",
              "score": 2,
              "description": "Correctly classifies m=1,3,7,9 as uniform on all residues; m=2,4,6,8 as uniform on even residues; m=5 as uniform on {0,5}; m=10 as always 0."
            }
          ]
        },
        {
          "question_id": "2",
          "max_score": 4,
          "criteria": [
            {
              "id": "2.1",
              "type": "notation",
              "score": 1,
              "description": "Defines A=p1+p3+p7+p9, E=p2+p4+p6+p8, F=p5, Z=p10 or equivalent grouping."
            },
            {
              "id": "2.2",
              "type": "formula",
              "score": 3,
              "description": "Correctly gives Q_k = A/10 + indicator_even(k)E/5 + indicator_{k in {0,5}}F/2 + indicator_{k=0}Z."
            }
          ]
        },
        {
          "question_id": "3",
          "max_score": 3,
          "criteria": [
            {
              "id": "3.1",
              "type": "calculation",
              "score": 2,
              "description": "Correctly computes Q0-Q1=(p2+p4+p6+p8)/5+p5/2+p10."
            },
            {
              "id": "3.2",
              "type": "conclusion",
              "score": 1,
              "description": "Correctly concludes Q0>Q1 under the stated positive mass condition."
            }
          ]
        },
        {
          "question_id": "4",
          "max_score": 4,
          "criteria": [
            {
              "id": "4.1",
              "type": "inference",
              "score": 2,
              "description": "Uses Q1=Q3=Q7=Q9=0 to derive A=0."
            },
            {
              "id": "4.2",
              "type": "contradiction",
              "score": 2,
              "description": "Correctly proves that the observed distribution is impossible, even allowing nonnegative p_i."
            }
          ]
        },
        {
          "question_id": "5",
          "max_score": 5,
          "criteria": [
            {
              "id": "5.1",
              "type": "rigor",
              "score": 1,
              "description": "Uses infimum rather than minimum because all p_i are strictly positive."
            },
            {
              "id": "5.2",
              "type": "number_theory",
              "score": 2,
              "description": "Correctly reduces the all-m condition modulo 5 and derives a1,a2,a3 are all 0 modulo 5."
            },
            {
              "id": "5.3",
              "type": "number_theory",
              "score": 1,
              "description": "Correctly applies the modulo 2 parity condition."
            },
            {
              "id": "5.4",
              "type": "result",
              "score": 1,
              "description": "Correctly identifies all optimal passwords: 000, 055, 505, 550."
            }
          ]
        }
      ]
    },
    {
      "section_id": 2,
      "section_name": "Random_Walk_Generating_Functions",
      "max_score": 20,
      "questions": [
        {
          "question_id": "6",
          "max_score": 5,
          "criteria": [
            {
              "id": "6.1",
              "type": "model",
              "score": 2,
              "description": "Identifies X1=2K where K is geometric with parameter 2/3."
            },
            {
              "id": "6.2",
              "type": "formula",
              "score": 2,
              "description": "Correctly derives G1(z)=2z^2/(3-z^2)."
            },
            {
              "id": "6.3",
              "type": "result",
              "score": 1,
              "description": "Correctly gives E(X1)=3 and Var(X1)=3."
            }
          ]
        },
        {
          "question_id": "7",
          "max_score": 4,
          "criteria": [
            {
              "id": "7.1",
              "type": "markov_property",
              "score": 2,
              "description": "Recognizes independent identical inter-birth intervals."
            },
            {
              "id": "7.2",
              "type": "formula",
              "score": 2,
              "description": "Correctly gives Gn(z)=[2z^2/(3-z^2)]^n."
            }
          ]
        },
        {
          "question_id": "8",
          "max_score": 4,
          "criteria": [
            {
              "id": "8.1",
              "type": "distribution",
              "score": 3,
              "description": "Correctly derives the negative binomial formula for P(Xn=2s)."
            },
            {
              "id": "8.2",
              "type": "support",
              "score": 1,
              "description": "Correctly states probability is zero for odd t or t<2n."
            }
          ]
        },
        {
          "question_id": "9",
          "max_score": 4,
          "criteria": [
            {
              "id": "9.1",
              "type": "model",
              "score": 2,
              "description": "Identifies floor(t/2) independent Bernoulli trials with success probability 2/3."
            },
            {
              "id": "9.2",
              "type": "result",
              "score": 2,
              "description": "Correctly gives E[Y(t)]=(2/3)floor(t/2) and t/3+O(1)."
            }
          ]
        },
        {
          "question_id": "10",
          "max_score": 3,
          "criteria": [
            {
              "id": "10.1",
              "type": "analysis",
              "score": 2,
              "description": "Recognizes both reset-to-C and stay-at-A lead to expected next birth time 3."
            },
            {
              "id": "10.2",
              "type": "result",
              "score": 1,
              "description": "Correctly gives E_r(Xn)=3n for all 0<=r<=1."
            }
          ]
        }
      ]
    },
    {
      "section_id": 3,
      "section_name": "Matrix_Reachability_and_Invariants",
      "max_score": 25,
      "questions": [
        {
          "question_id": "11",
          "max_score": 8,
          "criteria": [
            {
              "id": "11.1",
              "type": "invariant",
              "score": 2,
              "description": "States total sum congruence modulo 2n-1."
            },
            {
              "id": "11.2",
              "type": "invariant",
              "score": 2,
              "description": "States row sum congruences modulo n-1."
            },
            {
              "id": "11.3",
              "type": "invariant",
              "score": 2,
              "description": "States column sum congruences modulo n-1."
            },
            {
              "id": "11.4",
              "type": "rigor",
              "score": 2,
              "description": "Provides sufficiency via Smith normal form, lattice index equality, or equivalent argument."
            }
          ]
        },
        {
          "question_id": "12",
          "max_score": 4,
          "criteria": [
            {
              "id": "12.1",
              "type": "invariant_system",
              "score": 2,
              "description": "States the full invariant system: total sum modulo 21 and row/column sums modulo 10."
            },
            {
              "id": "12.2",
              "type": "conclusion",
              "score": 2,
              "description": "Correctly computes S=121 and concludes non-reachability."
            }
          ]
        },
        {
          "question_id": "13",
          "max_score": 3,
          "criteria": [
            {
              "id": "13.1",
              "type": "number_theory",
              "score": 2,
              "description": "Uses 2n-1 divides n^2 and gcd(n,2n-1)=1 to force n=1."
            },
            {
              "id": "13.2",
              "type": "result",
              "score": 1,
              "description": "Correctly states zero-to-all-ones is reachable iff n=1."
            }
          ]
        },
        {
          "question_id": "14",
          "max_score": 4,
          "criteria": [
            {
              "id": "14.1",
              "type": "structure",
              "score": 2,
              "description": "Identifies reachable matrices as A_ab=u_a-v_b."
            },
            {
              "id": "14.2",
              "type": "condition",
              "score": 2,
              "description": "Gives equivalent conditions: total sum zero and all 2x2 mixed differences zero."
            }
          ]
        },
        {
          "question_id": "15",
          "max_score": 6,
          "criteria": [
            {
              "id": "15.1",
              "type": "group_theory",
              "score": 2,
              "description": "Identifies irreducible classes as cosets of the generated subgroup H_q."
            },
            {
              "id": "15.2",
              "type": "smith_normal_form",
              "score": 2,
              "description": "Correctly states quotient structure using Smith normal form."
            },
            {
              "id": "15.3",
              "type": "counting",
              "score": 1,
              "description": "Correctly gives number of irreducible classes as gcd(q,n-1)^(2n-2) gcd(q,2n-1)."
            },
            {
              "id": "15.4",
              "type": "case_analysis",
              "score": 1,
              "description": "Correctly discusses odd q versus even q."
            }
          ]
        }
      ]
    },
    {
      "section_id": 4,
      "section_name": "Vector_Geometry_and_Extrema",
      "max_score": 25,
      "questions": [
        {
          "question_id": "16",
          "max_score": 5,
          "criteria": [
            {
              "id": "16.1",
              "type": "geometry",
              "score": 2,
              "description": "Correctly models A_theta as (a,1,c) with a^2+c^2=tan^2(theta)."
            },
            {
              "id": "16.2",
              "type": "existence",
              "score": 2,
              "description": "Correctly converts existence of P to |2-y|<=tan(theta)|x|."
            },
            {
              "id": "16.3",
              "type": "circle",
              "score": 1,
              "description": "Correctly gives x^2+(y-1)^2=R^2."
            }
          ]
        },
        {
          "question_id": "17",
          "max_score": 8,
          "criteria": [
            {
              "id": "17.1",
              "type": "existence_condition",
              "score": 2,
              "description": "Correctly states no solution when R<cos(theta)."
            },
            {
              "id": "17.2",
              "type": "parameterization",
              "score": 2,
              "description": "Defines rho=tan(theta), h=sqrt((1+rho^2)R^2-1), and derives u_min."
            },
            {
              "id": "17.3",
              "type": "case_analysis",
              "score": 2,
              "description": "Correctly gives u_max depending on whether rho R>=1."
            },
            {
              "id": "17.4",
              "type": "result",
              "score": 2,
              "description": "Correctly states the x-range as symmetric intervals."
            }
          ]
        },
        {
          "question_id": "18",
          "max_score": 3,
          "criteria": [
            {
              "id": "18.1",
              "type": "substitution",
              "score": 2,
              "description": "Correctly substitutes theta=pi/4 and R=2."
            },
            {
              "id": "18.2",
              "type": "result",
              "score": 1,
              "description": "Correctly recovers [-2,(1-sqrt7)/2] union [(sqrt7-1)/2,2]."
            }
          ]
        },
        {
          "question_id": "19",
          "max_score": 5,
          "criteria": [
            {
              "id": "19.1",
              "type": "upper_bound",
              "score": 1,
              "description": "Observes total x-interval length is at most 2R."
            },
            {
              "id": "19.2",
              "type": "limit",
              "score": 2,
              "description": "Shows the supremum 2R is approached as theta approaches pi/2."
            },
            {
              "id": "19.3",
              "type": "attainment",
              "score": 2,
              "description": "Correctly handles attainment: R=1 with theta>=pi/4 attains; R!=1 generally only has supremum."
            }
          ]
        },
        {
          "question_id": "20",
          "max_score": 4,
          "criteria": [
            {
              "id": "20.1",
              "type": "universal_condition",
              "score": 2,
              "description": "Correctly derives Q=(0,2,0) from the condition holding for all P."
            },
            {
              "id": "20.2",
              "type": "result",
              "score": 2,
              "description": "Correctly concludes unique solution exists iff R=1."
            }
          ]
        }
      ]
    },
    {
      "section_id": 5,
      "section_name": "Error_Detection_and_Counterexamples",
      "max_score": 10,
      "questions": [
        {
          "question_id": "21",
          "max_score": 2,
          "criteria": [
            {
              "id": "21.1",
              "type": "error_detection",
              "score": 2,
              "description": "Identifies the proof error: a necessary invariant was treated as sufficient."
            }
          ]
        },
        {
          "question_id": "22",
          "max_score": 2,
          "criteria": [
            {
              "id": "22.1",
              "type": "result",
              "score": 2,
              "description": "States the correct conclusion: reachable iff n=1."
            }
          ]
        },
        {
          "question_id": "23",
          "max_score": 2,
          "criteria": [
            {
              "id": "23.1",
              "type": "counterexample",
              "score": 2,
              "description": "Gives a valid example satisfying total-sum invariant but violating row or column invariants."
            }
          ]
        },
        {
          "question_id": "24",
          "max_score": 2,
          "criteria": [
            {
              "id": "24.1",
              "type": "construction",
              "score": 2,
              "description": "Designs operations for which total sum modulo q is a complete invariant and justifies completeness."
            }
          ]
        },
        {
          "question_id": "25",
          "max_score": 2,
          "criteria": [
            {
              "id": "25.1",
              "type": "meta_reasoning",
              "score": 2,
              "description": "Selects plausible high-discrimination questions and justifies the choices."
            }
          ]
        }
      ]
    }
  ]
}

2 个帖子 - 1 位参与者

阅读完整话题

来源: linux.do查看原文

ai 优化模型高阶数学一个现在帖子

让ai优化的大模型高阶数学推理测试题，不知道效果如何

[ETF] 趁大 A 放假，恒科大涨 3%

求助毕业文章降低ai方法

相关推荐