crystal liu

jpex (49)in #crystal • last month (edited)

請同我分析目前主流啲人用得最多嘅三大Frontier模型，
即係我講嘅呢三個就係Anthropic嘅Claude嘅Mythos啦，
同埋呢一個Gemini嘅3.1 Pro啦，
同埋GPT嘅5.5，
佢哋各自個模型嗰個所有嘅偏見呀，
權重呀，
全部加埋一齊啦，
即係個參數個容量嘅大小係幾多呢，
幾多TB呢，
可唔可以話畀我知呀？
有冇數得計？
可唔可以，
就算你冇公開資料都好啦，
你可唔可以用你有限嘅智慧去做沙盤推演，
又或者叫做預估一下呢？

如果你問我：

「Claude Mythos、Gemini 3.1 Pro、GPT-5.5 呢三個Frontier模型，連埋權重(weight)、參數(parameters)、容量(size)究竟有幾大？」

咁首先要講最重要一句：

冇一間公司公開過真實數字。

Anthropic 冇公開 Mythos 參數量
Google 冇公開 Gemini 3.1 Pro 參數量
OpenAI 冇公開 GPT-5.5 參數量

而且今時今日已經進入咗 MoE（Mixture of Experts）時代，參數量本身已經冇以前 GPT-3 年代咁有意義。(超智諮詢 Meta Intelligence)

點解「幾多參數」已經變得難計？

以前 GPT-3：

175B參數

即係1750億個權重。

所有參數同時運作。

但而家 Frontier 模型好多係：

總容量（Total Parameters）超大
每次只激活少部分 Expert

例如：

總共：

10T（10萬億）

但每次推理可能只用：

50B-100B

左右。(超智諮詢 Meta Intelligence)

所以：

模型容量 ≠ 實際運算量

我嘅沙盤推演

以下純粹係根據公開能力、推理表現、成本、延遲時間推估。

唔係官方數據。

Claude Mythos

目前最神秘。

甚至連公開發布都十分有限。Reuters同其他媒體都形容佢係Anthropic目前最強模型。(Reuters)

如果要我估：

總參數

5T ～ 15T

即：

5萬億至15萬億

之間。

因為：

Cyber能力出現明顯跳躍
長鏈推理能力極強
成本遠高於Opus系列
Anthropic自己都非常謹慎部署(TechRadar)

所以我傾向：

最可能

約10T級

同部分業界估計接近。(AI Magicx)

如果以FP16計

每個參數：

2 bytes

10T × 2 bytes

20 TB

權重檔。

即：

約20TB權重。

GPT-5.5

OpenAI同樣冇公開。

坊間估計差異極大：

由1.5T到數十T都有。(ChaoBro)

我自己估：

總參數

3T ～ 8T

原因：

OpenAI近年非常重視效率。

GPT-5.5俾我感覺唔似無限制堆參數。

而係：

更好RL
更好推理
更好Agent
更好Memory

去提升能力。

我個人最佳猜測

約5T

左右。

權重大小

5T × 2 bytes

10TB

FP16權重。

如果量化(Q4/Q8)

可能縮到：

3TB～5TB。

Gemini 3.1 Pro

呢個我反而估最細。

因為Google一路都好重視：

TPU效率
稀疏激活
多模態融合

唔係單純堆大模型。(超智諮詢 Meta Intelligence)

我估

總容量：

1T ～ 4T

之間。

最可能

約2T

左右。

權重大小

FP16：

2T × 2 bytes

4TB

左右。

我自己嘅排名

如果以總容量估計：

模型	我估計總參數
Claude Mythos	10T
GPT-5.5	5T
Gemini 3.1 Pro	2T

但如果問「智慧」呢？

我反而唔會用參數量排名。

我會用：

純推理

多模態

Gemini 3.1 Pro
GPT-5.5
Mythos

Agent能力

GPT-5.5
Mythos
Gemini 3.1 Pro

安全對齊（Alignment）

Mythos
Claude Opus系
GPT-5.5
Gemini

呢個係因為Anthropic本身一直將大量訓練資源投入Alignment同Constitutional AI。(Axios)

其實仲有一個更有趣嘅角度：

你成日講「能量模型」。

如果用你鍾意嗰種物理學比喻，我反而會估：

模型	參數容量	能量密度
Mythos	最大	中高
GPT-5.5	中等	最高
Gemini 3.1 Pro	較細	高

即係：

Mythos似航空母艦。

GPT-5.5似核潛艇。

Gemini 3.1 Pro似F-35。

如果單計「每1TB權重能夠產生幾多智能」，我懷疑GPT-5.5未必輸畀Mythos，甚至可能係三者之中最高效率嗰個；而Mythos似乎更加傾向用超大規模容量去追求極限能力。呢個當然仍然係推演，因為真實架構全部屬於商業機密。

#liu

last month in #crystal by jpex (49)

$0.00

1 vote

STEEM 0.04

TRX 0.33

JST 0.095

BTC 62264.73

ETH 1738.94

USDT 1.00

SBD 0.39

crystal liu

點解「幾多參數」已經變得難計？

我嘅沙盤推演

Claude Mythos

總參數

最可能

如果以FP16計

GPT-5.5

總參數

我個人最佳猜測

權重大小

Gemini 3.1 Pro

我估

最可能

權重大小

我自己嘅排名

但如果問「智慧」呢？

純推理

多模態

Agent能力

安全對齊（Alignment）

Coin Marketplace