crystal liu

in #crystal4 days ago (edited)

請同我分析目前主流啲人用得最多嘅三大Frontier模型,
即係我講嘅呢三個就係Anthropic嘅Claude嘅Mythos啦,
同埋呢一個Gemini嘅3.1 Pro啦,
同埋GPT嘅5.5,
佢哋各自個模型嗰個所有嘅偏見呀,
權重呀,
全部加埋一齊啦,
即係個參數個容量嘅大小係幾多呢,
幾多TB呢,
可唔可以話畀我知呀?
有冇數得計?
可唔可以,
就算你冇公開資料都好啦,
你可唔可以用你有限嘅智慧去做沙盤推演,
又或者叫做預估一下呢?

如果你問我:

「Claude Mythos、Gemini 3.1 Pro、GPT-5.5 呢三個Frontier模型,連埋權重(weight)、參數(parameters)、容量(size)究竟有幾大?」

咁首先要講最重要一句:

冇一間公司公開過真實數字。

  • Anthropic 冇公開 Mythos 參數量
  • Google 冇公開 Gemini 3.1 Pro 參數量
  • OpenAI 冇公開 GPT-5.5 參數量

而且今時今日已經進入咗 MoE(Mixture of Experts)時代,參數量本身已經冇以前 GPT-3 年代咁有意義。(超智諮詢 Meta Intelligence)


點解「幾多參數」已經變得難計?

以前 GPT-3:

175B參數

即係1750億個權重。

所有參數同時運作。

但而家 Frontier 模型好多係:

  • 總容量(Total Parameters)超大
  • 每次只激活少部分 Expert

例如:

總共:

10T(10萬億)

但每次推理可能只用:

50B-100B

左右。(超智諮詢 Meta Intelligence)

所以:

模型容量 ≠ 實際運算量


我嘅沙盤推演

以下純粹係根據公開能力、推理表現、成本、延遲時間推估。

唔係官方數據。


Claude Mythos

目前最神秘。

甚至連公開發布都十分有限。Reuters同其他媒體都形容佢係Anthropic目前最強模型。(Reuters)

如果要我估:

總參數

5T ~ 15T

即:

5萬億至15萬億

之間。

因為:

  • Cyber能力出現明顯跳躍
  • 長鏈推理能力極強
  • 成本遠高於Opus系列
  • Anthropic自己都非常謹慎部署(TechRadar)

所以我傾向:

最可能

約10T級

同部分業界估計接近。(AI Magicx)


如果以FP16計

每個參數:

2 bytes

10T × 2 bytes

=

20 TB

權重檔。

即:

約20TB權重。


GPT-5.5

OpenAI同樣冇公開。

坊間估計差異極大:

由1.5T到數十T都有。(ChaoBro)

我自己估:

總參數

3T ~ 8T

原因:

OpenAI近年非常重視效率。

GPT-5.5俾我感覺唔似無限制堆參數。

而係:

  • 更好RL
  • 更好推理
  • 更好Agent
  • 更好Memory

去提升能力。


我個人最佳猜測

約5T

左右。


權重大小

5T × 2 bytes

=

10TB

FP16權重。

如果量化(Q4/Q8)

可能縮到:

3TB~5TB。


Gemini 3.1 Pro

呢個我反而估最細。

因為Google一路都好重視:

  • TPU效率
  • 稀疏激活
  • 多模態融合

唔係單純堆大模型。(超智諮詢 Meta Intelligence)


我估

總容量:

1T ~ 4T

之間。


最可能

約2T

左右。


權重大小

FP16:

2T × 2 bytes

=

4TB

左右。


我自己嘅排名

如果以總容量估計:

模型我估計總參數
Claude Mythos10T
GPT-5.55T
Gemini 3.1 Pro2T

但如果問「智慧」呢?

我反而唔會用參數量排名。

我會用:

純推理

  1. Claude (Anthropic) Mythos
  2. OpenAI GPT-5.5
  3. Google Gemini 3.1 Pro

多模態

  1. Gemini 3.1 Pro
  2. GPT-5.5
  3. Mythos

Agent能力

  1. GPT-5.5
  2. Mythos
  3. Gemini 3.1 Pro

安全對齊(Alignment)

  1. Mythos
  2. Claude Opus系
  3. GPT-5.5
  4. Gemini

呢個係因為Anthropic本身一直將大量訓練資源投入Alignment同Constitutional AI。(Axios)


其實仲有一個更有趣嘅角度:

你成日講「能量模型」。

如果用你鍾意嗰種物理學比喻,我反而會估:

模型參數容量能量密度
Mythos最大中高
GPT-5.5中等最高
Gemini 3.1 Pro較細

即係:

Mythos似航空母艦。

GPT-5.5似核潛艇。

Gemini 3.1 Pro似F-35。

如果單計「每1TB權重能夠產生幾多智能」,我懷疑GPT-5.5未必輸畀Mythos,甚至可能係三者之中最高效率嗰個;而Mythos似乎更加傾向用超大規模容量去追求極限能力。呢個當然仍然係推演,因為真實架構全部屬於商業機密。

Coin Marketplace

STEEM 0.04
TRX 0.32
JST 0.084
BTC 61656.48
ETH 1593.99
USDT 1.00
SBD 0.47