crystal liu
唔好意思呀,
我係指你你你meta係有Threads,
總之可以同阿馬克斯打對台嗰件產品呀,
因為即係你馬斯克有X,
你meta咪有Threads囉,
咁你,
啱呀,
咁你有三大金剛,
其實whatsapp……
即係whatsapp嗰一啲數據我唔知啦,
因為你……
你……
你messenger同whatsapp嗰一啲數據唔知有冇攞嚟訓練AI,
但係你,
即係你嗰一啲係屬於私有流量嚟㗎嘛,
即係等於你alphabet你用gmail嘅,
其實都未必得㗎喎,
即係你,
但係你youtube、google search嗰一啲數據就全部可以公開數據就可以攞嚟訓練,
啱啦,
你android嗰一啲數據都攞嚟訓練,
啱啦,
你meta嘅話你……
即係當然以你朱克伯格嘅人品嚟講,
我就覺得其實我覺得你messenger呀、whatsapp呀入邊嗰一啲用戶行為數據都預咗被佢攞曬嚟做AI training嘅天然飼料㗎啦,
咁我訓練個LLaMA模型,
不過如果你話……
即係佢咁樣做究竟得唔得嘅話,
其實佢係屬於法律上嘅灰色地帶,
但係你譬如話Threads呀,
Instagram呀,
Facebook呢一啲係一定可以攞嚟訓練吖嘛
你呢個理解,要分開兩層嚟睇:
- 「技術上做唔做到」
- 「法律上可唔可以做」
呢兩樣嘢係完全唔同。
好多時大家會將佢混埋一齊。
第一層:公開數據(Public Data)
你講嘅:
- Threads
- Facebook 公開貼文
- Instagram 公開貼文
- 公開 Reels
- 公開留言
呢一類數據,的確係目前各大AI公司最重要嘅訓練來源之一。
而且,Meta已經明確表示,佢哋會利用旗下平台嘅公開內容去改善同訓練AI模型。Meta最近推出嘅AI搜尋功能,亦都係直接從Facebook、Instagram同Threads嘅公開內容提取資訊。(TechCrunch)
所以,如果你話:
「Threads、Instagram、Facebook嘅公開內容一定會成為Llama嘅訓練飼料。」
大方向上,呢個判斷係合理嘅。
第二層:私人通訊數據(Private Data)
呢度就要小心。
你提到:
- Messenger
- Gmail
呢啲唔係公開數據,而係私人通訊數據。
技術上,平台未必需要睇你嘅訊息內容,都可以攞到大量有價值嘅資訊。
例如:
- 你同邊個聯絡
- 聯絡頻率
- 聯絡時間
- 群組關係
- 裝置資訊
- 地理位置
- 使用習慣
呢啲叫做 metadata(元數據)。
即使訊息內容加密,元數據仍然可以提供巨大價值。(arXiv)
WhatsApp官方一直表示,訊息內容採用端對端加密(E2EE),Meta無法讀取聊天內容。(Ars Technica)
即係話,按照官方講法:
- 訊息內容:唔用嚟訓練AI
- 元數據:會收集
所以,你話:
「WhatsApp內容預咗全部畀Meta拎去訓練。」
呢個目前冇公開證據支持。
但如果你話:
「WhatsApp嘅元數據對Meta極具價值。」
呢個就合理得多。
Gmail
Google亦都公開否認過,表示Gmail郵件內容唔會用嚟訓練Gemini模型。(商業標準)
所以:
- Gmail郵件內容 ≠ Gemini訓練數據
- Google Search、YouTube公開內容 = Gemini重要訓練來源
你呢個判斷係正確嘅。
Messenger
Messenger比WhatsApp複雜。
因為Messenger唔係所有聊天都預設端對端加密。
唔同地區、唔同功能、唔同版本,私隱設定都可能唔同。
所以,佢能夠分析嘅資料範圍,理論上比WhatsApp更大。
但究竟有幾多內容直接用嚟訓練Llama,Meta冇完全公開披露。
因此,現階段最準確嘅講法係:
未知。
所以,你可以咁理解:
| 公司 | 公開數據優勢 | 私人數據優勢 |
|---|---|---|
| xAI | X | 相對較弱 |
| Meta | Facebook、Instagram、Threads | WhatsApp、Messenger元數據 |
| Search、YouTube | Android生態元數據 | |
| OpenAI | 相對較弱 | 幾乎冇自有數據源 |
如果淨係講「即時公域數據」呢個戰場,你之前嗰個判斷係啱嘅:
X係xAI最大護城河。
因為其他公司雖然有大量公開數據,但好少平台可以好似X咁,將全球即時新聞、討論、事件反應喺同一個時間軸上聚集。
所以,你之前用「雙主教」比喻,其實越嚟越準確:
- X = 世界發生緊咩事
- Grok = 點樣理解世界發生緊咩事
冇X,Grok只係模型。
有X,Grok先變成一個具備即時感知能力嘅系統。