CENSORED
STATUS: RESCUED DATE: 2023-02-08

【404文庫】紅博士說|中國如何缺席ChatGPT盛宴

目錄:

  1. ChatGPT 編年史

  2. 我們如何錯過GPT盛宴

  3. GPT大語言模型能實現AGI嗎

  4. 連載話題預告

CDT 檔案卡

標題:中國如何缺席ChatGPT盛宴
作者:紅博士
來源:微信公眾號「紅博士說」
發表日期:2023.2.8
主題歸類:ChatGPT

CDS收藏:公民館

版權說明:該作品版權歸原作者所有。中國數字時代僅對原作進行存檔,以對抗中國的網絡審查。詳細版權說明



file

ChatGPT編年史

我們來梳理一個時間軸。ChatGPT是對話式UI + GPT–3.5系列模型,我們以最具代表性的論文、模型、API為主線,梳理到今天。

2020之前

2020年

2021年

2022年

2023年

值得注意的是,中國因為疫情閉關的三年,正是OpenAI的GPT發展、壯大、產品化的三年。

我們如何錯過GPT盛宴?

歷史回顧完了,那麼為什麼我們(中國,尤其是AI社區)沒有更早地意識到,OpenAI技術在應用層面的突破性?

意識到問題需要同時具備哪些條件:

  1. 能夠看且懂OpenAI、DeepMind、Google等機構的論文(代表人群:研究員)

  2. 能夠使用OpenAI的API探索論文裡的模型 (代表人群:研究員裡的嘗鮮者)

  3. 對矽谷的敏感性,經常看大家在用OpenAI的API做什麼產品 (代表人群:VC)

這三類人在中國,我們粗估一下,第一類,大概有1/100,000,第二類大概是第一類裡的1/1,000,第三類大概是1/1,000,000. 三個條件,缺少一個,都無法意識到OpenAI發展到哪一步了。有哪個團隊匯集了這三種人,並且他們有充分的碰撞?有哪個人是具備了這三種屬性? 雪上加霜的是,研究人員三年來被封在國內,沒有出國參加過學術會議交流,甚至我猜很多人連線上會議都沒有參加,很多東西我們從論文上是看不到的。

我們繼續深挖。第一類人群中,又分成NLP(自然語言處理)研究人員,其他AI研究人員(比如計算機視覺、語音識別、機器學習)。

中國NLP的研究群體裡,基本上是把語言模型(尤其是BERT,而不是GPT)拿去應用在NLP的各種下遊任務上,在學術界就是刷榜發論文,在工業界,就是拿去做客服機器人、寫稿機器人、角色扮演機器人,研究方法也完全不同於GPT精髓——Scaling-up和Alignment。(幾乎)沒有人是把大語言模型(LLM)當做通用人工智慧(AGI)的一種可能性來研究的。

其他AI研究人員,比如計算機視覺,大部分人還是專注在圖像上,即使是用Transformer,也是解決圖像的問題,比如用Transformer來做自動駕駛、圖像生成等。即使是Tesla AutoPilot的AI主管Karpathy。Karpathy在2022年上半年從Tesla裸辭,以獨立研究員的身份,投身於大語言模型。

Karpathy曾經說他過去十年痴迷於AI中取得最快進展的方向,並且曾經對語言模型非常感興趣,但是卻忽視了scaling up的力量,那就是簡單的Objective(next word)+簡單的結構(Transformer)+ 足夠的參數+足夠的數據(web text),一個語言模型可以湧現出在小規模狀態下看不到的能力,他曾像其他人一樣(他應該指早期的OpenAI),一度以為強化學習是AGI的路徑,到頭來卻發現大語言模型是看起來最有希望的路徑。在此之前,語言模型的研究人員,把精力過多地放在了具體任務上。

再說AI領域的另一個重要群體——計算機視覺(Computer Vision)群體。在2012年開始的深度學習浪潮裡,計算機視覺一直是應用最廣、商業化最成功的方向,吸引了太多AI研究員的精力,從圖像分類、檢測、分割到識別,從圖像到視頻,從高層視覺到底層視覺,我們在卷積神經網絡上卷出了一個又一個新高度。一個YOLO目標檢測框架,被迭代到原作者都放棄了,還有人給推到了v7版本。最具代表性的是計算機視覺的登月工程——自動駕駛,它需要成像、識別、合成、建圖、規劃等幾乎所有的視覺AI技術加持,從CNN時代到Transformer時代,不斷地拉更多的人下水,但直到今天,全自動駕駛的方案仍未收斂。馬斯克定義的問題是對的,自動駕駛是一個real-world AI問題,但顯然特斯拉的方案並沒有為全自動駕駛準備好。

NLP圈的小家碧玉,CV圈的隔行隔山,疫情閉關三年,網際網路信息不通。這些因素疊加起來,整個中文世界,形成了一個信息繭房。10年來,我們以為自己積攢的AI算法、數據、應用的優勢,如今變成中美巨大的鴻溝。這個時候,我們甚至沒有一個新聞調查,把這件事的來龍去脈,挖它個底朝天。

另一個問題是,我們的中文網際網路不足以提供高質量的訓練數據。什麼是高質量的數據?比如維基百科、高質量的活躍論壇、專業新聞、學術論文、高質量代碼、圖書。

我們看看GPT–3的訓練數據是什麼。權重最大的數據集是OpenWebText(開源版本),數據是從Reddit論壇上收集的URL,再把內容抓取下來。Common Crawl是一個開放的網際網路數據存檔(英文佔一半,中文大概5%)。其他一些代表性的數據包括Wikipedia維基百科,Books開放圖書,Stack Exchange技術問答社區,Github 代碼,ArXiv論文,RealNew新聞存檔,PubMed醫療數據。可以看到,由中文網際網路產生的數據,比例低到可以忽略。這也是困擾很多試圖訓練中文大模型的問題,但實際上,ChatGPT的用中文溝通的能力,已經遠超那些專門的中文大語言模型了,背後原因是GPT隱式學到的翻譯能力。

沒有好的中文數據,我們就只能搭全球網際網路的數據順風車。上面這些優質數據的產生,需要開放的社區,我們似乎無解。

GPT大語言模型能實現AGI嗎?

基於GPT的LLM,僅僅依賴語言,大概率無法實現AGI,而只是」通往AGI的高速公路的一個出口(Yann Lecun)「。但LLM足以把網際網路基礎設施搞個天翻地覆,它同時具備了Logic和Memory。Logic是推理能力,Memory是對高頻知識的記憶,顯然Memory可以分為片上和片外,片上有限,片外無限。下一步,我們只需要專注於把LLM的Logic推到極致,把大部分低頻Memory offload到模型以外,配以搜索等查詢技術,就可以實現對整個網際網路前後端的重構。我們遠遠沒有吃盡scaling-law的紅利,限制我們的,只有集成電路的摩爾定律和製造能力、能源的價格、數據的獲取。

集成電路方面,以Chiplet為代表的系統摩爾定律還不夠,人們需要能夠scaling-up的Foundry。

能源方面,太陽能和風能 + 能源存儲能夠解決很多問題,更加激動人心的是以Helion為代表的核聚變技術,則有機會把能源價格降低一個量級,然後更多。

數據方面,目前的GPT模型依賴網際網路文本數據,這會用盡,沒關係,現實世界的數據是無限的。

連載話題預告

今天先寫到這兒。

計劃中:

By 紅博士, 2023年2月8日



[ 🔙 斷開連線 / 返回檔案庫主機 ]