【404文庫】紅博士說｜中國如何缺席ChatGPT盛宴

ChatGPT 編年史
我們如何錯過GPT盛宴
GPT大語言模型能實現AGI嗎
連載話題預告

CDT 檔案卡

標題：中國如何缺席ChatGPT盛宴
作者：紅博士
來源：微信公眾號「紅博士說」
發表日期：2023.2.8
主題歸類：ChatGPT

CDS收藏：公民館

版權說明：該作品版權歸原作者所有。中國數字時代僅對原作進行存檔，以對抗中國的網絡審查。詳細版權說明。

file

ChatGPT編年史

我們來梳理一個時間軸。ChatGPT是對話式UI + GPT–3.5系列模型，我們以最具代表性的論文、模型、API為主線，梳理到今天。

2020之前

2017年6月，Google發布Transformer論文。
2017年6月，7月，OpenAI發布人類喜好的強化學習算法、PPO算法，都是ChatGPT用到的算法。
2018年6月，OpenAI發布GPT-1.
2018年11月，Google發布BERT，此後NLP領域主要基於這個框架研究下遊任務。
2019年2月，OpenAI發布GPT-2，OpenAI獲得了自信，此後專注於GPT.

2020年

年初，Covid-19爆發。中國閉關。
1月，OpenAI發布語言模型的Scaling Law（概念：模型能力跟參數規模、數據規模強相關），OpenAI獲得了在數據和參數規模上Scaling-up的信心。
5月，GPT-3論文發布。
6月，GPT-3 API發布。
9月，ChatGPT的關鍵原型算法相關論文發布。
12月，歐洲機構發布用於GPT-3復現的開源數據集。

2021年

7月，OpenAI發布Copilot原型算法。
8月，Codex API發布。
11月，GPT-3 API Public Release，不對中國開放。
中國閉關。

2022年

1月，GPT-3.5 API (text-davinci-002)發布，該模型經過Github代碼的訓練加持，推理能力顯著提升（該假設的因果關係待學術界論證），經過Alignment技術的加持，Follow人類指令的能力顯著提升，輸出結果有用性和無害性顯著提升。
3月，GPT-3.5論文發布，公開Alignment算法。
5月，OpenAI Codex已經被70個應用使用，包括微軟收購的Github的Copilot.
8月，Stability AI開源StableDiffusion，文生圖的算法的效果可用、速度可行、代碼開源同時發生，引爆圖片生成。一時間，在中國，AIGC似乎就是圖片生成的代名詞。
9月，Sequoia Capital發布Generative AI: A Creative New World博客。
中國研究人員和開發者，沒有OpenAI的API權限。但圖片生成卻人人都可以嘗試，於是網際網路似乎只注意到了圖片生成，對GPT大語言模型的關注度進一步下降。
經過接近一年的API接入和UI探索、近一年的思維鏈（Chain of Thought）等Prompt Engineering技術試錯、模型加速等技術（如Flash Attention、Fixed-Point）帶來的成本和延遲下降，GPT-3.5的模型潛力得到開發（變得Better、Faster and Cheaper）, Copy.ai, Jasper等文本生成類公司的產品逐漸成熟。
11月，OpenAI發布GPT3.5 API的新模型(text-davinci-003).
12月1日，ChatGPT發布。Musk等名流開始談論ChatGPT，引爆英文網際網路。
12月初，中國網際網路的自媒體逐漸開始討論ChatGPT，主要以翻譯twitter的方式。知乎上有學者開始反思。一周後，關注指數下降，兩個月來只剩下AI自媒體把ChatGPT作為自己的主要關注內容。
中國閉關。

2023年

1月，微軟宣布投資OpenAI數十億美元，並將GPT加入全家桶。
2月，中國春節結束，微軟和Google你方唱罷我登場，納斯達克財報季，AI被反覆提起。中國網際網路是認識微軟的，ChatGPT引爆中國網際網路，關注指數飆升。
中國開放。

值得注意的是，中國因為疫情閉關的三年，正是OpenAI的GPT發展、壯大、產品化的三年。

我們如何錯過GPT盛宴？

歷史回顧完了，那麼為什麼我們（中國，尤其是AI社區）沒有更早地意識到，OpenAI技術在應用層面的突破性？

意識到問題需要同時具備哪些條件：

能夠看且懂OpenAI、DeepMind、Google等機構的論文（代表人群：研究員）
能夠使用OpenAI的API探索論文裡的模型（代表人群：研究員裡的嘗鮮者）
對矽谷的敏感性，經常看大家在用OpenAI的API做什麼產品（代表人群：VC）

這三類人在中國，我們粗估一下，第一類，大概有1/100,000，第二類大概是第一類裡的1/1,000，第三類大概是1/1,000,000. 三個條件，缺少一個，都無法意識到OpenAI發展到哪一步了。有哪個團隊匯集了這三種人，並且他們有充分的碰撞？有哪個人是具備了這三種屬性？雪上加霜的是，研究人員三年來被封在國內，沒有出國參加過學術會議交流，甚至我猜很多人連線上會議都沒有參加，很多東西我們從論文上是看不到的。

我們繼續深挖。第一類人群中，又分成NLP（自然語言處理）研究人員，其他AI研究人員（比如計算機視覺、語音識別、機器學習）。

中國NLP的研究群體裡，基本上是把語言模型（尤其是BERT，而不是GPT）拿去應用在NLP的各種下遊任務上，在學術界就是刷榜發論文，在工業界，就是拿去做客服機器人、寫稿機器人、角色扮演機器人，研究方法也完全不同於GPT精髓——Scaling-up和Alignment。（幾乎）沒有人是把大語言模型（LLM）當做通用人工智慧（AGI）的一種可能性來研究的。

其他AI研究人員，比如計算機視覺，大部分人還是專注在圖像上，即使是用Transformer，也是解決圖像的問題，比如用Transformer來做自動駕駛、圖像生成等。即使是Tesla AutoPilot的AI主管Karpathy。Karpathy在2022年上半年從Tesla裸辭，以獨立研究員的身份，投身於大語言模型。

Karpathy曾經說他過去十年痴迷於AI中取得最快進展的方向，並且曾經對語言模型非常感興趣，但是卻忽視了scaling up的力量，那就是簡單的Objective（next word）+簡單的結構（Transformer）+ 足夠的參數+足夠的數據(web text)，一個語言模型可以湧現出在小規模狀態下看不到的能力，他曾像其他人一樣（他應該指早期的OpenAI），一度以為強化學習是AGI的路徑，到頭來卻發現大語言模型是看起來最有希望的路徑。在此之前，語言模型的研究人員，把精力過多地放在了具體任務上。

再說AI領域的另一個重要群體——計算機視覺（Computer Vision)群體。在2012年開始的深度學習浪潮裡，計算機視覺一直是應用最廣、商業化最成功的方向，吸引了太多AI研究員的精力，從圖像分類、檢測、分割到識別，從圖像到視頻，從高層視覺到底層視覺，我們在卷積神經網絡上卷出了一個又一個新高度。一個YOLO目標檢測框架，被迭代到原作者都放棄了，還有人給推到了v7版本。最具代表性的是計算機視覺的登月工程——自動駕駛，它需要成像、識別、合成、建圖、規劃等幾乎所有的視覺AI技術加持，從CNN時代到Transformer時代，不斷地拉更多的人下水，但直到今天，全自動駕駛的方案仍未收斂。馬斯克定義的問題是對的，自動駕駛是一個real-world AI問題，但顯然特斯拉的方案並沒有為全自動駕駛準備好。

NLP圈的小家碧玉，CV圈的隔行隔山，疫情閉關三年，網際網路信息不通。這些因素疊加起來，整個中文世界，形成了一個信息繭房。10年來，我們以為自己積攢的AI算法、數據、應用的優勢，如今變成中美巨大的鴻溝。這個時候，我們甚至沒有一個新聞調查，把這件事的來龍去脈，挖它個底朝天。

另一個問題是，我們的中文網際網路不足以提供高質量的訓練數據。什麼是高質量的數據？比如維基百科、高質量的活躍論壇、專業新聞、學術論文、高質量代碼、圖書。

我們看看GPT–3的訓練數據是什麼。權重最大的數據集是OpenWebText（開源版本）,數據是從Reddit論壇上收集的URL，再把內容抓取下來。Common Crawl是一個開放的網際網路數據存檔（英文佔一半，中文大概5%）。其他一些代表性的數據包括Wikipedia維基百科，Books開放圖書，Stack Exchange技術問答社區，Github 代碼，ArXiv論文，RealNew新聞存檔，PubMed醫療數據。可以看到，由中文網際網路產生的數據，比例低到可以忽略。這也是困擾很多試圖訓練中文大模型的問題，但實際上，ChatGPT的用中文溝通的能力，已經遠超那些專門的中文大語言模型了，背後原因是GPT隱式學到的翻譯能力。

沒有好的中文數據，我們就只能搭全球網際網路的數據順風車。上面這些優質數據的產生，需要開放的社區，我們似乎無解。

GPT大語言模型能實現AGI嗎？

基於GPT的LLM，僅僅依賴語言，大概率無法實現AGI，而只是」通往AGI的高速公路的一個出口（Yann Lecun）「。但LLM足以把網際網路基礎設施搞個天翻地覆，它同時具備了Logic和Memory。Logic是推理能力，Memory是對高頻知識的記憶，顯然Memory可以分為片上和片外，片上有限，片外無限。下一步，我們只需要專注於把LLM的Logic推到極致，把大部分低頻Memory offload到模型以外，配以搜索等查詢技術，就可以實現對整個網際網路前後端的重構。我們遠遠沒有吃盡scaling-law的紅利，限制我們的，只有集成電路的摩爾定律和製造能力、能源的價格、數據的獲取。

集成電路方面，以Chiplet為代表的系統摩爾定律還不夠，人們需要能夠scaling-up的Foundry。

能源方面，太陽能和風能 + 能源存儲能夠解決很多問題，更加激動人心的是以Helion為代表的核聚變技術，則有機會把能源價格降低一個量級，然後更多。

數據方面，目前的GPT模型依賴網際網路文本數據，這會用盡，沒關係，現實世界的數據是無限的。

連載話題預告

今天先寫到這兒。

計劃中：

OpenAI的故事
AI Alignment
AI與資本主義
AI與教育
AGI時代的人

By 紅博士, 2023年2月8日