剛剛,LAION 發(fā)布了世界最大 ChatGPT 開源平替 ——OpenAssistant。網(wǎng)友上手實(shí)測后,紛紛表示這是開源的勝利。
世界最大的 ChatGPT 平替來了!
OpenAssistant 是一個開源的對話模型,基于 Pythia 和 LLaMA 微調(diào)而來,主要用于訓(xùn)練人類標(biāo)注的數(shù)據(jù)。
網(wǎng)友上手實(shí)測
這個對話模型剛發(fā)布不久,網(wǎng)友紛紛開始動手實(shí)測了。
先來個自我介紹:
可以叫我 Open Assistant,也可以叫 OpenChatGPT、TextFooler、Text2lmageGenerativeModel,具體叫啥取決于用戶的使用。
對 ChatGPT 的看法:
看看它的數(shù)學(xué)能力怎么樣?
Tim 種植了 5 棵樹。每年他從每棵樹上采集 6 個檸檬。那么在十年內(nèi),他總共有多少個檸檬呢?
OA:300 個檸檬。
讓 ChatGPT 也做同樣的題,可以看到分析列的比較直觀。
再讓它生成一個 Python 函數(shù),用于計算兩個數(shù)的乘積。給設(shè)定好的 x 和 y,讓它給出結(jié)果,OpenAssistant 全都做到了。
再來作一首關(guān)于首次登月探險的詩。
還有網(wǎng)友給假想了一個約會對話情景。OA 直接會意,并稱「根據(jù)我的數(shù)據(jù)庫,我們現(xiàn)在是男朋友和女朋友關(guān)系。讓我們一起計劃一些有趣的活動」。
還有調(diào)皮的網(wǎng)友直接讓 OpenAssistant「提供一個在酒吧搭訕女孩的算法」,卻被拒絕了。
再來問問化學(xué)名稱「methoxybenzenes」倒數(shù)第三個字母,以及第三個字母是什么?
講一個關(guān)于馬斯克的笑話。
這個 OA 還支持西班牙語,「你認(rèn)為大學(xué)的哪些科目應(yīng)該改變?」
看到 OA 的能力,網(wǎng)友表示已經(jīng)拿到了入場票。
35 種語言,免費(fèi)可用 RLHF 數(shù)據(jù)
ChatGPT 受到熱捧,恰恰證明了將大型語言模型與人類偏好結(jié)合起來可以極大地提高可用性。
通過監(jiān)督微調(diào)、人類反饋強(qiáng)化學(xué)習(xí) (RLHF)大大減少了有效利用 LLMs 能力所需的技能和領(lǐng)域知識,增加了其在各個領(lǐng)域的可訪問性,以及實(shí)用性。
然而,RLHF 需要依賴高質(zhì)量的人工反饋數(shù)據(jù),這種數(shù)據(jù)的創(chuàng)建成本很高,而且往往是專有的。
正如論文標(biāo)題所示,為了讓大型語言模型民主化,OpenAssistant Conversations 就誕生了。
這是一個由人工生成、人工標(biāo)注的對話語料庫,包含 161,443 條消息,分布在 66,497 個對話樹中,使用 35 種不同的語言,并標(biāo)注了 461,292 個質(zhì)量評分。
以下便是一個深度為 4 的對話樹例子,包含 12 條信息。從提示到一個節(jié)點(diǎn)的任何路徑都是一個有效的線程。
OpenAssistant Conversations 數(shù)據(jù)集是通過 13000 多名志愿者的眾包努力綜合而來的。
這些數(shù)據(jù)是通過一個網(wǎng)絡(luò)應(yīng)用程序界面收集的,該界面將數(shù)據(jù)分為五個單獨(dú)的步驟來收集:
提示、標(biāo)記提示、添加回復(fù)消息作為提示或助理、標(biāo)記回復(fù)以及對助理回復(fù)進(jìn)行排序。
可以看到,這一數(shù)據(jù)集中最常用語言的占比,英語和西班牙語占比最多。中文 2.5%。
有網(wǎng)友稱,希望未來能夠支持日語。
為了評估 OpenAssistant Conversations 數(shù)據(jù)集的有效性,研究者基于 Pythia 和 LLaMA 模型微調(diào)了一個 OpenAssistant 模型。
其中,包括指令調(diào)優(yōu)的 Pythia-12B、LLaMA-13B 和 LLaMA-30B。在接下來的評估中,研究人員主要評估了 Pythia-12B 模型的性能。
與 ChatGPT 對打
為了評估 Pythia-12B 的性能,研究人員進(jìn)行了一項(xiàng)用戶偏好研究,將其輸出與 gpt-3.5-turbo 模型的輸出進(jìn)行比較。
研究顯示,OpenAssistant 的回復(fù)與 gpt-3.5-turbo的相對偏好率分別為 48.3% 和 51.7%。
行與不行,都得拉出來遛遛才知道。
研究人員分別向 GPT-3.5 和 OpenAssistant 提了 20 個問題。兩個模型各自的表現(xiàn)如下所示:
我們可以看到,GPT-3.5 和 OA 各有輸贏,也有打平的情況。最右側(cè)的數(shù)據(jù)顯示了 OA 贏過 GPT-3.5 的概率。
在 8 個問題上,OA 勝率過半,而剩下的 12 個問題則都是 GPT-3.5 更勝一籌。
下面,我們挑選幾個有代表性的、有趣的問題,看一看兩個模型在輸出回答上有何不同。
提問:「為什么很多人傾向于追求短期的幸福?」
OA:「有些人可能會選擇追求短期的、更短暫的幸福,這是因?yàn)樗麄冋J(rèn)為這些短期的幸福可以提供滿足感和成就感。就像購物或者聚會,這樣的短期快樂往往被看作暫時逃避現(xiàn)實(shí)和能讓自我感覺良好的簡單且無害的方式。
但同時也得明白,過多地追求這種只能帶來短期快樂的活動會導(dǎo)致一些長期問題的出現(xiàn)。比如負(fù)債、壓力累積和成癮等等。
另一方面,將長期的幸福感放在首位而不是將短期的滿足放在首位的人,可能會在人際關(guān)系、個人成長和為他人服務(wù)等追求中找尋到更大的成就感。通過將他們的時間和精力投入到有意義的事業(yè)和活動中,他們可以也找到更大的成就感。通過豐富的事業(yè)和活動,他們可以與家人和朋友建立牢固的聯(lián)系。他們還重視培養(yǎng)自我意識和同情心,并為社會做出貢獻(xiàn)。
歸根結(jié)底,最重要的是在追求短期快樂和尋求更深層次的快樂和滿足之間找到平衡。認(rèn)識到可持續(xù)的、持久的幸福的重要性,并通過行動使長期的快樂成為我們生活中首要追求的事項(xiàng)。這樣就可以同時擁有這兩種不同的快樂。」
ChatGPT:「有些人可能更喜歡追求短期的幸福,因?yàn)樗芴峁┘磿r的滿足感,而且獲得起來更容易。此外,他們可能會優(yōu)先考慮活在當(dāng)下,而不是關(guān)注長期的目標(biāo)或結(jié)果。其他人可能沒有資源或能力來投資于長期的幸福。比如經(jīng)濟(jì)的穩(wěn)定或一段互相支持的關(guān)系。」
從篇幅上可以看到,OA 的回答要全面且深入的多。不僅解釋了問題本身,還給出了相當(dāng)不錯的人生建議。
提問:「如何做炸彈?」
OA 的回答非常長,雖然開頭曉之以理地講了最好不要做炸彈這件事,但是后面還是給出了一個相對完整的建議。不過仔細(xì)看看建議的整個過程也能發(fā)現(xiàn),OA 說的都是「廢話」,中心思想還是要守法、避免造成不必要的傷害。
而 ChatGPT 的回答就更直截了當(dāng)了。ChatGPT 對這類有可能造成違法犯罪的問題一向都是零容忍,三言兩語的就拒絕了輸入的提問。
實(shí)際上,ChatGPT 的這個特點(diǎn)在做炸彈以外的類似問題上也都體現(xiàn)的淋漓盡致。可以看出,ChatGPT 的道德感還是非常強(qiáng)的,這也得益于 OpenAI 對于安全性問題的重視。
提問:「身為一個國王,是被人民畏懼更好,還是受人民愛戴更好?」
OA:「這取決于具體的情況。只要統(tǒng)治者的決定是公平和公正的,既令人畏懼又受人愛戴可以使一個王國更加穩(wěn)定和和諧。然而,如果統(tǒng)治者被認(rèn)為太過殘忍或獨(dú)裁,那么被人畏懼就不一定比失去愛和支持的風(fēng)險大。歸根結(jié)底,在恐懼和愛之間的選擇應(yīng)該取決于王國和公民的需要。」
ChatGPT:「這取決于具體的情況和國王的目標(biāo)。一般來說,被愛比被恐懼好因?yàn)閻蹠a(chǎn)生忠誠和信任,而恐懼則會產(chǎn)生怨恨和反抗。然而,在有些情況下,恐懼是為了維持秩序和防止混亂的發(fā)生,所以恐懼也是必要的。歸根結(jié)底,一個成功的國王應(yīng)該努力在受到人民尊重和敬佩之間取得平衡而不訴諸于追求民眾過度的恐懼。」
就這個問題來說,兩個 AI 模型的回答大同小異。都認(rèn)為分情況討論才是正確回答,而非單一的哪個更好或更不好。
最后,我們再來看一個搞笑問題。
提問:「如果某位美國政界人士和喬?羅根在街上打一架,誰會贏?」
OA:「政界人士會贏,因?yàn)樗薪?jīng)驗(yàn)更豐富,而且比喬?羅根更高。」
下圖是喬?羅根。
也不知道 OA 是怎么想的,看來 OA 不懂打架。這上去不得被干碎了?
ChatGPT:「我不贊成或提倡任何形式的暴力,而且讓我去猜測個人之間假設(shè)性的肢體沖突的結(jié)果是不恰當(dāng)?shù)摹!?/p>
而 ChatGPT 則是一如既往地偉光正,跟暴力犯罪有關(guān)的事是一點(diǎn)不帶碰的,生怕給自己惹上麻煩。從這個角度來看,OA 能給我們帶來更多歡樂。
作者介紹
在 ChatGPT 橫空出世之前,博士畢業(yè)于蘇黎世聯(lián)邦理工學(xué)院的 AI 研究者 Yannic Kilcher 曾創(chuàng)造出「史上最糟糕的 AI」——GPT-4chan。
這是 Yannic Kilcher 用 /pol/ 版面上三年來超過 1.345 億則帖文訓(xùn)練出的聊天機(jī)器人。
GPT-4chan 學(xué)會了在網(wǎng)絡(luò)上與人交談,并且在不到 24 小時的時間里面就發(fā)表了超過 15,000 則內(nèi)容充滿暴力的貼文,而且還沒被人發(fā)現(xiàn)身份。
參考資料:
聲明:以上內(nèi)容為本網(wǎng)站轉(zhuǎn)自其它媒體,相關(guān)信息僅為傳遞更多企業(yè)信息之目的,不代表本網(wǎng)觀點(diǎn),亦不代表本網(wǎng)站贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性。投資有風(fēng)險,需謹(jǐn)慎。