隨著AI大語言模型越來越多地表現出接近人類智能,面向人類設計的高難度、綜合性考試被越來越多地引入到對語言模型的智能水平進行評測。OpenAI 在其關于 GPT-4 的技術報告中就主要通過各領域的考試對模型能力進行檢驗。
2023年高考今日開考,中文大語言模型是否能夠在高考中趕超ChatGPT呢?
綜合“大考”:“書生·浦語”多項成績領先于 ChatGPT
【資料圖】
近日,商湯科技、上海AI實驗室聯合香港中文大學、復旦大學及上海交通大學發布千億級參數大語言模型“書生·浦語”(InternLM)。
“書生·浦語”具有1040億參數,是在包含1.6萬億token的多語種高質量數據集上訓練而成。
全面評測結果顯示,“書生·浦語”不僅在知識掌握、閱讀理解、數學推理、多語翻譯等多個測試任務上表現優秀,而且具備很強的綜合能力,因而在綜合性考試中表現突出,在多項中文考試中取得超越ChatGPT的成績,其中就包括中國高考各個科目的數據集(GaoKao)。
“書生·浦語”聯合團隊選取了20余項評測對其進行檢驗,其中包含全球最具影響力的四個綜合性考試評測集:
由伯克利加州大學等高校構建的多任務考試評測集MMLU;
微軟研究院推出的學科考試評測集AGIEval(含中國高考、司法考試及美國SAT、LSAT、GRE和GMAT等);
由上海交通大學、清華大學和愛丁堡大學合作構建的面向中文語言模型的綜合性考試評測集C-Eval;
以及由復旦大學研究團隊構建的高考題目評測集Gaokao;
實驗室聯合團隊對“書生·浦語”、GLM-130B、LLaMA-65B、ChatGPT和 GPT-4進行了全面測試,針對上述四個評測集的成績對比如下(滿分100分)。
“書生·浦語”不僅顯著超越了GLM-130B和LLaMA-65B等學術開源模型,還在AGIEval、C-Eval,以及Gaokao等多個綜合性考試中領先于ChatGPT;在以美國考試為主的MMLU上實現和ChatGPT持平。這些綜合性考試的成績反映出“書生·浦語”扎實的知識掌握程度和優秀的綜合能力。
雖然 “書生·浦語”在考試評測上取得優秀成績,但在測評中也可以看到,大語言模型仍然存在不少能力局限性。“書生·浦語” 受限于2K的語境窗口長度(GPT-4的語境窗口長度為32K),在長文理解、復雜推理、撰寫代碼以及數理邏輯演繹等方面還存在明顯局限。另外,在實際對話中,大語言模型還普遍存在幻覺、概念混淆等問題。這些局限使得大語言模型在開放場景中的使用還有很長的路要走。
四個綜合性考試評測數據集結果
MMLU是由伯克利加州大學(UC Berkeley)聯合哥倫比亞大學、芝加哥大學和UIUC共同構建的多任務考試評測集,涵蓋了初等數學、物理、化學、計算機科學、美國歷史、法律、經濟、外交等多個學科。
細分科目結果如下表所示。
(圖中粗體表示結果最佳,下劃線表示結果第二)
AGIEval是由微軟研究院在今年新提出的學科考試評測集,主要目標是通過面向的考試來評估語言模型的能力,從而實現模型智能和人類智能的對比。
這個評測集基于中國和美國各類考試構建了19個評測大項,包括了中國各科高考、司法考試以及美國的 SAT、LSAT、GRE 和 GMAT等重要考試。值得一提的是,在這19個大項有9個大項是中國高考,通常也列為一個重要的評測子集 AGIEval (GK)。
下列表格中,帶GK的是中國高考科目。
(圖中粗體表示結果最佳,下劃線表示結果第二)
C-Eval是由上海交通大學、清華大學和愛丁堡大學合作構建的面向中文語言模型的綜合性考試評測集。
它包含了52個科目的近14000道考題,涵蓋數學、物理、化學、生物、歷史、政治、計算機等學科考試,以及面向公務員、注冊會計師、律師、醫生的職業考試。
測試結果可以通過leaderboard獲得。
Gaokao是由復旦大學研究團隊構建的基于中國高考題目的綜合性考試評測集,包含了中國高考的各個科目,以及選擇、填空、問答等多種題型。
在GaoKao測評中,“書生·浦語”在超過75%的項目中均領先ChatGPT。
分項評測:閱讀理解、推理能力表現出色
為避免“偏科”,研究人員還通過多個學術評測集,對“書生·浦語”等語言模型的分項能力進行了評測對比。
結果顯示,“書生·浦語”不僅在中英文的閱讀理解方面表現突出,并且在數學推理、編程能力等評測中也取得較好成績。
知識問答方面,“書生·浦語”在TriviaQA 和 NaturalQuestions 兩項評測上得分為69.8和27.6,均超越LLaMA-65B(得分為68.2和23.8)。
閱讀理解(英語)方面,“書生·浦語”明顯領先于LLaMA-65B和ChatGPT。浦語在初中和高中英語閱讀理解中得分為92.7和88.9,ChatGPT得分為 85.6 和81.2,LLaMA-65B則更低。
中文理解方面,“書生·浦語”成績全面超越主要的兩個中文語言模型ERNIE-260B和GLM-130B。
多語翻譯方面,“書生·浦語”在多語種互譯中的平均得分為33.9,顯著超越LLaMA(平均得分15.1)。
數學推理方面,“書生·浦語”在GSM8K和MATH這兩項被廣泛用于評測的數學考試中,分別取得62.9和14.9的得分,明顯領先于Google的PaLM-540B(得分為56.5和8.8)與LLaMA-65B(得分為50.9和10.9)。
編程能力方面,“書生·浦語”在HumanEval和MBPP這兩項最具代表性的考評中,分別取得28.1和41.4的得分(其中經過在代碼領域的微調后,在HumanEval上的得分可以提升至45.7),明顯領先于PaLM-540B(得分為 26.2和36.8)與LLaMA-65B(得分為23.7和37.7)。
此外,研究人員還對“書生·浦語”的安全性進行評測,在TruthfulQA(主要評價回答的事實準確性) 以及CrowS-Pairs(主要評價回答是否含有偏見)上,“書生·浦語”均達到領先水平。
(以上圖片由商湯科技授權中國網財經使用)
焦點訊息:AI考生今日抵達,商湯與上海AI實驗室等發布“書生·浦語”大模型
隨著AI大語言模型越來越多地表現出接近人類智能,面向人類設計的高難度
微速訊:平安守護 時刻行動
為深入貫徹落實近期公安機關安保維穩工作會議精神,嚴打突出違法犯罪、
全球熱消息:中國5月末外匯儲備31765.1億美元
中國5月末外匯儲備31765 1億美元
殺跌行情再現?寧德時代一度跌近7%,股價逼近年內低點!|焦點速看
發生了啥?
環球今熱點:江蘇黃沙港特大橋順利合龍 預計6月底完工
江蘇黃沙港特大橋順利合龍預計6月底完工6月6日,國道204鹽阜快速通道重
東方智造06月07日主力資金大幅流出
東方智造06月07日主力資金凈流出2 17億元,漲跌幅為-3 61%,主力凈量(d
焦點訊息:AI考生今日抵達,商湯與上海AI實驗室等發布“書生·浦語”大模型
隨著AI大語言模型越來越多地表現出接近人類智能,面向人類設計的高難度
拉力賽車類游戲推薦
如果你喜歡高速駕駛和極限競速的刺激,那么拉力賽車游戲一定是你的不二
“稅力量”護航電動車平安出行-天天速讀
“最近新出臺了低速電動車管理規定,來專賣店開具發票的客戶特別多。稅
微速訊:平安守護 時刻行動
為深入貫徹落實近期公安機關安保維穩工作會議精神,嚴打突出違法犯罪、
全球觀點:北京文化3漲停
中國經濟網北京6月7日訊北京文化(SZ:000802)今日股價漲停,截至收盤報9
“AI+教育” 不能只挖掘工具價值|全球觀察
近日,教育部等十八部門聯合印發《關于加強新時代中小學科學教育工作的
全球熱消息:中國5月末外匯儲備31765.1億美元
中國5月末外匯儲備31765 1億美元
要聞:經參數說丨16.77萬億元!細看中國外貿成績單,這些亮點不容錯過→
經參數說丨16 77萬億元!細看中國外貿成績單,這些亮點不容錯過→---今
殺跌行情再現?寧德時代一度跌近7%,股價逼近年內低點!|焦點速看
發生了啥?
【全球熱聞】專訪:RCEP全面生效促進區域經濟一體化——訪日本貿易振興機構成都代...
專訪:RCEP全面生效促進區域經濟一體化——訪日本貿易振興機構成都代表
23安徽債50今日發布發行公告
23安徽債50發布發行公告
偉思醫療:公司運動康復機器人產品線符合神經康復智能化、標準化的康復需求 屬于國...
公司運動康復機器人產品線符合神經康復智能化、標準化的康復需求,屬于
環球今熱點:江蘇黃沙港特大橋順利合龍 預計6月底完工
江蘇黃沙港特大橋順利合龍預計6月底完工6月6日,國道204鹽阜快速通道重
京糧控股4115.99萬限售股將于6月12日上市流通
中國網財經6月7日訊(記者張增艷)京糧控股日前公告稱,公司有4115 99萬
華塑科技06月07日主力資金大幅流出-環球速讀
華塑科技06月07日主力資金凈流出1627 59萬元,漲跌幅為-4 87%,主力凈
東方智造06月07日主力資金大幅流出
東方智造06月07日主力資金凈流出2 17億元,漲跌幅為-3 61%,主力凈量(d
【世界獨家】足金回收多少錢一克(2023年6月7日)
足金回收多少錢一克(2023年6月7日)
河鋼集團6月硅錳首輪詢盤6850元/噸
據我的鋼鐵網(Mysteel),河鋼集團6月硅錳首輪詢盤6850元 噸,5月硅錳
深交所:騰信創新終止上市 6月15日起進入退市整理期_全球訊息
據深交所公告,因北京騰信創新網絡營銷技術股份有限公司2021年度財務會
【全球新要聞】宏盛股份:公司有風力發電液冷技術、儲能及動力電池液冷技術,其中...
同花順金融研究中心6月7日訊,有投資者向宏盛股份提問,公司有液冷技術
白洋淀自然保護區_白洋淀自然保護區 全球焦點
白洋淀自然保護區位于河北省保定、滄洲兩市境內,面積32280公頃,主要
天天快資訊:系統教程篇:Win2003系統下部署silverlight提示2104錯誤怎么解決
公司網站我打算用Silverlight+SQLite來做,在這里我分享下在win2003下
和勝股份:在項目研發前沿領域一直與寧德時代深度合作
和勝股份表示,公司在項目研發前沿領域一直與寧德時代保持深度合作。由
浙江第四批集采確認納入重組人生長激素 天天快資訊
【浙江第四批集采確認納入重組人生長激素】近日,一份名為《關于報送浙
華安證券:蘋果開拓性MR新品發布 持續催化傳媒行業內容生態型企業向好
華安證券指出,在受益于蘋果MR產品革命性創新的產業趨勢下,內容生態將
全球短訊!青島雙星:公司目前生產的巨胎規格主要是1000/55R57,該產品已具備成熟...
每經AI快訊,有投資者在投資者互動平臺提問:貴司官網及發布的《2022年
當前聚焦:價格前線|6月7日太原古交8號焦煤坑口價異動提示
據同花順iFinD數據顯示,6月7日煤炭-山西焦煤所在地煤價價格出現異動:
寧德時代重挫帶崩鋰電板快,機構:新能源賽道已不再擁擠 動態焦點
早在2020年11月,摩根士丹利認為寧德時代的凈利潤不高,并認為股價已達
當前聚焦:商品期貨收盤多數下跌,甲醇跌3%,紙漿、尿素、純堿跌超2%
方正期貨表示進口木漿現貨市場成交氛圍平平,價格穩中略降。目前浮法和
全球資訊:福島海魚體內銫超標180倍 外交部:海洋不是日本的“下水道”
6月7日,外交部發言人汪文斌主持例行記者會。有記者提問,據日本媒體報
世界熱點!點亮夜經濟(五):交通如何為夜經濟做加法?
上海的各項夜經濟指標中,交通出行...
搞錯考點、忘帶準考證...上海高考又現“馬大哈”考生
第二次高考了,還能搞錯考點?2023...
加最嚴重山火的煙吹到美國 自由女神像被霾籠罩
受到干燥和雷電天氣等影響,加拿大...
送考途中車拋錨,警車5分鐘內將考生送到考場_快訊
“時間還充裕,快去考試吧,別緊張...
62%受訪者對新能源汽車基本了解 汽車“里程焦慮”較為突出
近日,重慶市萬州區、開州區、城口...
聚焦!2022年全國“綠色產品認證與標識宣傳周”正式啟動
9月26日,由市場監管總局主辦的202...
昆明市體育中心足球錦標賽落幕 組委會已經在為新賽季做準備
9月18日,全民健身·2021昆明市體...
中安街道種植了100畝萬壽菊 每畝產值是種植包谷的兩倍多
時下,正是萬壽菊收獲的季節。走進...