大模型基準測試有了 ITU 國際標準，中國信通院牽頭制定

IT之家 4 月 11 日消息，據中國信通院今日消息，國際電信聯盟電信標準分局（ITU-T）于 2025 年 3 月正式發布 ITU-T F.748.44 基礎模型的評估標準：基準測試 / Assessment criteria for foundation models: Benchmark。

該項國際標準由中國信息通信研究院（簡稱“中國信通院”）牽頭制定，規范了大模型基準測試的指標要求和測試方法。該標準旨在推動大模型基準測試體系架構形成國際共識，為大模型技術提供方和應用方提供高質量的能力評估依據，引導大模型技術及產業健康有序發展。

近些年來，如何客觀、全面地衡量大模型能力并且充分挖掘大模型潛在缺陷得到產學研各界的廣泛關注。模型基準測試（Benchmark）通過設計合理的測試任務和評價數據集來客觀、公正、量化的評估模型的性能，是目前產業界和學術界最為認可的模型能力評估方法。

當前已有數百個基準測試方法和數據集用于衡量大模型的能力，例如 MMLU、C-Eval、AGIEval、GSM8K 等。但當前產學研各界對大基礎模型基準測試的體系、指標、數據集、方法、平臺工具等仍未達成一致，缺乏統一的標準，導致大模型評測的結果公正性受到質疑。為進一步推動大模型基準測評的技術發展與實際應用，充分釋放基準測試在人工智能領域的價值，特聯合相關單位開展標準的編制工作。

本次發布的國際標準基于當前產學研界 500 余項基準測試系統性研究，一方面確立了大模型基準測試的 4 項核心要素，包括測試維度（測試場景、測試能力、測試任務和測試指標）、測試數據集、測試方法和測試工具。另一方面，針對通用場景的基礎模型，提供了標準化的測試用例和范例流程，以支持企業規范開展大模型能力評估。

IT之家從中國信通院官方獲悉，中國信通院人工智能研究所于 2023 年開始布局大模型基準測試研究，并于 2023 年底發布“方升”大模型基準測試體系，推出自適應動態測試方法，積累 600 萬條數據集，構建 FactTeting 測試工具，支撐整個大模型測試過程的自動化實施。

自 2024 年以來，參照已發布的 ITU 大模型基準測試國際標準，對國內外標桿大模型以兩個月為周期開展持續監測工作，包括 OpenAI o1、DeepSeek R1、Gemini 2.5 Pro、Claude 3.7 Sonnet、Qwen2.5-Max、百度文心大模型 X1 等上百個測試模型，目前已發布大語言通用能力、推理能力、代碼能力，多模態理解能力、文生圖能力、文生視頻能力等多個輪次的評測結果。國際標準 ITU-T F.748.44 的發布是大模型測試領域的重要標準化成果，對推動技術創新和發展、引領行業發展趨勢、促進國際合作與交流等方面具有重要意義。

來源:IT之家

電腦行業專用管理系統:IT江湖上一篇下一篇

成人黄色小视频在线观看-成人黄色一级片-成人黄色一级视频-成人黄色影视-黄片毛片在线观看-黄片毛片在线看

購買咨詢

技術支持

微信交流群

大模型基準測試有了 ITU 國際標準，中國信通院牽頭制定

更多資源