騰訊升級自研混元大模型：中文效果超越GPT3.5

公開日: 2023-10-26

騰訊混元大模型於今年9月正式發布，1個多月後，該大模型今天迎來重磅升級。據“鵝廠技術派”公眾號介紹，騰訊混元大模型迎來全新升級，並正式對外開放“文生圖”功能。

升級後的騰訊混元中文效果整體超過GPT3.5，代碼能力大幅提升20%，達到業界領先水準。

據介紹，相比其他大模型，騰訊混元的文生圖應用，在人像真實感、場景真實感上有比較明顯的優勢。同時，在中國風景、動漫遊戲等場景等生成上有較好的表現。

大模型文生圖的難點體現在對提示詞的語義理解，生成內容的合理性以及生成圖片的效果。針對這三個技術難點，騰訊進行專項的技術研究，提出一系列原創算法，來保證生成圖片的可用性和畫質。

具體來說，在語義理解方面，騰訊混元採用了中英文雙語細粒度的模型，模型同時建模中英文實現雙語理解，而不是通過翻譯。通過優化算法提升了模型對細節的感知能力與生成效果，有效避免多文化差異下的理解錯誤。

為了解決AI生成人體結構和手部經常容易變形的問題，混元文生圖增強了算法模型的圖像二維空間位置感知能力。並將人體骨架和人手結構等先驗信息引入到生成過程中，讓生成的圖像結構更合理，減少錯誤率。

質感方面，經模型算法優化後，混元文生圖的人像模型，包含發絲、皺紋等細節的效果提升了30%，場景模型，包含草木、波紋等細節的效果提升25%。

據悉，混元大模型為騰訊全鏈路自研大語言模型，參數規模超千億，預訓練語料超2兆tokens（大語言模型文本部門），具有中文創作能力、任務執行能力和複雜語境下的邏輯推理能力。

該模型能在多種場景下處理超長文本，通過位置編碼優化，提升長文處理效果和性能，結合指令跟隨優化，讓產出內容更符合字數要求。

混元大模型已在騰訊雲、騰訊廣告、微信搜一搜等多個騰訊內部業務和產品經過測試。同時也服務產業場景，客戶可基於API調用混元，也可基於混元做專屬的行業大模型。