📢 Gate廣場 #NERO发帖挑战# 秀觀點贏大獎活動火熱開啓!
Gate NERO生態周來襲!發帖秀出NERO項目洞察和活動實用攻略,瓜分30,000NERO!
💰️ 15位優質發帖用戶 * 2,000枚NERO每人
如何參與:
1️⃣ 調研NERO項目
對NERO的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與NERO生態周相關活動,並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
NERO熱門活動(帖文需附以下活動連結):
NERO Chain (NERO) 生態周:Gate 已上線 NERO 現貨交易,爲回饋平台用戶,HODLer Airdrop、Launchpool、CandyDrop、餘幣寶已上線 NERO,邀您體驗。參與攻略見公告:https://www.gate.com/announcements/article/46284
高質量帖子Tips:
教程越詳細、圖片越直觀、互動量越高,獲獎幾率越大!
市場見解獨到、真實參與經歷、有帶新互動者,評選將優先考慮。
帖子需原創,字數不少於250字,且需獲得至少3條有效互動
長文本成爲大模型新標配 國內外巨頭爭相突破40萬token
長文本能力成爲大模型公司的新"標配"
大模型正以驚人的速度提升其處理長文本的能力,從4000個token擴展到40萬個token。長文本處理能力似乎已成爲大模型廠商的又一新"標配"。
國外方面,OpenAI通過多次升級將GPT-3.5的上下文輸入長度從4千增至1.6萬token,GPT-4從8千增至3.2萬token。OpenAI的主要競爭對手Anthropic則一次性將上下文長度提升到10萬token。LongLLaMA更是將上下文長度擴展到25.6萬token甚至更多。
國內方面,大模型初創公司月之暗面推出的Kimi Chat可支持輸入20萬漢字,約合40萬token。港中文和MIT聯合開發的LongLoRA技術,可將7B模型的文本長度擴展到10萬token,70B模型擴展到3.2萬token。
目前,OpenAI、Anthropic、Meta、月之暗面等衆多頂級大模型公司和研究機構都將拓展上下文長度作爲升級重點。這些公司也都是資本市場追捧的熱門對象。OpenAI獲得近120億美元投資,Anthropic估值有望達到300億美元,月之暗面短短半年內完成近20億元融資。
大模型廠商競相攻克長文本技術,將上下文長度擴大100倍意味着什麼?
表面上看,這意味着模型可以輸入更長的文本,閱讀能力更強。GPT-3.5的4000 token僅能輸入約2000個漢字,而Kimi Chat的40萬token可支持輸入20萬漢字,足以閱讀一部長篇小說。
從更深層次看,長文本技術正在推動大模型在金融、司法、科研等專業領域的應用落地。在這些領域,長文檔摘要、閱讀理解、問答等能力是基礎需求,也是亟待智能化升級的方向。
然而,類似於模型參數,文本長度並非越長越好。研究表明,模型支持更長的上下文輸入並不直接等同於效果更好。關鍵在於模型如何有效利用上下文內容。
不過,目前國內外對文本長度的探索還未達到"臨界點"。各大模型公司仍在不斷突破,40萬token可能只是一個開始。
爲什麼要"卷"長文本?
月之暗面創始人楊植麟表示,正是由於大模型輸入長度受限,才造成了許多應用落地的困境。這也是各大模型公司當前聚焦長文本技術的原因所在。
例如,在虛擬角色場景中,由於長文本能力不足,虛擬角色會忘記重要信息。在開發劇本殺類遊戲時,輸入長度不夠會導致規則和設定被削減,無法達到預期效果。在法律、銀行等專業領域,深度內容分析和生成常常受挫。
長文本在未來Agent和AI原生應用中也扮演重要角色。Agent需要依靠歷史信息進行規劃和決策,AI原生應用需要上下文來保持連貫、個性化的用戶體驗。
楊植麟認爲,無論是文字、語音還是視頻,對海量數據的無損壓縮可以實現高程度的智能。大模型的上限由單步能力和執行步驟數共同決定,其中單步能力與參數量相關,執行步驟數即上下文長度。
同時,長文本可以通過提供更多上下文和細節信息,幫助模型更準確地判斷語義,減少歧義,提高推理準確性。
長文本技術既可以解決大模型早期的一些問題,增強某些功能,也是進一步推進產業應用落地的關鍵技術。這標志着通用大模型發展進入了從LLM到Long LLM的新階段。
以月之暗面新發布的Kimi Chat爲例,可以一窺Long LLM階段大模型的升級功能:
這表明,對話機器人正在向專業化、個性化、深度化方向發展,這或許是撬動產業應用和超級APP落地的又一抓手。
楊植麟認爲,國內大模型市場會分爲toB和toC兩個陣營。在toC領域,會出現基於自研模型的超級應用。
不過,目前市面上的長文本對話場景仍有很大優化空間。如不支持聯網獲取最新信息、生成過程無法暫停修改、仍偶爾出現胡說八道的情況等。
長文本的"不可能三角"困境
在長文本技術中,存在文本長短、注意力和算力的"不可能三角"困境:
這一困境的根源在於現有大模型主要基於Transformer結構。其中最重要的自注意力機制雖然能突破輸入順序的限制,但計算量會隨上下文長度呈平方級增長。
這就構成了"不可能三角"中的第一組矛盾:文本長短與注意力。同時,處理長文本需要更多算力,與算力稀缺的現狀又形成了第二組矛盾。
目前主要有三種解決方案:
借助外部工具輔助處理長文本,將長文本切分爲多個短文本處理
優化自注意力機制計算,如LongLoRA技術通過分組計算降低計算量
對模型進行優化,如LongLLaMA通過微調現有模型來支持更長序列
長文本的"不可能三角"困境或許暫時無解,但這也明確了大模型廠商的探索路徑:在文本長短、注意力和算力三者間尋求平衡,既能處理足夠信息,又能兼顧注意力計算與算力成本。