婷婷综合五月,午夜免费一区,日韩电影免费网站

】昨晚，谷歌正式開源了自家最強的開源模型Gemma 2，直指為全球范圍研究開發(fā)者提供實用部署工具。

就在昨晚，谷歌的明星開源大模型系列，又迎來兩位新成員——Gemma 2 9B和Gemma 2 27B！

四個月前谷歌宣布重磅開源Gemma，四個月后Gemma 2上線，專門面向研究和開發(fā)人員。

目前，模型權(quán)重已經(jīng)在HuggingFace上公開。

項目地址：https://huggingface.co/collections/google/gemma-2-release-667d6600fd5220e7b967f315

Gemma 2的核心亮點概括來說就是：參數(shù)雖小但性能極佳。

而且，27B模型甚至可在單張谷歌云TPU、英偉達A100 80GB GPU或英偉達H100 GPU上，以全精度高效運行推理。

高效新模型的誕生

Gemma 2在設(shè)計的架構(gòu)上均有創(chuàng)新，旨在實現(xiàn)卓越的性能和提高推理效率。

在技術(shù)報告中，Gemma 2最引人注目的三大創(chuàng)新優(yōu)勢在于：

首先，性能遠超同同等規(guī)模模型。

Gemma 2 27B在同類產(chǎn)品中性能最佳，甚至能挑戰(zhàn)規(guī)模更大的模型。

Gemma 2 9B的性能在同類產(chǎn)品中也處于領(lǐng)先地位，超過了Llama 3 8B和其他同規(guī)模的開源模型。

與其他大模型在Lmsys同場競技，同等規(guī)模模型中Gemma 2的性能「一覽眾山小」。

其次，超高效率，節(jié)約成本。

27B模型可用于在單個谷歌Claude TPU主機或NIVIDIA H100 GPU上以全精度高效運行推理，從而在保持高性能的同時大幅降低成本。

用較小的模型規(guī)模能夠在更廣泛的硬件上部署，對于開發(fā)者和研究人員帶來許多便利。

最后，能夠跨硬件快速推理。

Gemma 2經(jīng)過優(yōu)化，可在各種硬件上以驚人的速度運行。

比如在Google AI Studio中嘗試全精度的Gemma 2，在CPU上使用量化版本 Gemma.cpp解鎖本地性能，或通過 Hugging Face Transformers庫在配備英偉達RTX或GeForce RTX的家用電腦上，均可使用。

高效的源頭：架構(gòu)創(chuàng)新

Gemma是谷歌團隊推出的一系列輕量級、先進的開源模型，基于與Gemini模型相同的研究和技術(shù)構(gòu)建的文本生成解碼器大型語言模型。

Gemma 2訓(xùn)練數(shù)據(jù)量大約是第一代的兩倍，并沿用了上一代的基本架構(gòu)，但進行了全方位的改良。

局部滑動窗口和全局注意力
Gemma 2交替使用局部滑動窗口注意力和全局注意力層級進行切換，局部注意力層的滑動窗口大小設(shè)置為4096個token，而全局注意力層的設(shè)置為8192個token。

在正確捕捉文本細節(jié)的同時，又能保持對上下文和全局的正確理解。

Logit軟上限
按照Gemini 1.5版，Gemma對每個注意層和最終層的logit進行軟封頂。

通過將logits設(shè)置在一個合理的固定范圍內(nèi)，可以有效提升訓(xùn)練的穩(wěn)定性，防止內(nèi)容過長。

使用RMSNorm進行前后歸一化
為了使訓(xùn)練更加穩(wěn)定，Gemma 2運用了RMSNorm對每個轉(zhuǎn)換層、注意層和反饋層的輸入和輸出進行歸一化。

這一步和Logit軟上限都使得模型訓(xùn)練更穩(wěn)定平滑，不易出現(xiàn)崩潰。

分組查詢注意力
GQA通過對于注意力分組，將算力用于一組注意力的組內(nèi)。

在計算時顯示出更快的數(shù)據(jù)處理速度，同時還能保持下游性能。

知識蒸餾
傳統(tǒng)訓(xùn)練大語言模型的方法主要是根據(jù)上一個Token，預(yù)測下一個Token，需要大量的數(shù)據(jù)進行訓(xùn)練。

但是，人類的學(xué)習(xí)過程并不依賴走量的知識輸入。比如，一位學(xué)生由于閱讀原著的需要學(xué)習(xí)一門外語，他并不需要看遍所有的書籍，只需要以一本書為綱，通過理解后融會貫通。

而知識蒸餾法與人的學(xué)習(xí)過程更加類似。一個小模型向另一個已經(jīng)進行過預(yù)訓(xùn)練的大模型學(xué)習(xí)，通過這種方式助產(chǎn)小模型對于Token的預(yù)測。

站在老師模型的肩膀上，學(xué)生模型能用較少的訓(xùn)練數(shù)據(jù)達到更好的效果。

欧美精品91,黄毛片在线观看,亚洲精品成a人ⅴ香蕉片,日韩高清成人在线