來自中國的年輕AI公司的力量背後的秘密:他們如何震驚世界?


在當前的人工智能市場(AI)中,DeepSeek-來自中國的年輕AI公司正在通過令人難以置信的突破引起技術行業的關注。在建立了僅僅一年多的時間之後,DeepSeek開發了高級的AI模型,這些模型可以直接與世界領先的產品競爭,其成本和資源大大降低。

DeepSeek推出了DeepSeek V3模型,這是一種強大的卓越語言模型,能夠與OpenAI和人類產品相同,但培訓成本較低。特別是,DeepSeek採用一種簡化和創造性的方法,幫助他們通過有限的資源來實現令人印象深刻的性能。

不僅如此,DeepSeek還推出了R1模型,該模型是專門為邏輯任務和逐步解決問題而設計的,從而將它們帶入了美國領先的模型。 DeepSeek的快速發展不僅使研究人員感到興奮,還影響了技術投資者,尤其是NVIDIA。

DeepSeek應用了模型開發的智能改進,例如“稀疏激活”技術來節省計算能力。他們還優化了計算機內存中信息的存儲和檢索,幫助模型以較低的成本有效運行。

DeepSeek的受歡迎程度為全球AI研究社區提供了新的機會,當時該公司根據免費MIT許可發布了模型和算法。這使任何人更容易訪問,為個人和小型組織打開了大門參與這一領域。

最後,DeepSeek證明了這場比賽仍然有很多驚喜,沒有人可以保證未來的領先地位。 DeepSeek的到來正在改變AI的部署和使用方式,從而使該行業成為具有挑戰性和新的機遇。

在人工智能市場(AI)中,該名稱由Openai,Google DeepMind或Anthropic之類的流行名稱主導,DeepSeek的外觀是來自中國的年輕AI公司,使整個行業都必須擺動。自成立以來,DeepSeek就在僅僅一年的時間內就開發了可以直接與世界領先產品競爭的高級AI模型,但成本和資源要低得多。這不僅使AI研究人員感到驚訝,而且在技術投資者中引起了許多擔憂,甚至影響了Nvidia等大型公司的市值。那麼,DeepSeek是如何做到這一點的,對全球AI行業的意義是什麼?

DeepSeek:為什麼來自中國的年輕AI公司可以震驚世界? - 照片1。

DeepSeek出生於2023年,在不斷推出強大的AI模型時,很快就引起了技術界的關注。 2023年12月,該公司宣布了DeepSeek V3,這是一種能夠處理與Anthropic的OpenAI或Claude 3.5的GPT-4O的級別處理文檔的大型語言模型(LLM)。使DeepSeek V3與眾不同的原因不僅在性能中,而且在訓練的方式上。雖然Openai的成本超過1億美元來培訓GPT-4,但DeepSeek僅需558萬美元即可開發V3。這種差異來自DeepSeek的簡化和創造性的方法,幫助他們通過有限的資源獲得了令人印象深刻的結果。

不僅削減成本,DeepSeek還使用大量GPU比競爭對手公司優化了培訓過程。具體而言,DeepSeek V3受NVIDIA生產的約2,000 h800 gpu的培訓,而其他公司可能必須使用多達16,000 GPU H100(一個更強的版本)。但是,V3的輸出質量仍然與美國頂級AI模型相同,證明DeepSeek不僅基於硬件功率,而且還取決於算法和方法的突破性。

DeepSeek:為什麼來自中國的年輕AI公司會引起世界震驚? - 照片2。

DeepSeek在2024年1月20日不停下來繼續推出一種名為R1的新模型,該模型專為需要邏輯思維和問題解決的任務而設計。這是AI的重要一步,因為傳統模型傾向於根據統計概率給出答案,而不是真正的推論。多虧了強化學習,R1可以比標準LLM模型更好地處理複雜問題,這使DeepSeek與OpenAI的GPT-4 Turbo(並稱為O1)保持直接競爭位置。

就在一周後,即2024年1月28日,DeepSeek在引入了能夠處理文本和圖像的新型AI模型時繼續激發技術界。這使DeepSeek通過高級多模式AI系統(例如Google Gemini或OpenAI的GPT-4 Vision)參加了比賽。 DeepSeek的迅速發展的發展不僅使研究人員興奮,而且使投資者在西部AI公司的信心中振奮。它的影響力是如此強烈,即使像Nvidia這樣的硬件巨頭也受到了嚴重影響,當投資者擔心AI競爭時,市值也有6000億美元。

DeepSeek:為什麼來自中國的年輕AI公司可以震驚世界? - 照片3。

那麼,有什麼幫助DeepSeek創建比其他公司低得多的強大AI模型的秘訣?答案在於該公司在模型開發過程中採用的智能有效方法。 DeepSeek在其模型中進行的最重要的改進之一是“稀疏激活”技術。在AI模型中,數百十億個參數決定了它對每個問題的響應方式,但並非每當有輸入請求時都使用所有這些參數。通常,確定哪些參數將被激活為消費資源的過程,但是DeepSeek找到了一種預測必要參數並僅激活它們的方法,從而有助於大量節省功率。

此外,DeepSeek還為在計算機內存中存儲和檢索信息的問題還具有全新的方法。他們開發了一種優化的方法,可以幫助更有效地壓縮數據,從而使信息訪問模型更快,而硬件太強。多虧了這些技術,DeepSeek可以取得與世界頂級AI模型相同的性能,但成本和資源大大降低。

DeepSeek:為什麼來自中國的年輕AI公司會引起世界震驚? - 照片4。

DeepSeek的成功不僅給西部AI公司帶來了巨大的挑戰,而且為全球AI研究社區開闢了新的機會。值得注意的是,DeepSeek已在免費的MIT許可證下發布了其模型和算法,這意味著任何人都可以下載,研究和編輯它們。這是學術界的積極信號,尤其是沒有足夠資源的研究人員來訪問昂貴的AI模型,例如GPT-4或Claude 3.5。通過有助於優化計算能力的改進,DeepSeek正在幫助任何人更容易訪問,使個人和小型組織能夠參與遊戲,而不是讓誰只掌握在他們手中的人。

DeepSeek的受歡迎程度還可以導致AI的部署和使用方式發生重大變化。如果AI模型在資源方面越來越有效,則用戶可以在筆記本電腦或電話等個人設備上運行它們,而不是依賴昂貴的雲服務。這可以使AI公司必須審查其業務模型,因為如果用戶可以免費訪問AI並且不需要註冊服務,那麼這些公司就會從模型“ AI -AS-A-Service”中獲得收益,這可能會面臨更多的困難將來。

DeepSeek:為什麼來自中國的年輕AI公司會引起世界震驚? - 照片5。

但是,仍然有一個大問題需要回答:DeepSeek的方法是否有助於創建具有更好整體性能的AI模型,還是只是使任何人對資源更有效?如果答案稍後,則像OpenAI,Google DeepMind或Anthropic這樣的公司仍然可以通過繼續在研發上進行大量投資來保持其領先地位。但是,如果DeepSeek確實可以創建出色的質量模型,那麼當西方巨頭面臨著來自中國的新對手的風險時,這可能是行業中權力轉移的開始。

無論如何,DeepSeek證明了這場比賽仍然有很多驚喜,並且不能保證當今的名字仍將在未來保持自己的地位。

< DIV類=“懷孕”>

< H1>結論為什麼來自中國的年輕AI公司能夠震驚世界? DeepSeek證明,他們有能力創建比其他公司低得多的成本和資源的強大AI模型。 DeepSeek的明智而有效的方法為全球AI行業打開了新的機會。 DeepSeek的受歡迎程度還可以改變AI的部署和使用方式,對西方AI公司構成挑戰。比賽AI仍然有很多驚喜,沒有人能確定他們將來的地位。


Source link


探索更多來自 Gizmo Review 的內容

訂閱後即可透過電子郵件收到最新文章。

發表回覆

探索更多來自 Gizmo Review 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading