<var id="fnfpo"><source id="fnfpo"></source></var>
<rp id="fnfpo"></rp>

<em id="fnfpo"><object id="fnfpo"><input id="fnfpo"></input></object></em>
<em id="fnfpo"><acronym id="fnfpo"></acronym></em>
  • <th id="fnfpo"><track id="fnfpo"></track></th>
  • <progress id="fnfpo"><track id="fnfpo"></track></progress>
  • <tbody id="fnfpo"><pre id="fnfpo"></pre></tbody>

  • x
    x

    AMEYA360報道:不同硬件的成本對比 ChatGPT炒熱GPU

    發布時間:2023-2-22 14:54    發布者:Ameya360
      在機器學習推理場景中,除了GPU外,還有一大通用AI硬件適合這一負載,那就是FPGA。與GPU一樣,在技術和算法還未成熟且仍在打磨階段時,可以隨時重新編程改變芯片功能的FPGA架構前期硬件成本顯著低于GPU。在推理性能上,現如今的FPGA加速卡算力遠超CPU,甚至高過不少GPU產品。
      而且在ChatGPT這樣的聊天機器人應用上,將FPGA用于推理得以發揮其最大的優勢,那就是高吞吐量和低時延。更高的吞吐量和更低的時延也就意味著更大的并發,對ChatGPT這種應用來說可以極大增強其響應速度。

      但隨著算法和模型逐漸成熟,FPGA在成本上的優勢就慢慢不存在了,在大語言模型上需要用到更多的硬件,而FPGA量產規模的單價成本還是太高了,一旦擴充至成千上萬張加速卡,其成本也是不小的。比如AMD推出的新加速卡Alveo V70,據傳單卡價格就在2000美元左右。如果我們以INT8精度來衡量算力的話,假設ChatGPT需要28936塊A100 GPU,那么改用Alveo V70的話,也需要44693塊加速卡。

      所以還是有不少人將目光投向了量產規模成本更低的ASIC,比如谷歌就選擇用自研的TPU來部署其聊天機器人Bard。ASIC方案在單芯片算力上或許不是最高的,但計算效率卻是最高的,而且隨著量產化單片成本會逐漸降低。比如谷歌的單個TPU v4 Pod就集成了4096個TPU v4芯片,單芯片的BF16算力達到275TFLOPS,已經相當接近A100單卡峰值算力了。如果只是這樣簡單換算的話,只需幾個TPU v4 Pod,就能滿足與ChatGPT同量級的應用了。

      不過ASIC方案并沒有我們想象得那么美好,首先這類硬件的前期設計成本較大,要想投入數據中心商用,必須組建強大的硬件設計和軟件開發團隊,這樣才能有與GPU相抗衡的性能。其次,因為本身專用硬件的特性,專用于機器學習推理的ASIC方案很難最大化數據中心的硬件利用率,不像GPU還可以同時用于訓練、視頻編解碼等等。

    本文地址:http://www.portaltwn.com/thread-811219-1-1.html     【打印本頁】

    本站部分文章為轉載或網友發布,目的在于傳遞和分享信息,并不代表本網贊同其觀點和對其真實性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問題,我們將根據著作權人的要求,第一時間更正或刪除。
    您需要登錄后才可以發表評論 登錄 | 立即注冊

    廠商推薦

    • Microchip視頻專區
    • EtherCAT®和Microchip LAN925x從站控制器介紹培訓教程
    • MPLAB®模擬設計器——在線電源解決方案,加速設計
    • 讓您的模擬設計靈感,化為觸手可及的現實
    • 深度體驗Microchip自動輔助駕駛應用方案——2025巡展開啟報名!
    • 貿澤電子(Mouser)專區
    關于我們  -  服務條款  -  使用指南  -  站點地圖  -  友情鏈接  -  聯系我們
    電子工程網 © 版權所有   京ICP備16069177號 | 京公網安備11010502021702
    快速回復 返回頂部 返回列表
    精品一区二区三区自拍图片区_国产成人亚洲精品_亚洲Va欧美va国产综合888_久久亚洲国产精品五月天婷