<var id="fnfpo"><source id="fnfpo"></source></var>

<rp id="fnfpo"></rp>

<em id="fnfpo"><object id="fnfpo"><input id="fnfpo"></input></object></em><em id="fnfpo"><acronym id="fnfpo"></acronym></em>

<th id="fnfpo"><track id="fnfpo"></track></th>

<progress id="fnfpo"><track id="fnfpo"></track></progress>

<tbody id="fnfpo"><pre id="fnfpo"></pre></tbody>

STM32的代碼，跑在RAM里快？還是跑在Flash里快？

發布時間：2009-11-25 18:04 發布者：STM32

關鍵詞： Flash , RAM , 代碼

這肯定是很多人關心的問題，下面通過一個例子看看會有什么樣的結論：

測試手段如下：

主循環一直在做一個變量的自加(sum1++)，當然前提保證不會溢出。

用Cortex-M3內部的Systick計數，以一秒鐘為限，這個sum1的數值大小，可以判斷哪種方式比較快。為了嚴密，我們觀察第一秒到第二秒之間的計數效果；而不是從第0秒到第1秒（因為使能Systick到真正開始執行sum1++可能有間隙）。在第一次進入Systick的ISR時，記錄下sum1的值；第二次進入Systick的ISR時，再次記錄sum1的值，兩次值之差即為一秒鐘間隔中sum1執行了多少次自加。由此看出哪種方式比較快。

同樣的測試前提：Prefetch Buffer Enable + Flash Latenty="2" (根據Flash Programming Manual中要求的那樣，當48MHz
測試結果如下：

不對代碼優化，在RAM中執行程序：sum1計數69467/秒
不對代碼優化，在FLASH中執行程序：sum1計數43274/秒 (Flash里跑得慢)

/***********循環體內代碼為N個以下的block*************/
(1)LDR R0,[PC, #0x154]
(2)LDR R1,[PC, #0x154]

(3)LDR R1,[R1,#0]
(4)ADDS R1, R1,#0x1

(5)STR R1,[R0, #0]

......
/****************************************************/

打開速度優化開關，在RAM中執行程序：sum1計數98993/秒
打開速度優化開關，在FLASH中執行程序：sum1計數115334/秒 (Flash里跑得快)

/***********循環體內代碼為N個以下的block*************/
(1)LDR R1,[R1,#4]
(2)ADDS R1, R1,#0x1
(3)STR R1,[R0, #0]
......
/****************************************************/

結論就是：

1）程序運行在RAM里速度快還是運行在Flash里速度快，不是絕對的一概而論的，取決于代碼；

2）就以上兩種具體的代碼情況來說，我覺得無優化時，如果在Flash里執行：(1)(2)的取指(讀flash)->譯碼->執行 (讀flash)；取指和執行階段flash的目標地址不是連續的，因此是non-sequencial access，所以會很慢；
打開優化時，(1)(2)(3)都不會造成flash的non-sequential access，所以在flash里的優勢（取指和取數據走不同的總線ICode和DCode以及Prefetch）就體現出來了。

再進一步的分析，又有這樣一些結論：

沒有優化時，指令執行時要到Flash中取常數，結果造成指令預取隊列的取指中斷，取完常數后需要重新填充指令預取隊列，而Flash訪問需要插入等待周期，當然時間就比較長了。

經過代碼優化后，指令執行時不用再到Flash中取常數，指令預取隊列不會被打斷，而Flash訪問需要插入等待周期的效應被下面貼子中介紹的取指緩沖區抵消，所以自然速度就快了；而這個時候在RAM中執行反而慢了是因為RAM不在ICode總線上，從RAM取指需要繞一圈，當然要比在ICode總線上的Flash慢了。

關于Flash的性能，請看我的另一篇分析：【分析】STM32從Flash中運行程序的時序分析

另外，STR9與STM32的總線架構是一樣的，這里有一個在STR9上實現的FFT函數的實測數據，可以進一步說明在Flash中運行代碼可以比在RAM中快！

在ST的網站上有一個DSP的函數庫，這是它的文檔《STR91x DSP library (DSPLIB)》，在這篇文檔中有一節討論FFT運算速度的，那里給出了實際的運算時間比較，摘錄如下：

Radix-4
Complex FFT    Operation Mode    Cycle Count    Microseconds
64 Point    Program in Flash & Data in SRAM    2701    28.135
64 Point    Program & Data in SRAM    3432    35.75
64 Point    Program & Data in Flash    3705    38.594
256 Point    Program in Flash & Data in SRAM    13740    143.125
256 Point    Program & Data in SRAM    18079    188.323
256 Point    Program & Data in Flash    19908    207.375

最初發表日期：2008-8-28

本文地址：http://www.portaltwn.com/thread-5774-1-1.html 【打印本頁】

本站部分文章為轉載或網友發布，目的在于傳遞和分享信息，并不代表本網贊同其觀點和對其真實性負責；文章版權歸原作者及原出處所有，如涉及作品內容、版權和其它問題，我們將根據著作權人的要求，第一時間更正或刪除。

相關文章

網友評論

貿澤電子有獎問答視頻，答對領10元微信紅包

廠商推薦

相關視頻

關于我們 - 服務條款 - 使用指南 - 站點地圖 - 友情鏈接 - 聯系我們
電子工程網 © 版權所有京ICP備16069177號 | 京公網安備11010502021702

快速回復 返回頂部 返回列表

精品一区二区三区自拍图片区_国产成人亚洲精品_亚洲Va欧美va国产综合888_久久亚洲国产精品五月天婷