Cortex M7 und Cycle Counter (DWT)

von Falko J. (spacefrog)

21.09.2015 09:46

Lesenswert?

•

Hallo zusammen,

ich versuche gerade die Zeit für die Ausführung von Funktionen auf einen 
Cortex M7 (STM32F746) zu messen. Das mache ich wie hier im Artikel (ganz 
unten) beschrieben:

STM32 für Einsteiger


Beim M4 hat das so funktioniert. Beim F7 habe ich 2 Probleme:

- Der Counter lässt sich mit

 DWT->CYCCNT = 0;

 nicht auf 0 zurücksetzen.

- Für ein einfaches inkrementieren einer int Variable werden lt. dem 
Zähler   12 Taktzyklen benötigt. Obwohl im Disasembly nur ein Befehl zu 
sehen ist. Beim M4 wurde bei gleichem code nur ein Zyklus angezeigt.

Ich benutze den IAR Compiler. Als Projekt Grundgerüst habe ich das 
Template aus dem Cube Ordner genutzt 
(..\STM32Cube_FW_F7_V1.1.0\Projects\STM32746G-Discovery\Templates\Src)

int main(void)
  /* This project template calls firstly two functions in order to configure MPU feature 
     and to enable the CPU Cache, respectively MPU_Config() and CPU_CACHE_Enable().
     These functions are provided as template implementation that User may integrate 
     in his application, to enhance the performance in case of use of AXI interface 
     with several masters. */ 
  /* Configure the MPU attributes as Write Through */
  MPU_Config();
  /* Enable the CPU Cache */
  CPU_CACHE_Enable();
  /* STM32F7xx HAL library initialization:
       - Configure the Flash ART accelerator on ITCM interface
       - Configure the Systick to generate an interrupt each 1 msec
       - Set NVIC Group Priority to 4
       - Low Level Initialization
  HAL_Init();
  /* Configure the System clock to have a frequency of 216 MHz */
  SystemClock_Config();
  /* Add your application code here
  int a = 0;
  DWT_Enable(); // DWT-Einheit aktivieren
  DWT_CycCounterEn (); // Zähler aktivieren
  DWT_CycCounterClear (); // Zähler löschen
  uint32_t iZ = DWT_CycCounterRead (); // Zähler auslesen
  /* Infinite loop */
  while (1)


Hat jemand eine Idee?

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M7 und Cycle Counter (DWT)

von Jim M. (turboj)

21.09.2015 12:36

Lesenswert?

•

▲
▼

Falko J. schrieb:
> - Für ein einfaches inkrementieren einer int Variable werden lt. dem
> Zähler   12 Taktzyklen benötigt. Obwohl im Disasembly nur ein Befehl zu
> sehen ist. Beim M4 wurde bei gleichem code nur ein Zyklus angezeigt.

Dann zeig uns doch mal das Disassembly, inklusive des counter clear.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M7 und Cycle Counter (DWT)

von Falko J. (spacefrog)

21.09.2015 13:14

Lesenswert?

•

▲
▼

Klar..

int main(void)
    0x8000cc6: 0xb510         PUSH      {R4, LR}
  MPU_Config();
    0x8000cc8: 0xf000 0xf84e  BL        MPU_Config              ; 0x8000d68
  CPU_CACHE_Enable();
    0x8000ccc: 0xf000 0xf888  BL        CPU_CACHE_Enable        ; 0x8000de0
  HAL_Init();
    0x8000cd0: 0xf7ff 0xfeb2  BL        HAL_Init                ; 0x8000a38
  SystemClock_Config();
    0x8000cd4: 0xf000 0xf80d  BL        SystemClock_Config      ; 0x8000cf2
  int a = 0;
    0x8000cd8: 0x2400         MOVS      R4, #0
  __disable_irq();
    0x8000cda: 0xb672         CPSID     i
  DWT_Enable(); // DWT-Einheit aktivieren
    0x8000cdc: 0xf000 0xf886  BL        DWT_Enable              ; 0x8000dec
  DWT_CycCounterEn(); // Zähler aktivieren
    0x8000ce0: 0xf000 0xf88e  BL        DWT_CycCounterEn        ; 0x8000e00
  DWT_CycCounterClear(); // Zähler löschen
    0x8000ce4: 0xf000 0xf896  BL        DWT_CycCounterClear     ; 0x8000e14
    0x8000ce8: 0x1c64         ADDS      R4, R4, #1
    0x8000cea: 0x1c64         ADDS      R4, R4, #1
  uint32_t iZ = DWT_CycCounterRead (); // Zähler auslesen
    0x8000cec: 0xf000 0xf898  BL        DWT_CycCounterRead      ; 0x8000e20
  while (1)
    0x8000cf0: 0xe7fe         B.N       0x8000cf0
static void SystemClock_Config(void)
SystemClock_Config:
    0x8000cf2: 0xb500         PUSH      {LR}
    0x8000cf4: 0xb091         SUB       SP, SP, #0x44
  RCC_OscInitStruct.OscillatorType = RCC_OSCILLATORTYPE_HSE;
    0x8000cf6: 0x2001         MOVS      R0, #1
    0x8000cf8: 0x9005         STR       R0, [SP, #0x14]

  CoreDebug->DEMCR |= CoreDebug_DEMCR_TRCENA_Msk;
DWT_Enable:
    0x8000dec: 0x4803         LDR.N     R0, [PC, #0xc]          ; [0x8000dfc] DEMCR
    0x8000dee: 0x6800         LDR       R0, [R0]
    0x8000df0: 0xf050 0x7080  ORRS.W    R0, R0, #16777216       ; 0x1000000
    0x8000df4: 0x4901         LDR.N     R1, [PC, #0x4]          ; [0x8000dfc] DEMCR
    0x8000df6: 0x6008         STR       R0, [R1]
    0x8000df8: 0x4770         BX        LR
    0x8000dfa: 0xbf00         NOP
    0x8000dfc: 0xe000edfc     DC32      DEMCR
  DWT->CTRL = DWT->CTRL | 1;
DWT_CycCounterEn:
    0x8000e00: 0x4803         LDR.N     R0, [PC, #0xc]          ; [0x8000e10] 0xe0001000 (-536866816)
    0x8000e02: 0x6800         LDR       R0, [R0]
    0x8000e04: 0xf050 0x0001  ORRS.W    R0, R0, #1
    0x8000e08: 0x4901         LDR.N     R1, [PC, #0x4]          ; [0x8000e10] 0xe0001000 (-536866816)
    0x8000e0a: 0x6008         STR       R0, [R1]
    0x8000e0e: 0xbf00         NOP
  DWT->CYCCNT = 0;
DWT_CycCounterClear:
    0x8000e14: 0x2000         MOVS      R0, #0
    0x8000e16: 0x4901         LDR.N     R1, [PC, #0x4]          ; [0x8000e1c] DWT_CYCCNT
    0x8000e18: 0x6008         STR       R0, [R1]
    0x8000e1c: 0xe0001004     DC32      DWT_CYCCNT
  return DWT->CYCCNT;
DWT_CycCounterRead:
    0x8000e20: 0x4801         LDR.N     R0, [PC, #0x4]          ; [0x8000e28] DWT_CYCCNT
    0x8000e22: 0x6800         LDR       R0, [R0]
    0x8000e26: 0xbf00         NOP
    0x8000e28: 0xe0001004     DC32      DWT_CYCCNT


Optimierung ist übrigens aus...

Gruß
Falko

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M7 und Cycle Counter (DWT)

von Jim M. (turboj)

21.09.2015 13:35

Lesenswert?

•

▲
▼

Falko J. schrieb:
> Optimierung ist übrigens aus...

Das dürfte dein Problem sein. Die Funktionsaufrufe kosten Zeit.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M7 und Cycle Counter (DWT)

von Stefan K. (stefan64)

21.09.2015 13:41

Lesenswert?

•

▲
▼

Lass Dein Programm einmal mit nur einem
  a++;
laufen und danach mit 11:
  a++;
  a++;
  a++;
  a++;
  a++;
  a++;
  a++;
  a++;
  a++;
  a++;

Die Differenz beider Laufzeiten geteilt durch 10 ist die 
Ausführungsdauer von:
  a++;
bzw.
  0x8000ce8: 0x1c64         ADDS      R4, R4, #1

Gruß, Stefan

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M7 und Cycle Counter (DWT)

von Falko J. (spacefrog)

21.09.2015 13:45

Lesenswert?

•

▲
▼

Aber mit Optimierung hat sich nichts geändert. Das inkrementieren der 
Variable ist aber auch ohne Optimierung nur ein assembler Befehl. 
Trotzdem erhöht sich der Cycle counter um 11, wenn in Debugger genau 
diesen einen Schritt weiter gehe.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M7 und Cycle Counter (DWT)

von Falko J. (spacefrog)

21.09.2015 13:53

Lesenswert?

•

▲
▼

Hallo Stefan,
das klingt logisch, aber warum kann ich nicht einfach den counter Wert 
nehmen? wird der counter schnelle getaktet als der Systemtakt?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M7 und Cycle Counter (DWT)

von Stefan K. (stefan64)

21.09.2015 13:57

Lesenswert?

•

▲
▼

Weil diese Befehle dann mit im Counter eingerechnet sind:

DWT_CycCounterClear:
    0x8000e14: 0x2000         MOVS      R0, #0
    0x8000e16: 0x4901         LDR.N     R1, [PC, #0x4]          ; 
[0x8000e1c] DWT_CYCCNT
    0x8000e18: 0x6008         STR       R0, [R1]
}
    0x8000e1a: 0x4770         BX        LR
    0x8000e1c: 0xe0001004     DC32      DWT_CYCCNT
  return DWT->CYCCNT;

DWT_CycCounterRead:
    0x8000e20: 0x4801         LDR.N     R0, [PC, #0x4]          ; 
[0x8000e28] DWT_CYCCNT
    0x8000e22: 0x6800         LDR       R0, [R0]
    0x8000e24: 0x4770         BX        LR
    0x8000e26: 0xbf00         NOP
    0x8000e28: 0xe0001004     DC32      DWT_CYCCNT

Ev. wurde bei Deinen Messungen früher der Counter inline ausgelesen.
Du kannst auch DWT_CycCounterClear() und DWT_CycCounterRead() direkt 
hintereinander aufrufen und den ausgelesenen Wert bei "richtigen" 
Messungen als Offset abziehen.

Gruß, Stefan

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M7 und Cycle Counter (DWT)

von Falko J. (spacefrog)

21.09.2015 16:03

Angehängte Dateien:

m7_prob1.png
100 KB
m7_prob2.png
100 KB

Lesenswert?

•

▲
▼

Mhh das kann's nicht sein, auch wenn ich mit dem Debugger den cycle 
counter lese (also direkt das Register), werden viel zu viele Schritte 
angezeigt.

Anbei 2 Bilder (vor und nach der Inkrementierung)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M7 und Cycle Counter (DWT)

von Jim M. (turboj)

21.09.2015 16:18

Lesenswert?

•

▲
▼

In die 22 Takte würde ein (fast)leerer Interrupt Handler passen, hattest 
Du nicht oben den Systick eingeschaltet...?

Ich würde es mit __disable_fault_irq(); vorher probieren.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M7 und Cycle Counter (DWT)

von Falko J. (spacefrog)

21.09.2015 17:31

Lesenswert?

•

▲
▼

Hallo Jim,

gute Idee, aber das war es auch nicht. Denke ich zumindest...hab alle 
Interrupts abgeschaltet, die ich gefunden habe (systick war an).
Zusätzlich das __disable_fault_irq(); von dir ausprobiert und 
__disable_irq();

Keine Änderung :-( ... so langsam denk ich der M7 will mich mobben...

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M7 und Cycle Counter (DWT)

von (prx) A. K. (prx)

21.09.2015 17:35

Lesenswert?

•

▲
▼

Steht irgendwo in Stein gemeisselt, dass sich dieser Zähler bei den 
Aktivitäten des Debuggers nur im Rahmen eines einzelnen Befehlsschritts 
des Anwenderprogramms bewegt? Ich kann mir nämlich schon vorstellen, 
dass die Ausführung eines einzelnen Befehls im Debugger auf der 
Zielhardware deutlich mehr macht, als nur diesen einen Befehl 
auszuführen.

Zyklenmessung erfolgt üblicherweise anders. Zähler auslesen, 
Messprogramm laufen lassen, Zähler nochmal auslesen, Differenz ausgeben 
- und die Differenz bei leerem Messprogramm vorher abziehen. Dabei aber 
aufpassen, dass der Optimizer des Compiler keinen Strich durch die 
Rechnung macht und die Reihenfolge ändert. Und das alles ohne 
Debugger.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M7 und Cycle Counter (DWT)

von Falko J. (spacefrog)

22.09.2015 08:02

Lesenswert?

•

▲
▼

A. K. schrieb:
> Steht irgendwo in Stein gemeisselt, dass sich dieser Zähler bei den
> Aktivitäten des Debuggers nur im Rahmen eines einzelnen Befehlsschritts
> des Anwenderprogramms bewegt

Mhhh, wahrscheinlich hast du Recht, vielleicht könnte es trotzdem mal 
noch jemand anderes mit einem M7 Board und anderen compiler/Debugger 
probieren....
LG
Falko

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M7 und Cycle Counter (DWT)

von Stefan (Gast)

22.09.2015 08:36

Lesenswert?

•

▲
▼

Ich habe das Phänomen mit Crossworks und einem STM32F746VG auch 
beobachtet. Debug HW ist ein Nucleo Board. Viel getestet habe ich aber 
noch nicht da die Platine noch nicht vollständig bestückt ist. Heute 
Abend löte ich weiter.

Als nächstes wollte ich es dann ohne den Cache probieren. Und auch 
schauen ob es nur bei einem Singlestep auftritt oder auch bei einer 
längeren Befehlssequenz wenn die CPU per BP gestoppt wird.
Zurücksetzen kann ich den Counter wobei ich mir das Register selbst 
nicht angesehen habe. In der IDE gibt es einen Cycle Counter in der 
Statusleiste. Mag sein daß dort nur ein relativer Wert angezeigt wird.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M7 und Cycle Counter (DWT)

von Markus M. (Firma: EleLa - www.elela.de) (mmvisual)

22.09.2015 10:22

Lesenswert?

•

▲
▼

Hast du die FlashLatency gesetzt?

FLASH_SetLatency(FLASH_Latency_5); // für 180 MHz @2,7..3,6V


Das ist jetzt nicht die Einstellung für den STM32F7, aber so in etwa 
könnte das aussehen.

Wenn das Flash zu langsam parametriert ist macht die CPU Waitstates.


Auch "SystemClock_Config();" nimmt erst mal an dass der Quarz 25MHz 
hätte und stellt die CPU Clock auf eine Sichere Betriebsart ein, aber 
das muss man anpassen.
Beim STM32F4xx ist es hier:
stm32f4xx.h:

 * @brief In the following line adjust the value of External High Speed oscillator (HSE)
   used in your application 
   Tip: To avoid modifying this file each time you need to use different HSE, you
        can define the HSE value in your toolchain compiler preprocessor.
#if !defined  (HSE_VALUE) 
  #define HSE_VALUE    ((uint32_t)12000000) /*!< Value of the External oscillator in Hz */
#endif /* HSE_VALUE */

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M7 und Cycle Counter (DWT)

von Falko J. (spacefrog)

22.09.2015 10:44

Lesenswert?

•

▲
▼

Hi,

FLASH_LATENCY habe ich in der SystemClockConfig gefunden und ist auf 7 
eingestellt.

  * @brief  System Clock Configuration
  *         The system Clock is configured as follow : 
  *            System Clock source            = PLL (HSE)
  *            SYSCLK(Hz)                     = 216000000
  *            AHB Prescaler                  = 1
  *            APB1 Prescaler                 = 4
  *            APB2 Prescaler                 = 2
  *            HSE Frequency(Hz)              = 25000000
  *            Main regulator output voltage  = Scale1 mode
  *            Flash Latency(WS)              = 7
  * @param  None
  * @retval None
static void SystemClock_Config(void)
  RCC_ClkInitTypeDef RCC_ClkInitStruct;
  RCC_OscInitTypeDef RCC_OscInitStruct;
  /* Enable HSE Oscillator and activate PLL with HSE as source */
  RCC_OscInitStruct.OscillatorType = RCC_OSCILLATORTYPE_HSE;
  RCC_OscInitStruct.HSEState = RCC_HSE_ON;
  RCC_OscInitStruct.HSIState = RCC_HSI_OFF;
  RCC_OscInitStruct.PLL.PLLState = RCC_PLL_ON;
  RCC_OscInitStruct.PLL.PLLSource = RCC_PLLSOURCE_HSE;
  RCC_OscInitStruct.PLL.PLLM = 25;
  RCC_OscInitStruct.PLL.PLLN = 432;  
  RCC_OscInitStruct.PLL.PLLP = RCC_PLLP_DIV2;
  RCC_OscInitStruct.PLL.PLLQ = 9;
  if(HAL_RCC_OscConfig(&RCC_OscInitStruct) != HAL_OK)
    Error_Handler();
  /* activate the OverDrive to reach the 216 Mhz Frequency */
  if(HAL_PWREx_EnableOverDrive() != HAL_OK)
    Error_Handler();
  /* Select PLL as system clock source and configure the HCLK, PCLK1 and PCLK2 
     clocks dividers */
  RCC_ClkInitStruct.ClockType = (RCC_CLOCKTYPE_SYSCLK | RCC_CLOCKTYPE_HCLK | RCC_CLOCKTYPE_PCLK1 | RCC_CLOCKTYPE_PCLK2);
  RCC_ClkInitStruct.SYSCLKSource = RCC_SYSCLKSOURCE_PLLCLK;
  RCC_ClkInitStruct.AHBCLKDivider = RCC_SYSCLK_DIV1;
  RCC_ClkInitStruct.APB1CLKDivider = RCC_HCLK_DIV4;  
  RCC_ClkInitStruct.APB2CLKDivider = RCC_HCLK_DIV2;  
  if(HAL_RCC_ClockConfig(&RCC_ClkInitStruct, FLASH_LATENCY_7) != HAL_OK)
    Error_Handler();


ich muss zugeben das ich das mit den Flash Waitstates noch nicht ganz 
verstanden habe. Bedeutet die 7, dass sieben Takte benötigt werden um 
den nächsten Befehl aus dem Flash zu lesen?

Aber oben in der main werden noch verschieden cache's eingeschaltet
CPU_CACHE_Enable(); Die Funktion sieht so aus:

  * @brief  CPU L1-Cache enable.
  * @param  None
  * @retval None
static void CPU_CACHE_Enable(void)
  /* Enable I-Cache */
  SCB_EnableICache();
  /* Enable D-Cache */
  SCB_EnableDCache();


Wie gesagt, das ist der ST Beispiel Template aus dem cube Ordner für das 
discovery board.

Der Systemtakt stimmt.

Gruß
Falko

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M7 und Cycle Counter (DWT)

von Falko J. (spacefrog)

22.09.2015 10:59

Lesenswert?

•

▲
▼

PS:
Verdoppeln der Flash Latenzy brachte keine Änderung. Aber 
auskommentieren von  CPU_Cache_Enable(); hat die Zeiten noch ein gutes 
Stück erhöht.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M7 und Cycle Counter (DWT)

von Stefan (Gast)

22.09.2015 22:31

Lesenswert?

•

▲
▼

So, die Platine ist fast komplett und ich habe noch etwas gespielt.

Den Cache Test habe ich mir gespart, das hat Falko ja bereits gemacht.
Also nun die Codeausführung "am Stück" mit BPs.

// Start der "Messung"
__GPIOE_CLK_ENABLE();
__GPIOC_CLK_ENABLE();
__GPIOH_CLK_ENABLE();
__GPIOA_CLK_ENABLE();
__GPIOB_CLK_ENABLE();
__GPIOD_CLK_ENABLE();
// Breakpoint


Den ASM Code lasse ich lieber weg. Ist ziemlich länglich (auch wegen 
-O0) aber linear.
Mit Singlestep komme ich auf 789 Zyklen. Lasse ich den Code durchlaufen 
und per BP stoppen sind es nur noch 140 Zyklen. Das ergibt ein 
Verhältnis von 5.6:1

Weiter geht's mit einer Schleife. Die sollte nach einem Durchlauf in 
einem der Caches liegen.

volatile int x;
int main()
   initHardware();
   for (x = 0; x < 20; x++);


Hier sind es mit Singlestep 3412 Zyklen (immer noch -O0), mit BP dagegen 
309 Zyklen. Das Verhältnis ist nun 11:1.

Es scheint daß der Cycle Counter zumindest zur Ermittlung der Laufzeit 
einer Code Abschnitts (Funktion) zu gebrauchen ist.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M7 und Cycle Counter (DWT)

von Programmierer (Gast)

22.09.2015 23:07

Lesenswert?

•

▲
▼

Kleiner Hinweis: Auch Breakpoints können als Instruktionen zählen, denn 
die Debugger fügen BKPT-Anweisungen in den Code im Flash ein, wenn die 
Hardware-Breakpoints aufgebraucht sind. Dies passiert auch beim 
Single-Stepping, denn der Prozessor weiß ja nicht wo eine Zeile aufhört, 
und der Debugger fügt einen temporären Breakpoint nach der Zeile ein. 
Könnte eventuell die Unterschiede erklären?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M7 und Cycle Counter (DWT)

von Stefan (Gast)

22.09.2015 23:48

Lesenswert?

•

▲
▼

Wenn es immer so wäre vielleicht. Aber die CM-0/3/4 haben diese 
Eigenheit ja nicht. Und die "Flash-BPs" sind soweit ich weiß eine 
Spezialität von Segger.

Haben die Cortex-A Kerne auch einen Cycle Counter? Falls ja, wäre ich 
nicht überrascht wenn die sich ebenso verhalten.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M7 und Cycle Counter (DWT)

von A. L. (rel)

15.05.2016 05:07

Lesenswert?

•

▲
▼

Hallo zusammen! Erster Post hier be mikocontroller.net; ich hatte schon 
oft gute Infos im Forum gefunden, und bin nun hier auf diesen älteren 
Thread gestossen... und dachte nun ich muss mich hier endlich mal 
anmelden.

Mit dem Problem oben habe ich grad zu kämpfen.

1) Obwohl der Cycle-Counter (DWT->CYCCNT) in GDB ausgelesen UND 
geschrieben werden kann (auf einem STM32F746ZGT6), ist es aus 
irgendwelchen Gründen nicht möglich den Register-Inhalt auf 0 
zurückzusetzen, wenn ich dieselbe Funktion in C schreibe. Echt 
verwirrend.

2) Auch steigen die Werte viel zu schnell an, wie oben beschrieben.



1) Im Detail:
Der Cycle-Counter kann in GDB-Konsole manuell auf 0 zurückgesetzt 
werden. Alles funktioniert, und man kann einzelne 
Single-(Instruction)-Steps "messen", was ja recht praktisch wär.

# DWT_Enable
set *( (uint32_t *)( 0xE000EDF0UL + 0x00C ) ) |= ( 1 << 24 )
# DWT_CycCounterEnable
set *( (uint32_t *)( 0xE0001000UL + 0x000 ) ) |= 1
# DWT_CycCounterDisable
set *( (uint32_t *)( 0xE0001000UL + 0x000 ) ) &= ~1
# DWT_CycCounterRead
p/t *( (uint32_t *)( 0xE0001000UL + 0x004 ) )
# DWT_CycCounterClear
set *( (uint32_t *)( 0xE0001000UL + 0x004 ) ) = 0



Doch die Werte steigen zu schnell. Einzelne simple Instruktionen 
brauchen > 10 Zyklen...


Und wenn ich folgendes kompiliere und einen Breakpoint da drunter setze 
ist aus irgendwelchen Gründen das Register nie gleich 0:

    DWT_CycCounterClear();
    DWT->CYCCNT = 0U;
    *( (uint32_t *)0xE0001004 ) = 0;
    *( (uint32_t *)0xE0001004 ) = 0U;
    *( (uint32_t *)( 0xE0001000UL + 0x004UL ) ) = 0U;
    *( (uint32_t *)( 0xE0001000UL + 0x004UL ) ) = 0;
    *( (uint32_t *)0xE0001004 ) ^= *( (uint32_t *)0xE0001004 );



Wenn ich test code wie hier ausführ'...

    LOG_STR( "Cycle counter test\r\n" );
    uint32_t cycles, a, b, t0, t1, t2;
    DWT_Enable(); // DWT-Einheit aktivieren
    DWT_CycCounterClear();
    DWT->CYCCNT = 0U;
    *( (uint32_t *)0xE0001004 ) = 0U;
    DWT_CycCounterEnable(); // Zähler aktivieren
    cycles = *( (uint32_t *)( 0xE0001004UL ) );
    LOG_INT( cycles );
    const uint32_t cyc_start = DWT_CycCounterRead();
    LOG_INT( cyc_start );
#define CYC ( *( (uint32_t *)( 0xE0001004UL ) ) - cyc_start )
    a = 12;
    a += b;
    t0 = CYC;
    a = 5;
    t1 = CYC;
    b = 1;
    t2 = CYC;
    LOG_INT( a ); // drinlassen, dass nicht ausoptimiert wird
    LOG_INT( b );
    LOG( "cycles: %u, %u, %u\r\n", t0, t1, t2 );


...bekomm ich Resultate wie die hier (-O0 gcc switch):

cycles: 2438761695
cyc_start: 2439138883
cycles: 432981, 432987, 433003



Wenn hingegen der Wert in GDB manipuliert werd, geht das gut, doch wie 
ich nehm nicht an, dass dies wirkliche der Anzahl Zyklen entspricht für 
die paar Instruktionen die da ausgeführt werden:

(gdb) p/x *( (uint32_t *)( 0xE0001000UL + 0x004 ) )
$16 = 0x6f55d32
(gdb) set *( (uint32_t *)( 0xE0001000UL + 0x004 ) ) = 0
(gdb) p/x *( (uint32_t *)( 0xE0001000UL + 0x004 ) )
$17 = 0x0
(gdb) p/x *( (uint32_t *)( 0xE0001000UL + 0x004 ) )
$18 = 0xc
(gdb) p/x *( (uint32_t *)( 0xE0001000UL + 0x004 ) )
$19 = 0x18
(gdb) si
(gdb) p/x *( (uint32_t *)( 0xE0001000UL + 0x004 ) )
$20 = 0x24
(gdb) si


Hab noch wenig Ahnung in Sache ARM und Embedded... und bin erst am 
Anfang bei den STM32ern. Wär froh bald mal eine genauere Delay-Funktion 
und eben solchen simplen Cycle-Counter zum Laufen zu bringen....

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M7 und Cycle Counter (DWT)

von A. L. (rel)

15.05.2016 09:14

Lesenswert?

•

▲
▼

Korrektur: Die Zahlen stimmen, die Anzahl Cycles stimmt. Hab's 
verglichen mit einem alten Resultat, das noch mit dem Sys-Tick (1 ms) 
gemessen wurde. Problem 2) ist gegessen...

Aber warum dieses CYCCNT register nicht geresettet werden kann ist mir 
nachwievor ein Rätsel...

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M7 und Cycle Counter (DWT)

von rel (Gast)

11.12.2016 17:17

Lesenswert?

•

▲
▼

Hab eine Lösung gefunden...

Die magische Zahl ist 0xC5ACCE55! :) Das Lock Access Register (DWT->LAR) 
muss beschrieben/unlocked werden, bevor man DWT und den cycle counter 
benutzen kann.

http://stackoverflow.com/questions/36378280/stm32-how-to-enable-dwt-cycle-counter

http://stackoverflow.com/questions/38355831/measuring-clock-cycle-count-on-cortex-m7#38360668

http://infocenter.arm.com/help/index.jsp?topic=/com.arm.doc.ddi0489c/BABJFFGJ.html

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Forum: Mikrocontroller und Digitale Elektronik Cortex M7 und Cycle Counter (DWT)