STM32f4 performance

von Ale (Gast)

05.06.2013 14:27

Lesenswert?

•

Ich habe mich seit einige Zeit gefragt wie schnell den Cortex-M4 
(STM32F4) wirklich ist. Deaswegen, habe ich den Quelltext von

http://www.st.com/st-web-ui/static/active/en/resource/technical/document/application_note/DM00047230.pdf

genommen, compiliert mit gcc -O3, und auf meiner Discovery Platine es 
laufen gelassen. Für ein 320x240 8 bit bild mit 120 Itertionen braucht 
es 257 ms.

arm-none-eabi-gcc obj/src/main.o obj/src/rcc.o obj/src/discovery.o 
obj/src/discovery_ex.o obj/src/startup_stm32f4xx.o -lm 
-Wl,-Map=obj/STM32F4.map,--cref -Wl,--gc-sections -Tsrc/stm32_flash.ld 
-mcpu=cortex-m4 -mthumb -mfloat-abi=softfp -mfpu=fpv4-sp-d16 --output 
obj/STM32F4.elf

GenerateJulia_fpu(320, 240, 160, 120, 120, (uint8_t *) 0x20000000);

(Der Stack liegt bei 0x10010000)

ich habe gedacht daß der M4 ein bischen flotter war... mir kommt 
irgendwie langsam vor.

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: STM32f4 performance

von Ale (Gast)

05.06.2013 14:28

Lesenswert?

•

▲
▼

Das hat gefehlt...

arm-none-eabi-gcc -c -Isrc -O3 -std=gnu99 -gdwarf-2 -ffunction-sections 
-fdata-sections -Wall -Wa,-adhlns=obj/main.lst 
-fsingle-precision-constant -mcpu=cortex-m4 -mthumb -mfloat-abi=softfp 
-mfpu=fpv4-sp-d16 -MMD -MP -MF obj/main.d src/main.c -o obj/src/main.o

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: STM32f4 performance

von Ale (Gast)

05.06.2013 14:34

Lesenswert?

•

▲
▼

Noch was, der Prozessor läuft mit 168 Mhz und 5 WS für Flash zugriffe.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: STM32f4 performance

von Thomas K. (rlyeh_drifter)

05.06.2013 14:45

Lesenswert?

•

▲
▼

-mfloat-abi=softfp ??? Das ist FPU-Emulation.
-mfloat-abi=hard wäre dann die Hardware-FPU

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: STM32f4 performance

von Ale (Gast)

05.06.2013 15:07

Lesenswert?

•

▲
▼

Nein, es ist nur für die "Calling Convention", nicht für emu:

VFP hardware floating-point support using the soft-float ABI. This is 
selected by the -mfloat-abi=softfp option. When you select this variant, 
the compiler generates VFP floating-point instructions, but the 
resulting code uses the same call and return conventions as code 
compiled with software floating point.

Der FPU wird benutzt dank: -mfpu=fpv4-sp-d16 :)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: STM32f4 performance

von Ale (Gast)

05.06.2013 15:09

Lesenswert?

•

▲
▼

Ein bisschen Code

src/main.c    **** void GenerateJulia_fpu(uint16_t size_x, uint16_t size_y, uint16_t offset_x, uint16_t offset_y, uint
src/main.c    **** {
                .cfi_startproc
                @ args = 8, pretend = 0, frame = 0
                @ frame_needed = 0, uses_anonymous_args = 0
                @ link register save eliminated.
0000 30B4         push  {r4, r5}
                .cfi_def_cfa_offset 8
                .cfi_offset 5, -4
                .cfi_offset 4, -8
src/main.c    **** float tmp1, tmp2;
src/main.c    **** float num_real, num_img;
src/main.c    **** float radius, fofs_y, fofs_x, fzoom;
src/main.c    **** const float rlimit = 4.0f;
src/main.c    **** uint8_t i;
src/main.c    **** uint16_t x,y;
src/main.c    **** #define ITERATION 128
src/main.c    **** #define IMG_CONSTANT 0.001f
src/main.c    **** #define REAL_CONSTANT 0.285f
src/main.c    **** 
src/main.c    ****   fofs_y = (float)offset_y;
0002 01EE103A     fmsr  s2, r3  @ int
src/main.c    **** {
0006 BDF80840     ldrh  r4, [sp, #8]
src/main.c    ****   fofs_x = (float)offset_x;
000a 07EE102A     fmsr  s14, r2  @ int
src/main.c    **** {
000e 01EE904A     fmsr  s3, r4  @ int
src/main.c    ****   fofs_y = (float)offset_y;
0012 B8EE412A     fuitos  s4, s2
0016 F8EE472A     fuitos  s5, s14
src/main.c    ****   fzoom = (float) zoom;
src/main.c    ****   for (y=0; y<size_y; y++)
001c 44D0         beq  .L1
src/main.c    **** void GenerateJulia_fpu(uint16_t size_x, uint16_t size_y, uint16_t offset_x, uint16_t offset_y, uint
001e 039C         ldr  r4, [sp, #12]
src/main.c    ****   {
src/main.c    ****     for (x=0; x<size_x; x++)
src/main.c    ****     {
src/main.c    ****       num_real = (float)y - fofs_y;
src/main.c    ****       num_real = num_real / zoom;
src/main.c    ****       num_img = (float)x - fofs_x;
src/main.c    ****       num_img = num_img / zoom;
src/main.c    ****       i=0;
src/main.c    ****       radius = 0.0f;
src/main.c    ****       while ((i<ITERATION-1) && (radius < rlimit))
src/main.c    ****       {
src/main.c    ****         tmp1 = num_real * num_real;
src/main.c    ****         tmp2 = num_img * num_img;
src/main.c    ****         num_img = 2*num_real*num_img + IMG_CONSTANT;
0020 DFED224A     flds  s9, .L11
src/main.c    ****         num_real = tmp1 - tmp2 + REAL_CONSTANT;
0024 9FED225A     flds  s10, .L11+4
src/main.c    ****   for (y=0; y<size_y; y++)
src/main.c    ****       while ((i<ITERATION-1) && (radius < rlimit))
002a B1EE004A     fconsts  s8, #16
src/main.c    ****     for (x=0; x<size_x; x++)
                .loc 1 52 0 discriminator 1
002e B0B3         cbz  r0, .L7
src/main.c    ****     for (x=0; x<size_x; x++)
                .loc 1 52 0 is_stmt 0
0030 07EE105A     fmsr  s14, r5  @ int
0034 F8EE477A     fuitos  s15, s14
0038 F8EEE13A     fsitos  s7, s3
003c 77EEC27A     fsubs  s15, s15, s4
0042 87EEA33A     fdivs  s6, s15, s7

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: STM32f4 performance

von M. N. (Gast)

05.06.2013 18:12

Lesenswert?

•

▲
▼

Ale schrieb:
> ich habe gedacht daß der M4 ein bischen flotter war... mir kommt
> irgendwie langsam vor.

Hast Du einen Vergleichswert eines anderen Prozessors?
Alles was ich beim M4 gesehen habe, war richtig schnell!

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: STM32f4 performance

von Ale (Gast)

05.06.2013 18:59

Lesenswert?

•

▲
▼

Ja, ich habe es verglichen mit einem PowerPC z4 mit 133 MHz und es ist 
so etwa 10% langsamer, wenn die Caches bei z4 ausgeschaltet sind. Wenn 
die Caches aktiv sind es ist 70% langsamer.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: STM32f4 performance

von chris (Gast)

05.06.2013 20:36

Lesenswert?

•

▲
▼

Hallo Ale,

möglicherweise fehen ein paar Angaben in Deinem Post.

z.B. was ist Julia?: http://de.wikipedia.org/wiki/Julia-Menge

Könntest Du das ganz Projekt als Zip hier posten?

Gruß,
chris

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: STM32f4 performance

von Marius S. (lupin)

05.06.2013 22:30

Lesenswert?

•

▲
▼

War das nicht das Beispielprogramm, mit dem ST den 
Geschwindigkeitsgewinn durch die FPU demonstriert? Ich glaube dazu gibt 
es ein Video von ST.

Aber ich nehme mal an in der ST-Demonstration wurde der Code einmal mit 
Soft- und Hard-FPU kompiliert. Ist klar, dass man die Soft-FPU da 
vergessen kann. Aber interessant wäre zu wissen wie der Unterschied 
zwischen optimierter Fixed-Point Implementierung und FPU-Implementierung 
wäre.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: STM32f4 performance

von Karl (Gast)

10.06.2013 21:54

Lesenswert?

•

▲
▼

Und dann bitte auch gleich den Implementierungs- und Testaufwand mit 
ermitteln.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: STM32f4 performance

von josef f. (Gast)

10.06.2013 22:02

Lesenswert?

•

▲
▼

Vergleich mal mit dem atmega würde mich interessieren!

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: STM32f4 performance

von Alejandro P. (alejandro_p)

12.06.2013 06:23

Angehängte Dateien:

stm32.zip (204 KB)

Lesenswert?

•

▲
▼

Hier ein bisschen Quelltext.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: STM32f4 performance

von Ale (Gast)

12.06.2013 08:00

Lesenswert?

•

▲
▼

Ich soll eigentlich noch testen wie schell es wäre wenn der Code von RAM 
läuft.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: STM32f4 performance

von Uwe (Gast)

12.06.2013 14:13

Lesenswert?

•

▲
▼

Der "Adaptive Real-Time accelerator" (ART) sollte 0 waitstates erlauben 
und nicht 5.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: STM32f4 performance

von Ale (Gast)

12.06.2013 14:27

Lesenswert?

•

▲
▼

Die 5 WS sind pflicht (P 62, DM00031020.pdf) aber der ART soll extra 
initialisiert... ich sehe im Code daß kein spur von Prefetch/Caches 
gibt... Ich werde es machen un neuen Tests durchlaufen lassen.

Danke!

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: STM32f4 performance

von Alejandro P. (alejandro_p)

12.06.2013 21:33

Lesenswert?

•

▲
▼

Ich habe den ART und Caches aktiviert, die Zeit ist dann 134 ms !!!! 
Jetzt gefällt es mir besser :).

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Forum: Projekte & Code STM32f4 performance