Optimierung bei USART Registerzugriff

von André A. (nummer5)

11.06.2013 00:01

Lesenswert?

•

Hallo,
wenn ich folgenden Code compiliere (avr-gcc -mmcu atmega328p -O3)

#include <avr/io.h>
void ucsra_rw()
    UCSR0A |= (1 << 0);
void ucsra_rw_test()
    uint8_t tmp = UCSR0A;
    tmp |= (1 << 0);
    UCSR0A = tmp;
void ucsra_w()
    UCSR0A = (1 << 0);
void ucsra_r()
    UCSR0A;
int main()
    return 0;


generiert der gcc folgenden Assemblercode

00000080 <ucsra_rw>:
  80:  e0 ec         ldi  r30, 0xC0  ; 192
  82:  f0 e0         ldi  r31, 0x00  ; 0
0000008c <ucsra_rw_test>:
  8c:  e0 ec         ldi  r30, 0xC0  ; 192
  8e:  f0 e0         ldi  r31, 0x00  ; 0
00000098 <ucsra_w>:
  98:  81 e0         ldi  r24, 0x01  ; 1
  9a:  80 93 c0 00   sts  0x00C0, r24
000000a0 <ucsra_r>:
  a0:  80 91 c0 00   lds  r24, 0x00C0


Ich frage mich warum beim Read-Modify-Write das Z-Register benutzt wird.
Gibts es da einen Grund oder ist das ein kleiner Bug beim Optimieren?

Ich hätte gedacht, dass dies dabei rauskäme

lds r24, 0x00C0
ori r24, 0x01
sts 0x00C0, r24


Die Wahl der Optimierung hat keinen Einfluss auf das Ergebnis. Es tritt 
auch bei den andere USART Registern auf.

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Optimierung bei USART Registerzugriff

von Uwe (Gast)

11.06.2013 01:23

Lesenswert?

•

▲
▼

Ich hätte eine Frage, warum mit -O3 ?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Optimierung bei USART Registerzugriff

von André A. (nummer5)

11.06.2013 01:29

Lesenswert?

•

▲
▼

Uwe schrieb:
> Ich hätte eine Frage, warum mit -O3 ?

Wie gesagt, bei allen Optimierungen (1,2,3,s) gibt es das gleiche 
Ergebnis.

Ich benutze avr-gcc 4.7.0

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Optimierung bei USART Registerzugriff

von (prx) A. K. (prx)

11.06.2013 07:15

Lesenswert?

•

▲
▼

Beide Varianten sind gleich lang und gleich schnell:

  lds r24, 0x00C0
  ori r24, 0x01
  sts 0x00C0, r24

  80:  e0 ec         ldi  r30, 0xC0  ; 192
  82:  f0 e0         ldi  r31, 0x00  ; 0

Weshalb siehst du die zweite als nachteilig an?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Optimierung bei USART Registerzugriff

von André A. (nummer5)

11.06.2013 09:20

Lesenswert?

•

▲
▼

A. K. schrieb:
> Beide Varianten sind gleich lang und gleich schnell:
>

>   lds r24, 0x00C0
>   ori r24, 0x01
>   sts 0x00C0, r24


* 6 Bytes Flash
* 5 Takte
* 1 Register

>

>   80:  e0 ec         ldi  r30, 0xC0  ; 192
>   82:  f0 e0         ldi  r31, 0x00  ; 0
>   86:  81 60         ori  r24, 0x01  ; 1

> Weshalb siehst du die zweite als nachteilig an?

* 10 Bytes Flash
* 7 Takte
* 3 Register

Das die Unterschiede in normalen Programmen egal sind ist mir klar.
Es wundert mich nur, dass die Optimierung hier den Umweg über das 
Z-Register geht.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Optimierung bei USART Registerzugriff

von Stefan E. (sternst)

11.06.2013 11:28

Lesenswert?

•

▲
▼

André Althaus schrieb:
> * 6 Bytes Flash
> * 5 Takte

Nein.

André Althaus schrieb:
> * 10 Bytes Flash
> * 7 Takte

Nein.

Wie A.K. schon sagte, beides ist gleich groß (10 Bytes) und gleich 
schnell (5 Takte). Einzig der Unterschied in der Register-Nutzung 
stimmt.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Optimierung bei USART Registerzugriff

von Peter D. (peda)

11.06.2013 11:38

Lesenswert?

•

▲
▼

Stefan Ernst schrieb:
> Wie A.K. schon sagte, beides ist gleich groß (10 Bytes) und gleich
> schnell (5 Takte)

Nö.
Die beiden LDI bei Variante 2 hast Du vergessen, sind also 7 Takte.
LD/ST braucht wie LDS/STS 2 Takte.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Optimierung bei USART Registerzugriff

von Stefan E. (sternst)

11.06.2013 11:44

Lesenswert?

•

▲
▼

Peter Dannegger schrieb:
> LD/ST braucht wie LDS/STS 2 Takte.

Nein. LD Z+ braucht zwei, LD Z nur einen Takt.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Optimierung bei USART Registerzugriff

von Peter D. (peda)

11.06.2013 11:51

Angehängte Dateien:

LD_2Cycle.png
15 KB

Lesenswert?

•

▲
▼

Stefan Ernst schrieb:
> LD Z nur einen Takt.

Dann sind aber alle AVR-Datenblätter falsch.
Nur bei den neuen ATtiny ist es 1 Takt (Xmega weiß ich nicht).

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Optimierung bei USART Registerzugriff

von Oliver (Gast)

11.06.2013 11:52

Lesenswert?

•

▲
▼

Stefan Ernst schrieb:
> Wie A.K. schon sagte, beides ist gleich groß (10 Bytes) und gleich
> schnell (5 Takte).

Auf auf einem Mega328p benötigt ein st und ein ld je zwei Takte, wie bei 
allen anderen Megas auch. Die zweite Variante benötigt sieben Takte.

Oliver

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Optimierung bei USART Registerzugriff

von Stefan E. (sternst)

11.06.2013 12:02

Lesenswert?

•

▲
▼

Peter Dannegger schrieb:
> Stefan Ernst schrieb:
>> LD Z nur einen Takt.
>
> Dann sind aber alle AVR-Datenblätter falsch.
> Nur bei den neuen ATtiny ist es 1 Takt (Xmega weiß ich nicht).

Hmm, ich hatte im Instruction-Set-Manual nachgeschaut. Dann ist es dort 
falsch.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Optimierung bei USART Registerzugriff

von (prx) A. K. (prx)

11.06.2013 12:18

Lesenswert?

•

▲
▼

Stefan Ernst schrieb:
> Hmm, ich hatte im Instruction-Set-Manual nachgeschaut. Dann ist es dort
> falsch.

Genauer: In einer der beiden Dokus ist es falsch. Die Wetten sind m.E. 
noch offen, in welcher.

Ich fand allerdings grad eben keinen (non-tiny) AVR, bei dem 1 Takt drin 
steht. Auch nicht bei den ganz alten. Ich würde also nicht blid drauf 
setzen, dass die Datasheets richtig liegen und die ISA_Ref falsch. Kann 
auch andersrum sein, denn die Datasheets entstehen durch copy&paste, 
Fehlerfortpflanzung inklusive.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Optimierung bei USART Registerzugriff

von Yalu X. (yalu) (Moderator)

11.06.2013 13:21

Lesenswert?

•

▲
▼

Es sieht so aus, als ob LD Rn,Z nur bei den "Reduced Core tinyAVRs" in 1 
Zyklus ausgeführt wird. So steht es jedenfalls in der Übersichtstabelle 
auf Seite 13 des aktuellen Instruction-Set-Manuals (Rev. I). Bei den 
Angaben auf Seite 93 wird nicht zwischen dem reduzierten und dem 
gewöhnliche Core unterschieden, was IMHO ein Fehler ist. Im Datenblatt 
des ATtiny4/5/9/10 ist die Zyklenzahl mit "1/2" angegeben. Die 2 bezieht 
sich dabei auf den Zugriff auf den Programmspeicher. Für die 
"gewöhnlichen" Tiny- und Mega-AVRs sind dann wohl 2 Zyklen richtig, so 
wie es auch in den jeweiligen Dateblättern angegeben ist.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Optimierung bei USART Registerzugriff

von Johann L. (gjlayde)

11.06.2013 13:26

Lesenswert?

•

▲
▼

Die Anzahl der Zyklen sind für avr-gcc ziemlich wurscht.  GCC erzeugt 
i.W. Code, der den Boliden wie ARM oder x86 genehm ist; was die 
maschinenunabhängigen Optimizer für Hänflinge wie AVR treiben 
interessiert eigentlich keinen...

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Optimierung bei USART Registerzugriff

von Oliver (Gast)

11.06.2013 13:46

Lesenswert?

•

▲
▼

Yalu X. schrieb:
> Für die
> "gewöhnlichen" Tiny- und Mega-AVRs sind dann wohl 2 Zyklen richtig, so
> wie es auch in den jeweiligen Dateblättern angegeben ist.

So dürfte es sein. Ganz genau weiß man es wohl erst, wenn man das mal 
auf einem aktuellen Mega getestet hat.

Oliver

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Optimierung bei USART Registerzugriff

von André A. (nummer5)

11.06.2013 16:16

Lesenswert?

•

▲
▼

Stefan Ernst schrieb:
> Wie A.K. schon sagte, beides ist gleich groß (10 Bytes) und gleich
> schnell (5 Takte). Einzig der Unterschied in der Register-Nutzung
> stimmt.

Stimmt, bei der Größe der LDS/STS Befehle hab ich falsch gedacht.
Ich hatte im Datenblatt geschaut und da stand 2 Zyklen drin, aber wie 
oben schon geschrieben wurde, im Instruction Set steht 1 Zyklus.

Mir fällt grad kein Beispiel ein, wie ich den gcc dazu bringen könnte 
das Z-Register für eine andere Operation in der gleichen Funktion zu 
nutzen um zu schauen, ob der dann LDS/STS nutzt.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Optimierung bei USART Registerzugriff

von Johann L. (gjlayde)

11.06.2013 16:18

Lesenswert?

•

▲
▼

André Althaus schrieb:

> Mir fällt grad kein Beispiel ein, wie ich den gcc dazu bringen könnte
> das Z-Register für eine andere Operation in der gleichen Funktion zu
> nutzen um zu schauen, ob der dann LDS/STS nutzt.

Das wird ihn nicht kümmern. Ich wette nen Keks.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Forum: Compiler & IDEs Optimierung bei USART Registerzugriff