Forum: Mikrocontroller und Digitale Elektronik Cortex M4 und FPU Performance

von Mampf F. (mampf)

01.06.2017 09:23

Lesenswert?

•

Guten Morgen,

ich versuche gerade einen Audio-Dynamic-Compressor auf einen Cortex M4 
(STM32F429) zu portieren, den ich mal von Lisp (Chris Dynamic Compressor 
als Audacity-Plugin) nach C und dann nach VHDL portiert hatte.

Für den Port nach VHDL hatte ich alles auf Festpunktarithmetik 
umgestellt und Funktionen wie die Umrechnung von linear->db, db->linear, 
1/x und sqrt(x) so implementiert, dass ich in VHDL keine 
Fließkomma-Arithmetik benötige.

Nun hab ich festgestellt, dass die Cortex M4 eine FPU eingebaut haben 
und der Compiler float gut nutzen kann ...

Die meisten Verfahren sind iterativ und brauchen deshalb vermutlich mehr 
CPU-Zyklen, als wenn die FPU direkt verwendet werden würde (?).

Zum Vergleich:

float Lin2Db::conv(int data) {
  int j=15;
  int bm=0x8000;
  while (!(data & bm) && bm)
    bm>>=1;
  // zero input = -1000.0f db output
  if (!bm)
    return -1000.0f;
  int e = max(j-7,0);
  int idx = data >> e;
  return m_lutman->data[idx]+m_lutexp->data[e]-m_k2;


wäre das Gleiche wie:

float ret=(20.0f*log((float)data/32767.0f)/log(10.0f));


Hat jemand eine Idee, wie performant ln(x), 1/x, e(x) und sqrt(x) auf 
einem Cortex mit FPU arbeitet verglichen mit Implementierungen, die nur 
Festpunkt-Arithmetik benutzen?

Viele Grüße,
Mampf

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M4 und FPU Performance

von Mampf F. (mampf)

01.06.2017 09:36

Lesenswert?

•

▲
▼

Ah erste Infos aus einem PDF von ST:

VABS.F32 Absolute value 1
VADD.F32 Addition 1
VSUB.F32 Subtraction 1
VMUL.F32 Multiply 1
VDIV.F32 Division 14
VCVT.F32 Conversion to/from
integer/fixed-point 1
VSQRT.F32 Square root 14


SQRT und DIV brauchen 14 Zyklen ... Ist aber immer noch schneller als 
iterativ die Wurzel zu bilden ...

Beispielsweise meine 1/x Funktion:

float Recip::conv(float in) {
  int data = (int) (in*65536.f);  
  int dtmp = data;
  if (!data)
    throw std::string("div by 0!");
  int j=15;
  while (true) {
    if (dtmp & 0x8000) {
      break;
    j--;
    dtmp<<=1;
  int e = max(j-7,0);
  int idx = data >> e;
  return m_lutman->data[idx] * pow(2,-e);



Mmhmmmm ... Glaub, ich muss es einfach mal messen ...

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M4 und FPU Performance

von Alex E. (tecnologic)

01.06.2017 11:36

Lesenswert?

•

▲
▼

Moin,

messen ist auf jeden Fall gut. Denke aber auch daran was für eine FPU du 
hast. Die des M4 ist immer eine single precision. Deshalb solltest du 
beim GCC -fsingle-constant übergeben. Dann werden auch die math.h 
Funktionen mit float anstelle von double (in software) gerechnet. Ob 
deine Rechnung dann nummerisch instabil wird weil die Genauigkeit des 
Floats nicht aus reicht musst du aus probieren.

Ansonsten sieh dir die CMSIS DSP Lib an. Die Implemtierungen sind ggf. 
schneller als math.h.

Gruß

Tec

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M4 und FPU Performance

von Mampf F. (mampf)

01.06.2017 13:06

Lesenswert?

•

▲
▼

Tec N. schrieb:
> Die des M4 ist immer eine single precision. Deshalb solltest du
> beim GCC -fsingle-constant übergeben. Dann werden auch die math.h
> Funktionen mit float anstelle von double (in software) gerechnet. Ob
> deine Rechnung dann nummerisch instabil wird weil die Genauigkeit des
> Floats nicht aus reicht musst du aus probieren.
>
> Ansonsten sieh dir die CMSIS DSP Lib an. Die Implemtierungen sind ggf.
> schneller als math.h.

Vielen Dank für die guten Tipps! :)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Cortex M4 und FPU Performance

von Mampf F. (mampf)

01.06.2017 15:15

Lesenswert?

•

▲
▼

Also ich hab es jetzt so gemacht ... Zurück auf Float umgebaut und die 
Standard-Math-Funktionen verwendet.

Haut einwandfrei hin und ich glaube der Controller langweilt sich 
trotzdem fast nur - trotz MP3-Decoder^^

168MHz ist schon eine Menge Holz, wenn sonst kein OS darauf läuft :)

Netterweise braucht dieser Dynamik-Kompressor sowiso kaum CPU-Zeit, da 
das Audio noch auf ca 30Hz runtergerechnet wird ... Allerdings macht er 
einen Lookahead von bis zu 30 Sekunden und die 30 Sekunden Audio-Samples 
muss man zwischen speichern, weshalb man ein Haufen RAM braucht xD

Der Compressor ist aber sehr geil und ich denke, die Arbeit hat sich 
gelohnt :)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Thread beobachten |

Seitenaufteilung abschalten

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.

Bestehender Account

Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen

Noch kein Account? Hier anmelden.

Kontakt/Impressum – Datenschutzerklärung – Nutzungsbedingungen – Werbung auf Mikrocontroller.net