Gibt es einen DSP, der eine komplexe Multiplikation (32 Bit x 32 Bit) in 10 ns ausführen kann?
wenn der DSP für die 32*32 Bit Multiplikation genau eine Taktperiode benötigt würde ein DSP mit 100MHz Taktfrequenz genügen. Ich vermute aber mal das er mehr als eine Taktperiode benötigt. Ob DSPs heute das mit einer Taktperiode können? und ob die so schnell sind? Mit Fpgals könnte ich mir das schon eher vorstellen. Ralph Berres
Aber sicher gibt es das: Z.b kann der TMS320C6655 von Texas Instruments bei 1.25Ghz eine Multiplikation in 2.9ns berechnen. Die Multiplikation selbst hat eine Latenz von vier Zyklen. Durch Pipelining kannst Du pro Cycle eine Multiplikation starten und Du hast zwei Multiplier Units. Damit kommst Du auf 8 aktive Multiplikatinen die zeitgleich aktiv sein können. Das macht dann einen theoretischen Durchsatz von 10 Milliarden Multiplikatinen pro Sekunde.
Nils P. schrieb: > TMS320C6655 Der hat sogar schon fertige Instruktionen für komplexe Operationen. Die Multiplikation zweier komplexer 64-Bit-Zahlen (je 32 Bit Real- und Imaginärteil, wahlweise Gleit- oder Festkomma) benötigt insgesamt 4 Zyklen, die sich durch Pipelining auf effektiv 1 Zyklus verkürzen lassen. Die Operation kann parallel in zwei Recheneinheiten ausgeführt werden, so dass jede komplexe Multiplikation im Mittel nur noch 0,5 Zyklen (0,4ns) benötigt. Falls das nicht reicht, kann man mit der 8-Core-Variante TMS320C6678 den Durchsatz noch einmal um den Faktor 8 steigern. Dann dauert die komplexe Multiplikation im Mittel nur noch 50ps.
> so dass jede komplexe Multiplikation im Mittel nur noch 0,5 > Zyklen (0,4ns) benötigt Es sind auch nur Laien die ihren M4er ARM fuer einen DSP halten.
Yalu X. schrieb: > Falls das nicht reicht, kann man mit der 8-Core-Variante TMS320C6678 den > Durchsatz noch einmal um den Faktor 8 steigern. Gerade mal nach den Preisen geschaut. Huch ...
Yalu X. schrieb: > Falls das nicht reicht, kann man mit der 8-Core-Variante TMS320C6678 den > Durchsatz noch einmal um den Faktor 8 steigern. Dann dauert die komplexe > Multiplikation im Mittel nur noch 50ps. Jup! Für so Low-Level Frickler wie mich sind diese Chips wirklich der ganz große Spaß. Die wahre Kunst bei den Chips ist, die Daten schnell genug per DMA in das tightly coupled Memory zu bekommen. Sonst stallen die Pipelines und man sieht von der theoretischen Performance fast gar nichts.
Yalu X. schrieb: > Dann dauert die komplexe > Multiplikation im Mittel nur noch 50ps. SO kann man das aber nicht rechnen. :-) Die Dauer einer Multiplikation ist schon die Zeit inklusive Latenz / Delay. Dass infolge paralleler Berechnungen und pipelining (was auch auf Parallelität zurückzuführen ist!) ein hoher Datendurchsatz erzielt wird, macht die Dauer nicht kürzer. Das ist eine andere Kenngrösse.
Jürgen S. schrieb: > Yalu X. schrieb: >> Dann dauert die komplexe >> Multiplikation im Mittel nur noch 50ps. > SO kann man das aber nicht rechnen. :-) > > Die Dauer einer Multiplikation ist schon die Zeit inklusive Latenz / > Delay. Ja, hier von "Dauer" zu reden, ist schlampig. Ich wollte durch den Zusatz "im Mittel" verdeutlichen, was gemeint ist, aber auch das ging in die Hose. Eine bessere Formulierung wäre "bis zu 20 Milliarden komplexe Multiplikation pro Sekunde" gewesen.
> Dann dauert die komplexe > Multiplikation im Mittel nur noch 50ps. SO kann man das aber nicht rechnen. :-) Für eine FFT würd ich das aber so rechnen wollen, weil genügend Parallelität vorhanden ist, die Cores und die Pipelines darin eine Zeitlang gefüllt zu halten. Dann spielt der Delay/die Latenz kaum noch eine Rolle.
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.