HT/SSE2 bei Encoding
- riscracer
- Großer Tualatin-Orden in 0,13µm für die Missionierung der Ungläubigen
- Posts: 1625
- Joined: 01.06.2002 - 02:00
- Location: Aquae Mattiacorum
- Contact:
HT/SSE2 bei Encoding
Geschwindigkeitsvorteil von HT / SSE2 bei Encoding
Desöfteren hört man Volksmund munkeln, ein P4 tauge vorzüglich zum Encoden, "Videobearbeitung", landläufig gesagt.
Als Dreingabe hat man ihm werksseitig die Befehlssatzinstruktion SSE2 verpaßt, bekannter Maßen dazu die Modelle des Typs "C" zuzügl. dem PSB533 3,06 GHz mit Hyper Threading ausgestattet.
Im folgenden wird anhand einer einfachen Encoding-Aufgabe ermittelt, inwiefern diese Features Geschwindigkeitsvorteile bringen.
Encodiert wird praxisnah eine 1min43sek lange AVI-Sequenz ins MPEG2-Format, geeignet zum erstellen von SVCDs.
Vorgenommen wird die Encodierung mittels TMPEGEnc 2.5. Dieses Programm ermöglicht die optionale Freischaltung einzelner Befehlssatz-Instruktionen:
Testsystem:
P4 2400 C @ 3200 MHz (HT) - i875P - 1Gig DualChannel-DDR @ 212 Mhz (2-3-2-6) - 10GB U160 SCSI - Win XP SP1
Ergebnisse:
Es zeigen sich beim Encoding deutliche Geschwindigkeitsvorteile durch Verwendung von SSE2 und HT. Insbesondere HT vermag mit einer Leistungsverbesserung von über 20% zu überzeugen. Drastisch der Einbruch bei Abschaltung von SSE2 und HT, die Performance bricht um über ein Drittel ein (Hallo AMD !).
Desöfteren hört man Volksmund munkeln, ein P4 tauge vorzüglich zum Encoden, "Videobearbeitung", landläufig gesagt.
Als Dreingabe hat man ihm werksseitig die Befehlssatzinstruktion SSE2 verpaßt, bekannter Maßen dazu die Modelle des Typs "C" zuzügl. dem PSB533 3,06 GHz mit Hyper Threading ausgestattet.
Im folgenden wird anhand einer einfachen Encoding-Aufgabe ermittelt, inwiefern diese Features Geschwindigkeitsvorteile bringen.
Encodiert wird praxisnah eine 1min43sek lange AVI-Sequenz ins MPEG2-Format, geeignet zum erstellen von SVCDs.
Vorgenommen wird die Encodierung mittels TMPEGEnc 2.5. Dieses Programm ermöglicht die optionale Freischaltung einzelner Befehlssatz-Instruktionen:
Testsystem:
P4 2400 C @ 3200 MHz (HT) - i875P - 1Gig DualChannel-DDR @ 212 Mhz (2-3-2-6) - 10GB U160 SCSI - Win XP SP1
Ergebnisse:
Es zeigen sich beim Encoding deutliche Geschwindigkeitsvorteile durch Verwendung von SSE2 und HT. Insbesondere HT vermag mit einer Leistungsverbesserung von über 20% zu überzeugen. Drastisch der Einbruch bei Abschaltung von SSE2 und HT, die Performance bricht um über ein Drittel ein (Hallo AMD !).
-
- Tiefschürfender Techniker
- Posts: 9923
- Joined: 01.04.2002 - 02:00
- Location: Residenz des Rechts
- Contact:
oh, das sieht bestimmt bös aus für die MAD's.
könnte man damit nicht mal ein benchmark machen?
könnte man damit nicht mal ein benchmark machen?
- SMPS ; PWM ; BUCK ; BOOST ; SEPIC basteln... :: KHV basteln... ; E85 im E34
- P4 2.8C @ 3208 (SL6Z5) :: IHS plan :: 1,600V wakü :: 4x256MB BH-5 DDR401 2-2-2-6 :: IS7-E , mod
R 8500 @ 295/295--> DVI --> EIZO 15" TFT :: CMI 8738/PCI-6ch-LX :: T7K250
LG GSA-H10N :: Blue Storm II 350 :: CS-601 :: T-DSL 3Mbit :: 98SE/XP :: Details
- P4 2.4C @ 3350 (SL6Z3) :: 1,55V :: Alpha PAL8942 :: DDR480 2,5-2-2-6 :: IC7 , mod
- P4 2.4B @ 3150 (SL6RZ) :: 1,65V MCX4000 + 90'er :: DDR466 2-2-2-5-infinite-64µs :: 4GEA :: IHS off
- Laptop PIII 700@700 (100FSB/440BX) :: 256MB :: 18Gig Toshiba :: 4MB ATI :: 14,1" TFT :: Win98SE
* Fußnote: 90% aller Computerprobleme findet man zwischen Stuhl und Tastatur. ;-)
- Azrael
- Rechte Hand von Craig Barrett
- Posts: 1768
- Joined: 01.06.2002 - 02:00
- Location: Hamm / Paderborn
Re: HT/SSE2 bei Encoding
riscracer wrote:Desöfteren hört man Volksmund munkeln, ein P4 tauge vorzüglich zum Encoden, "Videobearbeitung", landläufig gesagt.
[...]
(Hallo AMD !).
Das habe ich auch schon mal gehört, als ich den P4-M laufen hatte war es aus mit Träumereien dieser Art. Die fps Leistung hing deutlich hinter der XPs bei gleicher Leistung und war kaum schneller als der Tuleron.
Das HT Vorteile bringt glaube ich dir aufs Wort, aber SSE2 hat bei mir kläglich versagt.
DVD-rippen mit P4
Celeron schlägt Athlon XP
Wenn das Gebäude widerschallt,
Fühlt man erst recht des Basses Grundgewalt.
Goethe, Faust - Der Tragödie erster Teil, V. 2085f.
Fühlt man erst recht des Basses Grundgewalt.
Goethe, Faust - Der Tragödie erster Teil, V. 2085f.
-
- Secontighty Master
- Posts: 9220
- Joined: 01.07.2002 - 02:00
- Location: Wien Heatsink
Hast du bei den ohne-SSE2 Tests wirklich nur SSE2 abgeschalten, oder sowohl SSE als auch SSE2?
Aktueller Fotowettbewerb: Thema: Frühling :: Einsendeschluss: 21.6.2008 ::
Bist du ein Siegertyp? Finds raus! :: Team Tualatin
Bist du ein Siegertyp? Finds raus! :: Team Tualatin
- riscracer
- Großer Tualatin-Orden in 0,13µm für die Missionierung der Ungläubigen
- Posts: 1625
- Joined: 01.06.2002 - 02:00
- Location: Aquae Mattiacorum
- Contact:
Ich hab nur P4-eigene Features abgeschaltet - hier SSE2.grandmasterw wrote:Hast du bei den ohne-SSE2 Tests wirklich nur SSE2 abgeschalten, oder sowohl SSE als auch SSE2?
Eine - nicht gelistete - Testreihe hab ich noch durchlaufen lassen ohne irgendwelche Command-Instructions jedweder Art: 1.45:30.
Das ist langsamer als Echtzeit und zeigt deutlich auf, wie stark Anwendungen von Command-Instruction-Optimierung abhängig sind. Hier benötigte der Prozessor bei Abschaltung jeglicher Instructions 409,1 % länger.
Cool, das ist mir sowieso schon in den Sinn gekommen. Interessant wären Vergleichswerte eines Barton als Quasi-Äquivalenzprodukt zum P4 sowie ferner eines Mac G5, wobei an Testwerte von letzterem wohl schwerer ranzukommen ist.jcool wrote:wenn Risci mir die Videofile mal schickt...
Und das Proggie
Dann ham wir nen Vergleich =)
-
- Mutter von Admin
- Posts: 288
- Joined: 04.12.2003 - 13:29
Das Review kann ich nur unterstreichen...Allerdings nutze ich
zum encoden divX 3.11 in Verbindung mit Nandub...SVCD mag
ich einfach ned... divX 3.11 ruled einfach alles wech....
Speed ist natürlich abhängig von AR und Res. - Liegt aber immer
über Realtime...Bei na Res. von 640x352 braucht Nandub für den
First und Second-Pass eines 90min. Films i.d.R. auch ebenso lange.
zum encoden divX 3.11 in Verbindung mit Nandub...SVCD mag
ich einfach ned... divX 3.11 ruled einfach alles wech....
Speed ist natürlich abhängig von AR und Res. - Liegt aber immer
über Realtime...Bei na Res. von 640x352 braucht Nandub für den
First und Second-Pass eines 90min. Films i.d.R. auch ebenso lange.
Mein kleines Hardware-Forum | OC´ed Systems | Besuch uns wenn Du Lust hast...
http://www.oced-systems.shacknet.nu/vbb/index.php
I love my Intel-Sytems...
Mein Desktop-PC - P4C@270(max. 301)mhz FSB | Asus P4P800 | 4x 512mb Samsung DDR400
Mein Media-PC/Server | C4M@175(max. 197)mhz FSB | Chaintech i845E | 2x256mb G.E.I.L Golden Dragon-PC3500
Mein Notebook - Mobil P3/i440BX | 2x128mb PC100 | Docking-Port | 15" Display+17" VGA
Zitat der Woche:
On the first day, Intel created Granite Bay. On the second day, Canterwood, featuring PAT saw the light of the day. On the third day, Springdale appeared. On the fourth day, ASUS came out with a little modification and chaos has reigned since.
http://www.oced-systems.shacknet.nu/vbb/index.php
I love my Intel-Sytems...
Mein Desktop-PC - P4C@270(max. 301)mhz FSB | Asus P4P800 | 4x 512mb Samsung DDR400
Mein Media-PC/Server | C4M@175(max. 197)mhz FSB | Chaintech i845E | 2x256mb G.E.I.L Golden Dragon-PC3500
Mein Notebook - Mobil P3/i440BX | 2x128mb PC100 | Docking-Port | 15" Display+17" VGA
Zitat der Woche:
On the first day, Intel created Granite Bay. On the second day, Canterwood, featuring PAT saw the light of the day. On the third day, Springdale appeared. On the fourth day, ASUS came out with a little modification and chaos has reigned since.
Naja, ich kann mich über den speed beim encoden von meinem Grünling allerdings auch nicht gerade beklagen - hab Riscis Bench mal durchgejagt, hat knapp 28s gedauert bei 2400Mhz.
Ergo encoded meiner immerhin so schnell wie ein P4 mit 3,2Ghz ohne SSE2 oder ohne HT - damit kann man wohl leben denke ich
Um nen "alten" B abzuziehn langts ergo grad noch so - eigentlich überraschend...
Ergo encoded meiner immerhin so schnell wie ein P4 mit 3,2Ghz ohne SSE2 oder ohne HT - damit kann man wohl leben denke ich
Um nen "alten" B abzuziehn langts ergo grad noch so - eigentlich überraschend...
- riscracer
- Großer Tualatin-Orden in 0,13µm für die Missionierung der Ungläubigen
- Posts: 1625
- Joined: 01.06.2002 - 02:00
- Location: Aquae Mattiacorum
- Contact:
Hier noch ein weiterer Vergleich mehrerer Systeme mit demselben Test. Zur Vergleichbarkeit sei angemerkt, daß der encodete Teststreifen fast zu kurz ist, um eine exakte Differenz aufzuzeigen. Ein Meßunterschied von 1sek weniger als die Referenzcpu kommt demnach schon einem Geschwindigkeitsnachteil von 4% gleich. Solch kurze Meßunterschiede mehren dabei noch Fehlinterpretationen durch Meßfehler.
Eine hinreichende Tendenz läßt sich jedoch abmessen. Hierbei Dank an jcool und Rio für die Vergleichswerte.
In Blau die Werte mit SSE2-Verwendung, Werte ohne SSE2-Verwendung in Orange dargestellt. Barton und PIII-S verfügen über keine SSE2-Instruktion.
Testsysteme im Vergleich:
1) P4c 2.4 @ 3.2 (266) - i875P - 1Gig DC-DDR @ 212 (2-3-2-6) - WinXP SP1
2) P4b 2.4 @ 3.2 (178) - i845PE - 256MB DDR @ 222 (2-2-2-5) - Win98 SE
3) C4m 2.0 @ 3.2 (160) - i845PE - 256MB DDR @ 214 (2-2-2-5) - Win 98 SE
4) Barton 2400 (220) - nF2 - 512 DC-DDR @ 220 (2-2-2) - Win XP ohne auch nur ein hirnfreies Update
5) PIII-S 1.4 @ 1.75 - i815EP - 256 SDR @ 166 (2-2-2) - Win 98 SE
Augenscheinlich tritt hervor, daß der P4C ohne HT-Nutzung vom P4B auf gleicher Taktfrequenz kassiert wird. Es scheint das C-Modell kann sein volles Potential nur unter Verwendung von HT nutzen.
Dies relativiert sich jedoch wieder unter dem Eindruck, daß die Zeit des P4C ohne HT-Nutzung gleich bleibt, läßt man die brachliegenden 50% Prozessorleistung laut Taskmanager in der derselben Zeit SETI rechnen. Egal ob die "restlichen" 50% "brachliegen" oder genutzt werden, die Zeit bleibt gleich.
Anmerkung hierzu: Die Prozesse mittels Taskmanager an die virtuellen Prozessoren gebunden und SETI in High Priority ausgeführt.
Bei weiterer Beobachtung läßt sich bei allen P4-Prozessoren ein meßbarer Performancegewinn aufgrund SSE2 feststellen. Umso deutlicher tritt dies hervor, als daß der Grad des Verhältnisses mit und ohne SSE2-Nutzung bei allen getesten Prozessoren konstant gleich bleibt.
Legt man sein Augenmerk auf die identischen Zeiten von C4m - gehandicapt mit nur 256kB L2 - und dem P4 B-Modell, läßt sich ermitteln, daß Cache im Rahmen dieser Encoding-Aufgabe keinen Gewinn bringt. Leistung bemißt sich hier primär nach Clockspeed und verwendeten Command-Instruktionen. Selbst FSB tritt in seiner Gewichtung zurück, absehbar am Verhältnis C4m (FSB160), P4b (178) sowie ferner wegen schlechter Vergleichbarkeit aufgrund HT auch dem P4c (266).
Beabsichtigt man einen Rechner vorzüglich für Encoding-Aufgaben anzuschaffen, sollte man diesen Umstand berücksichtigen.
Der Barton 2.4 (220) hält sich trotz der fehlenden SSE2-Instruktion recht passabel. Vergleicht man seine Zeiten mit denen der P4-Prozessoren ohne SSE2-Nutzung muß er sich lediglich dem C-Modell unter Nutzung von HT geschlagen geben. Auch im Vergleich mit SSE2 kommt er in Schlagdistanz an die P4-Prozessoren heran.
Die vergleichsweise herangezogene x86-Architektur in Vollendung des King verliert auf weiter Basis. Leistungsmäßig liegt seine Bearbeitungszeit 75% hinter der eines P4c mit HT. Es läßt sich nahezu der Schluß anstellen, im Bereich einer solchen Encoding-Aufgabe skaliert die Leistung eines P4c gegenüber dem PIII-S mit dem effektiven Takt.
Eine hinreichende Tendenz läßt sich jedoch abmessen. Hierbei Dank an jcool und Rio für die Vergleichswerte.
In Blau die Werte mit SSE2-Verwendung, Werte ohne SSE2-Verwendung in Orange dargestellt. Barton und PIII-S verfügen über keine SSE2-Instruktion.
Testsysteme im Vergleich:
1) P4c 2.4 @ 3.2 (266) - i875P - 1Gig DC-DDR @ 212 (2-3-2-6) - WinXP SP1
2) P4b 2.4 @ 3.2 (178) - i845PE - 256MB DDR @ 222 (2-2-2-5) - Win98 SE
3) C4m 2.0 @ 3.2 (160) - i845PE - 256MB DDR @ 214 (2-2-2-5) - Win 98 SE
4) Barton 2400 (220) - nF2 - 512 DC-DDR @ 220 (2-2-2) - Win XP ohne auch nur ein hirnfreies Update
5) PIII-S 1.4 @ 1.75 - i815EP - 256 SDR @ 166 (2-2-2) - Win 98 SE
Augenscheinlich tritt hervor, daß der P4C ohne HT-Nutzung vom P4B auf gleicher Taktfrequenz kassiert wird. Es scheint das C-Modell kann sein volles Potential nur unter Verwendung von HT nutzen.
Dies relativiert sich jedoch wieder unter dem Eindruck, daß die Zeit des P4C ohne HT-Nutzung gleich bleibt, läßt man die brachliegenden 50% Prozessorleistung laut Taskmanager in der derselben Zeit SETI rechnen. Egal ob die "restlichen" 50% "brachliegen" oder genutzt werden, die Zeit bleibt gleich.
Anmerkung hierzu: Die Prozesse mittels Taskmanager an die virtuellen Prozessoren gebunden und SETI in High Priority ausgeführt.
Bei weiterer Beobachtung läßt sich bei allen P4-Prozessoren ein meßbarer Performancegewinn aufgrund SSE2 feststellen. Umso deutlicher tritt dies hervor, als daß der Grad des Verhältnisses mit und ohne SSE2-Nutzung bei allen getesten Prozessoren konstant gleich bleibt.
Legt man sein Augenmerk auf die identischen Zeiten von C4m - gehandicapt mit nur 256kB L2 - und dem P4 B-Modell, läßt sich ermitteln, daß Cache im Rahmen dieser Encoding-Aufgabe keinen Gewinn bringt. Leistung bemißt sich hier primär nach Clockspeed und verwendeten Command-Instruktionen. Selbst FSB tritt in seiner Gewichtung zurück, absehbar am Verhältnis C4m (FSB160), P4b (178) sowie ferner wegen schlechter Vergleichbarkeit aufgrund HT auch dem P4c (266).
Beabsichtigt man einen Rechner vorzüglich für Encoding-Aufgaben anzuschaffen, sollte man diesen Umstand berücksichtigen.
Der Barton 2.4 (220) hält sich trotz der fehlenden SSE2-Instruktion recht passabel. Vergleicht man seine Zeiten mit denen der P4-Prozessoren ohne SSE2-Nutzung muß er sich lediglich dem C-Modell unter Nutzung von HT geschlagen geben. Auch im Vergleich mit SSE2 kommt er in Schlagdistanz an die P4-Prozessoren heran.
Die vergleichsweise herangezogene x86-Architektur in Vollendung des King verliert auf weiter Basis. Leistungsmäßig liegt seine Bearbeitungszeit 75% hinter der eines P4c mit HT. Es läßt sich nahezu der Schluß anstellen, im Bereich einer solchen Encoding-Aufgabe skaliert die Leistung eines P4c gegenüber dem PIII-S mit dem effektiven Takt.
- der_archivar
- Site Admin
- Posts: 7088
- Joined: 01.03.2002 - 02:00
- Location: Hildesheim
- Contact:
Ein zu erwartendes Ergebnis.
Meine Tests vor langer Zeit mit einem unwürdigen Willi-Celi ergaben das Gleiche:
Sogar trotz miesem SDRAM und nur 128 kb Cache zog der P4-Abkömmling den King gnadenlos ab....allerdings nur beim Encoden - dem Spezialgebiet der Netburst Architektur....und das damals noch ohne SSE2 Software.
Bei nahezu jedem anderen Benchmark fiel der Willi auf die Schnauze..aber richtig.
Meine Tests vor langer Zeit mit einem unwürdigen Willi-Celi ergaben das Gleiche:
Sogar trotz miesem SDRAM und nur 128 kb Cache zog der P4-Abkömmling den King gnadenlos ab....allerdings nur beim Encoden - dem Spezialgebiet der Netburst Architektur....und das damals noch ohne SSE2 Software.
Bei nahezu jedem anderen Benchmark fiel der Willi auf die Schnauze..aber richtig.
-
- Tiefschürfender Techniker
- Posts: 9923
- Joined: 01.04.2002 - 02:00
- Location: Residenz des Rechts
- Contact:
das der p4c etwas das nachsehen hat ist seltsam.
man müsste evl mal im bios das ht ausknipsen.
möglicherweise wird von der ersten cpu etwas leistung abkgeknappst und zur vorhaltung der zweiten reserviert.
oder man müsste sogar das xp mit disabled'ten ht installieren wegen kernel und so...
eigentlich dürfte es aber nicht sein.
jo archi, hab ich risci auch geschrieben. fühlte sich an wie mp3 coding.
alles egal, wichtig nur der northy-kern mit seinen instruktionen.
man müsste evl mal im bios das ht ausknipsen.
möglicherweise wird von der ersten cpu etwas leistung abkgeknappst und zur vorhaltung der zweiten reserviert.
oder man müsste sogar das xp mit disabled'ten ht installieren wegen kernel und so...
eigentlich dürfte es aber nicht sein.
jo archi, hab ich risci auch geschrieben. fühlte sich an wie mp3 coding.
alles egal, wichtig nur der northy-kern mit seinen instruktionen.
- SMPS ; PWM ; BUCK ; BOOST ; SEPIC basteln... :: KHV basteln... ; E85 im E34
- P4 2.8C @ 3208 (SL6Z5) :: IHS plan :: 1,600V wakü :: 4x256MB BH-5 DDR401 2-2-2-6 :: IS7-E , mod
R 8500 @ 295/295--> DVI --> EIZO 15" TFT :: CMI 8738/PCI-6ch-LX :: T7K250
LG GSA-H10N :: Blue Storm II 350 :: CS-601 :: T-DSL 3Mbit :: 98SE/XP :: Details
- P4 2.4C @ 3350 (SL6Z3) :: 1,55V :: Alpha PAL8942 :: DDR480 2,5-2-2-6 :: IC7 , mod
- P4 2.4B @ 3150 (SL6RZ) :: 1,65V MCX4000 + 90'er :: DDR466 2-2-2-5-infinite-64µs :: 4GEA :: IHS off
- Laptop PIII 700@700 (100FSB/440BX) :: 256MB :: 18Gig Toshiba :: 4MB ATI :: 14,1" TFT :: Win98SE
* Fußnote: 90% aller Computerprobleme findet man zwischen Stuhl und Tastatur. ;-)
Hm.
Was mir gerade auffällt: Riscis P4C bzw der RAM läuft ja "nur" mit 2-3-2-6.
Wäre auch möglich, dass die 2-2-2-5 von Rio ausschlaggebend sind und der 2.4B deshalb so punkten kann... .
Was brauche ich für den Bench? Nur TMPEGEnc 2.5 und die AVI?
Habe zwar keine Ahnung davon, aber testen würde ich auch mal, sollte sich Zeit finden.
Mail im Profil... wollen ja nicht noch mehr Spam bekommen als nötig
Was mir gerade auffällt: Riscis P4C bzw der RAM läuft ja "nur" mit 2-3-2-6.
Wäre auch möglich, dass die 2-2-2-5 von Rio ausschlaggebend sind und der 2.4B deshalb so punkten kann... .
Was brauche ich für den Bench? Nur TMPEGEnc 2.5 und die AVI?
Habe zwar keine Ahnung davon, aber testen würde ich auch mal, sollte sich Zeit finden.
Mail im Profil... wollen ja nicht noch mehr Spam bekommen als nötig
PC: C2Q9650@DFI LP JR P45-T2RS+TR IFX-14, 4GB G.Skill, 460GTX [µ-ATX-Eigenbaugehäuse]
Altmetall: P-M745@2.200@1,34V@Asus P4P800(@SE geflasht) 2x512MB Ballistix+2x512MB OCZ GoldEd. VX [Eigenbau-Bigtower]
Nostalgie: P3-S-1266(SL6J)@Abit BX133R, 768MB MCI, max: CL2 1600MHz/168,4FSB, CL3 1720/181FSB, uvw. ...[Koffer-PC]