HT/SSE2 bei Encoding

Hier kommen komplette Anleitungen zu Mods, gerne auch FAQ's zu bestimmten Themen rein. Zusätzlich findet ihr hier Reviews zu den verschiedensten Themen. Da diese Anleitungen übersichtlich sein sollen, wird hier stärker als in anderen Foren moderiert.

Moderators: Rio71, MOD-Team

User avatar
riscracer
Großer Tualatin-Orden in 0,13µm für die Missionierung der Ungläubigen
Posts: 1625
Joined: 01.06.2002 - 02:00
Location: Aquae Mattiacorum
Contact:

HT/SSE2 bei Encoding

Post by riscracer »

Geschwindigkeitsvorteil von HT / SSE2 bei Encoding

Desöfteren hört man Volksmund munkeln, ein P4 tauge vorzüglich zum Encoden, "Videobearbeitung", landläufig gesagt.
Als Dreingabe hat man ihm werksseitig die Befehlssatzinstruktion SSE2 verpaßt, bekannter Maßen dazu die Modelle des Typs "C" zuzügl. dem PSB533 3,06 GHz mit Hyper Threading ausgestattet.
Im folgenden wird anhand einer einfachen Encoding-Aufgabe ermittelt, inwiefern diese Features Geschwindigkeitsvorteile bringen.

Encodiert wird praxisnah eine 1min43sek lange AVI-Sequenz ins MPEG2-Format, geeignet zum erstellen von SVCDs.
Vorgenommen wird die Encodierung mittels TMPEGEnc 2.5. Dieses Programm ermöglicht die optionale Freischaltung einzelner Befehlssatz-Instruktionen:

Image

Testsystem:
P4 2400 C @ 3200 MHz (HT) - i875P - 1Gig DualChannel-DDR @ 212 Mhz (2-3-2-6) - 10GB U160 SCSI - Win XP SP1

Ergebnisse:
Image

Image

Es zeigen sich beim Encoding deutliche Geschwindigkeitsvorteile durch Verwendung von SSE2 und HT. Insbesondere HT vermag mit einer Leistungsverbesserung von über 20% zu überzeugen. Drastisch der Einbruch bei Abschaltung von SSE2 und HT, die Performance bricht um über ein Drittel ein (Hallo AMD !).
Image
Rio71
Tiefschürfender Techniker
Posts: 9923
Joined: 01.04.2002 - 02:00
Location: Residenz des Rechts
Contact:

Post by Rio71 »

oh, das sieht bestimmt bös aus für die MAD's. :D
könnte man damit nicht mal ein benchmark machen?

- Image SMPS ; PWM ; BUCK ; BOOST ; SEPIC basteln... :: KHV basteln... ; E85 im E34 Image
- Image P4 2.8C @ 3208 (SL6Z5) :: IHS plan :: 1,600V wakü :: 4x256MB BH-5 DDR401 2-2-2-6 :: IS7-E , mod
       R 8500 @ 295/295--> DVI --> EIZO 15" TFT :: CMI 8738/PCI-6ch-LX :: T7K250
       LG GSA-H10N :: Blue Storm II 350 :: CS-601 :: T-DSL 3Mbit :: 98SE/XP :: Details
- Image P4 2.4C @ 3350 (SL6Z3) :: 1,55V :: Alpha PAL8942 :: DDR480 2,5-2-2-6 :: IC7 , mod
- Image P4 2.4B @ 3150 (SL6RZ) :: 1,65V MCX4000 + 90'er :: DDR466 2-2-2-5-infinite-64µs :: 4GEA :: IHS off
- Laptop PIII 700@700 (100FSB/440BX) :: 256MB :: 18Gig Toshiba :: 4MB ATI :: 14,1" TFT :: Win98SE
* Fußnote: 90% aller Computerprobleme findet man zwischen Stuhl und Tastatur.  ;-)              
User avatar
Azrael
Rechte Hand von Craig Barrett
Posts: 1768
Joined: 01.06.2002 - 02:00
Location: Hamm / Paderborn

Re: HT/SSE2 bei Encoding

Post by Azrael »

riscracer wrote:Desöfteren hört man Volksmund munkeln, ein P4 tauge vorzüglich zum Encoden, "Videobearbeitung", landläufig gesagt.
[...]
(Hallo AMD !).

Das habe ich auch schon mal gehört, als ich den P4-M laufen hatte war es aus mit Träumereien dieser Art. Die fps Leistung hing deutlich hinter der XPs bei gleicher Leistung und war kaum schneller als der Tuleron.

Das HT Vorteile bringt glaube ich dir aufs Wort, aber SSE2 hat bei mir kläglich versagt.

:hintern:

DVD-rippen mit P4

Celeron schlägt Athlon XP
Wenn das Gebäude widerschallt,
Fühlt man erst recht des Basses Grundgewalt.
Goethe, Faust - Der Tragödie erster Teil, V. 2085f.
jcool
Erfahrener AKW-Tuner
Posts: 6514
Joined: 01.06.2002 - 02:00
Location: Stuttgart City
Contact:

Post by jcool »

wenn Risci mir die Videofile mal schickt...
Und das Proggie :D
Dann ham wir nen Vergleich =)
In memory of BlueX

HighEnd Computer - Exklusiv leise Powersysteme !
grandmasterw
Secontighty Master
Posts: 9220
Joined: 01.07.2002 - 02:00
Location: Wien Heatsink

Post by grandmasterw »

Hast du bei den ohne-SSE2 Tests wirklich nur SSE2 abgeschalten, oder sowohl SSE als auch SSE2?
Aktueller Fotowettbewerb: Thema: Frühling :: Einsendeschluss: 21.6.2008 ::
Bist du ein Siegertyp? Finds raus! :: Team Tualatin
User avatar
riscracer
Großer Tualatin-Orden in 0,13µm für die Missionierung der Ungläubigen
Posts: 1625
Joined: 01.06.2002 - 02:00
Location: Aquae Mattiacorum
Contact:

Post by riscracer »

grandmasterw wrote:Hast du bei den ohne-SSE2 Tests wirklich nur SSE2 abgeschalten, oder sowohl SSE als auch SSE2?
Ich hab nur P4-eigene Features abgeschaltet - hier SSE2.
Eine - nicht gelistete - Testreihe hab ich noch durchlaufen lassen ohne irgendwelche Command-Instructions jedweder Art: 1.45:30.
Das ist langsamer als Echtzeit und zeigt deutlich auf, wie stark Anwendungen von Command-Instruction-Optimierung abhängig sind. Hier benötigte der Prozessor bei Abschaltung jeglicher Instructions 409,1 % länger.
jcool wrote:wenn Risci mir die Videofile mal schickt...
Und das Proggie
Dann ham wir nen Vergleich =)
Cool, das ist mir sowieso schon in den Sinn gekommen. Interessant wären Vergleichswerte eines Barton als Quasi-Äquivalenzprodukt zum P4 sowie ferner eines Mac G5, wobei an Testwerte von letzterem wohl schwerer ranzukommen ist.
Image
pugnacity

Post by pugnacity »

hmm der g5 rockt bestimmt auch :) wobei der nur dual wirkllich sinn macht. wenn ich das geld hätte würde ich mir stark überlegen ob ich son teil nicht haben will :)
Smoking_Red
Mutter von Admin
Posts: 288
Joined: 04.12.2003 - 13:29

Post by Smoking_Red »

Das Review kann ich nur unterstreichen...Allerdings nutze ich
zum encoden divX 3.11 in Verbindung mit Nandub...SVCD mag
ich einfach ned... :D divX 3.11 ruled einfach alles wech.... :prost:

Speed ist natürlich abhängig von AR und Res. - Liegt aber immer
über Realtime...Bei na Res. von 640x352 braucht Nandub für den
First und Second-Pass eines 90min. Films i.d.R. auch ebenso lange. :D
Mein kleines Hardware-Forum | OC´ed Systems | Besuch uns wenn Du Lust hast...
http://www.oced-systems.shacknet.nu/vbb/index.php

I love my Intel-Sytems...;)
Mein Desktop-PC - P4C@270(max. 301)mhz FSB | Asus P4P800 | 4x 512mb Samsung DDR400
Mein Media-PC/Server | C4M@175(max. 197)mhz FSB | Chaintech i845E | 2x256mb G.E.I.L Golden Dragon-PC3500
Mein Notebook - Mobil P3/i440BX | 2x128mb PC100 | Docking-Port | 15" Display+17" VGA

Zitat der Woche:
On the first day, Intel created Granite Bay. On the second day, Canterwood, featuring PAT saw the light of the day. On the third day, Springdale appeared. On the fourth day, ASUS came out with a little modification and chaos has reigned since.
janerik
Rechte Hand von Craig Barrett
Posts: 1791
Joined: 19.08.2003 - 11:41

Post by janerik »

...
Last edited by janerik on 10.10.2006 - 15:42, edited 1 time in total.
jcool
Erfahrener AKW-Tuner
Posts: 6514
Joined: 01.06.2002 - 02:00
Location: Stuttgart City
Contact:

Post by jcool »

Naja, ich kann mich über den speed beim encoden von meinem Grünling allerdings auch nicht gerade beklagen - hab Riscis Bench mal durchgejagt, hat knapp 28s gedauert bei 2400Mhz. :)
Ergo encoded meiner immerhin so schnell wie ein P4 mit 3,2Ghz ohne SSE2 oder ohne HT - damit kann man wohl leben denke ich ;)
Um nen "alten" B abzuziehn langts ergo grad noch so - eigentlich überraschend...
In memory of BlueX

HighEnd Computer - Exklusiv leise Powersysteme !
User avatar
riscracer
Großer Tualatin-Orden in 0,13µm für die Missionierung der Ungläubigen
Posts: 1625
Joined: 01.06.2002 - 02:00
Location: Aquae Mattiacorum
Contact:

Post by riscracer »

Hier noch ein weiterer Vergleich mehrerer Systeme mit demselben Test. Zur Vergleichbarkeit sei angemerkt, daß der encodete Teststreifen fast zu kurz ist, um eine exakte Differenz aufzuzeigen. Ein Meßunterschied von 1sek weniger als die Referenzcpu kommt demnach schon einem Geschwindigkeitsnachteil von 4% gleich. Solch kurze Meßunterschiede mehren dabei noch Fehlinterpretationen durch Meßfehler.
Eine hinreichende Tendenz läßt sich jedoch abmessen. Hierbei Dank an jcool und Rio für die Vergleichswerte.

In Blau die Werte mit SSE2-Verwendung, Werte ohne SSE2-Verwendung in Orange dargestellt. Barton und PIII-S verfügen über keine SSE2-Instruktion.

Image

Testsysteme im Vergleich:
1) P4c 2.4 @ 3.2 (266) - i875P - 1Gig DC-DDR @ 212 (2-3-2-6) - WinXP SP1
2) P4b 2.4 @ 3.2 (178) - i845PE - 256MB DDR @ 222 (2-2-2-5) - Win98 SE
3) C4m 2.0 @ 3.2 (160) - i845PE - 256MB DDR @ 214 (2-2-2-5) - Win 98 SE
4) Barton 2400 (220) - nF2 - 512 DC-DDR @ 220 (2-2-2) - Win XP ohne auch nur ein hirnfreies Update
5) PIII-S 1.4 @ 1.75 - i815EP - 256 SDR @ 166 (2-2-2) - Win 98 SE



Augenscheinlich tritt hervor, daß der P4C ohne HT-Nutzung vom P4B auf gleicher Taktfrequenz kassiert wird. Es scheint das C-Modell kann sein volles Potential nur unter Verwendung von HT nutzen.
Dies relativiert sich jedoch wieder unter dem Eindruck, daß die Zeit des P4C ohne HT-Nutzung gleich bleibt, läßt man die brachliegenden 50% Prozessorleistung laut Taskmanager in der derselben Zeit SETI rechnen. Egal ob die "restlichen" 50% "brachliegen" oder genutzt werden, die Zeit bleibt gleich.
Anmerkung hierzu: Die Prozesse mittels Taskmanager an die virtuellen Prozessoren gebunden und SETI in High Priority ausgeführt.

Bei weiterer Beobachtung läßt sich bei allen P4-Prozessoren ein meßbarer Performancegewinn aufgrund SSE2 feststellen. Umso deutlicher tritt dies hervor, als daß der Grad des Verhältnisses mit und ohne SSE2-Nutzung bei allen getesten Prozessoren konstant gleich bleibt.

Legt man sein Augenmerk auf die identischen Zeiten von C4m - gehandicapt mit nur 256kB L2 - und dem P4 B-Modell, läßt sich ermitteln, daß Cache im Rahmen dieser Encoding-Aufgabe keinen Gewinn bringt. Leistung bemißt sich hier primär nach Clockspeed und verwendeten Command-Instruktionen. Selbst FSB tritt in seiner Gewichtung zurück, absehbar am Verhältnis C4m (FSB160), P4b (178) sowie ferner wegen schlechter Vergleichbarkeit aufgrund HT auch dem P4c (266).
Beabsichtigt man einen Rechner vorzüglich für Encoding-Aufgaben anzuschaffen, sollte man diesen Umstand berücksichtigen.

Der Barton 2.4 (220) hält sich trotz der fehlenden SSE2-Instruktion recht passabel. Vergleicht man seine Zeiten mit denen der P4-Prozessoren ohne SSE2-Nutzung muß er sich lediglich dem C-Modell unter Nutzung von HT geschlagen geben. Auch im Vergleich mit SSE2 kommt er in Schlagdistanz an die P4-Prozessoren heran.

Die vergleichsweise herangezogene x86-Architektur in Vollendung des King verliert auf weiter Basis. Leistungsmäßig liegt seine Bearbeitungszeit 75% hinter der eines P4c mit HT. Es läßt sich nahezu der Schluß anstellen, im Bereich einer solchen Encoding-Aufgabe skaliert die Leistung eines P4c gegenüber dem PIII-S mit dem effektiven Takt.
Image
User avatar
der_archivar
Site Admin
Posts: 7088
Joined: 01.03.2002 - 02:00
Location: Hildesheim
Contact:

Post by der_archivar »

Ein zu erwartendes Ergebnis.

Meine Tests vor langer Zeit mit einem unwürdigen Willi-Celi ergaben das Gleiche:

Sogar trotz miesem SDRAM und nur 128 kb Cache zog der P4-Abkömmling den King gnadenlos ab....allerdings nur beim Encoden - dem Spezialgebiet der Netburst Architektur....und das damals noch ohne SSE2 Software.

Bei nahezu jedem anderen Benchmark fiel der Willi auf die Schnauze..aber richtig.
Rio71
Tiefschürfender Techniker
Posts: 9923
Joined: 01.04.2002 - 02:00
Location: Residenz des Rechts
Contact:

Post by Rio71 »

das der p4c etwas das nachsehen hat ist seltsam.
man müsste evl mal im bios das ht ausknipsen.
möglicherweise wird von der ersten cpu etwas leistung abkgeknappst und zur vorhaltung der zweiten reserviert.
oder man müsste sogar das xp mit disabled'ten ht installieren wegen kernel und so...
eigentlich dürfte es aber nicht sein. :confused:

jo archi, hab ich risci auch geschrieben. fühlte sich an wie mp3 coding.
alles egal, wichtig nur der northy-kern mit seinen instruktionen.

- Image SMPS ; PWM ; BUCK ; BOOST ; SEPIC basteln... :: KHV basteln... ; E85 im E34 Image
- Image P4 2.8C @ 3208 (SL6Z5) :: IHS plan :: 1,600V wakü :: 4x256MB BH-5 DDR401 2-2-2-6 :: IS7-E , mod
       R 8500 @ 295/295--> DVI --> EIZO 15" TFT :: CMI 8738/PCI-6ch-LX :: T7K250
       LG GSA-H10N :: Blue Storm II 350 :: CS-601 :: T-DSL 3Mbit :: 98SE/XP :: Details
- Image P4 2.4C @ 3350 (SL6Z3) :: 1,55V :: Alpha PAL8942 :: DDR480 2,5-2-2-6 :: IC7 , mod
- Image P4 2.4B @ 3150 (SL6RZ) :: 1,65V MCX4000 + 90'er :: DDR466 2-2-2-5-infinite-64µs :: 4GEA :: IHS off
- Laptop PIII 700@700 (100FSB/440BX) :: 256MB :: 18Gig Toshiba :: 4MB ATI :: 14,1" TFT :: Win98SE
* Fußnote: 90% aller Computerprobleme findet man zwischen Stuhl und Tastatur.  ;-)              
MadMP
Rechte Hand von Craig Barrett
Posts: 1568
Joined: 01.08.2002 - 02:00

Post by MadMP »

Wenn mir jemand das AVI schick kann ichs ja mal auf meiner Maschine testen.
User avatar
Predator
370-beiniger Prophet
Posts: 2728
Joined: 01.07.2002 - 02:00
Location: NRW

Post by Predator »

Hm.
Was mir gerade auffällt: Riscis P4C bzw der RAM läuft ja "nur" mit 2-3-2-6.
Wäre auch möglich, dass die 2-2-2-5 von Rio ausschlaggebend sind und der 2.4B deshalb so punkten kann... .
Was brauche ich für den Bench? Nur TMPEGEnc 2.5 und die AVI?
Habe zwar keine Ahnung davon, aber testen würde ich auch mal, sollte sich Zeit finden.
Mail im Profil... wollen ja nicht noch mehr Spam bekommen als nötig :rolleyes:

PC: C2Q9650@DFI LP JR P45-T2RS+TR IFX-14, 4GB G.Skill, 460GTX [µ-ATX-Eigenbaugehäuse]
Altmetall: P-M745@2.200@1,34V@Asus P4P800(@SE geflasht) 2x512MB Ballistix+2x512MB OCZ GoldEd. VX [Eigenbau-Bigtower]
Nostalgie: P3-S-1266(SL6J)@Abit BX133R, 768MB MCI, max: CL2 1600MHz/168,4FSB, CL3 1720/181FSB, uvw. ...[Koffer-PC]
Post Reply