SSE4

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 19. září 2016; ověření vyžaduje 21 úprav .

SSE4 je instrukční sada mikroarchitektury Intel Core , poprvé implementovaná v procesorech řady Penryn (nezaměňovat s SSE4A od AMD ) [1] .

To bylo oznámeno 27. září 2006 , ale podrobný popis byl k dispozici až na jaře 2007 . Podrobnější popis funkcí nového procesoru pro programátory najdete na webu Intelu.

Sada příkazů

SSE4 se skládá z 54 instrukcí, 47 z nich patří do SSE4.1 (jsou v procesorech Penryn). Kompletní sada instrukcí (SSE4.1 a SSE4.2, tedy 47 + zbývajících 7 instrukcí) je dostupná v procesorech Intel s mikroarchitekturou Nehalem, které byly vydány v polovině listopadu 2008 a pozdějších edicích. Žádná z instrukcí SSE4 nefunguje s 64bitovými registry mmx (pouze se 128bitovými xmm0-15).

Nové příkazy SSE4

Podskupina	Pokyny pro procesor	Popis	Očekávaná vylepšení v aplikaci
Různé zabalené operace DWORD	PMULLD, PMULDQ	Nová podpora pro čtyři podepsané (a nepodepsané) 32x32 bitové násobení na instrukci, stejně jako podepsané násobení jako 32x32->64.	Široce použitelné pro automatizaci vektorizace kompilátoru zpracování dat napsaných ve vyšších programovacích jazycích (jako C a Fortran).
Produkt s plovoucí desetinnou čárkou	DPPS, DPPD	Vylepšený výkon zpracování datového typu AOS (pole struktur) díky podpoře produktů s jednou a dvojitou přesností bodů.	Tvorba trojrozměrného obsahu, hry. Podpora programovacích jazyků jako CG a HLSL.
Balené párování	BLENDPS, BLENDPD, BLENDVPS, BLENDVPD, PBLENDVB, PBLENDDW	Podle konvence operace párování zkopíruje jedno pole ze zdroje a přenese je do cíle. Tyto nové instrukce procesoru zlepší výkon konjugačních operací pro většinu velikostí polí tím, že sbalí operace násobení do jediné instrukce.	Je široce použitelný pro automatizaci kompilátorové vektorizace zpracování dat napsaných ve vyšších programovacích jazycích (jako C a Fortran), stejně jako pro aplikace určené pro zpracování obrazu, video informací. Multimediální a herní zdroje.
Maximální a minimální hodnoty sbaleného celého čísla	PMINSB, PMAXSB, PMINUW, PMAXUW, PMINUD, PMAXUD, PMINDS, PMAXSD	Porovná sbalené celočíselné hodnoty na úrovni bajtů/slova/dword se znaménkem a ve zdrojovém operandu a vrátí minimální nebo maximální hodnotu na instrukci pro každý zabalený operand v cílovém operandu.	Je široce použitelný pro automatizaci kompilátorové vektorizace zpracování dat napsaných ve vyšších programovacích jazycích (jako C a Fortran), stejně jako pro aplikace určené pro zpracování obrazu, video informací.
Zaokrouhlování hodnot s pohyblivou řádovou čárkou	ROUNDPS, ROUNDSS, ROUNDPD, ROUNDSD	Efektivně zaokrouhluje skalární a sbalený operand s jednoduchou nebo dvojitou přesností na celočíselnou hodnotu, čímž podporuje požadavky programovacích jazyků Fortran, Java a C99.	Zpracování obrázků, grafiky, video informací. Aplikace s 2D/3D multimediálními a herními prostředky.
Vložit/vysunout registry	INSERTPS, PINSRB, PINSRD, PINSRQ, EXTRACTPS, PEXTRB, PEXTRD, PEXTRW, PEXTRQ	Tyto nové instrukce procesoru zjednodušují proces vkládání a vyjímání mezi GPR (nebo pamětí) a XMM.	Je široce použitelný pro automatizaci kompilátorové vektorizace zpracování dat napsaných ve vyšších programovacích jazycích (jako C a Fortran), stejně jako pro aplikace určené pro zpracování obrazu, video informací.
Konverze zabaleného formátu	PMOVSXBW, PMOVZXBW, PMOVSXBD, PMOVZXBD, PMOVSXBQ, PMOVZXBQ, PMOVSXWD, PMOVZXWD, PMOVSXWQ, PMOVZXWQ, PMOVSXDQ, PMOVZXDQ	Převede celočíselnou hodnotu v rámečku (z registru XMM nebo paměti) na celočíselnou hodnotu širšího typu s příponou se znaménkem nebo nulou.	Je široce použitelný pro automatizaci kompilátorové vektorizace zpracování dat napsaných ve vyšších programovacích jazycích (jako C a Fortran), stejně jako pro aplikace určené pro zpracování obrazu, video informací.
Zabalená kontrola a instalace	PTEST	Rychlejší větvení architektury SIMD pro podporu vektorizovaného kódu.	Použitelné pro automatizaci kompilátorové vektorizace zpracování dat, zpracování obrazových a obrazových informací a vytváření trojrozměrného obsahu. Multimediální a herní zdroje.
Definice sbalené identity	PCMPEQQ, PCMPGTQ	Architektura SIMD definuje, že sbalené hodnoty QWORD v cílovém operandu a ve zdrojovém operandu jsou totožné.	Je široce použitelný pro automatizaci kompilátorové vektorizace zpracování dat napsaných ve vyšších programovacích jazycích (jako C a Fortran), stejně jako pro aplikace určené pro zpracování obrazu, video informací. Multimediální a herní zdroje.
Balení DWORD do nepodepsaného formátu WORD	PACKUSDW	Převede sbalené podepsané DWORD na nepodepsané zabalené SLOVO pomocí nepodepsaného stagingu ke zvládnutí podmínek přetečení. Tato nová instrukce procesoru doplňuje sadu dalších instrukcí v tomto formátu.	Je široce použitelný pro automatizaci kompilátorové vektorizace zpracování dat napsaných ve vyšších programovacích jazycích (jako C a Fortran), stejně jako pro aplikace určené pro zpracování obrazu, video informací. Multimediální a herní zdroje.
Vylepšené operace s řetězci	PCMPESTRI, PCMPESTRM, PCMPISTRI, PCMPISTRM	Tyto nové instrukce procesoru obsahují velké množství funkcí pro zpracování řetězců a textu, které obvykle vyžadují více operačních kódů.	Vylepšený výkon pro skenování virů, textové vyhledávání, knihovny pro zpracování řetězců, jako je ZLIB, databáze, kompilátory a aplikace stavových strojů.

Kompilátor C Intel od verze 10 generuje instrukce SSE4, když je zadána volba -QxS . Kompilátor Sun Studio od Sun Microsystems od verze 12 aktualizace 1 generuje instrukce SSE4 pomocí voleb -xarch=sse4_1 (SSE4.1) a -xarch=sse4_2 (SSE4.2) [2] . Kompilátor GCC podporuje SSE4.1 a SSE4.2 od verze 4.3 [3] s volbami -msse4.1 a -msse4.2 nebo -msse4 pro zahrnutí obou.

Změny

Byly přidány instrukce pro zrychlení kompenzace pohybu ve video kodecích , rychlé čtení z paměti USWC , spousta instrukcí pro zjednodušení vektorizace programů pomocí kompilátorů.

Kromě toho byly do SSE4.2 přidány instrukce pro zpracování řetězců 8/16bitových znaků, výpočty CRC32, POPCNT . Poprvé v SSE4 byl registr xmm0 použit jako implicitní argument pro některé instrukce.

Nové instrukce SSE4.1

Zrychlit video

MPSADBW xmm1, xmm2/m128, imm8 - (vícenásobné sbalené součty absolutního rozdílu)
- Vstup — { A 0 , A 1 ,… A 14 }, { B 0 , B 1 ,… B 15 }, Shiftmode
- Výstup - { JCD 0 , JCD 1 , JCD 2 ,… JCD 7 }

Výpočet osmi součtů absolutních hodnot rozdílů (SAD) offsetových 4bajtových skupin bez znaménka. Umístění operandů pro 16bitové SAD je určeno třemi bity přímého argumentu imm8.

s1 = imm8[2]*4 s2 = imm8[1:0]*4 SAD 0 = |A (s1+0) -B (s2+0) | + |A (s1+1) -B (s2+1) | + |A (s1+2) -B (s2+2) | + |A (s1+3) -B (s2+3) | SAD 1 = |A (s1+1) -B (s2+0) | + |A (s1+2) -B (s2+1) | + |A (s1+3) -B (s2+2) | + |A (s1+4) -B (s2+3) | SAD 2 = |A (s1+2) -B (s2+0) | + |A (s1+3) -B (s2+1) | + |A (s1+4) -B (s2+2) | + |A (s1+5) -B (s2+3) | ... SAD 7 = |A (s1+7) -B (s2+0) | + |A (s1+8) -B (s2+1) | + |A (s1+9) -B (s2+2) | + |A (s1+10) -B (s2+3) |

PHMINPOSUW xmm1, xmm2/m128 – (Minimálně zabalené horizontální slovo)
- Vstup — { A 0 , A 1 ,… A 7 }
- Výstup - { MinVal, MinPos, 0, 0… }

Vyhledávání mezi 16bitovými poli bez znaménka A 0 ... A 7 tak, aby měla minimální hodnotu (a pozici s menším číslem, pokud je takových polí více). Vrátí se 16bitová hodnota a její pozice.

PMOV{SX,ZX}{B,W,D} xmm1, xmm2/m{64,32,16} - (Zabalený pohyb se znaménkem/nulovým prodloužením)

Skupina 12 instrukcí pro rozšíření formátu zabalených polí. Sbalená 8, 16 nebo 32bitová pole z dolní části argumentu se rozbalí (se znaménkem nebo bez znaménka) na 16, 32 nebo 64bitová výsledková pole.

Vstupní formát			Výsledný formát
8 bitů	16 bit	32 bitů	Výsledný formát
PMOVSXBW			16 bit
PMOVZXBW	PMOVZXWW		16 bit
PMOVSXBD	PMOVSXWD		32 bitů
PMOVZXBD	PMOVZXWD	PMOVSXDD	32 bitů
PMOVSXBQ	PMOVSXWQ	PMOVSXDQ	64 bitů
PMOVZXBQ	PMOVZXWQ	PMOVZXDQ	64 bitů

Vektorová primitiva

P{MIN,MAX}{SB,UW,SD,UD} xmm1, xmm2/m128 - (Minimum/Maximum zkomprimovaných bajtů se znaménkem/Bajt bez znaménka/Word/DWord celých čísel)

Každé výsledkové pole je minimální/maximální hodnota odpovídajících polí dvou argumentů. Bajtová pole jsou považována pouze za čísla se znaménkem, 16bitová pole jsou považována pouze za čísla bez znaménka. Pro 32bitová zabalená pole jsou k dispozici možnosti podepsané i nepodepsané.

PMULDQ xmm1, xmm2/m128 – (Multiple Packed Signed Dword Integers)
- Vstup — {A 0 , A 1 , A 2 , A 3 }, { B 0 , B 1 , B 2 , B 3 }
- Výstup - { A 0 * B 0 , A 2 * B 2 }

Vynásobte 32bitová pole se znaménkem, čímž získáte celých 64 bitů výsledku (dvě operace násobení na polích 0 a 2 argumentů).

PMULLD xmm1, xmm2/m128 – (Multiple Packed Signed Dword Integers and Store Low Result)
- Vstup — {A 0 , A 1 , A 2 , A 3 }, { B 0 , B 1 , B 2 , B 3 }
- Výstup — { low32(A 0 *B 0 ), low32(A 1 *B 1 ), low32(A 2 *B 2 ), low32(A 3 *B 3 ) }

Vynásobte 32bitová pole se znaménkem, čímž získáte nejméně významných 32 bitů výsledků (čtyři operace násobení na všech polích argumentů).

PACKUSDW xmm1, xmm2/m128 – (balení s nepodepsanou saturací)

Balení 32bitových polí se znaménkem do 16bitových polí bez znaménka se saturací.

PCMPEQQ xmm1, xmm2/m128 – (Porovnejte sbalená data Qword pro Equal)

Kontrola rovnosti 64bitových polí a vydávání 64bitových masek.

Vložení/Vyjmutí

INSERTPS xmm1, xmm2/m32, imm8 - (Vložte zabalenou jednu přesnou hodnotu s plovoucí desetinnou čárkou)

Vložení 32bitového pole z xmm2 (je možné zvolit libovolné ze 4 polí tohoto registru) nebo z 32bitového paměťového místa do libovolného výsledkového pole. Navíc pro každé z polí výsledků můžete nastavit, aby se resetovalo na +0,0.

EXTRACTPS r/m32, xmm, imm8 - (Extract Packed Single Precision Floating-Point Value)

Při extrakci 32bitového pole z registru xmm je číslo pole uvedeno v dolních 2 bitech imm8. Pokud je jako výsledek zadán 64bitový registr, jeho horních 32 bitů se resetuje (nepodepsané rozšíření).

PINSR{B,D,Q} xmm, r/m*, imm8 - (Vložit Byte/Dword/Qword)

Vložte 8, 32 nebo 64bitovou hodnotu do zadaného pole xmm registru (ostatní pole se nemění).

PEXTR{B,W,D,Q} r/m*, xmm, imm8 - (Extrahovat Byte/Word/Dword/Qword)

Extrakce 8, 16, 32, 64bitového pole z pole xmm uvedeného v imm8 registru. Pokud je jako výsledek uveden případ, jeho vysoká část se zahodí (nepodepsané rozšíření).

Skalární násobení vektorů

DPPS xmm1, xmm2/m128, imm8 – (bodový součin zabalených hodnot s plovoucí desetinnou čárkou s jednou přesností)
DPPD xmm1, xmm2/m128, imm8 – (bodový součin balených s dvojitou přesností s plovoucí desetinnou čárkou)

Vektorové skalární násobení (bodový součin) 32/64bitových polí. Pomocí bitové masky v imm8 je naznačeno, které součiny polí se mají sečíst a co se má zapsat do každého pole výsledku: součet zadaných součinů nebo +0,0.

Míchání

BLENDV{PS,PD} xmm1, xmm2/m128, <xmm0> - (Variable Blend Packed Single/Double Precision Floating-Point Values)

Každé 32/64bitové výsledné pole je vybráno v závislosti na znaménku stejného pole v implicitním argumentu xmm0: buď z prvního nebo z druhého argumentu.

BLEND{PS,PD} xmm1, xmm2/m128, imm8 - (směs složený s jednou/dvojitou přesností s plovoucí desetinnou čárkou)

Bitová maska (4 nebo 2 bity) v imm8 určuje, ze kterého argumentu by mělo být převzato každé 32/64bitové výsledné pole.

PBLENDVB xmm1, xmm2/m128, <xmm0> - (Variable Blend Packed Bytes)

Volba každého bajtového pole výsledku se provádí v závislosti na znaménku bajtu stejného pole v implicitním argumentu xmm0: buď z prvního nebo z druhého argumentu.

PBLENDW xmm1, xmm2/m128, imm8 - (Smíchat zabalená slova)

Bitová maska (8 bitů) v imm8 určuje, ze kterého argumentu by mělo být převzato každé 16bitové výsledkové pole.

Bitové kontroly

PTEST xmm1, xmm2/m128 – (logické srovnání)

Nastavte příznak ZF pouze v případě, že v xmm2/m128 jsou všechny bity označené maskou z xmm1 nula. Pokud jsou všechny neoznačené bity nulové, nastavte příznak CF . Zbývající příznaky ( AF , OF , PF , SF ) jsou vždy resetovány. Instrukce nemění xmm1.

Zaokrouhlení

ROUND{PS, PD} xmm1, xmm2/m128, imm8 - (Kulatá balení s jednou/dvojitou přesností s plovoucí desetinnou čárkou)

Zaokrouhlení všech 32/64bitových polí. Režim zaokrouhlení (4 možnosti) se volí buď z MXCSR.RC, nebo se nastavuje přímo v imm8. Můžete také potlačit generování výjimky ztráty přesnosti.

ROUND{SS, SD} xmm1, xmm2/m128, imm8 - (Kulatá skalární jednoduchá/dvojitá přesnost s plovoucí desetinnou čárkou)

Zaokrouhlení pouze nejméně významného 32/64bitového pole (ostatní bity zůstávají nezměněny).

Čtení paměti WC

MOVNTDQA xmm1, m128 – (Načíst dvojité čtyřslovné nečasově zarovnané nápovědy)

Operace čtení, která urychluje (až 7,5krát) práci s oblastmi paměti kombinujícími zápis .

Nové instrukce SSE4.2

Manipulace s řetězci

Tyto instrukce provádějí aritmetická srovnání mezi všemi možnými dvojicemi polí (64 nebo 256 porovnání) z obou řetězců daných obsahem xmm1 a xmm2/m128. Booleovské výsledky srovnání jsou pak zpracovány k získání požadovaných výsledků. Přímý argument imm8 řídí velikost (řetězce bajtů nebo unicode, každý až 16/8 prvků), charakterizaci polí (prvky řetězce), typ srovnání a interpretaci výsledků.

Mohou vyhledávat v řetězci (oblasti paměti) znaky z dané sady nebo v daných rozsazích. Můžete porovnávat řetězce (oblasti paměti) nebo hledat podřetězce.

Všechny ovlivňují příznaky procesoru : SF je nastaveno, pokud xmm1 není celý řetězec, ZF je nastaveno, pokud xmm2/m128 není úplný řetězec, CF je, pokud výsledek není nula, OF je, pokud je nejméně významný bit výsledek není nula. Příznaky AF a PF jsou vymazány.

PCMPESTRI <ecx>, xmm1, xmm2/m128, <eax>, <edx>, imm8 - ()

Explicitní nastavení velikosti řádků v <eax>, <edx> (absolutní hodnota registrů se bere od saturace do 8/16 v závislosti na velikosti prvků řádků. Výsledek je v registru ecx .

PCMPESTRM <xmm0>, xmm1, xmm2/m128, <eax>, <edx>, imm8 - ()

Explicitní nastavení velikosti řádků v <eax>, <edx> (absolutní hodnota registrů se bere od saturace do 8/16 v závislosti na velikosti prvků řádků. Výsledek je v registru xmm0 .

PCMPISTRI <ecx>, xmm1, xmm2/m128, imm8 - ()

Implicitní nastavení velikosti řetězců (pro každý z řetězců se hledají nulové prvky). Výsledek je v registru ecx.

PCMPISTRM <xmm0>, xmm1, xmm2/m128, imm8 - ()

Implicitní nastavení velikosti řetězců (pro každý z řetězců se hledají nulové prvky). Výsledek je v registru xmm0.

Výpočet CRC32

CRC32 r32, r/m* — (počet CRC32)

Akumulace hodnoty CRC-32C (jiné označení CRC-32/ISCSI CRC-32/CASTAGNOLI ) pro 8, 16, 32 nebo 64bitový argument (pomocí polynomu 0x1EDC6F41 ).

Počítání populace 1 bitů

POPCNT r, r/m* - (Vrátí počet bitů nastavený na 1)

Počítání počtu jednotlivých bitů. Tři možnosti instrukcí: pro 16, 32 a 64bitové registry. Také přítomen v AMD SSE4A .

Vektorová primitiva

PCMPGTQ xmm1, xmm2/m128 – (Porovnejte sbalená data Qword pro větší než)

Kontrola 64bitových polí pro "větší než" a vydávání 64bitových masek.

SSE4a

Instrukční sadu SSE4a zavedla AMD do procesorů architektury Barcelona . Toto rozšíření není k dispozici na procesorech Intel. Podpora je definována pomocí příznaku CPUID.80000001H:ECX.SSE4A[Bit 6]. [čtyři]

Návod	Popis
LZCNT/POPCNT	Počítání počtu nula/jedna bitů.
EXTRQ/INSERTQ	Pokyny pro kombinovanou masku a řazení [5]
MOVNTSD/MOVNTSS	Pokyny pro zápis skalárního proudu [6]

Procesory s podporou SSE4

Intel
- Penryn ( SSE4.1 )
- Nehalem a novější ( SSE4.1 , SSE4.2 )
AMD
- AMD A10, A8 a A6 (SSE4.1, SSE4.2, SSE4A)
- Buldozer ( SSE4a , SSE4.1 , SSE4.2 )
- Zen ( SSE4a , SSE4.1 , SSE4.2 )
PŘES
- VIA Nano ( SSE4.1 )

Literatura

Nejčastější dotazy: Řada procesorů Intel® Core™ 2 a pokyny pro Intel® SSE4 (ruština)
iXBT.com 28. září 2006 IDF Fall`06: Intel připravuje SSE4 v roce 2007
iXBT.com 29. března 2007 Prezentace Intel Penryn (první zmínka o Super Shuffle Engine )
Popis SSE4 pro programátory

Poznámky

↑ Sada instrukcí Innovative Streaming SIMD Extensions 4 (SSE4) (downlink ) . Získáno 21. února 2010. Archivováno z originálu 29. května 2010. (neurčitý)
↑ Sun Studio 12 Update 1: C Compiler 5.10 Readme . Získáno 8. února 2010. Archivováno z originálu 7. listopadu 2009. (neurčitý)
↑ GCC 4.3 Release Series – Změny, nové funkce a opravy – GNU Project – Free Software Foundation (FSF) . Získáno 27. května 2010. Archivováno z originálu 9. května 2012. (neurčitý)
↑ Specifikace AMD CPUID . Získáno 7. května 2011. Archivováno z originálu dne 16. května 2011. (neurčitý)
↑ Rahul Chaturvedi. Funkce procesoru "Barcelona": Instrukční sada SSE4a (anglicky) (odkaz není k dispozici) (17. září 2007). Archivováno z originálu 25. října 2013.
↑ Rahul Chaturvedi. Funkce procesoru "Barcelona": SSE4a, část 2 (anglicky) (odkaz není k dispozici) (2. října 2007). Archivováno z originálu 25. října 2013.

instrukční sady procesoru x86
Intel	MMX SSE SSE2 SSE3 SSSE3 SSE4 ( SSE4.1 SSE4.2 ATA ) AES AVX FMA Intel MPX
AMD	3DNy! SSE4a SSE5 AVX FMA AES xop
Cyrix	MMXEXT