IEEE 754-2008

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 24. srpna 2019; kontroly vyžadují 22 úprav .

IEEE 754 ( IEC 60559) je široce používaný standard IEEE , který popisuje formát pro reprezentaci čísel s pohyblivou řádovou čárkou . Používá se v softwarových ( překladačích různých programovacích jazyků ) i hardwarových ( CPU a FPU ) implementacích aritmetických operací (matematické operace).

Norma popisuje:

formát čísla s plovoucí řádovou čárkou : mantisa , exponent (exponent), znak čísla;
reprezentace kladné a záporné nuly , kladného a záporného nekonečna , jakož i nečísla ( anglicky Not-a-Number, NaN );
metody používané k převodu čísla při provádění matematických operací;
výjimky: dělení nulou , přetečení , podtečení , práce s denormalizovanými čísly a další;
operace: aritmetické a další.

Standard z roku 2008 nahrazuje IEEE 754-1985 . Nový standard obsahuje binární formáty z předchozího standardu a tři nové formáty. Podle současného standardu musí implementace podporovat alespoň jeden ze základních formátů, stejně jako aritmetický formát a výměnný formát.

Seznam norem:

IEEE 754-1985;
IEEE 754-2008.

Vývoj standardu

Aktuální verze IEEE 754-2008 byla zveřejněna v roce 2008. Doplňuje a nahrazuje předchozí verzi IEEE 754-1985 , kterou napsal Dan Zuras a upravil Mike Coulishaw..

Mezinárodní standard ISO/IEC/IEEE 60559:2011 (s identickým IEEE 754-2008) byl schválen a publikován pro JTC1 /SC 25 v rámci dohody ISO/IEEE PSDO.

Binární formáty v původním standardu jsou zahrnuty do nového standardu spolu se třemi novými základními formáty (jeden binární a dva desítkové). Aby implementace odpovídala současnému standardu, musí implementovat alespoň jeden ze základních formátů.

Od září 2015 je standard revidován, aby zahrnoval upřesnění.

Formát

Formát IEEE 754 je „soubor reprezentací číselných hodnot a znaků“. Formát může také zahrnovat způsob kódování.

Formát zahrnuje:

Čísla, která lze uvažovat v binárním nebo desítkovém zápisu. Reálné číslo je reprezentováno třemi celými čísly a , kde je znaménko (0 pro kladné a 1 pro záporné), je mantisa (koeficient), je exponent . Pro daná celá čísla a hodnota odpovídajícího reálného čísla je: , kde je základ (2 nebo 10). Například číslo se základem , znaménkovým bitem (číslo je záporné), mantisou a exponentem definuje číslo . $s$ $C$ $q$ $s$ $C$ $q$ $s$ $C$ $q$ ${\displaystyle (-1)^{s}\cdot c\cdot b^{q))$ $b$ $deset$ $jeden$ $12345$ $-3$ $(-1)^{1}\cdot 12345\cdot 10^{-3}=-12,345$

Kladná nula a záporná nula . $+0$ $-0$
Dvě nekonečna: a . $+\infty$ $-\infty$
Dva druhy NaN : tichý NaN (qNaN) a signalizační NaN (sNaN). NaN může nést užitečné zatížení určené pro diagnostické informace indikující zdroj, který způsobil NaN. Znak NaN nemá žádný význam, ale v některých případech může být předvídatelný.

Možné konečné hodnoty, které mohou být ve formátu reprezentovány, jsou určeny základem , počtem znaků v mantise (s přesností ) a maximální hodnotou : $b$ $p$ ${\displaystyle E_{\max ))$

$C$ musí být celé číslo v rozsahu od nuly do (pokud a potom c může být od do ) $b^{p}-1$ $b=10$ $p=7$ $0$ $9999999$
$q$ musí být celé číslo, takže (if a , pak může být od do ). ${\displaystyle 1-E_{\max }\leq q+p-1\leq E_{\max ))$ $p=7$ $E_{\max }=96$ $q$ $-101$ $90$

Proto (pro předchozí příklad) nejmenší nenulové kladné číslo, které lze znázornit , je a největší je ( ), stejně jako celý rozsah čísel od do . Čísla a ( a ) jsou nejmenší (v absolutní hodnotě) normální čísla; nenulová čísla mezi těmito nejmenšími čísly se nazývají subnormální . $1\cdot 10^{-101}$ $9999999\cdot 10^{90}$ ${\displaystyle 9.999999\cdot 10^{96))$ ${\displaystyle -9,999999\cdot 10^{-96))$ ${\displaystyle 9.999999\cdot 10^{-96))$ $-b^{E_{\max ))$ $b^{E_{\max ))$ $-1\cdot 10^{-95}$ $1\cdot 10^{95}$

Reprezentace a kódování v paměti

Některá čísla mohou mít více reprezentací ve formátu, ve kterém byla právě popsána. Například, if a , pak číslo může být reprezentováno jako: , nebo . $b=10$ $p=7$ $-12.345$ ${\displaystyle -12345\cdot 10^{-3))$ ${\displaystyle -123450\cdot 10^{-4))$ ${\displaystyle -1234500\cdot 10^{-5))$

Pro desítkové formáty platí jakákoli reprezentace a kolekce těchto reprezentací se nazývá kohorty . Pokud může mít výsledek více reprezentací, norma určí, kterou z nich vybere člen kohorty.

U binárních formátů je reprezentace jedinečná volbou nejmenšího reprezentovatelného exponentu. Pro čísla s exponentem v normálním rozsahu (ne všechna nebo všechny nuly) bude počáteční bit mantisy vždy 1. Proto může být počáteční 1 bit implikován spíše než uložen explicitně v paměti. Toto pravidlo se nazývá konvence vedoucích bitů nebo konvence skrytých bitů. Pravidlo vám umožňuje ušetřit 1 bit paměti, abyste získali o jeden bit přesnosti více. Úvodní bit konvence se nepoužívá pro podnormální čísla; jejich míra je mimo normální rozsah hodnot.

Základní a zaměnitelné formáty

Norma definuje pět základních formátů, které jsou pojmenovány podle číselného základu a počtu bitů použitých při jejich kódování. Existují tři základní binární formáty s pohyblivou řádovou čárkou (kódované s 32, 64 nebo 128 bity) a dva desetinné formáty s pohyblivou řádovou čárkou (zakódované s 64 nebo 128 bity). Formáty binary32 a binary64 jsou jednoduché a binární formáty IEEE 754-1985. Konformní implementace musí plně implementovat alespoň jeden ze základních formátů.

Norma také definuje výměnné formáty, které tyto základní formáty zobecňují. Binární vyžadují souhlas s vedoucími bity. V tabulce jsou uvedeny nejmenší výměnné formáty (včetně základních).

název	Celý název	Základna	Počet binárních číslic mantisy	Počet desetinných míst	Exponent (bit)	Desetinný Emax	Exponenciální posun [1]	Emin	Emax	Poznámky
binární 16	poloviční přesnost	2	jedenáct	3.31	5	4.51	2 4 −1 = 15	−14	+15	Ne mainstream
binární32	jediná přesnost	2	24	7.22	osm	38,23	2 7 −1 = 127	−126	+127
binární64	dvojitá přesnost	2	53	15,95	jedenáct	307,95	2 10 −1 = 1023	−1022	+1023
binární128	Čtyřnásobná přesnost	2	113	34.02	patnáct	4931,77	2 14 −1 = 16383	−16382	+16383
binární256	8x přesnost	2	237	71,34	19	78913.2	2 18 −1 = 262 143	−262142	+262143	Ne mainstream
desítkové32		deset	7	7	7,58	96	101	−95	+96	Ne mainstream
desítkové64		deset	16	16	9,58	384	398	−383	+384
desítkové128		deset	34	34	13,58	6144	6176	−6143	+6144

Vezměte prosím na vědomí, že ve výše uvedené tabulce jsou minimální hodnoty pro běžná čísla. Speciální reprezentace subnormálních čísel umožňuje reprezentovat ještě menší čísla (s určitou ztrátou přesnosti). Například nejmenší číslo s dvojnásobnou přesností větší než nula, které lze v tomto tvaru vyjádřit, je 2 − 1074 (protože 1074 = 1022 + 53 − 1).

Desetinná hodnota je hodnota × log 10 základ , která udává přibližnou přesnost v desítkové soustavě.

Desetinné E max je emax × log 10 základ, což udává maximální výkon v desítkové soustavě.

Jak již bylo uvedeno dříve, formáty binární32 a binární64 jsou totožné s formáty IEEE 754-1985 a jsou to dva nejběžnější formáty, které se dnes používají. Obrázek vpravo ukazuje absolutní přesnost pro formáty binary32 a binary64 v rozsahu od 10 −12 do 10 12 . Takový indikátor lze použít k výběru vhodného formátu vzhledem k očekávané hodnotě čísla a požadované přesnosti.

Rozšířené a rozšiřitelné přesné formáty

Norma také definuje rozšířené a rozšiřitelné přesné formáty, které se doporučují pro větší přesnost než základní formáty. Formát rozšířené přesnosti rozšiřuje základní formát pomocí vyšší přesnosti a širšího rozsahu exponentů. Pokročilý formát přesnosti umožňuje uživateli určit rozsah přesnosti a exponentu. Implementace může používat jakoukoli interní reprezentaci, kterou si pro takové formáty vybere. Jediné, co je potřeba specifikovat, jsou parametry b, p a emax. Tyto parametry jednoznačně popisují množinu konečných čísel (kombinací znaménka a exponentu pro daný základ), kterou může reprezentovat.

Norma nevyžaduje implementaci pro podporu rozšířených nebo rozšiřitelných přesných formátů.

Norma doporučuje, aby jazyky poskytovaly metodu pro specifikaci hodnot p a emax pro každý podporovaný základ b.

Norma doporučuje, aby jazyky a implementace podporovaly rozšířený formát, který má vyšší přesnost než největší základní formát podporovaný pro každý základ b.

Pro rozšířený formát s přesností mezi dvěma základními formáty musí být rozsah exponentů stejně velký jako rozsah dalšího širšího základního formátu. Takže například 64bitové binární číslo s rozšířenou přesností musí mít hodnotu emax alespoň 16383.

Výměnné formáty

Výměnné formáty jsou navrženy pro výměnu dat s pohyblivou řádovou čárkou pomocí bitového řetězce pevné délky.

Pro výměnu binárních čísel s pohyblivou řádovou čárkou jsou definovány výměnné formáty délky 16 bitů, 32 bitů, 64 bitů a libovolný násobek 32 bitů ≥128. 16bitový formát je určen pro výměnu nebo ukládání malých čísel (například pro grafiku nebo výpočty neuronové sítě).

Schéma kódování pro tyto binární výměnné formáty je stejné jako pro IEEE 754-1985: znaménkový bit následovaný indexy, které popisují posun exponentu a bity p-1, které popisují hodnotu. Šířka pole exponentu pro k-bitový formát se vypočítá jako w = round(4 log 2 ( k ))−13. Stávající 64 a 128 bitové formáty se řídí tímto pravidlem, ale 16 a 32 bitové formáty mají více výkonových bitů (5 a 8 bitů), než dává tento vzorec (3 a 7 bitů v tomto pořadí).

Stejně jako u IEEE 754-1985 existuje určitá flexibilita v kódování NaN.

Pro výměnu desetinných čísel s pohyblivou řádovou čárkou jsou formáty výměny definovány pro libovolný násobek 32 bitů.

Pravidla zaokrouhlování

Norma definuje pět pravidel zaokrouhlování. První dvě pravidla zaokrouhlují na nejbližší hodnotu, ostatní se nazývají směrová kola.

Zaokrouhlování na nejbližší

Zaokrouhlování na nejbližší (vazba "na sudé"). Pokud jsou dvě nejbližší čísla s plovoucí desetinnou čárkou stejně blízko, pak by mělo být získáno číslo se sudou nejnižší číslicí. Toto je výchozí hodnota pro binární hodnotu s pohyblivou řádovou čárkou a doporučená výchozí hodnota pro desítkovou soustavu.
Zaokrouhlení na nejbližší (vazba „na nekonečno“). Pokud jsou dvě nejbližší čísla s pohyblivou řádovou čárkou stejně blízko, pak by mělo být získáno číslo s větším modulem.

Směrové zaoblení

Zaokrouhlení na 0 – směrované zaokrouhlení na nulu (také známé jako zkrácení).
Zaokrouhlit na +∞ – Směrové zaokrouhlení na kladné nekonečno (také známé jako zaokrouhlení nahoru nebo strop).
Zaokrouhlit na - ∞ - směrové zaokrouhlení na záporné nekonečno (také známé jako zaokrouhlení dolů nebo podlaha).

Příklad zaokrouhlování na celá čísla

Režim / Příklad	+11,5	+12,5	−11.5	−12.5
k nejbližšímu (vazba na sudé)	+12,0	+12,0	−12,0	−12,0
k nejbližší (přichytit do nekonečna)	+12,0	+13,0	−12,0	−13,0
na 0	+11,0	+12,0	−11,0	−12,0
na + ∞	+12,0	+13,0	−11,0	−12,0
na - ∞	+11,0	+12,0	−12,0	−13,0

Nezbytné operace

Požadované operace pro podporovaný aritmetický formát (včetně základních formátů) zahrnují:

Aritmetické operace (sčítání, odčítání, násobení, dělení, odmocnina, sloučení násobků, zbytek)
Konverze (mezi formáty, řetězci atd.)
Měřítko a kvantování (pro desítkovou soustavu)
Kopírování a manipulace se znaky (negace atd.)
Srovnání a obecný řád
Klasifikace a testování (pro NaN atd.)
Testovat a instalovat příznaky
Jiné operace

Obecný predikát

Standard poskytuje predikát totalOrder, který definuje celkové pořadí pro všechna čísla s pohyblivou řádovou čárkou pro každý formát. Predikát je konzistentní s obvyklými srovnávacími operacemi. Normální srovnávací operace však považují NaN za neuspořádané a porovnávají -0 a +0 jako rovnocenné. Predikát totalOrder seřadí tyto případy a také rozliší mezi různými reprezentacemi NaN pro stejné číslo s pohyblivou řádovou čárkou zakódované různými způsoby.

Viz také

Číslo s poloviční přesností
Jedno přesné číslo
Číslo s dvojnásobnou přesností
Čtyřnásobné číslo
formát bfloat16(alternativní 16bitový formát, nízká přesnost, ale snadno se převede z čísel s jednou přesností)
intervalová aritmetika

Poznámky

↑ Cowlishaw, Mike desetinná aritmetická kódování . IBM. Získáno 6. srpna 2015. Archivováno z originálu 8. února 2016. (neurčitý)

Odkazy

754-2019 - Standard IEEE pro aritmetiku s plovoucí desetinnou čárkou. Revize IEEE Std 754-2008 // ieeexplore.ieee.org, ISBN: 2019 978-1-5044-5924-2, doi:10.1109/IEEEESTD.2019.8766229 (placené)
754-2008 - Standard IEEE pro aritmetiku s plovoucí desetinnou čárkou. Revize ANSI/IEEE Std 754-1985 // ieeexplore.ieee.org, 2008 ISBN 978-0-7381-5752-8 , doi:10.1109/IEEEESTD.2008.4610935 (placené)
Yashkardin V. L. IEEE 754 - standard pro binární aritmetiku s pohyblivou řádovou čárkou . SoftElectro (2009). (neurčitý)
Převodník IEEE 754
IEEE754 online převodník z binárního na desítkové

IEEE standardy

Proud

488
CAMAC
- 575
- 583
- 595
- 596
- 675
- 683
- 726
- 758
696
754
854
Multibus
- 796
- 1296
Programy
- 730
- 828
- 829
- 1012
- 1016
- 1058
- 1063
budoucí autobus
- 896
- 1156
- 1194
- 1301
960
1003
1014
1076
1101
1149,1
1155
1164
1196
1275
1278
1284
1355
1394
1451
1471
1497
1516
1541-2002
1547
1584
1588
1596
1603
1613
1666
1667
1675
1685
1722
1733
1788
1800
1801
1815
1850
1900,4
1901
1902
1904.1
1905
2030
2050
11073
12207
14764
16085
16326
29148
42010

Řada 802

802.1	D p Q Qat Qay w X ab inzerát AE ag Ah ak aq TAK JAKO sekera az BA
802,3	-1983 A b d E i j u X y z ab ac inzerát ae af Ah ak an aq v prům az ba bt podle
802,11	režim A b C d E F G h i j k n p r s u proti w y ac inzerát af Ah ai sekera ano být

.2
.čtyři
.5
.6
.7
.osm
.9
.deset
.12
.čtrnáct
.patnáct
- .jeden
- .čtyři
- .4a
- .6
- .7
.16
- Původní d e
.17
.osmnáct
.dvacet
.21
.22

P-série

P959

P1363

P1619

P1699

P1823

P1906.1

Vyměněno

754-1985
830
1219
1233
1362
1364
1471

Kategorie:normy IEEE