Jak lhát se statistikami
Jak lhát se statistikami |
Autor |
Darell Huff |
Původní jazyk |
Angličtina |
Originál publikován |
1954 |
Výzdoba |
Irving Geis |
Vydavatel |
W. W. Norton & Company Inc. |
Stránky |
142 |
ISBN |
0-393-31072-8 |
How to Lie with Statistics je kniha od Darella Huffa .v roce 1954. Hovoří o různých způsobech, jakými lze statistiky zneužít k klamání publika a manipulaci s jejich názory. Uvažuje se o mnoha konkrétních příkladech, především z amerického života (reklama, politika, propaganda a agitace).
První epigraf ke knize je citát hraběte Beaconsfielda (B. Disraeli) o statistice: "Existují tři druhy lží: lži, do očí bijící lži a statistiky."
Kniha je určena pro laického čtenáře a je opatřena názornými ilustracemi. Materiál je podán názorně a přístupnou formou, což knize zajistilo vysokou popularitu – jde o jednu z nejrozšířenějších publikací o statistice druhé poloviny 20. století [1] .
Obsah
Vzorek je ze své podstaty zaujatý
Vysvětlení toho, co je to sampling , jak tazatelé nevědomě vybírají zpovídané a ovlivňují jejich odpovědi.
Dobře zvolený průměr
Uvažují se tyto typy průměru:
Příklady ukazují, jak volba typu střední hodnoty ovlivňuje její hodnotu pro stejné vzorky. Upozorňuje se na možnost manipulace s nepřipraveným čtenářem volbou „pohodlného“ (pro manipulátora) typu průměru.
Nuance, které jsou skromně tiché
V této kapitole se autor zamýšlí nad důležitými nuancemi statistického výzkumu, které jsou v článcích určených široké veřejnosti často záměrně či nevědomě opomíjeny.
Je vysvětlena důležitost velikosti vzorku a její vztah k typu populace. Jsou uvedeny příklady manipulace s velikostí vzorku:
- Testování účinnosti zubní pasty. Probíhají laboratorní testy účinku používání zubní pasty na šesti subjektech. Někdy se provádí řada takových studií a studie, která prokázala výhodný výsledek pro zákazníka (výrobce pasty), se používá v reklamních kampaních.
- Test vakcíny proti obrně. Očkováno bylo 450 dětí, 680 neočkovaných (kontrolní skupina). Krátce nato v oblasti vypukla epidemie, očkované děti neměly ani jeden případ dětské obrny. Ani jeden z členů kontrolní skupiny. Experiment byl od samého začátku zbytečný kvůli špatné volbě počtu účastníků, protože u takto velké skupiny nelze očekávat více než dva případy infekce.
Představují se pojmy:
Na příkladu Hesselovy vývojové škályhovoří o nebezpečí vnímání bodového (mimo intervalového) hodnocení průměrné hodnoty – rodiče začnou panikařit, pokud jejich dítě normu (průměrnou hodnotu) nesplňuje.
Je třeba upozornit na důležitost formulací v článcích založených na statistikách. Jako příklad uveďme prohlášení společností dodávajících elektřinu (1948): "Elektrická energie je dostupná pro více než 3/4 farem ve Spojených státech." Slovo „dostupný“, které není v aplikaci nijak definováno, ztrácí význam – obvykle znamená, že elektrické vedení se nachází ve vzdálenosti 16–160 km od farmy, ale něco jinak lze chápat jako dostupnost. Autor také poznamenává, že při interpretaci stejných dat by bylo možné klást opačný důraz a napsat: "Elektrická energie není dostupná čtvrtině amerických farem."
Kapitola končí připomenutím důležitosti mít čísla v grafech – graf růstu zisků společnosti za několik let (uveřejněný v časopise Fortune) čtenáři nic neřekne, protože na ose y chybí číselná označení. Z takového grafu nelze poznat, zda byl růst zisků výrazný, průměrný nebo blízký nule.
Mnoho povyku pro nic
Koncepty intervalu spolehlivosti a úrovně spolehlivosti jsou ilustrovány na příkladech ze skutečného života:
- Rozdíl ve skóre IQ testu mezi 98 a 101 znemožňuje určit, který subjekt má vyšší IQ, jak je vidět z úplného záznamu výsledků testu: 98 ± 3 a 101 ± 3, v tomto pořadí.
- Měření obsahu škodlivých látek v různých značkách cigaret odhalilo absenci jakéhokoli významného rozdílu mezi nimi. Přesto byla jedna ze značek v obsahu škodlivých látek na posledním místě (byť se zanedbatelnou rezervou z prvního místa!). Výrobce těchto cigaret (Old Gold) spustil reklamní kampaň, ve které tvrdil, že cigarety Old Gold obsahují podle nezávislé laboratoře nejméně škodlivých látek.
Rozvrh je tak dobrý, jak jen může
První z kapitol je věnována úvahám o způsobech manipulace s pomocí grafických informací.
Zvažuje způsoby, jak zkreslit vnímání grafů:
- „Stlačení“ části souřadnicové sítě, zdánlivě za účelem úspory místa. Ve skutečnosti to vede k potížím s vnímáním měřítka
-
Plná verze grafu
-
"Zmáčknutí" části mřížky
- Změna měřítka podél vodorovné a svislé osy. Tato metoda vám umožňuje „otočit“ (vizuálně) růst, blízký nule, ve vysloveně udržitelný. Jako příklad je uveden graf růstu vládních dotací uvedený v jednom z oznámení. Nárůst byl pouze 4 %, ale vizuálně vypadal téměř jako 400 % kvůli nárůstu měřítka podél osy y.
Schematický obrázek
Pochopení způsobů, jak oklamat publikum pomocí infografiky .
Použití grafických objektů spojených s prezentovanými informacemi otevírá široké možnosti zneužití. Toto tvrzení je ilustrováno řadou příkladů:
- Chcete-li porovnat dva platy, můžete použít infografiku a vylosovat dva pytle peněz. Pokud je druhá mzda dvakrát vyšší než první, pak bude druhý pytel nejen vyšší, ale také dvakrát širší (což je nutné pro zachování proporce). A protože je taška trojrozměrný objekt, bude obrys druhé tašky dvakrát silnější než první. Výsledkem je, že naše vidění vnímá druhou tašku jako tašku 8krát (ne 2!) větší než ta první. Tuto techniku použil časopis Newsweek.
- Reklama pro Americký institut oceli a slitin pomocí infografiky ukazovala nárůst výroby oceli v letech 1930 až 1940 o 4,25 milionu tun (z 10 milionů na 14,25 milionu). Infografická technika (k dříve diskutovaným metodám bylo přidáno záměrné zkreslení proporcí) vedla k tomu, že naznačené zvýšení natavení bylo vizuálně vnímáno jako 1500 %. Autor poznamenává, že to je případ, kdy se „aritmetika změní ve fantazii“.
- Použití obrázků krav různých velikostí k zobrazení různých výtěžků mléka v průběhu let. Kromě již diskutovaných efektů vede tato metoda k dalšímu nedorozumění – čtenář si může myslet, že se nejen zvýšila dojivost, ale také krávy.
Obrázek níže ukazuje příklad zneužití infografiky - druhý objekt je vizuálně 8x větší:
Pseudodůvodněná figura
Kapitola začíná sžíravým doporučením: „Pokud nemůžete dokázat, co chcete, ukažte něco jiného a předstírejte, že tyto věci jsou stejné.
Existuje mnoho příkladů takových podvodů. Zejména:
- Vydání průzkumu názorů lidí na rovnost příležitostí bělochů a Afroameričanů získat práci pro reálnou situaci na trhu práce. Tento průzkum může ukázat lepší výsledky, čím více lidí s rasovými předsudky vůči Afroameričanům se ho účastní, protože takoví respondenti mají tendenci věřit, že na trhu práce neexistuje rasová diskriminace.
- Reklamy na cigarety používaly následující argument: "Více než 27 % velkého vzorku známých lékařů kouří hrdla, což je nejvyšší míra ze všech značek cigaret." Reklama implicitně naznačovala, že lékaři věděli něco zvláštního, pro zbytek neznámého, o škodách způsobených různými značkami cigaret. Ale není.
- Reklama na odšťavňovač tvrdila, že laboratorní testy ukázaly, že vymačká o 26 % více šťávy. Když byla položena otázka - "než co?", odpověď byla přijata - "než ruční kuželový odšťavňovač." I když je původní tvrzení pravdivé, neumožňuje porovnávat inzerovaný produkt s produkty konkurence. Je možná nejhorší na trhu, ale stále překonává manuální odšťavňovač o 26 % v účinnosti extrakce.
- Úmrtnost v námořnictvu během španělsko-americké války byla 0,09%. U civilistů v New Yorku ve stejném období to bylo 0,16 %. Námořnictvo použilo tato čísla ke kampani na vojenskou službu. Porovnávat tyto ukazatele je ale nesprávné – do flotily se rekrutují mladí a zdraví lidé a mezi civilní obyvatelstvo se rekrutují miminka, staří lidé, nemocní.
Znovu, „po je kvůli“
Tato kapitola hovoří o konceptu korelace a zmatku, který často vzniká mezi příčinou a následkem. Pokud se jevy A a B vyskytují společně, lze to vysvětlit třemi způsoby:
- Fenomén A je důsledkem jevu B
- Fenomén B je důsledkem jevu A
- Jevy A a B jsou důsledky jiného/jiného jevu(ů)
Je uvedena řada příkladů chybných úsudků o kauzálních vztazích. Zejména:
- Studie ukázaly, že mezi studenty, kteří kouří, je více špatných výsledků než mezi nekuřáky. Tato skutečnost byla využita v protitabákové kampani. Z tohoto výsledku však nelze usuzovat, že by kouření mělo negativní vliv na schopnosti žáků. Je možné, že studenti začali kouřit kvůli špatným studijním výsledkům, nebo se špatně učí a kouří z nějakého třetího důvodu (například obtížné životní podmínky).
- Výzkum ukazuje pozitivní korelaci mezi dosaženým vzděláním a příjmem. Z této skutečnosti nelze usuzovat, že pokud Vy (Váš syn, dcera atd.) získáte vyšší vzdělání, pak budou mít jistě a nutně vyšší příjem, než kdyby jej nedostávali. Tato korelace nám navíc neumožňuje dospět jako obecné pravidlo, že k vyšším příjmům vede právě vyšší vzdělání – možná ti, kteří jej získali, pocházejí z bohatých rodin, a proto mají v dospělosti vyšší příjem. Zde je příklad post hoc chybyViz také Logické chyby .
- Studie 1500 typických absolventů vysokých škol středního věku ukázala, že 93 % mužů bylo ženatých (oproti 83 % v běžné populaci), zatímco pouze 65 % žen bylo vdaných. Z toho se usuzuje, že vzdělaná žena se méně pravděpodobně vdá než nevzdělaná. Studie ale neukazuje kauzální vztah mezi těmito jevy. Možná by tyto neprovdané ženy zůstaly neprovdané, i kdyby nevystudovaly univerzitu.
Kapitola končí téměř anekdotickým (ale skutečným) příkladem záměny příčiny a následku domorodci z Nových Hebrid. Věřili, že přítomnost vší vede ke zdraví. Tento závěr byl učiněn na základě toho, že vši opustily nemocného (protože v důsledku zvýšené tělesné teploty se pro něj staly nepříjemné životní podmínky), zatímco všichni zdraví lidé je měli (jinými slovy, existovala pozitivní korelace mezi zdraví a přítomnost vší).
Jak vytvářet statistiky
Statistiky jsou statistické manipulace. V této kapitole autor opět na konkrétních příkladech ukazuje, jak manipulovat se statistickými daty. Vyzývá však, abychom statistická data nevybíravě neodmítali, ale než je vzali na vědomí, promyšleně, důkladně, s opatrnou nedůvěřivostí je prostudovali.
Jak zavést statistiky
Autor navrhuje zkontrolovat statistická data pomocí pěti jednoduchých otázek:
- Kdo je tam?
- Jak to ví?
- Co chybí?
- Změnil se předmět studia?
- Dává to smysl?
Vydání v jiných jazycích
V ruštině
- Darell Huff. Jak lhát se statistikami = How to Lie with Statistics. — M .: Alpina Publisher , 2015. — 163 s. — ISBN 978-5-9614-5212-9 .
Poznámky
- ↑ "Za posledních padesát let se knihy Jak lhát se statistikou prodalo více výtisků než jakéhokoli jiného statistického textu." JM Steele. " Darrell Huff a Fifty Years of How to Lie with Statistics archivováno 23. února 2021 na Wayback Machine . Statistical Science , 20(3), 2005, 205-209.
Odkazy