Problém německého tanku - German tank problem
tento článek může být pro většinu čtenářů příliš technická na to, aby je pochopili. Prosím pomozte to vylepšit na aby to bylo srozumitelné pro neodborníky, aniž by byly odstraněny technické podrobnosti. (Listopadu 2019) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) |
V statistická teorie z odhad, Problém německého tanku spočívá v odhadu maxima a diskrétní rovnoměrné rozdělení z vzorkování bez náhrady. Jednoduše řečeno, předpokládejme, že existuje neznámý počet položek, které jsou postupně očíslovány od 1 do N. Odebírá se náhodný vzorek těchto položek a sledují se jejich pořadová čísla; problém je odhadnout N z těchto pozorovaných čísel.
K problému lze přistupovat buď častý závěr nebo Bayesovský závěr, což vede k odlišným výsledkům. Odhad maxima populace na základě a singl vzorek poskytuje odlišné výsledky, zatímco odhad vychází z násobek samples je otázka praktického odhadu, jejíž odpověď je jednoduchá (zejména v častém prostředí), ale není zřejmá (zejména v Bayesovském prostředí).
Název problému je pojmenován po jeho historickém použití spojeneckými silami v druhá světová válka k odhadu měsíční rychlosti výroby německých tanků z velmi omezených údajů. To využilo výrobní praxi přidělování a připojování vzestupných sekvencí sériových čísel k součástem tanku (podvozek, převodovka, motor, kola), přičemž některé z tanků byly nakonec v boji zajaty spojeneckými silami.
Předpoklady
Předpokládá se, že protivník vyrobil řadu tanků označených po sobě jdoucími celými čísly, počínaje sériovým číslem 1. Navíc, bez ohledu na datum výroby tanku, historii provozu nebo sériové číslo, které nese, se distribuce po sériových číslech stává odhaleno k analýze je jednotné, a to až do okamžiku, kdy je analýza provedena.
Příklad
Za předpokladu, že tankům jsou přiřazena pořadová čísla začínající 1, předpokládejme, že jsou zajaty čtyři tanky a že mají pořadová čísla: 19, 40, 42 a 60.
The častý přístup předpovídá celkový počet vyrobených tanků bude:
The Bayesian přístup předpovídá, že medián počet vyrobených tanků bude velmi podobný časté predikci:
zatímco Bayesian znamenat předpovídá, že počet vyrobených tanků bude:
Nechat N rovná se celkovému počtu tanků, u nichž se předpokládá, že byly vyrobeny, m rovná se nejvyššímu sledovanému sériovému číslu a k stejný počet zajatých tanků.
Frekvenční předpověď se počítá jako:
Bayesiánský medián se počítá jako:
Bayesiánský průměr se počítá jako:
Oba Bayesovské výpočty jsou založeny na následujícím funkce pravděpodobnostní hmotnosti:
Tato distribuce má klady šikmost souvisí s tím, že je zde nejméně 60 tanků. Kvůli této šikmě nemusí být průměr tím nejdůležitějším odhadem. The medián v tomto příkladu je 74,5, v těsné shodě s frekventovaným vzorcem. Použitím Stirlingova aproximace lze Bayesovu pravděpodobnostní funkci přiblížit jako
což má za následek následující aproximaci pro medián:
Nakonec se průměrný odhad Bayesianů a jeho odchylka počítají jako:
Historický problém
V průběhu války Západní spojenci trvale usiloval o určení rozsahu německé produkce a přistupoval k tomu dvěma hlavními způsoby: konvenčním shromažďováním zpravodajských informací a statistickým odhadem. V mnoha případech se statistická analýza podstatně zlepšila u konvenčních inteligencí. V některých případech byla konvenční inteligence použita ve spojení se statistickými metodami, jako tomu bylo v případě odhadu Panther tank výroba těsně před Den D..
Spojenecká velitelská struktura si myslela, že Panzer V (Panther) tanky viděné v Itálii, s jejich vysokou rychlostí, dlouhými hlavněmi 75 mm / L70, byly neobvyklými těžkými tanky a byly by vidět pouze v severní Francii v malém počtu, podobně jako Tygr I. byl viděn v Tunisku. Americká armáda byla přesvědčena, že Shermanův tank bude i nadále fungovat dobře, jak tomu bylo ve srovnání s Panzer III a Panzer IV tanky v severní Africe a na Sicílii.[A] Krátce před dnem D pověsti naznačovaly, že se používá velké množství tanků Panzer V.
Aby zjistili, zda je to pravda, spojenci se pokusili odhadnout počet vyráběných tanků. K tomu použili sériová čísla na zajatých nebo zničených tancích. Hlavními použitými čísly byla čísla převodovky, protože klesala ve dvou nepřerušovaných sekvencích. Byly také použity čísla podvozku a motoru, i když jejich použití bylo komplikovanější. Ke křížové kontrole analýzy byly použity různé další komponenty. Podobné analýzy byly provedeny na kolech, u nichž bylo pozorováno postupné číslování (tj. 1, 2, 3, ...,N).[2][stránka potřebná ][b][3][4]
Analýza kol nádrže poskytla odhad počtu používaných forem kol. Diskuse s britskými výrobci silničních kol poté odhadla počet kol, která by mohla být vyrobena z těchto mnoha forem, což vedlo k počtu tanků, které se vyráběly každý měsíc. Analýza kol ze dvou nádrží (po 32 silničních kolech, celkem 64 silničních kol) přinesla odhad 270 tanků vyrobených v únoru 1944, což je podstatně více, než se dříve předpokládalo.[5]
Německé rekordy po válce ukázaly, že produkce za měsíc únor 1944 byla 276.[6][C] Statistický přístup se ukázal být mnohem přesnější než běžné zpravodajské metody a výraz „německý problém s tanky“ se stal akceptovatelným deskriptorem pro tento typ statistické analýzy.
Odhad produkce nebyl jediným použitím této analýzy sériového čísla. To bylo také používáno k pochopení německé výroby obecněji, včetně počtu továren, relativního významu továren, délky dodavatelského řetězce (na základě zpoždění mezi výrobou a použitím), změn ve výrobě a využití zdrojů, jako je guma.
Specifické údaje
Podle konvenčních odhadů spojeneckých zpravodajských služeb Němci mezi červnem 1940 a zářím 1942 vyráběli přibližně 1400 tanků měsíčně. Podle následujícího vzorce na pořadová čísla zajatých tanků bylo počítáno 246 měsíčně. Po válce zajali němečtí producenti z ministerstva Albert Speer ukázal skutečné číslo na 245.[3]
Odhady pro některé konkrétní měsíce jsou uvedeny jako:[7]
Měsíc | Statistický odhad | Odhad inteligence | Německé rekordy |
---|---|---|---|
Červen 1940 | 169 | 1,000 | 122 |
Červen 1941 | 244 | 1,550 | 271 |
Srpna 1942 | 327 | 1,550 | 342 |
Podobné analýzy
Podobná analýza sériového čísla byla použita pro další vojenské vybavení během druhé světové války, nejúspěšněji pro V-2 raketa.[8]
Značky továrny na sovětské vojenské vybavení byly analyzovány během Korejská válka a německými zpravodajskými službami během druhé světové války.[9]
V 80. letech dostali někteří Američané přístup k izraelské výrobní lince Merkava tanky. Výrobní čísla byla klasifikována, ale tanky měly sériová čísla, což umožňovalo odhad výroby.[10]
Vzorec byl použit v nevojenských kontextech, například k odhadu počtu Commodore 64 postavené počítače, kde se výsledek (12,5 milionu) shoduje s nízkými odhady.[11]
Protiopatření
Chcete-li zmást analýzu sériových čísel, lze vyloučit sériová čísla nebo snížit použitelné pomocné informace. Alternativně lze použít sériová čísla, která odolávají kryptoanalýze, nejúčinněji náhodným výběrem čísel bez nahrazení ze seznamu, který je mnohem větší než počet vyrobených objektů (porovnejte jednorázová podložka ), nebo vytvořit náhodná čísla a porovnat je se seznamem již přiřazených čísel; ke kolizím pravděpodobně dojde, pokud počet možných číslic nebude větší než dvojnásobek počtu číslic v počtu vyprodukovaných objektů (kde sériové číslo může být v libovolné základně); vidět narozeninový problém.[d] Za tímto účelem kryptograficky bezpečný generátor pseudonáhodných čísel může být použit. Všechny tyto metody vyžadují vyhledávací tabulku (nebo rozbití cypheru) pro vycouvání ze sériového čísla do výrobní zakázky, což komplikuje použití sériových čísel: například nelze vyvolat řadu sériových čísel, ale každé je třeba vyhledat jednotlivě, nebo vygenerovaný seznam.
Sekvenční sériová čísla lze případně zašifrovat jednoduše substituční šifra, který umožňuje snadné dekódování, ale také jej snadno rozbije a útok se známým prostým textem: i když začíná od libovolného bodu, holý text má vzor (jmenovitě čísla jsou v pořadí). Jeden příklad je uveden v Ken Follett román Kód na nulu, kde šifrování Jupiter-C sériová čísla raket jsou dána vztahem:
H | U | N | T | S | PROTI | Já | L | E | X |
---|---|---|---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 0 |
Zde je kódové slovo Huntsville (s vynecháním opakovaných písmen) získáte klíč o 10 písmenech. Raketa číslo 13 byla tedy „HN“ a raketa číslo 24 byla „UT“.
Silného šifrování sériových čísel bez jejich rozšiřování lze dosáhnout pomocí šifrování zachovávající formát. Místo uložení skutečně náhodné permutace na množině všech možných sériových čísel ve velké tabulce takové algoritmy odvodí pseudonáhodnou permutaci z tajného klíče. Zabezpečení lze poté definovat jako pseudonáhodnou permutaci, která je nerozeznatelná od skutečně náhodné permutace k útočníkovi, který nezná klíč.
Častá analýza
Nestranný odhad minimální odchylky
Pro bodový odhad (odhad jediné hodnoty pro celek, ), objektivní odhad minimální odchylky (MVUE nebo odhad UMVU) je dán vztahem:[E]
kde m je největší sledované sériové číslo (maximální vzorek ) a k je počet pozorovaných nádrží (velikost vzorku ).[10][12] Všimněte si, že jakmile bylo sériové číslo pozorováno, již není ve fondu a nebude znovu sledováno.
To má rozptyl[10]
takže standardní odchylka je přibližně N/k, očekávaná velikost mezery mezi tříděnými pozorováními ve vzorku.
Vzorec lze chápat intuitivně jako maximum vzorku plus průměrnou mezeru mezi pozorováními ve vzorku, přičemž maximum vzorku je vybráno jako počáteční odhad, protože je odhad maximální pravděpodobnosti,[F] s přidanou mezerou k vyrovnání záporného vychýlení maxima vzorku jako odhadce maxima populace,[G] a napsáno jako
To lze vizualizovat představou, že pozorování ve vzorku jsou rovnoměrně rozmístěna v celém rozsahu, přičemž další pozorování jsou mimo rozsah v 0 a N + 1. Pokud začínáme počáteční mezerou mezi 0 a nejnižším pozorováním ve vzorku (minimum vzorku), je průměrná mezera mezi po sobě následujícími pozorováními ve vzorku ; the protože pozorování samotná se nepočítají do výpočtu mezery mezi pozorováními.[h]. Odvození očekávané hodnoty a rozptyl maxima vzorku jsou uvedeny na stránce diskrétní rovnoměrné rozdělení.
Tato filozofie je formalizována a zobecněna v metodě odhad maximální vzdálenosti; podobná heuristika se používá pro poloha vykreslování v Graf Q – Q, vykreslování vzorových bodů v k / (n + 1), který je rovnoměrně na rovnoměrném rozdělení, s mezerou na konci.
Intervaly spolehlivosti
Místo nebo navíc k směřovat odhad, interval odhad lze provádět, jako např intervaly spolehlivosti.Ty jsou snadno vypočítatelné na základě pozorování, že pravděpodobnost, že k pozorování ve vzorku budou spadat do intervalu pokrývajícího str rozsahu (0 ≤str ≤ 1) je strk (za předpokladu, že v této části jsou kresby s výměna, pro zjednodušení výpočtů; pokud jsou losování bez náhrady, přeceňuje to pravděpodobnost a intervaly budou příliš konzervativní).
Tak Distribuce vzorků kvantilu maxima vzorku je graf X1/k od 0 do 1: str- až q-tý kvantil maxima vzorku m jsou interval [str1/kN, q1/kN]. Invertováním tohoto získáme odpovídající interval spolehlivosti pro populační maximum [m/q1/k, m/str1/k].
Například převzetí symetrického 95% intervalu str = 2,5% a q = 97,5% pro k = 5 poskytuje 0,0251/5 ≈ 0.48, 0.9751/5 ≈ 0,995, takže interval spolehlivosti je přibližně [1,005m, 2.08m]. Dolní mez je velmi blízko m, tedy informativní je asymetrický interval spolehlivosti od str = 5% až 100%; pro k = 5 to dává 0,051/5 ≈ 0,55 a interval [m, 1.82m].
Obecněji je (směrem dolů zkreslený) 95% interval spolehlivosti [m, m/0.051/k] = [m, m·201 / k]. Pro řadu k hodnot, s odhadem bodu UMVU (plus 1 pro čitelnost) pro referenci, to přináší:
k | Bodový odhad | Interval spolehlivosti |
---|---|---|
1 | 2m | [m, 20m] |
2 | 1.5m | [m, 4.5m] |
5 | 1.2m | [m, 1.82m] |
10 | 1.1m | [m, 1.35m] |
20 | 1.05m | [m, 1.16m] |
Okamžitá pozorování jsou:
- U malých velikostí vzorků je interval spolehlivosti velmi široký, což odráží velkou nejistotu odhadu.
- Rozsah se rychle zmenšuje, což odráží exponenciálně klesající pravděpodobnost, že Všechno pozorování ve vzorku budou výrazně pod maximem.
- Interval spolehlivosti vykazuje pozitivní odchylku, as N nikdy nemůže být pod maximem vzorku, ale může být potenciálně libovolně vysoko nad ním.
Všimněte si, že m/k nelze použít naivně (nebo spíše (m + m/k − 1)/k) jako odhad standardní chyba SE, protože standardní chyba odhadce je založena na populace maximum (parametr) a použití odhadu k odhadu chyby právě v tomto odhadu je kruhové uvažování.
Bayesovská analýza
Bayesianským přístupem k problému německých tanků je zvážit důvěryhodnost že počet nepřátelských tanků se rovná číslu , když počet pozorovaných nádrží, se rovná číslu a maximální sledované sériové číslo se rovná číslu . Odpověď na tento problém závisí na výběru předchozího pro . Lze postupovat pomocí vhodného předchozího, např. Poissonova nebo negativního binomického rozdělení, kde lze získat uzavřený vzorec pro zadní průměr a zadní rozptyl.[13] Alternativou je postupovat pomocí přímých výpočtů, jak je uvedeno níže.
Pro stručnost, v následujícím, je psáno
Podmíněná pravděpodobnost
Pravidlo pro podmíněná pravděpodobnost dává
Pravděpodobnost M vědět N a K.
Výraz
je podmíněná pravděpodobnost, že bylo pozorováno maximální sériové číslo, M, je rovný m, když počet nepřátelských tanků, N, je známo, že se rovná na počet pozorovaných nepřátelských tanků, K., je známo, že se rovná k.
to je
kde je binomický koeficient a je Iverson držák.
Výraz lze odvodit následovně: odpovídá na otázku: „Jaká je pravděpodobnost konkrétního sériového čísla je nejvyšší počet pozorovaný ve vzorku tanky, pokud tam jsou nádrže celkem? “
Jeden může myslet na vzorek velikosti být výsledkem jednotlivé losování. Převzít je pozorováno na čísle losování . Pravděpodobnost, že k tomu dojde, je:
Jak je patrné z pravé strany, je tento výraz nezávislý na a proto pro každého stejný . Tak jako lze čerpat různé remízy, pravděpodobnost jakéhokoli konkrétního největší pozorovaný je krát výše uvedená pravděpodobnost:
Pravděpodobnost M jen vědět K.
Výraz je pravděpodobnost, že se maximální sériové číslo rovná m jednou k tanky byly pozorovány, ale dříve, než byla skutečně dodržena sériová čísla.
Výraz lze přepsat, pokud jde o ostatní veličiny, marginalizováním všech možných možností .
Důvěryhodnost N jen vědět K.
Výraz
je důvěryhodnost, že celkový počet tanků, N, je rovný n když číslo K. pozorované tanky je známo k, ale dříve, než byla sledována sériová čísla. Předpokládejme, že to je něco diskrétní rovnoměrné rozdělení
Horní hranice musí být konečné, protože funkce
není funkce hromadné distribuce.
Důvěryhodnost N vědět M a K.
Li k ≥ 2, pak a nevítaná proměnná zmizí z výrazu.
Pro k ≥ 1 režimu rozdělení počtu nepřátelských tanků je m.
Pro k ≥ 2, důvěryhodnost počtu nepřátelských tanků rovná , je
Důvěryhodnost, že počet nepřátelských tanků, N, je větší než n, je
Střední hodnota a směrodatná odchylka
Pro k ≥ 3, N má konečnou střední hodnota:
Pro k ≥ 4, N má konečnou standardní odchylka:
Tyto vzorce jsou odvozeny níže.
Součtový vzorec
Následující identita binomického koeficientu níže se používá pro zjednodušení série týkající se německého tankového problému.
Tento součtový vzorec je poněkud analogický s integrálním vzorcem
Tyto vzorce platí k > 1.
Jedna nádrž
Pozorování jedné nádrže náhodně z populace n nádrže uvádí sériové číslo m s pravděpodobností 1 /n pro m ≤ na nulová pravděpodobnost pro m > n. Použitím Iverson držák zápis je napsán
Toto je funkce podmíněné pravděpodobnosti hromadného rozložení .
Když se považuje za funkci n pro pevné m toto je funkce pravděpodobnosti.
The maximální pravděpodobnost odhad celkového počtu tanků je N0 = m.
Mezní pravděpodobnost (tj. Marginalizovaná u všech modelů) je nekonečný, být ocasem harmonická řada.
ale
kde je harmonické číslo.
Funkce hromadného rozdělení důvěryhodnosti závisí na předchozím limitu :
Střední hodnota je
Dva tanky
Pokud jsou pozorovány dva tanky místo jednoho, pak je pravděpodobnost, že větší ze sledovaných dvou sériových čísel je rovna m, je
Když se považuje za funkci n pro pevné m toto je funkce pravděpodobnosti
Celková pravděpodobnost je
a funkce hromadné distribuce důvěryhodnosti je
The medián splňuje
tak
a tak je medián
ale střední hodnota N je nekonečný
Mnoho tanků
Funkce důvěryhodnosti masové distribuce
Podmíněná pravděpodobnost, že největší z k pozorování získaná ze sériových čísel {1, ...,n}, je rovný m, je
Funkce pravděpodobnosti n je stejný výraz
Celková pravděpodobnost je konečná k ≥ 2:
Funkce hromadné distribuce důvěryhodnosti je
The doplňková kumulativní distribuční funkce je důvěryhodnost N > X
The kumulativní distribuční funkce je důvěryhodnost N ≤ X
Řádově
Pořadí počtu nepřátelských tanků je
Statistická nejistota
Statistická nejistota je směrodatná odchylka σ, splňující rovnici
Tak
a
The poměr rozptylu k střední hodnotě je prostě
Viz také
- Označte a znovu uchopte, jiná metoda odhadu velikosti populace
- Odhad maximální vzdálenosti, který zobecňuje intuici „předpokládejme rovnoměrně rozložené“
- Koperníkovský princip a Lindyho efekt, analogické předpovědi života za předpokladu pouze jednoho pozorování ve vzorku (aktuální věk).
- The Argument soudného dne, aplikace pro odhad očekávané doby přežití lidské rasy.
- Zobecněné extrémní rozdělení hodnot, možná limitní distribuce maxima vzorku (opačná otázka).
- Maximální pravděpodobnost
- Předpětí odhadu
- Funkce pravděpodobnosti
Další čtení
- Goodman, L. A. (1954). "Některé praktické techniky v analýze sériových čísel". Journal of the American Statistical Association. Americká statistická asociace. 49 (265): 97–112. doi:10.2307/2281038. JSTOR 2281038.
Poznámky
- ^ Politické prohlášení obrněných pozemních sil z listopadu 1943 dospělo k závěru: „Doporučení omezeného podílu tanků nesoucích 90 mm kanón není shodné z následujících důvodů: Tank M4 byl oslavován jako nejlepší tank na bojišti současnosti. ... Zdá se, že se naše síly německého tanku Mark VI (Tiger) nebojí. Pro tank T26 nemůže existovat žádný jiný základ než koncepce souboje tank-versus-tank, což je věřil být nezdravý a zbytečný. “[1]
- ^ Dolní mez byla neznámá, ale pro zjednodušení diskuse je tento detail obecně vynechán, přičemž dolní mez je známa jako 1.
- ^ Ruggles & Brodie je převážně praktická analýza a shrnutí, nikoli matematický problém - problém s odhadem je zmíněn pouze v poznámce pod čarou 3 na straně 82, kde odhadují maximum jako „maximální vzorek + průměrná mezera“.
- ^ Jak je uvedeno v narozeninový útok, lze očekávat kolizi po 1.25√H čísla, pokud si vyberete z H možné výstupy. Tato druhá odmocnina odpovídá polovině číslic. Například v jakékoli základně je druhá odmocnina čísla se 100 číslicemi přibližně číslo s 50 číslicemi.
- ^ V spojité distribuci neexistuje −1 člen.
- ^ Vzhledem k určité sadě pozorování je pravděpodobné, že k této sadě dojde, pokud je populačním maximem maximum vzorku, nikoli vyšší hodnota (nemůže být nižší).
- ^ Ukázkové maximum nikdy není větší než maximální počet obyvatel, ale může být menší, proto je a zkreslený odhad: bude mít tendenci podcenění populační maximum.
- ^ Například mezera mezi 2 a 7 je (7 - 2) - 1 = 4, skládající se z 3, 4, 5 a 6.
Reference
- ^ Zásady AGF. Náčelník štábu AGF. Listopad 1943. MHI
- ^ Ruggles & Brodie 1947, str. ?
- ^ A b „Gavyn Davies dělá matematiku - Jak válku vyhrál statistický vzorec“. Opatrovník. 20. července 2006. Citováno 6. července 2014.
- ^ Matthews, Robert (23. května 1998), „Datoví detektivové jdou do války, funkce postranního panelu“ Skryté pravdy"", Nový vědec, archivovány z originál dne 18. dubna 2001
- ^ Bob Carruthers (1. března 2012). Panther V v boji. Coda Books. str. 94–. ISBN 978-1-908538-15-4.
- ^ Ruggles & Brodie 1947, s. 82–83.
- ^ Ruggles & Brodie 1947, str. 89.
- ^ Ruggles & Brodie 1947, str. 90–91.
- ^ Volz 2008.
- ^ A b C Johnson 1994.
- ^ „Kolik počítačů Commodore 64 bylo skutečně prodáno?“. pagetable.com. 1. února 2011. Archivovány od originál dne 6. března 2016. Citováno 6. července 2014.
- ^ Joyce, chytrá. „Problém s německými tanky“. Logan High School. Archivovány od originál dne 24. dubna 2012. Citováno 8. července 2014.
- ^ Höhle, M .; Held, L. (2006). „Bayesiánský odhad velikosti populace“ (PDF). Technická zpráva SFB 386, No. 399, Department of Statistics, University of Munich. Citováno 17. dubna 2016.
Citované práce
- Johnson, R. W. (léto 1994). „Odhad velikosti populace“ (PDF). Statistika výuky. 16 (2): 50–52. doi:10.1111 / j.1467-9639.1994.tb00688.x. Archivovány od originál (PDF) dne 23. února 2014.
- Ruggles, R.; Brodie, H. (1947). „Empirický přístup k ekonomickým zpravodajským informacím za druhé světové války“. Journal of the American Statistical Association. 42 (237): 72. doi:10.1080/01621459.1947.10501915. JSTOR 2280189.
- Volz, A. G. (červenec 2008). "Sovětský odhad německé výroby tanků". The Journal of Slavic Military Studies. 21 (3): 588–590. doi:10.1080/13518040802313902. S2CID 144483708.