討論日本二戰戰損,簡述人口統計誤差和誤差處理方法。有圖、有鏈接

本帖於 2019-01-15 21:18:02 時間, 由普通用戶 kankantw 編輯

日本二戰戰損估算結果

如有引用或轉載,請注明出處

問老天 有一篇根據人口統計數據討論日本二戰中戰損的貼文,bbs.wenxuecity.com/memory給出總戰損670萬人。在此我發表一下看法,我的著力點在人口統計數據誤差分析和處理。我並非人口統計學的專家,是物理學博士出身,對人口統計的興趣來自本站對“餓死三千萬”的熱切討論/爭論,我後來收集了不少人口普查資料,查看了一些相關的人口統計數據分析的學術文章,漲了不少知識,因此我想在這裏與大家分享一下,至於統計學和數據誤差分析是我多年作物理研究的基本知識,也給大家科普一下。

說起誤差,人口總數±1%的統計誤差堪稱是精確的統計了,算是非常小的誤差,中國現代的人口普查數據誤差就大於1%,例如2000年的第五次人口普查,事後的質量抽查顯示有1.81%的漏登率,參看 中國第五次全國人口普查主要數據 第一號公報,我不相信日本當年的人口統計能做到小於1%的誤差,援引張慶五1984年5月《人口與經濟》上一篇研究報告,日本在1980年的人口普查的錯誤率為0.9%,若是考慮到1930-1945年還是是戰亂時期,有1.5-2%的統計誤差也不奇怪,並且日本還有朝鮮和台灣殖民地以及中國東北的滿洲國半殖民地,人口內部流動和外部遷移都大,並且還牽涉到殖民地人口身份標準定義和變遷問題,人口統計誤差超過2%也不算離譜。

我假設日本當年的人口總數統計誤差±1%,簡單的估算方法給出的1935-1945年日本的戰損總數是 6.7±4 百萬人,按數據處理的原則嚴格來講,應該隻保留誤差的一位有效數字:即寫為7±4 百萬人;如果取1.5%作為總人口的統計誤差,類似的總戰損結果變為 7±6 百萬人。可見問老天樓主提出的戰損估算方法得不到準確的結果。若是直接使用死亡人口統計數據,我估計應該能得到比較精確的戰損數據。

還可以采用統計學裏的 標準偏差理論 來分析其誤差範圍,假設年度人口總數統計的標準偏差為1%,給出的結果解釋是 1935-1945年 日本戰損人口:有68.3%的概率落在7±5百萬 的範圍裏,有95.5%的概率落在0.7±3千萬人的範圍裏,很明顯估算結果沒有什麽意義。若想得到可靠的結果,人口總數的統計誤差必須在0.1%以下(這恐怕難以做到),又或是直接換用年度死亡人口的統計數據來計算。

 

估算結果和統計誤差分析方法簡介

一,人口普查數據的誤差來源分析

人口統計通常至少會有3個統計數據,人口總數、出生人口和死亡人口統計,除此之外,人口普查還會調查性別、教育程度、民族、職業等。由於數據量大,牽涉的工作人員多,不可避免會有錯漏出現,比如:原始數據采集時有漏登、重登、錯登,數據匯總時可能有錄入錯誤、計算錯誤等,這些差錯在全靠人工操作時尤其明顯。頻繁的人口遷移會增加人口統計的困難程度,例如,中國自90年代以來有上億(最新的統計顯示接近3億)的農民工長期外漂在城市中,短於6個月的漂流農民工還不計在內,有研究顯示這個現象明顯增加了人口的錯登率;中國的“一胎”政策也造成了兒童尤其是0-7歲的女童數量的明顯漏記,這對人口統計來說是一係統誤差原則上應該做出修正,但漏記的比率和程度顯然又帶有隨機性,這個情形也會增加人口統計的誤差,可以從中國曆次人口普查的年齡分布圖看出來,參見王廣州 第五次人口普查數據重報的問題分析,《中國人口科學》2003年第一期,以及崔紅豔等人 對2010年人口普查數據準確性的估計,《人口研究》(京) 2013年 第1期。與這些研究報告一樣,我這裏也忽略了移民人口對統計誤差的影響,我看到過報道說中國曆年累計的移民國外的人口是4百萬,估計淨移民數在2-3百萬之間,考慮到其數量小、且年齡分布的分散特性,判斷在誤差估算中可以忽略。

我用小學新生入學統計數據另作了一個人口普查數據的誤差估計,據中國教育事業發展統計公報,中國自1990年代適齡兒童入學率接近或超過99.9%,假設小孩一律7歲上小學,根據1990-2017年全國教育事業發展統計公報,可以反推出的1983-2010年全國新生兒童數據。這應該是一份比較精確可靠的人口統計數據,缺憾是隻有一個單一年份並且還滯後7-8年才有數據,我將其與第4-6次人口普查數據作了一個比較:

若以小學新生的數據為標準比較曆次的人口普查數據,可以發現中國近代的人口普查(特別是第5和第6次的人口普查)漏記和誤計比例相當大,誤差肯定超過百分之一。按照這個數據分析,第5和第6次人口普查的0-9兒童數量每年平均少記了2.8和2.4百萬人並由明顯波動由隨機數特征,而15歲以上人口的兩者之差值有正有負存在明顯的上下起伏是典型的隨機數特征,表明中國現在社會的“農民工大流動”對人口普查的質量造成了嚴重的不利影響,這個結果與我上麵提到的一些學術研究論文的結論是一致的。參看這個比較圖,橫坐標是出生年份,縱坐標是人口普查數據與小學新生數據的差值:

戰亂明顯也會增加人口統計的錯誤率,不光是人口遷移問題、還有政府機構的管理和執行效率也會受到影響。人口統計的誤差大小取決於這些因素的綜合效果,從代數邏輯上看:誤差非常符合隨機數的特性。

人口統計質量和誤差範圍的判定,不能從理論模型給出,唯一的辦法就是再作一次或多次的統計操作,但要花費很多金錢和時間。實踐中通常是采用抽查方法,例如1%樣本的隨機抽查,兩相比較即可得出比較準確的誤差範圍。誤差是統計本身不可避免的一部分,任何統計數據的處理必須要包含誤差的分析處理。

 

二,人口統計數據的誤差處理方法

人口普查統計數據通常都包括了年度人口總數,死亡人口總數和新生人口總數,這是3個獨立的數據統計,其中包含了隨機的誤差 可以看成是相互之間獨立、不相關的變數。問老天提出的日本二戰的戰損問題,並不能在人口普查中直接給出結果,隻能間接計算,因此必須考慮誤差的傳遞。我分兩種情形,列出加減法的誤差傳遞公式,一是簡單估算方法,二是統計學上更為嚴格的標準偏差分析方法。對誤差處理有興趣的人可以參看:1,台灣 交通大學 吳明頤的《誤差分析簡介》-- ee.nctu.edu.tw(共19頁);2,南京信息工程大學 網站上提供的 標準偏差理論簡介--web.nuist.edu.cn (共35頁)。

1,簡單估算方法

設 A±εa, B±εb, C±εc 分別為原始觀測數據,其中分別包含了一個隨機分布的εa, εbεc (都大於0)的 絕對誤差。R是某個間接觀測量:R=mA+B-C,那麽這個間接的衍生結果R±εr中的誤差εr由下麵的誤差傳遞公式計算:

εr=|m|εa+εb+εc 。  注意:A,B或 C的前置係數無論是正還是負,對誤差的貢獻都是加號。

2,標準偏差理論方法

假設原始觀測數據 A,B和 C的誤差εa, εbεc 標準偏差為正太分布的隨機數。按隨機統計理論,A坐落於[A-εa , A+εa]範圍的概率為68.3%,A坐落於[A-2εa , A+2εa]範圍的概率為95.5%,A坐落於[A-3εa , A+3εa]範圍的概率為99.7%,其他數據的標準偏差也類似。同樣的問題,這個間接觀測量 R=mA+B-C,的計算結果R±εr中的標準偏差 εr由如下誤差傳遞公式決定:

εr²=m²εa²+εb²+εc² 。

在測量次數很少的情形下,例如少於5次,其誤差分布會偏離正太分布呈現所謂的 t 分布形態,測量數據可能偏離真數很多。因此,分析測量結果的不確定範圍時,標準偏差ε應該乘以一個修正因子tp ,比如說,對A來講,不確定範圍[A-εa , A+εa]就相應地變為[A-tpεa , A+tpεa],tp還與置信水平有關。當測量次數為2次時:置信水平(又稱 置信概率)為68.3%時tp=1.84;置信水平為95.5%時tp=12.7,參見 標準偏差理論簡介 第9頁的表1.1。

 

三,日本二戰中戰損計算及誤差估算過程

簡單估算方法的結果:

問老天的原始貼文 從日本人口數據,看侵華日軍死亡人數: bbs.wenxuecity.com 中,依據下麵的人口總數統計數據:

年分   人口(千人)
1900 A00=43,8471±1%) ( 注釋:紅字 1±1% 內容是我加插的,並將原始數據記為 A年份
1920 A20=55,9631±1%
1925 A25=59,7371±1%
1930 A30=64,4501±1%
1935 A35=69,2541±1%
1940 A40=71,9331±1%
1945 A45=72,1471±1%

計算得到了正常年份1930-1935年的人口增量4804(千人)。以此為參考數計算了35-45年戰損總量672.1萬人,但沒有給出誤差範圍。按照誤差處理理論,這個人口增量不是直接觀測量,而是由間接計算得來,必須考慮誤差傳遞效應。簡單的代數運算我得到:

30-35年的人口增量= A35-A30 = 69,2541±1%)- 64,4501±1%)= 4,804±1,337 千人),

若是看其誤差的相對大小,這個人口增量中有±27.8%的誤差,相比原始數據±1%的誤差擴大了近30倍,不難理解,最後計算得到的總戰損數據就會有至少30%的不確定度了。簡單代數運算可以得到

35-45年總戰損=(A35-A30)-(A40-A35)+(A35-A30)-(A45-A40) = -A45 +3*A35 - 2*A30 = 6,715±4,088 (千人),

再看其相對誤差的大小,則是擴大到了±61%,因此使用這個數據有必要謹慎。從測量學數據處理的原則出發,誤差數據的有效位數應該隻保留一位(除非首位數據是1或2,可保留兩位),日本二戰總戰損結果 就是≈7±4 百萬人。這個結果是簡單估算方法給出的結果,為了更嚴格的論證這個問題,後麵我按統計學的標準偏差理論重算這個結果。

標準偏差理論的估算結果:

在標準偏差理論的框架下,我假設了原始數據人口總數的標準偏差為1%;一般來講,年度的人口統計隻會作一次,另加一次小規模抽查,合算在一起原始數據測量次數是2次,相應的 t 分布修正因子 tp分別是1.84(對應於68%的置信水平/置信概率)和 12.7(對應於95.5%的置信概率)。總戰損的平均值還是6,715千人=6.7 百萬人,但其標準偏差εr按正太隨機分布規律計算 εr²=721.5²+9*692.5²+4*644.5²,由此計算得到 標準偏差:

εr=2,549 (千人) 。

這個結果須用 t 分布修正因子 tp修正之後來解釋:日本二戰總戰損有68.3%的概率為

6,715±1.84*2,549(千人)= 6,715±4,690(千人)≈ 7±5 (百萬人) ;

又或是 日本二戰總戰損有95.5%的概率為

6,715±12.7*2,549(千人)= 6,715±32,372(千人)≈ 0.7±3 (千萬人) 。

兩種方法簡單估算法和標準偏差理論方法給出不同的數值,給出的定義和解釋也不相同,但總體上看,結果和結論是一致的,後一種方法更為嚴格。

 

數據相關性的補充說明:

我在最開始回複 問老天 的原帖中,用簡單估算方法給出了總戰損的計算結果是 672±553 萬,與上麵的計算結果671.5±408.8 萬 比較其誤差有明顯差異,我發現,這是忽視了數據相關性的前提條件造成的錯誤。在原來的計算中我遵循了問老天 的原帖中的3個計算步驟,用數學公式表達就是:

35-45年總戰損= [(A35-A30)-(A40-A35)]+[(A35-A30)-(A45-A40)] ,

其中 A45出現一次,A40出現兩次(一正一負),A35出現三次,A30出現兩次。計算戰損平均值時沒有任何問題,A40的作用抵消了。但應用誤差傳遞公式計算時,誤差變成2倍貢獻,結果成了 672±553 萬,這是錯誤的數值。究其根源,是因為(-A40)和(+A40) 是完全相關的,不符合使用誤差傳遞公式的前提條件,在用標準偏差方法時也會有同樣的問題。物理上來講,35-45年的總戰損本就應該與40年的人口統計數據A40無關,真正的結果應該是:

35-45年總戰損 = 2*(A35-A30)-(A45-A35) = -A45+3*A35 - 2*A35

最後隻剩下3個互不相關的年份的統計數據,符合了使用誤差傳遞公式的前提條件,這才能得到正確的計算結果。

 

問老天 在 bbs.wenxuecity.com 上的一個貼文中,也出現過類似錯誤:

用40年、45年人口總數來算增長數及誤差估計。

1940人口總數A=71,9331±1%= 71,933 ± 719 (單位:千人)。這裏719是標準差, SA=719

1945人口總數B=72,1471±1%)= 72,147 ± 721。 標準差 SB=721

A和B是統計出來的。人口增長數是需要計算的,用X表示。所以B=A+X .

因此,SB^2=SA^2+SX^2, 所以SX^2=721^2-719^2=519841-516961=2880.
開方得 X的標準差 SX=54

而X的估計值是B-A=214,所以可以得到 214 ± 54, 跟你得到的214 ± 1441 很不同。...

這個推理有一個大錯:基於X,從新定義了B。但是,依照誤差分析處理方法:包含了誤差SA、SB在內的A, B ,都是原始統計觀測數據,預先假設了兩者獨立不相關;A或B不能被修改、也不能重新賦值,同樣的SA或SB也不能重新賦值。實際上,人口增量X是間接觀測量並由定義 X=B-A 給出,因此X是與A或B相關的,不能由誤差傳遞公式來計算SB。

所有跟帖: 

厲害! -最接近太陽的人- 給 最接近太陽的人 發送悄悄話 (0 bytes) () 01/15/2019 postreply 05:10:07

哈哈,所以說中國3年餓死3千萬根本就是胡扯。 -無機塑料- 給 無機塑料 發送悄悄話 (0 bytes) () 01/15/2019 postreply 23:12:15

KanKanTW, 我對這文章的深刻認識見內 -俺老四川哈- 給 俺老四川哈 發送悄悄話 俺老四川哈 的博客首頁 (489 bytes) () 01/15/2019 postreply 18:23:57

謝謝指評,確實像是一篇學術文章,有些無趣,我本就不大喜歡嘩眾取寵的文風 -kankantw- 給 kankantw 發送悄悄話 kankantw 的博客首頁 (281 bytes) () 01/15/2019 postreply 21:30:49

大家到這裏來玩的,來消磨時間的。何必太認真。 -俺老四川哈- 給 俺老四川哈 發送悄悄話 俺老四川哈 的博客首頁 (0 bytes) () 01/17/2019 postreply 09:36:17

主要內容:日本戰損=7±6百萬,誤差太大;中國5,6th的人口普查至少漏登了3千萬人 -kankantw- 給 kankantw 發送悄悄話 kankantw 的博客首頁 (0 bytes) () 01/15/2019 postreply 21:24:55

從小學招生人數看中國新生人口統計誤差:漏記了3千萬人口 -kankantw- 給 kankantw 發送悄悄話 kankantw 的博客首頁 (33574 bytes) () 02/06/2021 postreply 15:22:42

請您先登陸,再發跟帖!