查看: 6431|回復: 17 | 喝下午茶的女士(統計改變了世界一書摘要) [複製鏈接] |
|
樓主 |
發表於 2008-9-29 12:04:27
|
顯示全部樓層
我們先將歷史倒帶一下下
英國的優生學家高騰(Francis Galton, 1822~1911)(請見下面左圖)應用指紋的不規則性來
做分類,他在倫敦成立生物統計實驗室,以檢驗一些可度量的遺傳性狀。他發現一個
普遍現象稱為「向平均數迴歸」,由此導出一個數學量測稱為「相關係數」,這時的
高騰已經非常接近這場改變二十世紀所有科學的觀念革命了,實際上是由他的弟子皮
爾生(Karl Pearson, 1857~1936)(請見下面右圖)把這觀念以最完整的形式呈現。
要了解此革命性觀念,先把對科學的刻板印象先放在一邊。我們在求學中,通常學到
科學就是量測,我們會做一些詳細的量測,並用這些量測值找出描述自然現象的公式
或結論。但是我們做了一連串的試驗獲得許多量測值之後,會發現很少得到公式上
的正確答案,反而做的實驗越多,所得結果越令人困惑。
然後老師就檢查學生的實驗,判定學生之所以得到不正確數值,是因為實驗草率不夠
仔細或抄錄的數字不正確等等。其實所有的實驗在某種程度上說都是草率的,即使是
最細心的科學家來做,也得不到正確的值。有許多無法事先想到或觀測不到的小干擾
,會影響實驗的結果。也就是說從實驗得到的數據是散亂的,沒有哪個數據完全精確
,但所有實驗數據都可以拿來估計真正的值。
這是皮爾生的革新想法,如此我們就不需把單一實驗做得很完美,很小心地量測每個
實驗結果,相反地,我們可把實驗結果看成許多散布的數字,更精確的說法就是當成
一組數字分布。我們可以將這組數字分布寫成一個數學公式,這公式告訴我們某個觀
測值等於一固定值的機率。
單獨一個實驗測得的數據是不可預期的,所以我們只能談論實驗數據的可能性,而非
必然性;從此角度來說,個別實驗的結果是隨機的,然而數字分布的統計模型卻讓我
們能夠描述這種隨機性的數學本質。
隨著物理、化學的發展,度量儀器越來越精密,甚至生物學也運用了這種量測科學,
自然界的固有隨機性也越來越明顯。處理的方法一開始是保留這些精確的數學公式,
然後把觀測值與預測值之間的偏差,看成微小而不重要的誤差,而這個誤差分布通常
以鐘形曲線或常態分布的說法,進入我們的語彙中。
研究生物學上蒐集到的數據時,皮爾生認為量測的本體,而非量測的誤差,就呈現出
一種機率分布。不管我們度量什麼,都會呈現出隨機散布的特性,這種隨機散布現象
的機率,可以用一種數學函數(就是分布函數)來描述之。
描述分布函數所用的數值,與量測得到的數據不屬同一類,這些數值是永遠觀測不到
的,但可以由量測的散布情形來推論。後來的數學家將這些數值稱為參數(parameter),
包含平均數(mean)、標準差(standard deviation)、對稱(symmetry)、峰度(kurtosis)。
在皮爾生之前,科學處理的是真實而容易察覺的:能描述行星在太空中運動路徑的數學
定律;找出特定動物的血液在靜脈與動脈裡流動情形;處理元素及由元素所組成的化合
物。
而皮爾生認為,這些可觀測的現象只是些隨機分布的反映,真實的只有機率分布。科學
研究真正的主體,不是我們能觀測或掌握到的事物,而是那些能把觀測到的隨機性分布
現象具體描述出來的數學函數。在科學研究中,實際要決定的只是分布的四個參數,不
過就某種意義而言,我們永遠無法真正找到這四個參數—只能利用數據來估計。
皮爾生相信只要蒐集的數據夠多,就能從參數的估計值找出實際值。但是這一點卻在後
來被證明是錯誤的。例如,達爾文演化論中提到的雀鳥本身並不是科學研究的對象,所
有同種雀鳥的隨機分布才是重點。如果能度量某一種類之所有雀鳥的喙長,就能找出喙
長分布函數的四個參數,此四個參數就能代表該種雀鳥的喙長。
今日,醫學上的研究都是用很複雜的數學分布模型,來判斷某些治療藥物可能的長期治
療效果;社會學家與經濟學家利用數學分布,來探討人類的社會行為;在量子力學裡,
物理學家則利用數學分布來描述原子粒子;生物學家則利用不同的數學分布,來探討許
多生物的行為、遺傳性狀、營養需求等等,真的沒有哪一門科學可以自外於這項革命。
皮爾生對分布函數及參數的想法,最後成為二十世紀科學的主流,而且在剛進入二十一
世紀時也還維持著優勢。但是他的大規模蒐集觀測值的實驗作法卻有邏輯上的問題,後
來的費雪、尼曼(Jerzy Neyman)與皮爾生的兒子艾根(Egon Pearson)提出了合理的方式,持
續且發揚了這場觀念革命。
|
|
|
|
|
|
|
|
發表於 2008-9-29 17:46:29
|
顯示全部樓層
請問大大,這是生統教材??
統計的歷史學??
還沒看到熟悉的常態分布........ |
|
|
|
|
|
|
|
發表於 2008-9-29 17:50:48
|
顯示全部樓層
|
|
|
|
|
|
|
樓主 |
發表於 2008-9-30 08:54:46
|
顯示全部樓層
回覆 4# 00760 的帖子
我不想立刻就給學生一堆數學公式,讓他們產生恐懼與害怕,
所以採用統計史從K. Pearson講起,可敬的學生Gosset出現,
再引進試驗設計大師Fisher,然後Neyman與E. Pearson雙人組
粉墨登場,最後停在機率應用的問題上,以這位女士嚐奶茶的
真正情況做個結束。
從頭到尾沒有數學式子,也沒有計算過程,只有人與概念的陳
述,對學生的入門有比較大的幫助,從學生們的心得可以看到
他們確實對以前學過的基礎統計產生了化學變化。 |
|
|
|
|
|
|
|
樓主 |
發表於 2008-9-30 09:02:44
|
顯示全部樓層
當我們手上只有小樣本時
大家或許知道位於愛爾蘭都柏林的吉尼斯釀造公司(Guinness Brewing Co.),是個
釀製啤酒與麥酒的老牌公司,在二十世紀開始的時候,該公司決定在科學方面做
投資,於是雇用了一些由劍橋和牛津畢業的優秀化學人才,其中有一位戈斯特
(William S. Gosset, 1876~1937)(請見下圖)剛從牛津大學畢業,擁有化學與數學的
雙學位。在1904年戈斯特發表第一篇論文,是針對麥芽漿預備發酵的時候,要仔
細量測應放入酵母菌的量,而酵母菌是活的,會在瓶子裡不斷倍增,因此倒入麥
芽漿之前到底會有多少菌數,很難算清楚,所以研究人員必須把瓶子裡的酵母菌
數目算清楚,才能決定倒多少瓶酵母菌到麥芽漿裡,他們的做法是由瓶子裡取一
些麥芽漿的樣本,放在顯微鏡下計算酵母菌數目。
這樣的量測方法有多準?這對釀製的品質很重要。我們可以注意到,這與皮爾生
的科學研究方法相當符合。量測的對象是樣本裡的酵母菌數目,實際上想知道的
是整個瓶子裡的酵母菌濃度。然而酵母菌是活的,會一直不停地分裂複製,答案
是變動的,或可以說根本不存在標準答案,或者可以說,真正存在的是單位體積
內酵母菌數的機率分布。
而戈斯特檢驗了數據,認為酵母菌數目可以由一種稱為卜瓦松分布(Poisson
distribution)的機率分布來描述之,這種分布不屬於皮爾生提出的偏斜分布,事實
上,它是一種只有一個參數的奇特分布。於是戈斯特依據樣本裡的酵母菌數目是
卜瓦松分布,設計出相關的規則與量測方法,可以更精確地估計出酵母菌濃度,
公司更能夠控制釀製品質。
當時卜瓦松分布已出現百年了,在真實生活上卻一直找不到適當的例子,戈斯特
不僅有清楚實例,還有統計分布新觀念的重要應用,皮爾生積極鼓勵戈斯特予以
發表,但是吉尼斯公司是禁止員工對外發表文章,以避免公司的智慧財產權受損
。所以他倆決定以匿名方式發表論文,就以「學生」(Student)的名稱在皮爾生的
「生物統計」(Biometrika)期刊上發表。
戈斯特持續以「學生」名稱在該期刊上發表一系列論文,其中一篇「平均數的可
能誤差」(The Probable Error of the Mean)出現在1908年的「生物統計」裡,戈斯特
想要解決的特定問題是小樣本(small sample)的問題,在戈斯特的經驗裡,很少有科
學家能夠取得非常大量的數據,最常見的情節卻是一項實驗只會取得十到二十個
觀測值,這是普遍存於所有科學界的現象。
皮爾生是從單獨的一個分布累積好幾千個數據以計算出該分布的四個參數,使用的
樣本很大,他認為最後的參數估計值是正確的,不過,後來費雪已經證明皮爾生錯
了。
這裡戈斯特不是要指出皮爾生的錯誤,而是要問一個常見的問題:如果樣本很小,
情況會怎樣?計算過程中一定會出現隨機誤差,不像皮爾生蒐集的大樣本具有較小
的誤差,又該如何處理?
這段時間,戈斯特每天晚上在餐桌旁取出一小組數據,算出它們的平均數與標準差
(這時代在家庭中只有手算方式),再把兩個值相除(變異係數=coefficient of variation,
CV),然後將結果在紙上作圖,他發現這個比值與皮爾生的四項參數有關,也能符
合皮爾生的偏斜分布,他的重大發現是:我們不必曉得原始分布所有四個參數的確
切值,只要平均數與標準差的比值就可製表顯示機率分布。
也就是說,你不必管樣本數據是怎麼來的,或標準差的真正值為多少,只要算出這
兩個樣本估計值的比值,你就可以得到一個已知的分布,所以從這結果衍生出大家
常用的Student’s t distribution與t-test。
隨著t-test的發展,統計分布理論在科學界擴展開來,大家越用越順手,卻習而不察
那伴隨而來的,是許多更深層的哲學問題,就是所謂的假設檢定(hypothesis test)。
這裡先總結戈斯特的重大發現:「學生」提供了一項幾乎所有科學家都會用到的科
學工具,就算沒有多少人真的了解它,仍然照用不誤。 |
|
|
|
|
|
|
|
樓主 |
發表於 2008-9-30 09:16:37
|
顯示全部樓層
費雪正式躍上舞台
其實,費雪這位從劍橋畢業的數學天才,不是一下子就平步青雲。他畢業後先到一
家投資公司的統計辦公室,後來突然離職到加拿大去務農,第一次世界大戰(1914~
1918)剛開始時又忽然回到英國,但因視力太差被排除在軍旅之外。戰爭期間,他先
後在一些公學中教數學,由於無法耐著性子幫助學生明白那些他覺得當然的事,因此
教學的情況也每況愈下。
1919年春天,費雪與家人(太太與三個孩子)搬到倫敦北部的羅森斯特農業試驗所
(Rothamsted Agriculture Experimental Station)附近的一間農舍,因為這試驗所的所長羅素
(John Russell)聘請費雪來進行試驗所九十年來的試驗中收集之資料的分析,希望能夠獲
取農作物收成的重要影響因素的相關資訊。
從1921到1929年,費雪發表一系列名為「作物收成變化研究I~VI」的論文,都是當時全
新的發現與分析方法,他藉這些作物試驗數據為數據分析發展出許多原始工具,讓後來
的數學與統計學家忙得不亦樂乎。
費雪把小麥收成隨時間變化的趨勢分成三部份:第一為土壤逐漸劣化導致整體產量穩定
下降;第二是每階段都費時數年的長期緩慢改變;第三則是一組快速變化的部份,考量
到每年的氣候變化。這就是後來稱為時間序列分析的首開先例,當已知一組隨時間波動
的數據,我們可以將它們區分成幾個不同來源的結果,現在是利用電腦與巧妙的演算法
對長時間的變化(如暴風地震等)做極大量的數據計算,但是基本的想法與做法皆出自這
裡。
費雪除了對以往的數據進行分析,也導入新的試驗工作方式,把農場分成不同的小區,
每區的作物種植成一列一列的,然後在每一列以不同的方式來種植與處理,這樣可以避
免某些區域的土壤品質、水的流向、未知的抑制野草因子等造成產量不同。如果同一年
裡,在相鄰的兩株植物上施予不同的肥料,土壤差異就會降至最少,雖然還有些條件上
不一致,如果對很多組作物進行實驗,土壤差異應該會被平均化,這些安排可以是好多
種的形式,而費雪的方式就是隨機安排。
這樣精心設計的科學實驗能區別不同處理組所得之結果的方法,費雪稱之為「變異數分
析」(analysis of variance),當時數學推導過程是以該試驗為對象而推導的公式,那是三種
不同肥料、十種馬鈴薯及四塊土壤之間的不同。
在這系列論文中,費雪除了提出變異數分析之外,還有共變異數分析(analysis of covariance)
,是針對有些條件並非實驗設計的一部份,但這些條件確實存在,而其結果可以被度量,
這個方法就是用來分離出這類結果。到了系列論文的最後一篇,費雪提出實驗設計理論的
精華。
1922年,代表正統統計學的期刊皇家統計學會期刊終於刊登了費雪在此期刊的第一篇論文
,那是一篇短文,適切地指出皮爾生其中一條公式的錯誤。1924年皇家統計學會期刊又刊
出費雪另一篇論文,提到自由度(degree of freedom)的新觀念,他把數學問題轉化成多維空
間幾何的洞察力造就了這個觀念的形成,而這一篇更是將皮爾生另一項自豪的成就予以摧
毀。
上述一系列裡的第三篇論文是在1924年於倫敦皇家學會哲學學報中刊出,副題為「降雨量
對羅森斯特小麥收成的影響」,總共達到53頁之厚,裡面介紹了近代統計方法的基礎,這
些基礎如今已應用於經濟學、醫學、化學、計算機科學、社會學、天文學、藥物學等,需
要瞭解大量互有關聯的原因之間相關性的任一學術領域,都會用得到。
這篇論文裡寫了很多創新的計算方法(要記得費雪當時只有那種百萬富翁手搖式的計算器,
請見下圖),以及如何組織統計分析所需數據的建議。這些費雪的貢獻對後來的數據分析與
應用,真是產生了劃時代的影響,雖然是針對小麥收成做的,卻可以應用到各個需要的領
域。
[ 本帖最後由 pighead 於 2008-9-30 09:18 編輯 ] |
|
|
|
|
|
|
|
發表於 2008-9-30 15:43:50
|
顯示全部樓層
時代真的變了
隨著時代的改變
養豬的方式不同了
我覺得理所當然
利潤導向
但連對研究生的方法也變了
真是太人性化了
以前當研究生像被餵豬一樣的交代論文與工作
沒搞懂就被當
老師哪管我們怕不怕
劈哩啪啦讀完一大堆,終於好像懂了一點輪廓
上班時又是另一套重頭學過
老闆可不會那麼仁慈
所以個人淺見覺得
學校還是培養學生在壓力下的學習力比較重要
快樂學習當然學習效果可能不錯 |
|
|
|
|
|
|
|
樓主 |
發表於 2008-9-30 21:00:28
|
顯示全部樓層
回覆 8# 00760 的帖子
那你就繳費來上課看看,再來說壓力大不大的問題!
尤其是我的必修課,以及我的研究生,
但是做老師的要懂得讓壓力變成助力,而不是壓力變成阻力。
如果你用心地看這些文章,就會發現隱藏在裡面的哲學與邏輯,
都是對統計與機率問題的重要省思及當初為何搞不懂統計的原因。
學生們看完這些摘要之後,寫出來的心得可以發現他們弄懂了大學
時代的統計疑問,這樣再來滿載的教學內容與眾多的作業對他們都
有動機去努力了! |
|
|
|
|
|
|
|
樓主 |
發表於 2008-10-1 12:03:54
|
顯示全部樓層
卡爾 皮爾生 vs 羅那 費雪
在探討統計分布時,費雪與皮爾生採用的理論方法有個哲學上的差異:皮爾生視統
計分布為所蒐集數據的實際描述,是能加以分析的;至於費雪,則認為純分布只是
抽象的數學式,蒐集到的數據只能用來估計純分布的參數。由於所有的估計值都含
有誤差,於是費雪就提出一些分析工具,可以把這種誤差的程度降到最低,或可以
產生比其他工具更接近真實的答案。
在1930年代,費雪的看法佔了上風,但到了1970年代,皮爾生的看法又捲土重來。
現在的統計社群對這個問題已經分裂成兩派。因為費雪的數學頭腦非常清晰,因此
能看清皮爾生觀點的特質與問題,且把大部分混淆之處都釐清了,捲土重來的皮爾
生觀點就必須應付費雪理論的成果。
皮爾生認為量測值的分布是真實的事物。在他的理論方法裡,對於一個特定的情況
,都會有一組龐大但有限的量測值。在理想情況下,科學家會蒐集所有的量測值,
並決定出分布參數,如果無法蒐集齊全,則會蒐集大量具代表性的數據子集合。他
認為,由這些大量且具代表性的子集合算出的參數,會與整個集合的參數相同;不
僅如此,那些用來計算整個集合參數值的數學方法,也能用來計算這個代表子集合
的參數,而不會有嚴重的誤差。
依照費雪的觀點,量測值只是從所有可能出現的量測當中隨機選取的,因此由這些
隨機選取的數據算出來的參數估計值,本身也具有隨機性,也會有一機率分布。為
把參數的估計值與參數本身區分清楚,費雪稱這個估計值為統計量(statistic),近代術
語則稱之為估計量(estimator)。
假設我們為了估計某個參數,可以設計兩種不同的統計方法,例如老師想要知道班
上同學的學習成效(參數),因此為全班舉行幾次測驗(量測),並算出平均分數(統計
量)。那麼,下列幾種統計量哪一種「比較好」?用中位數(median)?還是拿最高與
最低分數的平均數?或是把最高分與最低分剔除,再把其他的分數平均才對?
由於統計量是隨機的,因此問單獨一個統計量的值有多準確是沒什麼意義的;同樣
的,討論單獨一個量測值有多準確,也沒有任何意義。我們需要的準則,必須以統
計量的機率分布為根據,就像皮爾生所說的,一組量測值必須從它們的機率分布,
而非觀測值本身的觀點來估計。
費雪提出幾項準則來評判哪些是好的統計量:
一致性(consistency):得到的數據愈多,算出來的統計量就愈接近參數的真值。
不偏性(unbiasedness):如果對很多組不同的數據,求取一特定的統計量很多次,則
這些統計量的平均數應該會接近參數的真值。
有效性(efficiency):用來估計某個參數的統計量,不會正好等於該參數的真值,但
是大量統計量(或估計量)的極大多數應該與真值相去不遠。
在實際應用上,費雪的這些準則都可以用適當的數學來評估。這些準則最重要的元
素就是:我們應該把統計量本身當成隨機的,而好的統計量一定有好的機率特性。
我們只能用一種方法,產生出一個符合這些準則的統計量。
當費雪研究了相關的數學工作之後,他了解到皮爾生用來計算分布參數的方法,所
產生的統計量不一定是一致的,也經常有偏差。而為了產生一致且有效(但不一定是
不偏)的統計量,費雪提出了「最大概度估算法」(maximum likelihood estimation, MLE)
,並且證明MLE永遠是一致的,如果先接受他的幾個正規條件,它會是所有估計統
計量的最有效方法,費雪還進一步證明,就算MLE為有偏的,他還是可以算出偏差
,並由MLE估計值中減掉而得到一致、有效且不偏的統計量。
這概度函數橫掃整個統計社群,迅速成為估計參數的主要方法,雖然解MLE的數學
頗困難,而費雪為變異數分析及共變異數分析發展出的算式,具有非常美妙的數學
成就,在多維空間裡運用許多的代入與變換,導出MLE公式。
後來的統計學界又發展出各式各樣的迭代演算法,困難且複雜的MLE數學公式可以
使用迭代數次到數千次,甚至數百萬次,讓初步估算出且有偏差的猜測值,使用其
中的差異,繼續產生下一個猜測值,如果計算方法夠好,就能夠讓你的猜測值越來
越接近正確的估計值,配合了電腦的發展,如今這些複雜的迭代演算都交給電腦去
計算了。
因為數學推導的巧妙與確切的證明,費雪的統計估計方法得到了勝利,最大概度估
計法風行全世界,而皮爾生的方法被束之高閣,塵封在歷史裡。但就在1930年代裡
,費雪明白自己對數理統計理論的貢獻,其成就正達到巔峰之際,年輕的波蘭數學
家尼曼開始崛起,尼曼提出的問題,正是針對那些被費雪掃到地毯下的問題。 |
|
|
|
|
|
|