查看: 1307|回復: 1

數字告訴我們什麼?

[複製鏈接]
總帖子數排名︰21

升級   100%

發表於 2006-3-27 05:33:24 | 顯示全部樓層 |閱讀模式
數字告訴我們什麼?

巴布(文字工作者)  (20060327)

     


    網路書店的龍頭老大亞馬遜,一向以它的「目標行銷」(targetmarketing)能力自豪。的確,透過龐大、詳細的資料庫,它不但了解書,而且也了解你。不但記得你看過、買過哪些書,而且還能推測你的喜好,不斷提供你更多花錢的機會。

    當網頁上已塞滿連結,基本資料頁已不再基本,而得改叫「購物資訊頁」,你大概認為這已是目標行銷的極致,不可能再加入新東西。但你錯了。亞馬遜推出的「Search Inside!」全文檢索功能,又開啟了更多可能性。既然亞馬遜的電腦已經「讀過」這本書,何不讓它告訴消費者書裡有甚麼?所以又多出First Sentence、SIPs、CAPs、Citations之類令人目炫的新項目。但在這些資訊中,名稱平淡無奇而容易被忽略的「文字統計」(Text Stats)其實才是最有趣的。  


    計算後的閱讀指標
    在亞馬遜網站上,凡能全文檢索的書,大多也都提供了「文字統計」,點選後,可以看到該書的可讀性、複雜度、字句數和趣味統計等數字。前三類除了書籍本身的數據,還有它在整個書店全部書籍裡所佔的位置。

    以去年的暢銷書《深夜小狗神祕習題》英文版為例,這本書的難字(指三個音節以上的字)只佔全書的5%,有九成多的書裡頭的難字比它多。全書平均每句有17.7個字,有59%的書每句的字數比它少。大體說來,亞馬遜告訴我們:雖然這本書表面看來淺顯易讀,其實它並不是這麼簡單的書。

    可讀性的計算比較困難。亞馬遜提供3種指數,每種的數字解讀方法不同,其中最令人感興趣的是「迷霧指數」(Fog Index)。這項由牛津大學教授 Robert Gunning所提出的可讀性公式,不但容易計算,其結果也很容易解讀:求出的指數值是多少,就表示這本書需要幾年級的程度才看得懂(指以英語為母語者),例如指數值5表示國小五年級、12表示高三程度。

    選書之前比一比

    俗話常說「蘋果不能跟橘子比」,但是有了亞馬遜的「文字統計」,不但蘋果能和橘子比,水果可以跟蔬菜比,而且幾乎任何題材、任何形式的書都能拿來比一比。

    假如你為該買哪本暢銷小說而猶豫不決,不妨查看一下它們的迷霧指數。想找輕鬆易讀的,就選指數低的那本;如果喜歡向高難度挑戰,則可以不必考慮數值低於12的書。

    在這些統計之外,亞馬遜還提供了兩項「趣味統計」:要是你對價格精打細算,結帳前記得看一下「每塊錢可以買到多少字」。至於要找旅行時帶著路上看的書,則可以檢查看看「每盎斯的文字含量」。

    經過亞馬遜的超級算一算之後,我們終於可以明白為甚麼沒有多少人讀完霍金的《時間簡史》,因為它的迷霧值是16.3,比78%的書都要難讀。

    還有,【魔戒】和【納尼亞傳奇】兩大奇幻名著再也不必被拿來作永無定論的比較了,我們可以用「文字統計」來決勝負。想知道康德和黑格爾誰比較好讀?要選一本最容易上手的卡爾維諾英譯本?這些問題都有了解答。亞馬遜的計算,提供了一目瞭然的閱讀指標。

    迷霧指數,製造「迷霧」?

    但是如果仔細檢查,我們會發現有些書籍的迷霧值很可疑。例如,諾貝爾文學獎得主的作品一定很難讀囉?Seamus Heaney(迷霧值11.5)和Nadine Gordimer(11.5)還算符合我們的想像,奈波爾(9.8)只能算是中等,童妮.摩里森(7.0)和柯慈(7.2)得說是平易。至於去年甫獲獎的哈洛.品特(3.6),難道他寫的是童書?

    再看,法國哲學家米歇爾.傅柯的天文數字(23.2)並不讓人意外,但奧地利哲學家維根斯坦的《論確定性》(On Certainty)只有8.6,豈不是老嫗能解?另外,艾可的小說以《傅柯擺》最簡單(11.3),《昨日之島》最難(14.9),這個結果也可能有很多人不同意。

    可以這麼說:迷霧指數就像星座血型一樣,當它確認了我們的既有印象時,我們就認為它很準確,但當它吐出離譜的數值時,我們也會毫不保留地加以嘲笑。隨興查看、比較各書的指數值,可以帶來樂趣,但要把它當成客觀指標,就未必確當了。

    為甚麼會這樣?原因之一是來自指數本身的性質,另一是則來自亞馬遜的應用方式。

    盡信數字,不如無數字

    任何帶著小數點下兩位數字的「指數」,都會予人以「科學、精確」的印象,但若探究迷霧指數的計算方式,它不過是衡量句子長短和難字多寡來決定文章複雜度的經驗公式。用這方法來概估文章難易度,不失為簡潔有效的方法,而且在編寫實用性質的文件時,也經常以各種計算作為評估工具,但要把它當成一體適用的通則,就顯得勉強了。

    迷霧指數頂多只能考慮到文章形式上的難易,所以聖經、莎士比亞和馬克.吐溫的迷霧指數值都在6左右。即使不談書中的思想與涵義,單單就表面上的字句來看,欽定版聖經和莎翁劇作也絕對不屬於易讀的。

    而亞馬遜的應用也有疏漏之處。例如前面提到的維根斯坦《論確定性》為何只有8.6的指數值?只要看一下網頁上所列的書中主要單字索引(Concordance)就可以明白了。出現頻率最高的字是da, ich,nicht等,這些都不是英文字。原來,亞馬遜把這本德英雙語的書,不加分辨地全部當成英文來處理。

    也因此,哈利波特《神祕魔法石》的兩種古典語文版,就出現了令人捧腹的統計數值:古希臘文版的《神祕魔法石》難字只佔10%,迷霧指數是宜人的7.2;拉丁文版則是難字佔41%,迷霧指數高達20.3的天書!這兩組奇怪的數值,正是因為亞馬遜把兩種語文版本都當成英文來計算的結果。

    科技並非萬能,量化指標的能力有其限度。正如我們不應該根據封面來評斷一本書的好壞,我們又怎能依賴幾個阿拉伯數字來判決書的難易?英國《衛報》有一個幽默專欄The Digested Read,每周把一本暢銷書依其文體、風格濃縮成不到500字的摘要,每篇最後的Thedigested read, digested再把摘要濃縮成一句,這樣簡化再簡化的結果,得出的往往只是一場笑話。或許出版社還不至於把「文字統計」像食品成分標示那樣印在書籍包裝上,但當你在書店裡看到「亞馬遜書店讀者★★★★★推薦」會有甚麼反應?或許\我們該研究一下星星數、迷霧指數、價格字數比…之間的關係。
總帖子數排名︰1

升級   100%

發表於 2006-3-27 12:23:50 | 顯示全部樓層
果然是數學系的  ∼∼
您需要登錄後才可以回帖 登錄 | 註冊

本版積分規則

手機版|Archiver| 台灣群英養豬網

Copyright © 2001-2013 Comsenz Inc. All Rights Reserved.

Powered by Discuz! X3.4

快速回復 返回頂部 返回列表