

2019年4月29日上午,台灣大學洪永泰教授做客武漢大學“珞珈政治學論壇”,在學院332會(hui) 議室作了題為(wei) “量化數據的描述與(yu) 比較”的學術報告,論壇由劉偉(wei) 老師主持。眾(zhong) 多老師和同學踴躍參與(yu) 到本次論壇,其中包括倪星院長,孟穎穎、鍾兆真、姚強、黃菁、陳剛、朱海英、陳柏奇等老師及相關(guan) 專(zhuan) 業(ye) 的博士生、碩士生和本科生。
洪教授首先介紹了數據的兩(liang) 大類型。其一,類別資料:名義(yi) 尺度和等第尺度。名義(yi) 尺度是純分類,無大小和強弱的區別;等第尺度有大小和強弱的卻別,但無確定的“量”;其二,數字資料:區間尺度和比率尺度。區間尺度的“0”沒有定義(yi) 、無共同的計量基礎點;比率尺度的“0”有明確的定義(yi) ,表示“沒有”的意思,可進行數學的四則運算。
數據的描述方式主要分為(wei) :圖表和數據。關(guan) 於(yu) 圖表描述,洪教授介紹到類別資料可采用的圖表類型為(wei) :次數分配表、餅狀圖、條狀圖、地圖;數字資料可采用的圖表類型為(wei) :直方圖、次數分布曲線、累計百分比(次數)分布曲線、箱型圖、枝幹法。其中,累計百分比分布曲線,特別是雙累積百分比分布曲線對數據具有強大的解釋力,可將許多資料濃縮於(yu) 一個(ge) 圖中。而關(guan) 於(yu) 數據的描述,類別資料可使用眾(zhong) 數描述數據中心趨勢,IQV描述數據離散趨勢;數字資料可使用平均數、中位數、眾(zhong) 數描述數據中心趨勢,百分位描述數據位置,全距、四分距、均差、標準差、方差、標準化、離差係數描述數據離散趨勢。洪教授指出:一般數據越集中,越沒有分析的價(jia) 值;數據越分散,越有分析的價(jia) 值。其中,均差可以表示數據最真實的平均距離。因為(wei) 柴式不等式,所以確立了平均數和標準差一直以來在量化數據分析中的重要地位。柴式不等式表示的是,任何資料以平均數為(wei) 中心左右k個(ge) 標準偏差,包括了至少(1-1/k2)的個(ge) 案數(k>1)。從(cong) 而間接地反映出正態分布,即以平均數為(wei) 中心,左右1個(ge) 標準偏差包括了68%的個(ge) 案數,左右2個(ge) 標準差包括了95%的個(ge) 案數,左右3個(ge) 標準偏差包含了99.7%的個(ge) 案數。洪教授介紹了描述類別資料的離散程度的數據——IQV(Index of Qualitative Variation),IQV越大,表示離散程度越大,IQV=1時最分散,IQV=0時最集中。各組的分類數不同時亦可比較,但其缺點是不夠敏感。在這裏,洪教授以消費金額、學生考試成績等數據為(wei) 例進行了分析。
洪教授著重介紹了數據的比較。通過總量、平均數、百分比、百分位、四分距、成長率、標準化、交叉標準化、跨年度的標準化數據、兩(liang) 兩(liang) 相比等方法進行數據比較分析。抽樣調查百分比的比較方式分為(wei) 三類:其一,不同的調查;其二,同一次調查,同一問題,不同選項的比較;其三,同一次調查,不同問題的比較。洪老師指出,受到比較基期的影響,成長率計較是很容易“作弊”的比較方式。標準化,即去除計算單位,簡化數據成為(wei) 相對位置。轉換成標準值和內(nei) 插法轉換是標準化的兩(liang) 種方法。標準值是把原始數據轉化成為(wei) “每個(ge) 觀察值在平均數以上或以下幾個(ge) 標準偏差的位置”,受到極端值、平均數及標準偏差數值的影響,比較容易失真,而好處是可以猜測每筆數據的百分位。內(nei) 插法轉換是在新設定的數據範圍內(nei) 將原始數據等比例縮小或放大,完全保持原始數據的信息,隻是去除單位,不會(hui) 失真,也不會(hui) 引起爭(zheng) 議。交叉標準化過程中,兩(liang) 組數據相互交叉標準化所得到的結論可能會(hui) 不一致,可引入第三組真實或者構建一組虛擬數據作為(wei) 標準,進行統一標準化。由於(yu) 兩(liang) 組數據結構不同,各單項所占的比重不一樣,致使辛普森吊詭的發生,其解決(jue) 方法亦為(wei) 統一標準化。期間,洪教授利用甲乙兩(liang) 班的教學效果、甲乙兩(liang) 廠產(chan) 品不良率、AB兩(liang) 所大學各學院教師發表論文的數據、某雜誌續訂情形數據以及企業(ye) 高管的選任等案例進行比較分析。
洪教授的精彩報告引起了在場師生的濃厚興(xing) 趣。在問答互動環節,洪教授同到場師生進行了深入交流。有老師與(yu) 洪教授交流兩(liang) 岸清廉指數調查的調研方法。圍繞“兩(liang) 兩(liang) 相比”是否有比較標準的問題,洪教授回應道,兩(liang) 兩(liang) 比較需要的是最終結果,是最好執行的,隻需受訪者在二者間選其一即可,無需特別的標準;針對標準化中的“第三方”標準數據是如何確立的問題,洪教授回答道,該數據隻需管理當局事前設置一個(ge) 虛擬標準。
論壇最後,劉偉(wei) 老師作總結發言。他認為(wei) ,學習(xi) 量化研究方法最重要的是運用,研究者通過運用數據分析,可以增強社會(hui) 科學研究的科學性;實證研究是當前社會(hui) 科學領域的主導取向,而量化研究又是實證研究的主流做法,因此,為(wei) 更為(wei) 全麵地把握學術前沿,並推進相關(guan) 研究的實體(ti) 性進展,政治學的學生除了接受規範研究的訓練,也應加強量化研究的相關(guan) 訓練,借助統計工具對數據做好描述、比較和分析,以增強學術研究的可靠性和說服力。(政治學與(yu) 行政學係汪昱均、劉遠雯供稿)