
英語詞匯數據分析在教材編寫、試卷分析、語言研究中有很高的應用價值,提升教材和教學質量。
由于英語詞匯變化形式繁多,詞匯數量龐大,人工完成材料中的詞匯原型轉換、分類統計、類型計算等工作,最終形成有效數據,十分困難,成為開展詞匯數據分析的瓶頸。為此,筆者根據英語詞匯特點,設計了采集詞匯分析基礎數據的專用軟件-英語詞匯分析工具軟件。
1 設計原則
1.1 平臺通用性原則
目前,計算機操作平臺90%以上為Windows系列,其中Windows7占49%以上,居首位。因此,筆者選擇在Windows7環境下完成程序編制,并通過WindowsXP,WindowsVista,Windows7的32位版和64位版平臺兼容性測試。
1.2 操作簡便性原則
操作界面設計簡單、易懂,無需培訓就能使用,并在操作界面同步提供幫助信息,便于操作者理解、使用(如圖1所示為部分操作界面)。
1.3 人性化原則
現在最常見的文件格式是純文本和html,操作平臺無需安裝其他軟件就可使用。以試卷或教材作為英語詞匯分析對象,生成的數據文件格式均采用純文本文件,需要標色的數據文件使用html格式。提供數據文件存放路徑設置功能,生成的所有數據文件存放在用戶指定的文件夾內,方便日后查閱。用戶可以對詞匯數據庫的參數做簡單改動,了解當前和最新版本,及時升級軟件,可以通過操作界面直接進入軟件論壇交流信息。
2 功能設計
2.1 總體結構
詞匯分析數據的采集是將測試材料中單詞在詞匯特征數據庫的支持下逐一轉變成原型,按難度分級、歸類排序,統計得到原始數據,然后進入指定的數據加工模塊進行簡單計算,最終得到要求的基礎數據。
程序包括數據庫部分與各功能程序部分,結構如圖2所示。
2.2 數據庫
系統包含兩個數據庫,一個是詞匯數據庫,另一個是生詞庫。
2.2.1 詞匯數據庫通用詞匯處理程序在識別測試文檔的單詞時,通過檢索詞匯數據庫中對應詞匯的相關信息,對檢索詞進行分類標記、原型轉換和排序。詞匯數據庫收集了5萬余個英語單詞的特征信息,包括每個單詞的系統序列號、各種變化形式和分級,分級參照2007年版大學英語詞匯表,分為中學詞匯、一般要求詞匯、較高要求詞匯、更高要求詞匯、超綱詞匯和高級詞匯6個等級。
2.2.2 生詞庫在處理過程中,一旦遇到詞匯數據庫沒有收載的詞匯,系統自動將其收入生詞庫中,管理生詞庫的程序對生詞庫自動進行重復詞濾除、按首字母重新排序等,為擴充詞匯數據庫或研究新詞提供幫助。
2.3 通用詞匯處理程序==該程序的功能包括:濾除與詞匯數據無關的符號,如中文、標點符號、阿拉伯數字、回車符等,取詞入臨時數據庫,單詞識別轉換和分級,然后按字母排序生成詞匯表并統計詞匯量。它是本系統的核心程序,其他功能模塊均首先調用它完成基本操作。
2.4 各功能模塊設計
2.4.1 詞匯難度構成數據采集模塊該模塊完成7個級別(注:指詞庫未收入詞匯也單獨作為一個級別)的分類統計,采集數據包括詞匯量、每一級詞匯量、所占百分比等,每一級詞匯都按首字母順序自動生成詞表,生成包含上述信息的數據文件?梢栽O置重復統計或不重復統計兩種采集方式。
2.4.2 詞頻數據采集模塊采集待測文本所含詞匯的詞頻(出現次數)、重復率、單詞量和總詞量等數據,按詞匯首字母順序和詞頻順序兩種格式生成數據文件(如圖2所示)。
2.4.3 常用數據采集及自建詞庫模塊采集數據包括總詞量、單詞量、基本詞匯量、容詞率[1]和基本詞匯占比等數據,同時生成詞表和數據文件。該模塊的另一功能是生成自建詞匯庫文件,用戶通?梢詫⒔虒W詞表作為待測文件,利用自建詞匯庫這種開放式功能,對不同教學階段的材料進行詞匯覆蓋率測試。
2.4.4 自建詞庫對照數據采集模塊利用該模塊,可以獲得總詞量、單詞量、容詞率等普通數據,還可以測試材料中的自建詞匯庫在庫詞匯量和詞匯覆蓋率兩個重要數據,生成的詞表對在庫詞會標紅顯示并生成數據文件。該模塊還可將自建詞匯庫所包含的詞匯在待測文件原文中用紅色標出。
2.4.5 其他延伸功能模塊作為一款英語詞匯分析軟件,除數據采集功能外,還包括若干延伸功能模塊,使得用途更廣。主要有:(1)詞匯數據庫有限參數更改模塊,可以修改詞匯數據庫中單詞的級別。(2)詞匯分級標色顯示模塊,將原文中的詞匯按級別標色顯示。(3)詞匯固定搭配檢索模塊,檢索并顯示含有某一單詞的句子(最多8條),幫助用戶快速發現固定搭配句型。(4)生詞整理模塊,將生詞庫中的生詞整理成詞表文件以供研究。(5)簡易語料庫建設模塊,設置8 000個單詞作為簡易語料庫的基礎詞條,每個詞匯設有雙語解釋、經典例句、詞組、固定搭配、試題5個欄目,語料庫完成后,數據可以打包、分享。
3 結束語
針對教材、試卷的詞匯數據分析是英語教學數據評價研究的新領域,由于詞匯數據采集困難,導致該領域研究文獻很少。利用計算機信息處理技術,編制計算機輔助處理程序可高效快速地采集、加工數據,并且采集的數據穩定可靠、質量高。用英語詞匯分析工具對1990~2010年的大學英語四級考試進行詞匯數據分析,取得了令人滿意的結果。
參考文獻
[1] 李冬。20年大學英語四級考試詞匯回顧性分析[J].考試周刊,2013(41):3-4.