LIVAC漢語共時語料庫(Linguistic Variation in Chinese Speech Communities)與眾不同,因為它以嚴緊、恆常與「共時」方式,搜索和處理了超常的大量漢語具代表性報章語料,並通過精密的技術,累積了泛華語地區眾多精確的統計數據。本語料庫最大特點是採用「共時性」視窗模式,剖析來自香港,北京,上海,台灣,澳門,星加坡等多地的定量華語媒體語料。直至2020年,LIVAC已處理逾7.0億字,累積並持續提煉出約兩百萬詞條。LIVAC所收集各地語用數據,可供各種比較研究,並方便有關的信息科技發展與應用。此外,語料庫又兼顧了「歷時性」,方便各界以專詞配合語用範圍搜索(KWIC),以便客觀地觀察與研究20年視窗內有代表性的語用發展全面動態。經過協調與配合個別需求,例如針對性以地區、時段或範疇,LIVAC曾為多個公、私營機構提供服務,包括語言工程,資訊服務,詞典編著,媒體分析與教育各方面機構等。LIVAC由香港城市大學語言資訊科學研究中心開發和推展,由城大企業有限公司旗下麒麟(香港)有限公司提供技術支援。2010年至2013年期間,LIVAC曾掛靠於香港教育學院語言資訊科學研究中心。自2013年7月起,LIVAC由麒麟(香港)有限公司獨家維護和開發。
截至2013年10月,LIVAC曾處理過各地語料總字數、及所得詞種如下(單位:百萬)。
總計 |
香港 |
台灣 |
北京 |
上海 |
澳門 |
新加坡 |
廣州 |
|
總字數 |
517 |
122 |
70 |
113 |
66 |
36 |
57 |
43 |
總詞種 |
2.1 |
0.9 |
0.6 |
0.8 |
0.5 |
0.3 |
0.4 |
0.4 |
(2)語料處理:
1. 來自媒體、自行輸入、登錄
2. 統一為文字版,簡轉繁,儲存Big5及Unicode兩版本
3. 電腦自動切詞,電腦自動校對
4. 人工校對、複校,詞類標注
5. 提取詞語,加入各地詞庫
6. 各地詞庫組合為LIVAC大語庫
(3)標注及應用
a. 多種分類,如一般名詞與專用名詞,例如人名;地名;專名(人名、姓氏、半稱謂、地名、機構專名、商用專名、其他專名、時間詞、方位詞、處所詞等);疊詞;外文詞;套裝詞;數詞等。
b. 設人名庫、地名庫、專名庫
c. 提供「專名榜」、「新詞榜」、「名人榜」、「地名榜」,覆合詞及匹配詞
d. 其他標注,如一般名詞;數詞;量詞;多類動詞;多類形容詞;代詞;副詞;介詞;連詞;多類助詞;語氣詞;擬聲詞;嘆詞;不完整詞等。
(4)特點
由於LIVAC語料是多方面平行「共時」、「同步」方式搜集語料,語料來源涵蓋整個泛華語地區,故可協助搜索資料及作分析,是目前有別於其他任何漢語語料庫或同類型研究。這點,特別得到語文界及其他方面專家、學者的認同和重視。同時,由於語料庫歷時十九年,因此「共時性」以外又兼顧了「歷時性」,方便研究人員客觀地探究到視窗內的有代表性的語言發展全面動態。LIVAC所提供的不僅是語言資料,還同時提供共時的社會、文化檔案資料,猶如一個系列性的時間錦囊。
(5)應用
LIVAC提供於編纂多本泛華語詞典的依據,如近年推出的《新華新詞語詞典》 (提供詞條,北京商務印書館2003年出版);《21世紀華語新詞語詞典》(上海復旦大學出版社2007年出版簡體字本,台灣麗文文化事業股份有限公司2008年出版繁體字本);《全球華語新詞語典》(北京商務印書館,2010年出版);《漢英大詞典》(提供新詞詞條,牛津大學出版社,2010年出版);及正在編纂中的逆序詞典、法律詞典、專利詞典等。
LIVAC可為研究各地華語語言與文化比較,例如詞語在各地的使用及演變。
LIVAC還可為語言教學研究和開展,例如對各華語地區學生中文程度的測試、與香港衛生署合作製定香港(粵語)口語能力量表(COLAS)、漢語拼音教學網頁的建立等等。
LIVAC目前最大的一個用途就是應用於資訊科技發展研究,例如用於互聯網上的專名檢索、手提電話中文字頻詞頻的排列和輸入、語音文字的自動轉換等。
多年來為多家國際企業和政府機構合作,提供語料庫研究後勤及開發服務,如中國教育部、香港特區政府衛生署、香港特區政府司法機構、NOKIA(北京)、Tegic(ERICSSON,美國)、YAHOO(香港)、Microsoft(台灣)、NTT Docomo (日本)、BASIS(美國)、無敵科技(台灣、中國大陸)、歐洲Matrixware公司、北京商務印書館、上海復旦大學出版社、牛津大學出版社等。
(6)歷史背景
LIVAC由香港城市大學語言資訊科學研究中心開發和推展,由城大企業有限公司旗下麒麟(香港)有限公司提供技術支援。2010年至2013年期間,LIVAC曾掛靠於香港教育學院語言資訊科學研究中心。自2013年7月起,LIVAC由麒麟(香港)有限公司獨家維護和開發。
LIVAC主要由鄒嘉彥開發並主持研究,期間曾參與研究工作的包括游汝杰、胡百華、鄺藹兒、錢志安、蔡永富、廖國輝、陳加強、周嘉寶等。
(7)網址及查詢
網址: www.livac.org; 電郵: livac.org@hotmail.com
(8)有關著作(含中英文參考書目)
1. 書藉 Books
鄒嘉彥、黎邦洋、陳偉光、王士元(編)(1998),《漢語計量與計算研究》,香港,香港城市大學語言資訊科學研究中心。[目錄]
鄒嘉彥、游汝杰(編)(2007),《21世紀華語新詞語詞典》(簡體字版),上海,復旦大學出版社。[前言]
鄒嘉彥、游汝杰(編)(2008),《21世紀華語新詞語詞典》(繁體字版),台灣,麗文出版社。[前言]
鄒嘉彥、游汝杰(編)(2010),《全球華語新詞語詞典》,北京,商務印書館。[前言]
2. 章節 Book Chapters
鄒嘉彥、黎邦洋(2003),〈漢語共時語料庫與資訊開發〉,徐波、孫茂松、靳光瑾編《中文資訊處理若干重要問題》[《973計劃國家語言自然語言理解與知識扢掘》總體刊物](頁147-165),北京,科學出版社。[全文]
Tsou, Benjamin. (2004). “Chinese Language Processing at the Dawn of the 21st Century” in C R Huang and W Lenders (eds) Language and Linguistics Monograph Series B: Frontiers in Linguistics I, pp189-207. Institute of Linguistics, Academia Sinica. [全文]
鄒嘉彥(2005),〈21世紀初的中文處理〉(呂學強翻譯),俞士汶、黃居仁編《計算語言學前瞻》(頁209-258),北京,商務印書館。[全文]
鄒嘉彥、莫宇航(2013),〈漢語書面語的歷史與現狀:海峽兩岸漢語書面語近年演變:以語料庫為出發點〉,馮勝利編《漢語書面語的歷史與現狀》(頁58-75),北京,北京大學出版社。[全文]
3. 期刊文章 Serial Publications
Tsou, Benjamin, Lin, H.-L., Chan, T., Hu, J.-P., Chew, C.-H. and Tse, J. (1997). “A Synchronous Chinese Language Corpus from Different Speech Communities: Construction and Application” International Journal of Computational Linguistics and Chinese Language Processing, 2(1), pp.91-104. [全文]
Kwong, Olivia. Tsou, Benjamin, and Lai, Tom. (2004). “Alignment and Extraction of Bilingual Legal Terminology from Context Profiles.” Terminology, 10(1), pp.81-99. [全文]
Kwong, Olivia, and Tsou, Benjamin. (2004). “A Synchronous Corpus-Based Study of Verb-Noun Fluidity in Chinese.” Journal of Chinese Language and Computing, 13(3), pp.227-278. [全文]
Kwong, Olivia, and Tsou, Benjamin. (2005). “A Synchronous Corpus-Based Study on the Usage and Perception of Judgement Terms in the Pan-Chinese Context.” International Journal of Computational Linguistics and Chinese Language Processing, 10(4), pp.519-532. [全文]
Kwong, Olivia, and Tsou, Benjamin. (2006). “Feasibility of Enriching a Chinese Synonym Dictionary with a Synchronous Chinese Corpus”. Lecture Notes in Computer Science, 4139, pp.322-332. [全文]
鄒嘉彥、鄺藹兒、路斌、蔡永富(2011),〈漢語共時語料庫與追蹤語料庫: 語料庫語言學的新方向〉,《中文信息學報: 慶祝中國中文信息學會成立三十周年紀念論文集》,25(6),38-45。[全文]