LIVAC汉语共时语料库(Linguistic Variation in Chinese Speech Communities)与众不同,因为它以严紧、恒常与“共时”方式,搜索和处理了超常的大量汉语具代表性报章语料,并通过精密的技术,累积了泛华语地区众多精确的统计数据。本语料库最大特点是采用“共时性”视窗模式,剖析来自香港,北京,上海,台湾,澳门,星加坡等多地的定量华语媒体语料。直至2020年,LIVAC已处理逾7.0亿字,累积并持续提炼出约两百万词条。LIVAC所收集各地语用数据,可供各种比较研究,并方便有关的信息科技发展与应用。此外,语料库又兼顾了“历时性”,方便各界以专词配合语用范围搜索(KWIC),以便客观地观察与研究20年视窗内有代表性的语用发展全面动态。经过协调与配合个别需求,例如针对性以地区、时段或范畴,LIVAC曾为多个公、私营机构提供服务,包括语言工程,资讯服务,词典编著,媒体分析与教育各方面机构等。LIVAC由香港城市大学语言资讯科学研究中心开发和推展,由城大企业有限公司旗下麒麟(香港)有限公司提供技术支援。2010年至 SPAN>2013年期间,LIVAC曾挂靠于香港教育学院语言资讯科学研究中心。自2013年7月起,LIVAC由麒麟(香港)有限公司独家维护和开发。
截至2013年10月,LIVAC曾处理过各地语料总字数、及所得词种如下(单位:百万)。
总计 |
香港 |
台湾 |
北京 |
上海 |
澳门 |
新加坡 |
广州 |
|
总字数 |
517 |
122 |
70 |
113 |
66 |
36 |
57 |
43 |
总词种 |
2.1 |
0.9 |
0.6 |
0.8 |
0.5 |
0.3 |
0.4 |
0.4 |
(2)语料处理:
1. 来自媒体、自行输入、登录
2. 统一为文字版,简转繁,储存Big5及Unicode两版本
3. 电脑自动切词,电脑自动校对
4. 人工校对、复校,词类标注
5. 提取词语,加入各地词库
6. 各地词库组合为LIVAC大语库
(3)标注及应用
a. 多种分类,如一般名词与专用名词,例如人名;地名;专名(人名、姓氏、半称谓、地名、机构专名、商用专名、其他专名、时间词、方位词、处所词等);叠词;外文词;套装词;数词等。
b. 设人名库、地名库、专名库
c. 提供“专名榜”、“新词榜”、“名人榜”、“地名榜”,覆合词及匹配词
d. 其他标注,如一般名词;数词;量词;多类动词;多类形容词;代词;副词;介词;连词;多类助词;语气词;拟声词;叹词;不完整词等。
(4)特点
由于LIVAC语料是多方面平行“共时”、“同步”方式搜集语料,语料来源涵盖整个泛华语地区,故可协助搜索资料及作分析,是目前有别于其他任何汉语语料库或同类型研究。这点,特别得到语文界及其他方面专家、学者的认同和重视。同时,由于语料库历时十九年,因此“共时性”以外又兼顾了“历时性”,方便研究人员客观地探究到视窗内的有代表性的语言发展全面动态。LIVAC所提供的不仅是语言资料,还同时提供共时的社会、文化档案资料,犹如一个系列性的时间锦囊。
(5)应用
LIVAC提供于编纂多本泛华语词典的依据,如近年推出的《新华新词语词典》 (提供词条,北京商务印书馆2003年出版);《21世纪华语新词语词典》(上海复旦大学出版社2007年出版简体字本,台湾丽文文化事业股份有限公司2008年出版繁体字本);《全球华语新词语典》(北京商务印书馆,2010年出版);《汉英大词典》(提供新词词条,牛津大学出版社,2010年出版);及正在编纂中的逆序词典、法律词典、专利词典等。
LIVAC可为研究各地华语语言与文化比较,例如词语在各地的使用及演变。
LIVAC还可为语言教学研究和开展,例如对各华语地区学生中文程度的测试、与香港卫生署合作制定香港(粤语)口语能力量表(COLAS)、汉语拼音教学网页的建立等等。
LIVAC目前最大的一个用途就是应用于资讯科技发展研究,例如用于互联网上的专名检索、手提电话中文字频词频的排列和输入、语音文字的自动转换等。
多年来为多家国际企业和政府机构合作,提供语料库研究后勤及开发服务,如中国教育部、香港特区政府卫生署、香港特区政府司法机构、NOKIA(北京)、Tegic(ERICSSON,美国)、YAHOO(香港)、Microsoft(台湾)、NTT Docomo (日本)、BASIS(美国)、无敌科技(台湾、中国大陆)、欧洲Matrixware公司、北京商务印书馆、上海复旦大学出版社、牛津大学出版社等。
(6)历史背景
LIVAC由香港城市大学语言资讯科学研究中心开发和推展,由城大企业有限公司旗下麒麟(香港)有限公司提供技术支援。2010年至2013年期间,LIVAC曾挂靠于香港教育学院语言资讯科学研究中心。自2013年7月起,LIVAC由麒麟(香港)有限公司独家维护和开发。
LIVAC主要由邹嘉彦开发并主持研究,期间曾参与研究工作的包括游汝杰、胡百华、邝蔼儿、钱志安、蔡永富、廖国辉、陈加强、周嘉宝等。
(7)网址及查询
网址: www.livac.org; 电邮: livac.org@hotmail.com
(8)有关著作(含中英文参考书目)
1. 书藉 Books
邹嘉彦、黎邦洋、陈伟光、王士元(编)(1998),《汉语计量与计算研究》,香港,香港城市大学语言资讯科学研究中心。[目录]
邹嘉彦、游汝杰(编)(2007),《21世纪华语新词语词典》(简体字版),上海,复旦大学出版社。[前言]
邹嘉彦、游汝杰(编)(2008),《21世纪华语新词语词典》(繁体字版),台湾,丽文出版社。[前言]
邹嘉彦、游汝杰(编)(2010),《全球华语新词语词典》,北京,商务印书馆。[前言]
2. 章节 Book Chapters
邹嘉彦、黎邦洋(2003),〈汉语共时语料库与资讯开发〉,徐波、孙茂松、靳光瑾编《中文资讯处理若干重要问题》〔《973计划国家语言自然语言理解与知识扢掘》总体刊物〕(页147-165),北京,科学出版社。[全文]
Tsou, Benjamin. (2004). “Chinese Language Processing at the Dawn of the 21st Century” in C R Huang and W Lenders (eds) Language and Linguistics Monograph Series B: Frontiers in Linguistics I, pp189-207. Institute of Linguistics, Academia Sinica. [全文]
邹嘉彦(2005),〈21世纪初的中文处理〉(吕学强翻译),俞士汶、黄居仁编《计算语言学前瞻》(页209-258),北京,商务印书馆。[全文]
邹嘉彦、莫宇航(2013),〈汉语书面语的历史与现状:海峡两岸汉语书面语近年演变:以语料库为出发点〉,冯胜利编《汉语书面语的历史与现状》(页58-75),北京,北京大学出版社。[全文]
3. 期刊文章 Serial Publications
Tsou, Benjamin, Lin, H.-L., Chan, T., Hu, J.-P., Chew, C.-H. and Tse, J. (1997). “A Synchronous Chinese Language Corpus from Different Speech Communities: Construction and Application” International Journal of Computational Linguistics and Chinese Language Processing, 2(1), pp.91-104. [全文]
Kwong, Olivia. Tsou, Benjamin, and Lai, Tom. (2004). “Alignment and Extraction of Bilingual Legal Terminology from Context Profiles.” Terminology, 10(1), pp.81-99. [全文]
Kwong, Olivia, and Tsou, Benjamin. (2004). “A Synchronous Corpus-Based Study of Verb-Noun Fluidity in Chinese.” Journal of Chinese Language and Computing, 13(3), pp.227-278. [全文]
Kwong, Olivia, and Tsou, Benjamin. (2005). “A Synchronous Corpus-Based Study on the Usage and Perception of Judgement Terms in the Pan-Chinese Context.” International Journal of Computational Linguistics and Chinese Language Processing, 10(4), pp.519-532. [全文]
Kwong, Olivia, and Tsou, Benjamin. (2006). “Feasibility of Enriching a Chinese Synonym Dictionary with a Synchronous Chinese Corpus”. Lecture Notes in Computer Science, 4139, pp.322-332. [全文]
邹嘉彦、邝蔼儿、路斌、蔡永富(2011),〈汉语共时语料库与追踪语料库: 语料库语言学的新方向〉,《中文信息学报: 庆祝中国中文信息学会成立三十周年纪念论文集》,25(6),38-45。[全文]