Introduction to LIVAC SEGMENT Online |
各位访问用户都可试用LIVAC中文自动分词系统。因为系统总容量的限制,用户初步每次可将最多1000字的语料输入LIVAC分词引擎。如果用户使用邮箱注册一个账户,语料字数上限将达到2000字。我们对此表示歉意。 中文自动分词,是将一连串中文汉字分为有意义的单位(词)的过程。由于中文语料中并没有明显的词的界限,这并非简简单单就能做到,是中文语言处理中至关重要的第一步。 要处理这个问题有很多方法,比如词典导向,规则导向,数据导向,或者混合导向的方法。我们运用机器学习的方式处理经过人工检阅的LIVAC语料(http://www.livac.org) 训练分词引擎。分词引擎的繁体版本使用历时10年的香港语料,而简体版本使用大致相同时段的北京语料。 |
按此进入分词系统 |