Introduction to LIVAC SEGMENT Online |
各位訪問用戶都可試用LIVAC中文自動分詞系統。因為系統總容量的限制,用戶初步每次可將最多1000字的語料輸入LIVAC分詞引擎。如果用戶使用郵箱註冊一個賬戶,語料字數上限將達到2000字。我們對此表示歉意。 中文自動分詞,是將一連串中文漢字分為有意義的單位(詞)的過程。由於中文語料中並沒有明顯的詞的界限,這並非簡簡單單就能做到,是中文語言處理中至關重要的第一步。 要處理這個問題有很多方法,比如詞典導向,規則導向,數據導向,或者混合導向的方法。我們運用機器學習的方式處理經過人工檢閱的LIVAC語料(http://www.livac.org) 訓練分詞引擎。分詞引擎的繁體版本使用歷時10年的香港語料,而簡體版本使用大致相同時段的北京語料。 |
按此進入切詞系統 |