Royeqiumonpa | monpa python
MONPA罔拍是一個提供正體中文斷詞、詞性標註以及命名實體辨識的多任務模型。初期只有使用原始模型(v0.1)的網站版本(http://monpa.iis.sinica.edu.tw:9000/chunk[1]),本計劃將把新版monpa(v0.2)包裝成可以pipinstall的pythonpackage。(提醒:因網站版為v0.1,與python套件版v0.2以上的斷詞結果可能不同。)最新版的monpamodel是使用pytorch1.0框架訓練出來的模型,所以在使用本版本前,請先安裝torch1.*以上版本才能正常使用monpa套件。公告-茲因部分訓練語料標註結果之授權範圍待釐清,故暫停monpa模型檔下載。-pipinstallmonpa將...
MONPA 罔拍是一個提供正體中文斷詞、詞性標註以及命名實體辨識的多任務模型。初期只有使用原始模型(v0.1)的網站版本(http://monpa.iis.sinica.edu.tw:9000/chunk[1]),本計劃將把新版 monpa (v0.2) 包裝成可以 pip install 的 python package。(提醒:因網站版為 v0.1,與 python 套件版 v0.2 以上的斷詞結果可能不同。)
最新版的 monpa model 是使用 pytorch 1.0 框架訓練出來的模型,所以在使用本版本前,請先安裝 torch 1.* 以上版本才能正常使用 monpa 套件。
公告 - 茲因部分訓練語料標註結果之授權範圍待釐清,故暫停 monpa 模型檔下載。 - pip install monpa 將只安裝 python 套件,執行後將不再自動下載模型檔。 - MONPA 僅供學術使用。已下載使用,請勿再散播或使用於商業用途。注意:
建議以原文輸入 monpa 完成斷詞後,再視需求濾掉停留字(stopword)及標點符號(punctuation)。 每次輸入予 monpa 做斷詞的原文超過 140 字元的部分將被截斷丟失,建議先完成合適長度分句後再應用 monpa 斷詞。可參考 wiki 如何將長文切成短句再用 monpa 斷詞?[2]) 支援 python >= 3.6,不支援 python 2.x。 安裝 monpa 套件monpa 已經支援直接使用 pip 指令安裝,各作業系統的安裝步驟都相同。
安裝時將自動檢查有無 torch >= 1.0 及 requests 等套件,若無則由 pip 直接安裝。
使用 monpa 的簡單範例引入 monpa 的 python package。
注意:因應 pip 安裝的檔案大小限制,所以在第一次 import monpa 時將下載 model 檔,約 200 MB (實際大小:216681674 KB)。採分次下載,請務必等待下載完成。
等看到#已完成 monpa model 下載,歡迎使用。Download completed.提示才表示下載完成。
如果下載不完...