MONPA 罔拍是一個提供正體中文分詞及POS ... | monpa pip
MONPA罔拍是一個提供正體中文斷詞、詞性標註以及命名實體辨識的多任務模型。初期只有網站示範版本(http://nlp.tmu.edu.tw:8080/chunk[1]),本計劃是將monpa包裝成可以pipinstall的pythonpackage(最新版本v0.3.1)。最新版的monpamodel是使用pytorch1.0框架訓練出來的模型,所以在使用本版本前,請先安裝torch1.*以上版本才能正常使用monpa套件。公告-更新版本v0.3.1:新增運用GPU的批次斷詞功能cut_batch及pseg_batch。-前一版本v0.3.0:更小,更快,依然準確。完成pipinstall後不需要再另行下載模型檔。-公開釋出的MONPA僅供學術使...
MONPA 罔拍是一個提供正體中文斷詞、詞性標註以及命名實體辨識的多任務模型。初期只有網站示範版本(http://nlp.tmu.edu.tw:8080/chunk[1]),本計劃是將 monpa 包裝成可以 pip install 的 python package (最新版本 v0.3.1)。
最新版的 monpa model 是使用 pytorch 1.0 框架訓練出來的模型,所以在使用本版本前,請先安裝 torch 1.* 以上版本才能正常使用 monpa 套件。
公告 - 更新版本 v0.3.1:新增運用 GPU 的批次斷詞功能 cut_batch 及 pseg_batch。 - 前一版本 v0.3.0:更小,更快,依然準確。完成 pip install 後不需要再另行下載模型檔。 - 公開釋出的 MONPA 僅供學術使用,請勿使用於商業用途。本團隊亦提供針對專業領域客製模型之服務,歡迎聯絡我們。MONPA v0.2+ 版本是基於 BERT(雙向 Transformer)[1]模型來取得更強健的詞向量(word embeddings)並配合 CRF 同時進行斷詞、詞性標註、及 NER 等多個目標。已與 MONPA v0.1 版本有相當大差異,訓練語料亦與論文內容不同。
MONPA v0.3+ 版本基於 ALBERT [2] 重新訓練,大幅降低模型檔的大小,並加快執行效率。
[1] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, NAACL-HLT 2019.
[2] ALBERT: A Lite BERT for Self-supervised Learning of Language Representations. Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut, ICLR 2020.
開發...