有任何問題或需大規模使用請聯繫:shen@mail.bnu.edu.cn

古文

※小技巧:上下文稍長效果更好,輸入80-90字好於10-20字。
0/400

斷句結果

標記: 人名地名年號
多元古籍信息標注
支持自動標記句讀標點、書名、專名等。即使處理大規模文本,仍能立等可取。
可靠的性能讓人力成本降低50%以上*
基於先進的深度學習(Deep Learning)算法,通過在數十億字古漢語文本上進行長時間訓練,標記準確率超過90%**,相當於中文專業碩士水平***
安全必不可少
網站採用HTTPS加密,處理過程中不做任何存儲,保證數據安全。
如利用本工具,請引用
胡韌奮,李紳,諸雨辰,2021,基於深層語言模型的古漢語知識表示及自動斷句研究,中文信息學報,35(4),8-15。查看原文
服務於
北京師範大學
中華書局-古聯數字傳媒
浙江大學
北京大學
台灣中山大學
香港大學
南京大學
河北師範大學
渤海大學
腾讯
*如果一個人標記一遍文本,兩個人校對兩遍文本,至少有50%的時間花費在第一次添加標記上。
**此數值為線下測試結果,測試數據包括:詩、詞、古文等,標點、書名、實體的準確率均在90%以上,引號考慮到不同出版要求未做統一評測。
***基於對曾參與古籍整理項目的碩士博士學生的抽樣調查。