LJCorpus中文语料库合成软件是一套特意针对于中文生语料库的加工、抽取、统计与翻译全自动的综合语料合成零星,运用了争先的汉语词法合成技术、新词发现技术、统计开掘技术以及词语翻译对于齐技术,当初,西南师范大学中文系已经乐成运用该软件对于新加坡的语言妨碍了合成,极猛后退了钻研的功能。
LJCorpus中文语料库合成软件的四大功能主要搜罗:
1. 新词发现:
从给定的大规模文本文件会集合,开掘出外在的新词语列表,可能用于用户业余辞书的编撰。识别出的新词服从还可能进一步编纂标注,编纂好的新词辞书,可能作为业余知识库导入分词辞书中,从而后退分词零星的精确度,并顺应新的语言变更情景。
2. 分词标注:
对于生语料妨碍分词、自动识他人名地名机构名等未登录词、新词标注以及词性标注。并可在合成历程中,导入用户界说的辞书。
3. 统计合成
针对于切分标注服从,零星可能自动地妨碍统计合成,合乐成果搜罗:一元词频统计(统计服从可能凭证词频、词语两种方式排序;并给出详细的一元多少率)、二元词语转移多少率统计(统计两个词摆布衔接的频率即多少率)。
4. 术语翻译
针对于罕用的术语,零星会自动给出响应的英文批注。