中国第一个现代汉语计算机分词系统1986年通过鉴定
中国第一个现代汉语计算机分词系统是“现代汉语词频统计”。这项科研项目是由国家科委下达,国家标准局主管,并由北京航空学院、中国人民大学、北京大学等10个单位协作完成的。
1982年初上马,1986年6月30日在北京通过国家鉴定,历时4年半。
它的选材范围是从1919年至1982年,分为民主革命、社会主义建设、“文革”和调整等四个历史时期;
内容包括社会科学和自然科学两大类,分为政治经济、文化艺术、新闻报道、工业、农业及基础知识等10个学科;
共选取了近3亿字的原始素材,从中抽取两千多万字的样本,然后利用计算机根据现代汉语词典、辞海、汉英词典等23部词典汇集的13万余词条作底表,按专门的分词原则进行自动分词统计,共得出不同类别、学科、时期、排序的50多种统计结果。