Explosion放出了自然语言处理函式

人工智能与自然语言处理工具开发厂商Explosion,放出了自然语言处理函式库spaCy2.2,新版本设计更精简干淨易于开发使用,并且为训练、评估和序列化都加入新的模型套件与功能,改善除错和错误处理,也大幅度地降低磁碟占用容量。spaCy是一个Python的进阶自然语言处理函式库,不只採用最新的人工智能研究,也讲求可用来开发产品的实际可用性,spaCy内建预训练的统计模型和单词向量,以及支援超过50种语言的标记化(Tokenization),还含有可应用在标记、解析和命名实体(Entity)辨识的卷积神经网路,并可与深度学习技术整合。spaCy是一个商业开源软体以MIT授权放出。在新版中,增加了新模型以及资料增强(DataAugmentation)系统。spaCy2.2内建重新训练的统计模型,不只修正错误,也改进对小写字母的处理效能,官方提到,跟其他统计模型遇到的问题一样,spaCy的模型也会对训练资料以及使用者资料产生敏感差异,而目前他们遇到的情形是大小写与形式的问题。由于用于训练的资料都是经过良好编辑的文字,因此在遇到大小写与标点不一致的文字,则会出现正确率下降的问题,为此官方开发了新的资料增强系统,并在spaCy2.2这个版本添加新的单词替换系统,让开发者可于训练模型的过程,在每一遍训练资料集的句子随机子集抽换字词,以解决资料所产生敏感差异。

官方也更新了CLI工具,以改进训练和资料开发流程的各种可用性,特别是在文字分类。新版CLI除了改善错误讯息、更新文件,同时也让评估指标更详细,像是在预设情况下,评估现在按实体类型以及文字类别提供精确的统计。新加入的debug-data命令,可以用来验证训练和开发资料,以获得有用的统计资料,或发现无效的实体注放、循环相依项目和低资料的标籤,官方提到,与其开始训练一段时间后才发现错误,不如先在训练前检查资料,可以更节省时间。由于spaCy支援越来越多语言,因此磁碟占用的容量也越来越多,特别是加入可查询的词形还原表格,这个表格储存成Python档案,并在部分情况会变得非常庞大,现在官方把查询表转换成gzipJSON格式,并移到独立的套件中,只在需要的时候安装,根据系统的不同,spaCy安装缩小5到10倍。spaCy2.2新的DocBin类别可以更加有效率的序列化Doc集合,更快地把一组Doc物件序列化或是反序列化,并自动处理许多细节,在开发者搭配多重处理函式库Dask使用时会特别方便。spaCy以前用于字词配对的的PhraseMatcher演算法,可以轻松扩展到大型查询集,但这个演算法在较少的查询时,表现反而不一定很快,而这造成不直觉的效能特徵,spaCy2.2使用了新的trie演算法,这个演算法是基于标记而非字词,因此配对速度很快,少量查询速度快20倍,即使处理一万个查询速度也快上5倍。




转载请注明:http://www.aierlanlan.com/rzfs/4822.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了