五大常用数据科学Python库

白癜风治疗方法 http://baidianfeng.39.net/a_zczz/190812/7375991.html

目录

介绍PandasNLTKTextBlobpyLDAvisNetworkX摘要参考引用介绍

处理数据的过程消耗了人们在日常工作中的大量时间,而且我也经历过。我不仅处理过数值数据,还处理过文本数据,这需要大量的预处理,可以通过nltk、textblob和pyldavis等库来帮助。

下面我将讨论这些库的概述和具体的功能、关于安装的代码,以及如何使用这些有益的库的示例。

Pandas

Pandas库[3]对于致力于探索性数据分析的数据科学家来说是一个必不可少的库。顾名思义,它使用pandas来分析你的数据,或者更具体地说,pandas数据帧。

以下是一些你可以从HTML报表中访问和查看的功能:

类型推断唯一值缺少值分位数统计(例如,中位数)描述性统计直方图相关性(如皮尔逊)文本分析如何安装?

使用pip:

pipinstall-Upandas-profiling[notebook]jupyternbextensionenable--pywidgetsnbextension这种方式对我也很管用:pipinstallpandas-profilingimportpandas_profiling例子:

下面是我们可以从profilereport功能访问的可视化示例之一。可以看到一个易于理解的彩色的相关性可视化图。

局限性:

如果有一个大的数据集,这个概要报告可能需要相当长的时间。我的解决方案是要么简单地使用较小的数据集,要么对整个数据集进行采样。

NLTK

通常与nltk相关的术语是NLP,或者自然语言处理,它是数据科学(和其他学科)的一个分支,它更容易地包含对文本的处理。导入nltk之后,你可以更轻松地分析文本。

以下是你可以使用nltk访问的一些功能:

标记化文本(例如,[“标记化”,“文本”])词性标记词干提取和词形还原如何安装:

pipinstallnltkimportnltk例子:

importnltkthing_to_tokenize=“alongsentencewithwords”tokens=nltk.word_tokenize(thing_to_tokenize)tokensreturns:[“a”,“long”,“sentence”,“with”,“words”]我们需分开每个单词,以便对其进行分析。

在某些情况下需要分隔单词。然后它们可以被标记、计数,机器学习算法的新指标可以使用这些输入来创建预测。利用nltk的另一个有用的特性是文本可以用于情感分析。情感分析在很多企业中都很重要,尤其是那些有客户评论的企业。现在我们讨论情感分析,让我们看看另一个有助于快速情感分析的库。

TextBlob

TextBlob[8]与nltk有很多相同的优点,但是它的情感分析功能非常出色。除了分析之外,它还具有利用朴素贝叶斯和决策树支持分类的功能。

以下是你可以使用TextBlob访问的一些功能:

标记化词性标注分类拼写更正情感分析如何安装:

pipinstalltextblobfromtextblobimportTextBlob例子:

情感分析:

review=TextBlob(“hereisagreattextblobaboutwonderfulDataScience”)review.sentimentreturns:Sentiment(polarity=0.80,subjectivity=0.44)正常浮点范围为[-1.0,1.0],而积极情感介于[0.0,1.0]之间。

分类:

fromtextblob.classifiersimportNaiveBayesClassifiertraining_data=[(‘sentenceexamplegoodone’,‘pos’),(‘sentenceexamplegreattwo’,‘pos’),(‘sentenceexamplebadthree’,‘neg’),(‘sentenceexampleworsefour’,‘neg’)]testing_data=[(‘sentenceexamplegood’,‘pos’),(‘sentenceexamplegreat’,‘pos’)]cl=NaiveBayesClassifier(training_data)你可以使用这个分类器对文本进行分类,该分类器将返回“pos”或“neg”输出。

这些来自textblob的简单代码提供了非常强大和有用的情感分析和分类。

pyLDAvis

另一个使用NLP的工具是pyLDAvis[10]。它是一个交互式主题模型可视化工具的库。例如,当我使用LDA(潜Dirichlet分布)执行主题模型时,我通常会看到单元格中的主题输出,这可能很难阅读。然而当它出现在一个很好的视觉总结中时,它会更有益,也更容易消化,就像pyLDAvis一样。

以下是你可以使用pyLDAvis访问的一些功能:

显示了前30个最突出的术语有一个交互式调整器,允许你滑动相关性度量显示x轴上的PC1和y轴上的PC2的热门主题显示与大小对应的主题总的来说,这是一种让人印象深刻的主题可视化方式,这是其他任何库都无法做到的。

如何安装:

pipinstallpyldavisimportpyldavis例子:

为了看到最好的例子,这里有一个JupyterNotebook[11]参考资料,它展示了这个数据科学库的许多独特和有益的特性:


转载请注明:http://www.aierlanlan.com/cyrz/950.html

  • 上一篇文章:
  •   
  • 下一篇文章: