新闻中心

特征工程第四篇:特征构建与衍生md

作者:澳门赌场  来源:澳门真人正规官网  时间:2020-11-30 11:03  点击:

  一般定性变量使用的是**众数来进行填充,而不是均值,**它计算均值并不符合实际情况

  设置参数strategy = most_frequent,可以进行定性数据的填充,但它无法解决非数值型的分类变量,比如文本型

  我们也还是采取Pipeline的方式来进行,因此可以事先基于TransformMixin基类来对填充的方法进行封装,然后直接在Pipeline中进行调用,代码可以参考

  虽然我们已经把分类变量的缺失值问题解决了,但是机器学习模型的输入数据都是要求数值型

  我们必须制定需要热编码的列,不指定列的话,它将全部进行编码将变得毫无意义

  标签编码是针对定序变量的,也就是有顺序大小的类别变量,就好像案例中的变量ordinal_column的值(dislike、somewhat like 和 like 可以分别用0、1、2来表示)

  比如年龄,我们需要分成年龄段,这里我们可以使用pandas的cut函数来实现

  综上,我们可以对上面自定义的方法一并在Pipeline中进行调用,Pipeline的顺序为:

  文本处理一般在NLP(自然语言处理)领域应用最为广泛,一般都是需要把文本进行向量化,最为常见的方法有 词袋(bag of words)、CountVectorizer、TF-IDF。

  将文本转换为矩阵,每列代表一个词语,每行代表一个文档,所以一般出来的矩阵会是非常稀疏的,在sklearn.feature_extraction.text中调用CountVectorizer即可使用。

  还有好多参数,不一一介绍了,因为大部分都是应对英文的,中文的大多无法使用

  TF:即Term Frequency,词频,也就是单词在文档中出现的频率。 IDF:即Inverse Document Frequency,逆文档频率,用于衡量单词的重要度,如果单词在多份文档中出现,就会被降低权重。

  特征构造和衍生,需要大量时间的投入,尤其在出现文本数据的应用上,在变量特征的编码、分箱、组合等多个角度思考,同时注意结合流水线的应用,最大可能提升我们的效率

澳门赌场

上一篇:2020抚顺Lc绞龙输送机价格多少供不应求

下一篇:化学分析仪公司名单