特征工程-特征理解

后面会开始特征工程系列的文章，本文是第一篇：特征理解。

特征理解的作用：告诉你数据集里都有什么？

数据结构有无

结构化数据：能够将数据分成观察值和特征值的数据，一般是表格形式；通常行是观察值，列是特征属性

非结构化数据：作为自由流动的实体，不遵循标准组织结构的数据，比如服务器的日志数据等；一般文本形式的数据都是非结构化的

大部分非结构化的数据能够通过一定的方法转成结构化的数据

处理两种数据：

定量数据：一般使用整数或者浮点数（最好使用浮点数）；

定性数据：一般使用字符串或者Unicode对象

能够进行自然排序。能够执行的操作：

比如评价信息的字段取值为

在数据中我们会使用0-1-2-3，但是这个数值实际上代表的是某个类别，所以仍然是定性的，也是定序的

定类数据和定序数据都是在处理定性数据，即便内容是一个数，也不代表真实的数量，而是某个类别。

定距等级开始处理定量数据。在定距等级，数值数据不仅可以排序，而且值之间的差异也是具有一定的含义。可执行的操作：排序、加减

一个非常经典的例子：温度。昨天温度是20°C，今天是25°C，相差5°C。这样的减法操作在定类和定序等级中是不能执行的

定比等级也是处理定量数据的。可以执行加减运算，还有一个绝对零点的概念，可以做乘除运算。

比如处理金融数据，货币处于定比等级。例如：$100 是 $50 的两倍，存在0这个概念，这样的比较是有意义的

我们一般认为，温度属于定距等级，而不是定比等级，因为100℃比50℃高两倍这种说法没有意义，并不合理。温度是主观的，不是客观正确的。

当你拿到一份数据，可以参考下面的基本流程：

总结每个等级上可行与不可行的操作：

每个等级的不同统计类型：

每个等级上可绘制的图形：