利用scikit-learn机器学习库进行气体传感器数据分析——环境的安装与搭建

前一阵子自己尝试开荒了scikit-learn的一部分功能,原因是科研课题中需要对采集到的气体传感器数据进行分析,现在此记录。

需求

需求是一切的根本,在本课题中,我需要对4只电阻式半导体气体传感器读取的数据进行分析和识别。每只传感器采集了540组数据,且观察原始数据可以发现不同样本之间差别主要是传感器的响应不同,因此,共提取了最能代表传感器响应大小的三种特征:方差、积分、均值。一共有5种样本共计480组数据,我们这里选取整个数据集中的75组进行分析,即一共有5种样本,每个样本有15组数据。只选择75组数据意在说明库函数的使用方法。

scikit-learn库简介

有了机器学习的需求,下面要在各种工具中选一种最适合自己的,常见的机器学习库有TensorFlow,scikit-learn等。scikit-learn 是基于 Python 语言的机器学习工具

  • 简单高效的数据挖掘和数据分析工具
  • 可供大家在各种环境中重复使用
  • 建立在 NumPy ,SciPy 和 matplotlib 上
  • 开源,可商业使用 – BSD许可证
    这里是sklearn的官方网站:
    [https://scikit-learn.org/stable/ ]
    Scikit-learn的基本功能主要被分为六大部分:分类,回归,聚类,数据降维,模型选择和数据预处理。在本次课题中,我主要使用到了数据降维与分类两种功能。

Python环境的搭建

由于sklearn库是基于python的基础上,如果想要使用,那么第一步就是在电脑上搭建一个python环境。这里我使用了Anaconda包管理工具,可以同时建立多个不同python环境的虚拟环境。关于anaconda的说明,下面这篇文章写的非常详细:
[ https://www.jianshu.com/p/62f155eb6ac5 ]
我这里使用的是Mac电脑,所以先以Mac为主:由于anaconda的网站在墙外,直连网速可能会很慢,我是使用下面的方法安装的:

Anaconda的安装

使用清华镜像站提供的源进行安装,链接如下:
[ https://mirror.tuna.tsinghua.edu.cn/anaconda/archive/ ]
打开后拉到最下方,选择合适自己电脑版本的anaconda下载即可,下载完成后按照安装文件的提示一步一步进行安装即可。对于Windows,需要自行添加环境变量,具体百度即可解决。
安装完成后可以打开terminal输入 conda —-version如果可以正常显示版本号说明安装成功。

scikit-learn库的安装

安装好anaconda之后,即可开始进行虚拟环境的建立并安装sklearn。

  1. 首先进行虚拟环境的建立:
    打开terminal,输入命令conda create -n your_env_name python=X.X(2.7、3.6等)命令创建python版本为X.X、名字为your_env_name的虚拟环境。your_env_name文件可以在Anaconda安装目录envs文件下找到。我这里命名的环境是skenv。
  2. 等待terminal查询环境完毕之后,输入y开始下载依赖包。
  3. 使用命令conda activate skenv激活虚拟环境,显示效果如图即为正常情况:(img)
  4. 使用conda install scikit-learn安装sklearn库。
  5. 使用以下代码即可检查安装是否正确:
    conda list scikit-learn
    python -c "import sklearn; sklearn.show_versions()"
    显示以上内容(版本号)即为安装成功,可以使用conda update conda进行升级,同时可以输入conda -h等命令查看常用指令。

以下为sklearn的官方安装说明:

https://scikit-learn.org/stable/install.html

吴志远