三、有关于数据集的思考
什么样的数据集是比较好的?
- 一般情况在CV领域中,数据集的好坏由数据集的泛化性能来决定。泛化性能:代表数据的特征是否具有多样性。(猫的数据集:数据集中应该包含不同品种的猫,不同品种要有不同花色的猫,不同大小的猫,各种角度猫的照片…, 这样的数据集可以成为比较好的数据集)。泛化性能是没有上限的,一般来说泛化性能越高越好,但是实际的商业项目中,要考虑公司的财力等更方面来考虑。
- 【注意1】:数据集的好坏,严格来说和数据集的数量多少是没有绝对的关系,我们要考虑的重点是数据集的泛化能力。
- 【注意2】:对于泛化性能的高低,一般来说是训练集相对于测试集而言的,是相对的。
这也是目前人工智能处于弱人工智能的原因,一般来说,当前的训练集在一定的环境下进行测试的效果,放到另一个环境中效果却很差,还不能实现通用人工智能。 - 同时还需要明白的就是,人工智能就是人可以做到的,人工智能也可以做到,如果人做不到的,从软件的层面来说,算法也是很难做到的,除非可以提升硬件的能力,例如:升级摄像头的像素。
数据集的划分
数据集在实际的模型训练和评估时包含的这样以下三个部分:
- 训练集:用于算法的训练
- 验证集:用于在原始数据集中,分成两个部分,训练集和验证集,在训练的过程中,每当训练到一定的批次,就利用验证集对算法的精确度等进行测试。
- 测试集:一般是与原始的数据集不同的数据,用于模型训练结束之后,对算法的性能进行评估测试用的。