• 注册
当前位置:1313e > 默认分类 >正文

3.有关于数据集的一些思考

三、有关于数据集的思考

什么样的数据集是比较好的?

  1. 一般情况在CV领域中,数据集的好坏由数据集的泛化性能来决定。泛化性能:代表数据的特征是否具有多样性。(猫的数据集:数据集中应该包含不同品种的猫,不同品种要有不同花色的猫,不同大小的猫,各种角度猫的照片…, 这样的数据集可以成为比较好的数据集)。泛化性能是没有上限的,一般来说泛化性能越高越好,但是实际的商业项目中,要考虑公司的财力等更方面来考虑。
  2. 【注意1】:数据集的好坏,严格来说和数据集的数量多少是没有绝对的关系,我们要考虑的重点是数据集的泛化能力。
  3. 【注意2】:对于泛化性能的高低,一般来说是训练集相对于测试集而言的,是相对的。
    这也是目前人工智能处于弱人工智能的原因,一般来说,当前的训练集在一定的环境下进行测试的效果,放到另一个环境中效果却很差,还不能实现通用人工智能。
  4. 同时还需要明白的就是,人工智能就是人可以做到的,人工智能也可以做到,如果人做不到的,从软件的层面来说,算法也是很难做到的,除非可以提升硬件的能力,例如:升级摄像头的像素。

数据集的划分

数据集在实际的模型训练和评估时包含的这样以下三个部分:

  1. 训练集:用于算法的训练
  2. 验证集:用于在原始数据集中,分成两个部分,训练集和验证集,在训练的过程中,每当训练到一定的批次,就利用验证集对算法的精确度等进行测试。
  3. 测试集:一般是与原始的数据集不同的数据,用于模型训练结束之后,对算法的性能进行评估测试用的。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 162202241@qq.com 举报,一经查实,本站将立刻删除。

最新评论

欢迎您发表评论:

请登录之后再进行评论

登录