文章

图像

深度学习之图像相关要点。

图像

图像的形状格式

b: batch 或 batch size

h: height

w: width

c: channel

PIL类型的顺序是(h, w, c)

tensorflow,numpy的顺序是(b, h, w, c)或(h, w, c)

pytorch的顺序是(b, c, h, w)或(c, h, w)

图像格式

  1. PIL(Python Imaging Library)库,from PIL import Image。 Image.open()返回的是一个PIL.JpegImagePlugin.JpegImageFilePIL.PngImagePlugin.PngImageFile等格式的对象,取决于所打开图像的文件类型。
  2. 在PNG图像中,像素值可以被编码为灰度值、RGB值或RGBA值。
  3. 如果图片是png格式,Image.open()将其解析为RGBA格式
  4. 而在RGBA格式中,每个像素的红、绿、蓝三个通道的值都是255,透明度通道的值是0,这就导致了所有像素的值都是255;这个问题可能会导致你无法正确地使用图像数据进行训练或者其他处理。
  5. 需要将RGBA转换为RGB:
    1
    2
    3
    
    from PIL import Image
    imagePath = "E:\\a.png"
    img = Image.open(imagePath).convert('RGB')
    

图像对训练和预测效果的影响

  • 图像的清晰度:训练图像清晰度低,预测图像清晰度高,很可能会导致,预测效果不好。
  • 图像数量(数据集大小):要想训练的模型适应尽可能多的工业情况,需要用尽可能多和特征丰富的数据集进行训练。
本文由作者按照 CC BY 4.0 进行授权