图像
深度学习之图像相关要点。
图像
图像的形状格式
b: batch 或 batch size
h: height
w: width
c: channel
PIL类型的顺序是(h, w, c)
tensorflow,numpy的顺序是(b, h, w, c)或(h, w, c)
pytorch的顺序是(b, c, h, w)或(c, h, w)
图像格式
- PIL(Python Imaging Library)库,from PIL import Image。 Image.open()返回的是一个PIL.JpegImagePlugin.JpegImageFile或PIL.PngImagePlugin.PngImageFile等格式的对象,取决于所打开图像的文件类型。
- 在PNG图像中,像素值可以被编码为灰度值、RGB值或RGBA值。
- 如果图片是png格式,Image.open()将其解析为
RGBA格式
。 - 而在RGBA格式中,每个像素的红、绿、蓝三个通道的值都是255,透明度通道的值是0,这就导致了所有像素的值都是255;这个问题可能会导致你
无法正确
地使用图像数据进行训练或者其他处理。 - 需要将RGBA转换为RGB:
1 2 3
from PIL import Image imagePath = "E:\\a.png" img = Image.open(imagePath).convert('RGB')
图像对训练和预测效果的影响
- 图像的清晰度:训练图像清晰度低,预测图像清晰度高,很可能会导致,预测效果不好。
- 图像数量(数据集大小):要想训练的模型适应尽可能多的工业情况,需要用尽可能多和特征丰富的数据集进行训练。
本文由作者按照 CC BY 4.0 进行授权