이미지는 전형적으로 높이, 너비, 컬러 채널의 3차원으로 이루어집니다.(MNIST 숫자처럼) 흑백이미지는 하나의 컬러 채널만을 가지고 있어 2D 텐서로 저장될 수 있지만 관례상 이미지 텐서는 항상 3D로 저장됩니다. 흑백 이미지의 경우 컬러 채널의 차원 크기는 1입니다. 256 * 256 크기의 흑백 이미지에 대한 128개의 배치는 (128, 256, 256, 1) 크기의 텐서에 저장될 수 있습니다. 컬러 이미지에 대한 128개의 배치라면 (128, 256, 256, 3) 크기의 텐서에 저장될 수 있습니다.
이미지 텐서의 크기를 지정하는 방식은 두 가지 입니다.(텐서플로에서는 사용하는) 채널 마지막(channel-last)방식과 (씨아노에서 사용하는) 채널 우선(channel-first)방식입니다. 구글의 텐서플로 머신 러닝 프레임워크는 (sample, height, width, color_depth)처럼 컬러 채널의 깊이를 끌어 놓습니다. 반면에 씨아노는 (sample, color_depth, height, width)처럼 컬러 채널의 깊이를 배치 축 바로 뒤에 놓스빈다. 씨아노 방식을 사용하면 앞선 예는 (128, 1, 256, 256)과( 128, 3, 256, 256)이 됩니다. 케라스 프레임워크는 두 형식을 모두 지원합니다.