MNIST
- MNIST 데이터셋은 미국 국립표준기술원(NIST)이 고등학생과 인구조사국 직원 등이 쓴 손글씨를 이용해 만든 데이터로 구성되어 있다.
- 60,000개의 글자 이미지에 각각 0부터 9까지 이름표를 붙인 데이터셋으로, 머신러닝을 배우는 사람이라면 자신의 알고리즘과 다른 알고리즘의 성과를 비교해 보고자 한 번씩 도전해 보는 가장 유명한 데이터 중 하나이다.
- 각 이미지는 28 * 28 픽셀 크기로 되어있다.
1. 데이터셋
- Mnist 데이터셋에는 총 60,000개의 데이터가 있는데, 이 데이터는 크게 아래와 같이 세종류의 데이터 셋으로 나눠 진다.
- 모델 학습을 위한 학습용 데이터인 mnist.train 그리고, 학습된 모델을 테스트하기 위한 테스트 데이터 셋은 minst.test, 그리고 모델을 확인하기 위한 mnist.validation 데이터셋으로 구별된다.
- 각 데이터는 아래와 같이 학습용 데이터 55,000개, 테스트용 10,000개, 그리고, 모델 확인용 데이터 5000개로 구성되어 있다.
데이터셋 명 | 행렬 차원 | 데이터 종류 |
---|---|---|
mnist.train.images | 55000 x 784 | 학습 이미지 데이터 |
mnist.train.labels | 55000 x 10 | 학습 라벨 데이터 |
mnist.test.images | 10000 x 784 | 테스트용 이미지 데이터 |
mnist.test.labels | 10000 x 10 | 테스트용 라벨 데이터 |
mnist.validation.images | 5000 x 784 | 확인용 이미지 데이터 |
mnist.validation.labels | 5000 x 10 | 확인용 라벨 데이터 |
학습이 늘어나면 cost 가 줄어들기는 하는데 cost가 일정 학습횟수에서 더이상 줄어들지 않을때까지 학습