페이지

2022년 7월 17일 일요일

2.2.9 벡터 데이터

 대부분의 경우에 해당됩니다. 이런 데이터셋에선느 하나의 데이터 포인트가 벡터로 인코딩될 수 있으므로 배치 데이터는 2D 텐서로 인코딩될 것입니다(즉 벡터의 배열입니다). 여기서 첫 번째 축은 샘플 축이고, 두 번째 축은 특성 축(feature axis) 입니다.

2개의 예를 살펴보겠습니다.

- 사람의 나이, 우편 번호, 소득으로 구성된 인구 통계 데이터, 각 사람은 3개의 값을 가진 백터로 구성되고 10만 명이 포함된 전체 데이터셋은 (100000, 3) 크기의 텐서에 저장될 수 있습니다.

- (공통 단어 2만 개로 만든 사전에서) 각 단어가 등장한 횟수로 표현된 텍스트 문서 데이터셋, 각 문서는 2만 개의 원소(사전에 있는 단어마다 하나의 원소에 대응합니다)를 가진 벡터로 인코딩될 수 있습니다. 500개의 문서로 이루어진 전체 데이터섯은 (500, 20000) 크기의 텐서로 저장됩니다.

댓글 없음: