페이지

2018년 1월 13일 토요일

2, 기본 사용법

가. R과 R Studio의 구성
1) R의 구성
2) R Studiio의 구성

나. R 패키지 설치하기
R은 오픈 소스 프로그램이므로 다양한 개인들이 자신들만의 함수로 여러 기능을 제작하여 누구나 설치할 수 있는 패키지의 형태로 배포하고 있다. 이를 통해 최신 통계 이론을 적용한 패키지를 설치하여 분석을 실시할 수도 있고 각종 복잡한 그래프 설정에 대해 미리 정의해둔 패키지를 설치하면 복잡한 그림들을 손쉽게 그릴 수도 있다. 또한 기본 프로그램인 R(base)에서 지원하지 않는 명령어나 함수를 사용할 수 있으며 유용한 데이터셋이 내장되어 있는 패키지를 이용할 수도 있다.

R 패키지를 설치하기 위해 상단 메뉴바의 패키지툴을 클릭하고 패키지(를 ) 철치하기... 를 클릭한다. CRAN 미러사이트가 설정되어있지 않다면 CRAN 미러사이트를 지정하는 창이 뜬다. 미러사이트 설정되면 현재 설치할 수 있는 모든 패키지들의 목록이 알파벳순서로 나열된다. 설치하고자 하는 패키지를 찾아 선택하고 OK 버튼을 클릭하면 자동적으로 패키지 설치가 진행된다.

R Studio를 이용하면 패키지 설치도 간편하게 진행할 수 있다. 우측 하단 인터페이스의 Packages 탭을 클릭한 후 Install을 클릭하면 창이 새로 나타난다. 이 창에 패키지 이름을 입력하면 설치가 진행된다. 패키지 이름은 대소문자를 구별한다는 점에 유의하자.
또한 아래와 같은 명령어를 사용해서 패키지를 설치할 수도 있다. 이 경우 명령어를 실행하면 위와 마찬가지로 CRAN 미러사이트를 지정해주는 창이 나오고 선택된 미러사이트에서 패키지를 다운로드 받아 설치한다.
패키지의 이름을 정확하게 알고 있는 경우 이 코드를 직접 실행시키는 방법이 가장 빠르고 간편하게 패키지를 설치할 수 있는 방법이다.
>install.packages("패키지 이름"

패키지를 설치한 후에는 패키지를 R 콘솔에 불러와야 패키지에 포함된 함수나 데이터셋을 사용할 수 있다. 설치된 패키지는 다음 명령어를 이용하여 R 콘솔로 불러온다.
>library(패키지 이름)

패키지를 설치하는 명령어와 패키지를 불러오는 명령어에 따옴표 사용 유무가 다르므로 잘 확인하여야 한다. R Studio의 경우 패키지를 설치한 이후 우측 하단의 Package 탭의 목록 중에 불러오고자 하는 패키지의 이름 앞에 있는 체크박스를 클릭하면 자동적으로 위 코드를 실행시키며 패키지를 불러온다.

다. R 도움말(help)

라. R 언어와 문법
R 언어는 S 언어와 유사하며 C 언어와도 유사하기 때문에 다른 언어를 통한 프로그래밍에 익숙한 사람이라면 여러 가지 명령어를 직관적으로 적용할 수 있어 쉽게 사용이 가능하다. 그러나 프로그래밍을 처음 접해 보는 사람이라면 익숙해지기까지 시간이 필요할 것이다.

1) R의 데이터 구조
R은 다양한 형태의 데이터 구조를 다룰 수 있다. Transaction, Rules, Logical 등 다양항 형태의 데이터 구조가 존재하지만 그 중에서도 R에서 가장 주로 사용되는 데이터 구조인 벡터, 행렬, 데이터 프레임에 대해 살펴보자.

(1) 벡터
벡터 데이터 구조는 하나의 스칼라값, 혹은 하나 이상의 스칼라 원소들을 갖는 단순한 형태의 집합을 의미한다. 이 때 벡터 데이터 내에 들어갈 수 있는 원소는 숫자, 문자, 논리 연사자 등이 될 수 있다. 숫자로 이루어진 벡터는 숫자 벡터가 되고 문자로 이루어진 벡터는 문자 벡터가 된다. R에서 다루는 데이터 구조 중 가장 단순한 형태이며 명령어 c를 이용해 선언할 수 있다. 이때, 'c'는 concentration(연결)을 의미한다.
>x = c(1, 10, 24, 40)
>y = c("사과", "바나나", "오렌지")
>z = c(TRUE, FALSE, TRUE)

이 경우 x는 숫자형 벡터, y 는 문자형 벡터, z는 논리 연산자 벡터가 된다. 논리 연산자 벡터를 숫자형 벡터처럼 사용하는 경우 자동적으로 "TRUE"는  1의 값을 할당 받으며 "FALSE"는 0의 값을 할당받는다. R은 대문자와 소문자를 구분하여 인식하기 때문에 논리 연산자를 입력할 때는 반드시 모든 글자를 대문자로 기입하여야 논리연산자로 인식한다는 점에 유의하자. 등호 '='의 경우 우측의 값을 죄측의 변수에 할당한다는 의미로서 조금 더 직관적인 형태로 '<- p="">>x <- 10="" 24="" 40="" c="" p="">>y <- c="" p="">>z <- c="" false="" p="" true="">
또한 다음과 같이 c 명령어를 이요하여 벡터와 벡터를 결합하여 새로운 벡터를 형성할 수도 있다. 벡터를 결합하여 행렬을 이루도록 하는 방법도 존재하는데, 이에 대해서는 다른 절에서 다루도록 한다. 형식이 같은 벡터를 합치면 합쳐진 벡터의 형식도 이전과 동일한 형식을 따르지만, 합치는 벡터에 문자형 벡터가 포함되면 합쳐지는 벡터는 문자형 벡터가 된다. 아래 코드의 예에서 숫자형 벡터인 x와 문자형 벡터인 y를   xy라고 벡터로 전환되었기 때문에 이 값들을 숫자가 아닌 문자 데이터로 인식하게 된다.
> x <- 10="" 24="" 40="" c="" p="">> y <- c="" p="">> xy <- c="" p="" x="" y="">> xy
[1] "1"   "10"   "24"   "40"  "사과"  "바나나"  "오렌지"

(2)행렬
행렬은 행과 열을 갖는 m x n 형태의 직사각형에 데이터를 나열한 데이터 구조이다. 행렬의 선언을 위해 명령어 matrix 를 사용한다. matrix 명령어의 첫 번째 인수는 행렬에 들어가는 데이터들을 묶어놓은 벡터가 할당되며 ncol 옵션으로 열(column)의 수르 정하거나 nrow 옵션으로 행(row)의 수를 정해 행렬의 크기를 사용자가 원하는 대로 지정할 수 있다. 기본적으로 값들은 열을 우선 채우는 방향으로 입력된다 (즉, 1행 1열, 2행 1열, 3행 1열....1행2열, 2행2열...의 순서). 아래 코드를 살펴보면 행렬형 변수 'mx'는 1,2,3,4,5,6이라는 여섯 개의 원소를 갖는 행렬이 되며 ncol=2 옵션을 통해 2열짜리 (원소가 총 6개이므로 열의 개수가 2개인 것이 정해지면 행의 수도 3개로 자동적으로 정해진다) 행렬이 만들어 진다. 결과를 살펴보면 다음과 같다. 3행 2열이 만들어 졌으며 1, 2, 3, 4, 5, 6의 값이 열을 우선 채우는 방향으로 채워 넣어졌다. 만약 행을 우선 채우는 방향을 원하면, byrow=T 옵션을 추가하면 된다.

> mx = matrix(c(1, 2, 3, 4, 5, 6), ncol=2)
> mx

         [,1]     [,2]
[1,]       1       4
[2,]       2       5
[3,]       3       6

명령어 rbind와 cbind를 사용해 이미 만들어져있는 벡터를 서로 합쳐 행렬을 만들 수도 있다. rbind의 'r'은 'row'를 의미하는데 기존의 행렬에 행을 추가하는 형태로 데이터를 결합시킨다. cbind의 'c'는 'column'을 의미하는데 기존의 행렬에 열을 추가하는 형태로 데이터를 결합시킨다. 다음 예제 코드를 살펴보자. 우선 rbind 명령어를이용하여 이미 생성된 3행 2열의 행렬 'mx'에 1행 2열의  r1벡터를 추가하여 4행 2열의 행렬을 생성한다. 또한 cbind 명령어을 이용하여 기존의 행렬 'mx'에 3행 1열의 c1벡터를 추가하여 3행 3열의 행열을 생성한다.

> mx

         [,1]     [,2]
[1,]       1       4
[2,]       2       5
[3,]       3       6

> r1 = c(10, 10)
> c1 = c(20, 20, 20)
> rbind(mx, r1)

         [,1]     [,2]
[1,]       1       4
[2,]       2       5
[3,]       3       6
 r1       10     10
> cbind(mx, c1)

         [,1]     [,2]    c1
[1,]       1       4     20
[2,]       2       5     20
[3,]       3       6     20

행렬과 벡터 뿐 아니라 벡터와 벡터 역시 동일한 방법으로 합쳐 새로운 행렬을 형성할 수 있다. 이 때 합쳐지는 벡터들의 행의 수와 열의 수를 잘 파악하여 명령어를 적절하게 사용해야 한다. 또한  rbind 와 cbind  명령어는 기본적으로 같은 데이터 타입의 벡터들은 행렬의 형태로 합쳐주지만, 이 명령어들을 이용해 다음에 소개한 데이터 프레임을 서로 합치는 경우에는 그대로 데이터 프레임의 형태로 데이터를 합쳐준다.

(3) 데이터 프레임
데이터 프레임은 행렬과 유사한 2차원 목록 데이터 구조이다. 다루기가 쉽고 한번에 많은 정보를 담을 수 있어 R에서 가장 널리 사용된다. 행렬과는 다르게 각 열이 서로 다른 데이터 타입을 가질 수 있기 때문에 데이터의 크기가 커져도 사용자가 다루기 수월하다. 명령어 data.frame을 이용하면 여러 개의 벡터를 하나의 데이터 프레임으로 합쳐 입력할 수 있다.
<- p=""><- 10="" 24="" 40="" c="" p=""><- c="" p=""><- c="" false="" p="" true=""><- 10="" 24="" 40="" c="" p=""><- c="" p=""><- c="" p="" x="" y="">
<- p=""><- 10="" 24="" 40="" c="" p=""><- c="" p=""><- c="" false="" p="" true=""><- 10="" 24="" 40="" c="" p=""><- c="" p=""><- c="" p="" x="" y="">> income = c(100, 200, 150, 300, 900)
<- p=""><- 10="" 24="" 40="" c="" p=""><- c="" p=""><- c="" false="" p="" true=""><- 10="" 24="" 40="" c="" p=""><- c="" p=""><- c="" p="" x="" y="">> car = c("kia", "hyudai", "kia", "toyota", "lexus")
<- p=""><- 10="" 24="" 40="" c="" p=""><- c="" p=""><- c="" false="" p="" true=""><- 10="" 24="" 40="" c="" p=""><- c="" p=""><- c="" p="" x="" y="">> marriage =  c(FALSE, FALSE, FALSE, TRUE, TRUE)
<- p=""><- 10="" 24="" 40="" c="" p=""><- c="" p=""><- c="" false="" p="" true=""><- 10="" 24="" 40="" c="" p=""><- c="" p=""><- c="" p="" x="" y="">>mydat = data.frame(income, car, marriage)
<- p=""><- 10="" 24="" 40="" c="" p=""><- c="" p=""><- c="" false="" p="" true=""><- 10="" 24="" 40="" c="" p=""><- c="" p=""><- c="" p="" x="" y="">
위 코드에서 선언되는 income 벡터는 숫자형 벡터이다. car 벡터는 "kia", "hyundai", "toyota", "lexus"의 값을 원소르 갖는 문자형 벡터이며 marriage는 논리 연산자 벡터이다. data.frame 명령어를 이용해 세 벡터를 합쳐 하나의 데이터 프레임인 mydat을 생성했다. 생성된 데이터 프레임인 mydat의 출력 형태는 다음과 같다. 각 행이 하나의 곽측치를 의미하고 각 열이 하나의 변수라고 가정하면 데이터 프레임은 분석자에게 상당히 친숙한 형태를 띠고 있음을 알 수 있다.

> mydat

                 income              car              marriage
1                     100            kia                FALSE
2                    200            hyundai        FALSE
3                    150             kia                FALSE
4                    300            toyota          TRUE
5                    900            lexus            TRUE

2) 외부 데이터 불러오기
데이터를 저장하는 파일 형식은 다양하다. R은 다양한 형태의 외부 데이터를 불러올 수 있다. 데이터 저장을 위해 주로 많이 사용되는 csv파일, txt파일, 엑셀의 xls/xlsx파일을 R로 불러오는 방법에 대해서 알아보자.

(1) csv파일 불러오기
명령어 read.table을 이용하면 csv파일을 R에 데이터 프레임 형태로 불러올 수 있다. csv파일의 구성에 따라 다양한 옵션을 이용하면 데이터가 작성된 형태 그래로 불러올 수 있다. header=T 옵션을 이용하면 csv파일의 첫 줄을 변수명으로 지정할 수 있다. 또한 sep=','옵션을 통해 데이터가 쉼표로 구분된 데이터 파일 (즉, csv파일)임을 지정해준다. read.table 명령어를 이용할 때는 파일 경로에 \ 대신 \\를 사용함에 유의한다. 혹은 \\ 대신 /을 사용해도 무관하다. 아래 코드를 통해 data1이라는 데이터 프레임이 생성되며 해당 경로의 csv파일을 그대로 불러오게 된다.
data1 <- example.csv="" header="T," p="" read.table="" sep=",">
혹은 유사한 명령어인 read.csv를 이용할 수도 있다. 사용법은 read.table과 비슷하지만 sep=","를 통해 구분자를 명시할 필요가 없다.

(2) txt파일 불러오기
명령어 read.table을 이용하여 txt파일 역시 데이터 프레임의 형태로 불러올 수 있다. 이 경우 sep=','옵션을 사용하지 않으면 csv파일이 아닌 일반 txt파일을 불러올 수 있다. txt파일을 데이터셋의 형태로 불러올 때는 txt파일이 구분자나 형식 등을 잘 지켜서 작성되어 있어야 한다. 아래 코드에서 선언되는 data2라는 데이터 프레임은 해당 경로의 텍스트 파일을 불러온다.
data2 <- example.txt="" p="" read.table="">
(3) 엑셀 파일 (xls/xlsx) 불러오기
엑셀 파일을 불러오는 방법은 크게 두 가지이다. 첫번째 방법은 엑셀 파일을 엑셀로 실행시킨 뒤 csv파일 형식으로 저장하여 앞의 csv파일 불러오기 방법으로 불러오는 방법이다. 엑셀을 사용할 수 없거나 이 방법이 번거롭다면 두 번째 방법으로 R에서 지원하는 패키지를 설치하여 엑셀 파일을 직접 불러올 수도 있다. 아래의 방법은 RODBC라는 패키지를 이용해 불러오는 방법이지만 이 외에도 엑셀 파일을 불어올 수 있도록 만들어 주는 패키지는 다양하다. 경로에 저장되어 있는 mydata.xls 파일을 불러오는 코드는 다음과 같다.
> library(RODBC) #패키지 열기
> new <- c:="" data="" mydata="" odbcconnectexcel="" p="">> yourdata <- heet1="" new="" p="" sheet="" sqlfetch="">> close(new)

library 명령어를 통해 RODBC 패키지를 연다. 이후 odbcConnectExcel 명령어와 sqlFetch 명령어를 이용하여 엑셀 파일의 워크시트를 설정하여 불러올 수 있다. 엑셀 파일의 경로를 입력하는 경우 확장자를 생략하고 작성해야 하는 점에 유의한다. 또한 엑셀 파일의 워크시트 이름은 대소문자를 구분하므로 정확하게 작성해야 한다. R의 패키지와 라이브러리를 설치하는 방법에 대해서는 뒤의 "라. R 패키지 설치하기" 에서 설명할 것이다.

3) R의 기초 함수
R에는 다양한 함수들이 존재하며 이 함수들을 적절하게 이용해 자신이 구현하고자 하는 통계적 기법이나 데이터 처리를 진행 할 수 있다. 여러 가지 함수들 중 가장 기본이 되는 몇 가지 함수들을 살펴보자. 이러한 기초 함수들은 복잡한 함수나 프로그램을 젝작하는데 있어 볼트와 너트처럼 어디에나 사용되므로 잘 익혀둘 필요가 있다.

(1) 수열 생성하기
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">복잡한 계산이나 알고리즘의 구현을 위해서는 다양한 형태의 숫자들을 반복적으로 생성해주는 수영 생성 함수들을 알아두어야 한다. rep 함수는 기본적으로 두 개의 인수를 갖는데, 첫 번째 인수를 두 번째 인수만큼 반복하는 숫자 벡터를 생성한다.
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">> rep (1, 3)
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">[1] 1  1  1
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">seq 함수 역시 기본적으로 두 개의 인수를 갖는데, 첫 인수부터 두 번째 인수까지 1씩 증가하는 수열의 숫자 벡터를 생성한다.
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">> seq (1, 3)
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">[1] 1  2  3
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">seq (1, 3)은 간단하게 1:3과 같은 형태로 사용할 수도 있다. a:b 라는 함수는 seq 함수의 첫 번째 인수가 a이고 두 번째 인수가 b인 경우와 가은 결과를 생성한다.
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">> 1: 3
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">[1] 1  2  3
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">
seq 함수에 by=n 옵션을 추가하여 1씩 증가하는 수열이 아닌 n씩 증가하는 수열을 생성할 수 있다.
> seq ( 1, 11, by=2)
[1] 1  3  5  7  9  11
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">seq 함수에 length=m 옵션을 추가하면 전체 수열의 개수가 m개가 되도록 자동적으로 증가하는 수열을 생성할 수 있다.
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">>seq (1, 11, length=6)
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">[1] 1  3  5  7  9  11
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">>seq (1, 11, length=8)
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">[1] 1.000000   2.428571   3,857143  5.285714  6.714286  8.142857  9.571429  11.000000
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">req 함수에 연속 증가하는 seq 함수의 형태를 인수로 사용하여 다음과 같은 수열을 생성할 수 있다. 이경우 수열 2:5, 즉 2, 3, 4, 5가 3번 반복된다는 것을 알 수 있다.
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">> rep(2:5, 3)
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">[1] 2 3 4 5 2 3 4 5 2 3 4 5
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">(2) 기초적인 수치 계산
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">R에는 행렬 계산을 비롯해 다양한 형태의 수치 계산을 위한 함수와 명령어가 준비되어있다. 간단한 형태의 벡터와 행렬을 생성하여 여러 수치 계산 기능들에 대해 살펴보도록 하자. 아래 코드를 통해 기본적인 사칙연산이 수행되는 원리를 알 수 있을 것이다. 기본적으로 벡터와 벡터의 사칙연산을 수행하는 경우 연산되는 벡터들의 길이가 같아야 한다.
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">> a = 1: 10
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">> a 
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch=""> [1]  1  2  3  4  5  6   7   8   9   10
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">> a + a
 [1]  2  4  6  8  10  12  14  16  18  20
> a - a
 [1]  0  0  0  0  0  0  0  0  0  0
> a * a
 [1] 1  4  3  16  25  36  49  64  81  100
> a / a
 [1]   1  1  1  1  1  1  1  1  1  1

R에서 벡터를 생성할 때는 기본적으로 열벡터가 만들어진다.. 아래 코드에서는 3행 1열의 열벡터 행렬을 생성하고, 이 행렬의 전치행렬 t(a), 즉 1행 3열의 행벡터 행렬을 생성한 후 두 행렬에 대해 서로 행렬곱을 실히해 3행 3열의 행렬을 만들어 보도록 한다. t 명령어를 통해 주어진 행렬의 전치행렬(transpose matrix)을 구할 수 있고 %*%를  통해 두 행렬 사이의 행렬곱을 실시할 수 있다.

> a = c(2, 7, 3)
> a
 [1]  2  7  3
>t(a)
        [, 1]  [, 2]  [,3]
[1,]     2       7     3
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">> A = a%*t(a)
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">> A
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">        [, 1]  [, 2]  [, 3]
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">[1 ,]    4      14     6
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">[2 ,]  14     49    21
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">[3 ,]   6      21     9
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">
<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">행렬 A에 대해서 *를 통해 연산을 실시하면 단순한 스칼라 곱의 결과를 얻을 수 있다. 또한 solve 명령어를 통해 주어진 행렬의 역행렬(inverse matrix)을 계산할 수 있다.
> mx = matrix(c(23, 41, 12, 35, 67, 1, 24, 7, 53), nrow = 3)
>mx

        [, 1]  [, 2]  [, 3]
[1 ,]    23    35     24
[2 ,]   41     67       7
[3 ,]   12       1      53

> 5 * mx
         [, 1]      [, 2]      [, 3]
[1 ,]    115       175        120
[2 ,]   205     335         35
[3 ,]    60          5        265

>solve(mx)
                       [, 1]                  [, 2]                   [, 3]
[1 ,]  -0.35743822     0.18466969       0.13746848
[2 ,]   0.21069087   -0.09389813     -0.08300555
[3 ,]   0.07695411    -0.04004034    -0.01069087


R에서는 짧은 명령어를 이용해 기초적인 기술통계량들을 간편하게 계산할 수 있다. a라는 벡터를 다음과 같이 생성하고 이 벡터에 대하 기초 통계량들과 통계 계산에서 주로 사용되는 연산들에 대한 계산법을 살펴보자.
> a = 1: 10
> a
  [1]  1  2  3  4  5  6  7   8  9  10

mean,  var, sd 함수는 각각 입력한 벡터의 평균, 분산, 표준편차를 계산해 준다.
> mean(a)
  [1]  5.5
> var(a)
  [1]  9.166667
> sd(a)
  [1]  3.02765

sum, median, log 함수를 이용해서 각각 입력한 벡터들의 합, 중앙값, 자연로그값을 계산 할 수 있다.

> sum(a)
 [1] 55

> median(a)
 [1] 5.5

>log(a)
 [1]  0.000000   0.6931472   1.0986123   1.3862944   1.7917595   1.9459101
 [8]   2.0794415   2.1972246   2.3025851

서로 다른 두 벡터에 대해서는 cov, cor 함수를 사용해 공분산과 상관계수를 구할 수 있다.
> b=log(a)
> cov(a,b)
[1] 2.112062
> cor(a,b)
[1] 0.9516624

또한 summary 함수를 이용하면 주어진 벡터에 대해 각 사분위수와 최소값, 최대값, 중앙값, 평균을 계산 할 수 있다. summary 함수는 숫자 벡터에 사용하면 단순히 사분위수를 계산하는 기능을 하지만 다른 형태의 데이터 타입에도 사용할 수 있다. 이 때 summary 함수는 해당 대상에 대한 정보를 요약해주는 기능을 한다.
>summary(a)
         Min.            1st Qu,             Median            Mean          3rd Qu.            Max.
        1.00              3.25                5.50                5.50           7.75                 10.00

4) R 데이터 핸들링
R은 객체지향의 언어이기 때문에 변수(객체)를 불러오거나 변수 내의 요소들을 참조하는 것이 직관적이고 간단하다. 이를 이용하면 분석 기법을 적용하기 위한 빅데이터도 직관적으로 핸들링 하는 것이 가능하다.
여러 종류의 변수에 대해 기본적인 핸들링 방법을 살펴보자.

(1)벡터형 변수
예제로 'b'라는 문자형 벡터를 다음과 같이 생성하여 이 벡터에 대해 각 요소들을 핸들링 하는 방법을 살펴본다. 문자형 벡터 b에는 "a", "b", "c", "d", "e" 다섯 개의 문자 값이 포함되어 있다.

>b = c ("a", "b", "c", "d", "e")
>b
 [1]   "a"  "b"  "c"  "d"  "e"

b[n]과 같이 벡터 뒤에 대괄호 []를 붙여 숫자를 지정해 주면 b벡터 내에서 n번째 원소에 해당하는 값을 불러온다. b[-n]과 같이 대괄호 안에 -를 붙이고숫자를 지정해주면 n번째 원소에 해당하는 값만을 제외하고 b벡터를 불러온다. 대괄호 안에는 하나의 숫자뿐 아니라 여러 개의 원소를 불러오고자 할 때는 c 명령어를 사용하여 해당 원소값이 있는 위치를 나열해 주면 된다.
>b [ 2 ]
 [1]  "b"
>b [ -4 ]
 [1] "a"  "b"  "c "  "e"
>b [ c(2,3) ] #벡터의 2, 3번째 위치 값을 선택한다.
  [1]  "b"  "c"

(2) 행렬/데이터 프레임 형태의 변수
형렬형 변수나 데이터 프레임 형태의 변수에 대해서도 대괄호를 통한 특정 원소/요소의 참조가 가능하다. 먼저 다음과 같이 mydat이라는 데이터 프레임을 생성한다.
> income = c(100, 200, 150, 300, 900)
> car = c("kia", "hyundai", "kia", "toyota", "lexus")
> marriage = c(FALSE, FALSE, FALSE, TRUE, TRUE)
> mydat = data.frame(income, car, marriage)
> mydat
                income             car             marriage
1                  100               kia                 FALSE
2                 200       hyundai                 FALSE
3                 150                kia                 FALSE
4                300           toyota                 TRUE
5                900             lexus                  TRUE

기본적인 방식은 벡터형 변수를 다룰 때와 동일하다. 그러나 행렬형/데이터 프레임형 변수의 경우 대괄호 안에 [m,n]의 형식으로 두 개의 숫자를 사용하여 불러오고자 아는 자료의 행과 열을 지정해주어야 한다.
아래 예제를 참고하자. 이 경우에도 마찬가지로 [-m,   ] 또는 [  ,  -n]의 형태로 대괄호 안의 숫자에 - 를 붙여 해당 행이나 열만을 제외하고 데이터를 불러올 수도 있지만, [-m,  -n]처럼 행과 열을 모두 지정하여 하나의 원소만을 제외할 수는 없다. 또한 대괄호 안에 하나의 숫자뿐 아니라 여러 개의 숫자(숫자형 벡터)도 적용시킬 수 있다.

5) 반복 구문과 조건문
R의 함수 작성에 있어서 특정 조건 하에서 비슷한 작업을 반복하게 하는 구문, 또는 일정한 조건이 만족되면 다른 작업을 수행하도록 만들어주는 구문들을 활용하면 복잡한 계산이나 작업을 용이하게 처리할 수 있는 함수를 만들 수 있다. 다양한 반복 구문과 조건문이 존재하며 상황에 맞게 적절한 구문을 사용하면 프로그램이 작동되는 시간을 줄여 효율적인 프로그래밍이 가능해진다.

(1)for  반복 구문
> a = c( )  #아무런 값도 포함되지 않는 a 벡터 선언
>for (i in 1:9){
+ a[i] = i * i
+ }
>a
 [1]   1  4  9  16  25  36  49   64  81

> isum=0
> for ( i in 1:100) {
+ isum = isum + i
+ }
>cat("1부터 100까지의 합=", isum, "입니다.", "\n")
1부터 100까지의 합= 5050입니다.

(2)while 반복 구문
> x=1
> whilie (x <5 p="">+ x = x +1
+ print( x )
+ }
[1]  2
[1]  3
[1]  4
[1]  5

(3)if ~ else 조건문
> StatScore = c(88, 90, 78, 84, 76, 68, 50, 48, 66, 88, 96, 79, 65, 27, 88, 96,
33, 64, 48, 77, 64, 88, 95, 79, 88, 49, 30, 29, 10, 49, 88)
>over70 = rep(0,40) #1
>for(i in 1:40){
+ if ( StatScore[ i ] >= 70) over70[ i ] = i #2
+ else over70[ i ] = 0 }
> over70
[1] 1 1 1 1 1 0 0 0 0 1 0 0 1 1 1 0 0 1 1 0 0 0 1 0 0 0 0 0
[29] 1 0 1 1 1 1 0 0 0 0 1
>sum(over70)
[1] 18

6) 사용자 정의 함수
function 명령어를 이용하면 기존에 존재하는 함수 외에도 사용자가 직접 복잡한 함수를 구성하여 사용할 수 있다. '함수 이름 = function(x, y, z)'의 형식으로 선언하며 이 때 괄호 안의 x, y, z는 함수 구문에서 인수(argument)로 사용된다. 간단한 사용자 정의 함수 코드를 살펴보자. 이 코드는 입력한 인수a 까지의 합을 계산해 주는 함수 addto를 선언한다.

> addto = function(a){
+ isum =0
+ for ( i in 1:a) {
+ isum = isum + i
+ }
+ print (isum)
}
>addto(10)
[1] 5050
>addto(50)
[1] 1275

7) 기타 유용한 기능들
R에는 이 외에도 많은 기능들이 존재하기 때문에 도움말이나 관련 교재를 참고한다면 분석자가 생각하는 알고리즘을 R로 구현하는 데는 큰 어려움이 없을 것으로 보인다. 마지막 절에는 아직 소개하지 않은 다양한 기능들 중에서도 특히, 프로그래밍 코드 중간에 사용되어 아주 복잡할 것 같은 프로그래밍을 간단하고 가능하게 해주는 유용한 기능들에 대해 소개하고자 한다. 이러한 기능들을 적재적소에 유용하게 사용하면 고급 프로그래머로서 더빠르고 효율적으로 작동하는 프로그램을 설계할 수 있을 것이다.

(1)paste
paste 명령어는 입력받은 문자열들을 하나로 붙여준다. 'sep=' 옵션을 통해 붙이고자 하는 문자열들 사이에 구분자(separator)를 삽입시킬 수 있다. 이 명령어를 이용하면 복잡한 알고리즘을 통해 생산되는 결과물들을 더 알기 쉽고 보기 좋게 출력하도록 할 수 있다.

>number=1:10
>alphabet=c("a", "b", "c")
>paste(number, alphabet)
 [1] "1 a" "2 b" "3 c" " 4 a" "5 b" "6 c" "7 a" "8 b" "9 c" "10 a"
>paste(number, alphabet, seq=" to the ")
 [1] "1 to the a" "2 to the b" "3 to the c" "4 to the a" "5 to the b" ......

(2)substr
주어진 문자열에서 특정 문자열을 추출
>substr("BigDataAnalysis", 1, 4)
 [1] "BigD"

>country=c("Korea", "Japan", "China", "Singapore", "Russia")
>substr(country, 1,3)
 [1] "Kor" "Jap"  "Chi"  "Sin"  "Rus"

(3) 자료형 데이터 구조 변환
R에서의 객체는 다양한 형태를 가질 수 있다. 예를 들어 문자형 변수, 실수형 변수, 논리 연산자, Factor, 데이터 프레임 등이 있다. 주어진 객체의 데이터 구조를 다른 구조로 바꾸자 할 때 다음과 같은 함수들을 사용해 변환할 수 있다.
- as.data.frame(x): 데이터 프레임 형식으로 변환한다.
- as.list(x): 리스트 형시으로 변환한다.
- as.matrix(x): 행렬 형식으로 변환한다.
- as.vector(x):벡터 형식으로 변환한다.
- as.factor(x):팩터(factor) 형식으로 변환한다.


> as.integer(3.14)
 [1] 3
> as.numeric("foo")
 [1] NA
경고메시지:
강제형벼환에 의해 생성된 NA입니다.

> as.character(101)
 [1] "101"
> as.numberic(FALSE)
 [1] 0
> as.logical(0.45)
 [1] TRUE

다음과 같이 as.matrix함수를 이용해 데이터 프레임을 행렬로 변환할 수도 있다. 문자형 데이터만이 저장되는 행렬로 변환되었으므로 데이터 프레임에서 숫자형 값으로 인식되던 변수들도 문자형으로 강제 전환된다. 다음 예제에서 데이터 프레임을 구성하고 있는 세 개의 백터에서 income열은 숫자형 벡터, car열은 문자형 벡트, marrage 열은 논리형 벡터의 형태로 구성되어 있지만, as.matrix 함수를 이용해 행렬로 변환된 이후에는 income열과 marriage 열의 데이터들도 모두 문자형 데이터로 변환되었다.
>mydat
      income              car            marriage
1          100              kia                 FALSE
2         200      hyundai                 FALSE
3         150               kia                 FALSE
4         300        toyota                  TRUE
5         900           lexus                 TRUE

>as.matrix(mydat)
              income              car           marriage
[1, ]            "100"            "kia"           "FALSE"
[2, ]           "200"   "hyundai"            "FALSE"
[3, ]           "150"             "kia"           "FALSE"
[4, ]           "300"       "toyota"           "TRUE"
[5, ]           "900"         "lexus"            "TRUE"

(4)문자열을 날짜로 변환
"2015-01-13"처럼 문자열 표현으로된 날짜 데이터를 실제 날짜의의미를 지니는 Date 객체로 변환해보자.
Date 객체를 통해 입력된 날짜 데이터는 시계열 부석이나 시간 요소를 포함하고 있는 그림을 그릴 때 유용하게 사용될 수 있다. 앞서 본 다른 변환들과 유사하게 as.Date 라는 함수를 통해 이 기능을 할 수 있지만, 그 전에 입력되는 문자열의 형식에 대해 알아야 한다. as.Date는 기본 문자열이 yyyy-mm-dd일 거라고 가정한다. 그 외의 다른 형식을 처리하려면 'format=' 옵션을 통해 입력되는 날짜의 형식을 지정해 주어야한다. 예를 들어 날짜가 미국에서 주로 사용하는 mm/dd/yy 형태로 구성되어 있다면 다음과 같이 옵션 'format="%m/%d/%Y"를 사용해야 한다.

- Sys.Date(): 현재 날짜를 반환한다.
- as.Date(): 날짜 객체로 변환한다.

> as.Date("2014-01-13")
 [1] "2015-01-13"
> as.Date("01/13/2015")
다음에 오류가 있습니다charToDate(x) : 문자열이 표준서식을 따르지 않습니다.
> as.Date("01/13/2015", format="%m/5d/%Y)
 [1] "2015-01-13"

(5) 날짜를 문자열로 변환
문자열을 날짜로 변환하여 사용할 수 있는 것처럼 날짜를 나타내는 Date객체 또한 문자열로 변환하여 사용할 수 있다. 분석의 결과물을 출력할 때 분석이 실시된 날짜를 기입하거나 날짜별로 데이터셋을 관리하는 등 다양한 응용법이 있을 수 있다. format 명령어를 통해 날짜 외에도 다양한 데이터의 포맷을 변경할 수 있다. format이 가진 기능은 아주 다양하지만 이해하기에 그다지 어렵지 않으며 자주 사용되는 기능은 아니기 때문에 이와 관련된 설명은 R 도움말을 통해 각자 살펴보도록 하자.

- format(데이터, 포맷)
- as.character()

> as.Date("08/13/2013", format="%m/%d/%y")
 [1] "2015-01-13"
> format(Sys.Date())
 [1] "2015-01-13"
> as.character(Sys.Date())
 [1] "2015-01-13"
> format(Sys.Date(), format="%m/%d/%Y")
 [1] "01/13/2015"

> format(Sys.Date(), '%a')  #'%a'는 요일을 출력한다.
 [1] "화"
> format(Sys.Date(), '%b')  #'%b'는 월을 출력한다.
 [1] "1"
> format(Sys.Date(), '%m')  #'%m'은 두자리 숫자로 월을 출력한다.
 [1] "01"
> format(Sys.Date(), '%d')   #'%d'는 두 자리 숫자로 일을 출력한다.
 [1] "13"
> format(Sys.Date(), '%y')   #'%y'는 두자리 숫자로 연도를 출력한다.
 [1] "15"
> format(Sys.Date(), '%Y')   # '%Y'는 네자리 숫자로 연도를 출력한다.
 [1] "2015"

마. R 그래픽 기능
R은 다른 통계 분석 프로그램들에 비해 그래픽 기능이 다양하고 자유자재로 그림을 그릴 수 있다는 장점이 있다. 다양한 종류의 그래프들을 그릴 수 있으며 이렇게 다양한 그래프에 대해 아주 세세한 부분까지 설정할 수 있다. 또한 전문적으로 그래프 그리기에 특화된 패키지를 설치하여 사용하면 상용 프로그램 수준의 그래프를 그릴 수도 있다. 축을 설정하고 기본적인 선을 긋거나 색을 변경하는 등의 낮은 단계(Low Level) 그래픽 함수들과 이를 이용하여 하나의 완성된 그래프를 구현할 수 있는 높은 단계 (High Level) 그래픽 함수가 있다. 높은 단계의 그래픽 함수들은 그 사용법이 매우 복잡하여 해당 함수를 지원하는 각각의 패키지에 이에 따른 전문적인 설명이 포함되어 있으므로 이 장에서는 다루지 않고, 간단한 몇 개의 그래픽 함수들을 살펴본다. 일반적으로 명령어를 이용해 그림을 새로 그려내는 경우 R에서는 별도의 창이 생성되어 그림이 나타나고 R Studio에서는 생성되는 모든 그림들을 우측 하단 Plot탭에서 볼 수 있다.

1) 산점도 그래프
plot(x, y) 함수는 x에 대한 y의 그래프를 그려준다. plot(y~x)라는 형태로도 마찬가지의그래프를 그릴수 있다.

> height = c(170,168,174,175,188,165,165 ,190,173,168,159,170,184,155,165)
> weight = c(68, 65, 74, 77, 92, 63, 67, 95, 72, 69, 60, 69, 73, 56, 55)
> plot(height, weight)

2) 산점도 행렬
여러 가지 변수들에 대해서 각각의 산점도를 한눈에 살펴볼 수 있도록 확장된 산점도 행렬이다. 여러 변수들을 한 공간에 표현하기 위해서는 4차원, 5차원의 공간이 도입되어야 하므로이를 극복하기 위해 도입된 그래프이다. 산점도 행렬은 pairs명령어를 이용해 바로 그릴 수 있으며 아래 코드에서는 좀 더 보기 좋은 그림을 위해 다양한 옵션이 사용되었다. "main=' 옵션은 그래프의 최상단에 제목을 표기해 준다. 'pch='옵션은 그래프 상에 찍히는 점의 모양을 변경해준다. 'bg=' 옵션을 이용해 iris 데이터의 Species에 따라 서로 다른 색상을 부여했다.
<5 p="">> pairs(iris[1:4], main = "Anderson's Iris Data -- 3 species",
<5 p="">+  pch = 21, bg = c("red", "green3", "blue")[unclass(iris$Species)])
<5 p="">
<5 p="">이러한 그래프의 형태는 옵션에 따라 원하는 모양을 다양하게 만들어낼 수 있다. 또한 특정한 패키지를 설치해 이미 준비된 형태의 완성도 높은 그림을 손쉽게 그려낼 수도 있다.
<5 p="">
<5 p="">3) 히스토그램과 상자그림
<5 p="">탐색적 자료 분석에서 자료의 분포를 손쉽게 확인하는 방법으로히스토그램을 그려보거나 상자 그림을 그려보는 방법이 있다. 히스토그램과 상자 그림은 간편한 코드를 이용하여 손쉽게 그려볼 수 있다. 그림을 그리는 것 자체는 아주 단순하지만 사용자의 입맛에 맞게 축을 조절하거나 간격을 조절하고 색을 입히는 것은 해당 함수의 옵션을 통해 가능하다. 히스토그램과 상자 그림을 위한 기본적인 코드는 다음과 같다.
<5 p="">> StatScore = c(88, 90, 78, 84, 76, 68, 50, 48, 33, 70, 48, 66, 88, 96, 79, 65, 27, 88, 96,
<5 p=""> 33, 64, 48, 77, 18, 26, 44, 48, 68, 77, 64, 88, 95, 79, 88, 49, 30, 29, 10, 49, 88)
<5 p="">> hist( StatScore, prob=T)
<5 p="">> boxplot( StatScore )
<5 p="">
<5 p="">hist 함수는 히스토그램을 그려주는 함수이며 기본적으로 세로축(Y축)에 도수를 표기한다. prob=T 옵션을 통해 상대도수를 표시하도록 변경할 수 있다. boxplot 함수는 상자 그림을 그려준다. 
<5 p="">
<5 p="">

   




<- example.csv="" header="T," p="" read.table="" sep=","><- example.txt="" p="" read.table=""><- c:="" data="" mydata="" odbcconnectexcel="" p=""><- heet1="" new="" p="" sheet="" sqlfetch="">
<- p=""><- 10="" 24="" 40="" c="" p=""><- c="" p=""><- c="" false="" p="" true=""><- 10="" 24="" 40="" c="" p=""><- c="" p=""><- c="" p="" x="" y="">

2018년 1월 9일 화요일

1. 분석 화경의 이해

가. 통계 패키지 R
R은 통계 분석 과정에서 수행되는 복잡한 계산이나 시각화 기법을 쉽게 사용할 수 있도록 설계된 무료 소프트웨어이다. 통계학자나 데이터 분석 전문가들이 주로 사용하며 행렬 계산을 위한 도구로서도 사용될 수 있는데 이 경우 계산 성능 측면에서는 우수한 결과를 보여준다. R은 무료로 사용할 수 있는 오픈소스 소프트웨어라는 장점과 기본으로 제공되는 기능 외에도 사용자들이 직접 제작한 패키지를 이용하여 무수히 많은 기능들을 사용할 수 있도록 확장되는 점, 사용 소프트웨어나 출력물에 견주어도 뒤쳐지지 않는 정도의 강력한 시각화 요소를 갖추고 있다는 점을 무기로 최근 들어 그 인기가 점차 증가하고 있다.

나. R의 역사
R의 역사를 알기 위해서는 S라는 통계 프로그래밍 언어에 대한 이야기를 할 필요가 있다. 'S'는 1976년 AT&T의 Bell Labs Statistics Group에서 John Chamber, Rick Becker와 Allan Wilks가 "to turn ideas into software, quickly and faithfully."라는 목표로 자체 개발한 통계 프로그래밍 언어이다. 그 전까지 대부분의 통계 계산은 Fortran의 서브루틴을 통해 수행되었다. 1976년 최초 개발된 무명의 S는 "Statistical Computing System", "Statistical Analysis System"(그러나 이 이름은 지금의 "SAS System"이 이미 사용하고 있었다), "Interactive SCS" 등의 후보를 거쳐 'S'라는 이름으로 불리게 되었다.
이 'S'라는 이름은 Statistical computing의 머리글자이기도 했지만, 그 당시 같은 기관에서 설계하고 있던 또 다른 프로그래밍 언어와의 연관성을 강조하기 위해 한 글자의 알파벳으로 된 이름을 채택하고자 했기에 선택된 이름이기도 했다. 그 또 다른 프로그래밍 언어가 바로 C언어이다.
1988년 S의 문법 구조나 언어에 많은 변경이 있었으며 객체라는 개념이 도입되기 시작했다. "The New S Language"(Blue Book 출판)라는 책이 출간되어 함수에서 매크로까지 전반적인 기능들에 걸쳐 'New S' 에서 변경된 사항들을 소개했지만 사용자들이 이 'New S'로의 이주를 탐탁지 않게 생각했다. 많은 부분에 생겨난 변화 때문에 기존 사용자들이 사용하고 있던 대부분의 코드를 새로 작성해야 했기 때문이다. 그러던 중 R이 탄생한다.
R은 1993년 뉴질랜드 University of Auckland 에서 Ross Inaka와 Robert Gentleman에 의해 개발된 소프트웨어인데 'Scheme'이라는 언어로부터 렉시컬 스코드(정적 스코프)의 개념을 도입한 또 다른 S언어 프로그램이었다. 이 'R'이라는 이름은 두 개발자 Ross Inaka와 Robert Gentleman의 머리글자에서 따왔으며 S보다 한 단계 발전되었다는 의미에서 알파벳 S보다 앞선 R을 차용했다는 의미도 포함하고 있다. R이 발표되던 당시에도 S언어를 도입한 프로그램들은 계속 존재했었다. 1988년 TIBCO Software Inc. 에서 출시되어 계속 버전업을 거듭한 S-Plus라는 프로그램이 유명했고 최초의 S 역시도 S3, S4등의 후속 프로그램이 출시되었지만 이들은 모두 상용 프로그램이었다.
그런데 R이 처음 발표된지 2년째되던 해인 1995년, R은 자유 소프트웨어 재단(Free Software Foundation)의 GNU 일반 공중 사용 허가서 (GPL, GNU Public General License)로 인해 무료로 공개되었다. 또한 기존 프로그램을 사용하기 위해 대부분의 코드를 실행시킬 수 있었다. 이후로도 R은 대부분의 UNIX계열 플랫폼에 다채롭게 대응하도록 컴파일 되어 Windows는 물론 Linux나 Mac OS를 지원하며 저변을 넓혔다. 그리고 꾸준히 버젼업을 거듭하며 S4나 S-Plus를 체치고 현재는 S언어 기반 프로그램 중 가장 널리 사용되고 있으며 패키지를 통한 확장성 때문에 그 가능성 또한 높게 평가받고 있다. R은 사용자들이 직접 패키지를 계속 만들어서 새로운 기법들을 생성하고 있기 때문에 버전이 계속 갱신되고 있다.

다. R의 특징
R은 무료 소프트웨어이면서도 고차원적인 계산이 가능하며 통계 분석과 시각화에 최적화 된 환경을 통해 단순한 계산부터 복잡한 통계 기법까지 폭넓게 다룰 수 있다. R의 가장 강력한 특징들 몇 가지를 살펴보면 다음과 같다.

1) 그래픽 처리
R은 상용 소프트웨어에 버금가는 상당한 수준의 그래프와 그림을 그릴 수 있다. 기본적인 그래픽 관련 옵션들이 충실하게 갖춰져 있기 때문에 그림의 용도와 역할에 맞게 적절한 그래프를 언제든지 쉽게 생산할 수 있으며 매우 세부적인 부분까지 사용자가 직접 지정하여 섬세한 작업을 수행할 수 있다. 또한 출판물로 사용해도손색이 없을 정도의 고해상도 이미지를 생산함에도 그 처리 시간이 매우 빠르기 때문에 단순히 분석과정에서 뿐만 아니라 보고서 작성이나 발표 자료 작성 시에도 유용하게 사용할 수 있다.

2) 데이터 처리 및 계산 능력
R은 벡터(Vector), 행렬(Matrix), 배열(Array), 데이터 프레임(Data Frame), 리스트(List)등 다양한 형태의 데이터 구조를 지원하므로 다양한 형태의 분석에 대응하기 좋다. 또한 복잡한 구조 내의 개별 데이터에 접근하는 절차가 간단하므로 큰 데이터를 핸들링 하기도 간편하다.

3) 패키지
R에는 패키지라는 개념이 있어 사용자들이 스스로 개발하는 새로운 함수들을 패키지의 형태로 내려 받아 사용할 수 있다. 일반적으로 패키지는 하나의 목적을 가지고제작이 되는데 특정 분석 기법을 사용하기 위해 하나의 패키지를 설치하면 해당 분석에 필요한 과정들을 수행할 수 있는 함수가 패키지에 포함되어 있는 형식이다. 이러한 확장성 덕분에 다른 통계 프로그램에 비해 최신 이론이나 기법을 사용해보기가 더 쉽다. 연구자들이 자신의 기법을 패키지화 해서 올리기만 한다면 누구나 해당 패키지를 통해 그 기법을 사용해 볼 수 있기 때문이다. 또한 쉽게 사용할 수 없는 강력한 그래픽 처리를 원하는 경우에도 패키지의 형태를 적용하여 복잡하고 어려운 옵션이 적용된 고급 그래픽 기능들을 이요해 간편하게 처리할 수 있다.

라. R Studio
R Studio는 R을 사용하는 통합 개발 환경 (Integrated Development Environment; IDE)중의하나이다. IDE를 사용하면 R을 조금 더 간편하고확장된 기능을 가지는 환경에서 실행할 수 있다. 특히 R Studio는 메모리에 저장되어있는 변수의 정보에 바로 접근하여 변수 내에 저장된 값들을 살펴보거나 수정할 수 있으며 특별한 명령어 없이도 변수의 정보에 대해 바로 알 수 있다. 또한 스크립트를 관리하고 문서화하기가 수월해진다. R이 오픈 소스 프로그램이며 다양한 운영체제를 지원하는 것과 마찬가지로 R Studio 역시 무료로 사용할 수 있고 다양한 운영체제를 지원한다.

7. 분석 교육 및 변화관리

최근 구성원들에게 데이터 분석 교육을 받도록 독려하는 기업이 늘고 있다. 엔지니어가 입사하면 코드베이스나 개발 문화를 교육시키는 엔지니어 훈련(Engineering Bootcamp)프로그램을 운영하는 경우이다. 더 나아가 엔지니어뿐만 아니라 마케팅, 기획, 서비스, 관리 등 모든 부서의 구성원을 대상으로 데이터 분석 훈련 프로그램을 운영하기도 한다. 이런 배경에는 모든 구성원들이 직접 데이터를 보고, 분석하고 가설을 검증할 수 있는 능력을 갖춤으로써 데이터 활용을 통한 비즈니스 가치를 전사적으로 확대하기 위해서다.

예전에는 기업 내 데이터 분석가가 담당했던 일을 모든 구성원이 데이터를 분석하고 이를 바로 업무에 활용할 수 있도록 조직 전반에 분석 문화를 정착시키고 변화시키려는 시도로 볼 수 있다. 그림에서 보는 바와 같이 새로운 체계의 도입 시에는 저항 및 기존 형태로 되돌아가는 관성이 존재하기 때문에 분석의 가치를 극대화하고 내재화하는 안정적인 추진기로 접어들기 위해서는 분석에 관련된 교육 및 마인드 육성을 위한 적극적인 변화 관리가 필요하다.

빅데이터의 등장은 많은 비즈니스 영역에서 변화를 가져왔다. 이러한 변화에 보다 적극적으로 대응하기 위해서는 기업에 맞는 적합한 분석 업무를 도출하고 가치를 높여줄 수 있도록 분석 조직 및 인력에 대한 지속적인 교육과 훈련을 실시하여야 한다. 또한 경영층이 데이터에 기반 한 의사결정을 할 수 있는 기업문화를 정착시키려는 변화관리를 지속적으로 계획하고 수행하여야 한다.

분석 교육의 목표는 단순한 툴 교육이 아닌 분석 역량을 확보하고 강화하는 것에 초점을 맞추어 진행되어야 한다. 그림과 같이 분석 기획자에 대한 데이터 분석 큐레이션 교육, 분석 실무자에 대한 데이터 분석 기법 및 도구에 대한 교육, 업무 수행자에 대한 분석기회 발굴 및 시나리오 작성법 등 분석적인 사고를 업무에 적용할 수 있도록 다양한 교육을 통해 조직 구성원 모둥에게 분석기반의 업무를 정착시킬 수 있어야 한다. 이를 통해 데이터를 바라보는 관점, 데이터 분석과 활용 등이 기업문화로 자연스럽게 스며들게 확대 되어야 한다.



6. 분석 과제 관리 프로세스 수립

분석 마스터 플랜이 수립되고 초기 데이터 분석 과제가 성공적으로 수행되는 경우, 지속적인 분석 니즈 및 기회가 분석 과제 형태로 도출 될 수 있다. 이런 과정에서 분석 조직이 수행할 주요한 역할 중의 하나가 분석 과제의 기획 및 운영이므로 이를 체계적으로 관리하기 위한 프로세스를 수립해야 한다.

분석 과제 관리 프로세스는 크게 과제 발굴과 과제 수행 및 모니터링으로 나누어진다. 과제 발굴 단계에서는 개별 조직이나 개인이 도출한 분석 아이디어를 발굴하고 이를 과제화하여 분석 과제 풀(Pool)로 관리하면서 분석 프로젝트를 선정하는 작업을 수행한다. 과제 수행 단계에서는 분석을 수행할 팀을 구성하고 분석 과제 실행 시 지속적인 모니터링과 과제 결과를 공유하고 개선하는 절차를 수행한다.

분석 조직이 지속적이고 체계적인 분석 과제 관리 프로세스를 수행함으로써 조직 내 분석 문화 내재화 및 경쟁력을 확보할 수 있다. 그리고 해당 과제를 진행하면서 만들어진 시사점(Lesson Learned)를 포함한 결과물을 풀(Pool)에 잘 축적하고 관리함으로써 향후 유사한 분석 과제 수행 시 시행착오를 최소화하고 프로젝트를 효율적으로 진행할 수 있다.

2018년 1월 8일 월요일

5. 데이터 조직 및 인력방안 수립

빅데이터의 등장에 따라 기업의 비즈니스도 많은 변화를 겪고 있다. 이러한 비즈니스 변화를 인식하고 기업의 차별된 경쟁력을 확보하는 수단으로데이터 과제 발굴, 기술 검토 및 전사 업무 적용 계획 수립 등 데이터를 효과적으로 분석.활용하기 위해 기획, 운영 및 관리를 전담할 수 있는 전문 분석 조직의 필요성이 제기되고있다.

현재 데이터와 관련된 기술적인 문제들은 어느 정도 발전되었다고볼 수 있다. 하지만 많은 기업이 실제 분석 전문가나 적절한 조직체계를 갖추고있지 않아 데이터 분석 및 활요 시 어려움에 봉착하는 경우가 많다. 특히 데이터에 대한 관심과 시각이 넓어지면서 분석 관점에서 컨트롤 타워의 필요성도 제기되고 있다. 이로인해 최근 국내 기업들에서도전담 조직으로서 '데이터 과학자(Data Scientist)'조직이 구성되고 있으며 조직의 장으로 C레벨 임원을 두는 것을 검토하는 기업도생겨나기 시작했다.

그림은 이러한 분석 조직의 목표와 역할, 조직 구성을 설명하고있다. 데이터 분석 조직은 기업의 경쟁력 확보를 위해 데이터 분석의 가치를 발견하고, 이를 활용하여 비즈니스를 최적화하는 목표를 갖고 구성되어야 한다. 이를 위해 기업의 업무 전반에 걸쳐 다양한 분석 과제를 발굴해 정의하고, 데이터 분석을 통해 의미 있는 인사이트를 찾아 실행하는 역할 을 수행할 수 있어야 한다. 다양한 분야의 지식과 경험을 가진 인력과 업무 담당자 등으로 구성된 전사 또는 부서 내 조직으로 구성할 수 있다.

분석 전문조직은 표와 같이 조직구조 및 인력 구성을 고려해 기업에 최적화 된 형태로 구성해야 한다.

데이터 분석을 위한 조직 구조는 다양한 형태로 살펴볼 수 있는데, 특히 분석업무 수행 주체에 따라 그림과 같이 3가지 유형의 조직구조로 살펴볼 수 있다.

첫 번째, '집중형 조직 구조'는 조직 내에 별도의 독립적인 분석 전담조직을 구성하고, 회사의 모든 분석업무를 전담 조직에서 담당한다. 분석 전담조직 내부에서 전사 분석 과제의 전략적인 중요도에 따라 우선순위를 정하여 추진할 수 있다. 한편 일부 현업 부서와 분석 업무가 중복 또는 이원화될 가능성이 있다.

두 번째, '기능 중심의 조직 구조'는 일반적으로 분석을 수행하는 형태이며, 별도로 분석 조직을 구성하지 않고 각 해당 업무부서에서 직접 분석하는 형태다. 이러한 특징으로 인해 전사적 관점에서 핵심 분석이 어려우며, 특정 업무 부서에 국한된 분석을 수행할 가능성이 높거나 일부 중복된 분석 업무를 수행할 수 있는 구조다.

세 번째, '분산된 조직구조'는 분석 조직의 인력들을 현업부서에 배치해 분석 업무를 수행하는 형태다. 전사 차원에서 분석 과제의 우선순위를 선정해 수행이 가능하며, 분석 결과를 신속하게 실무에 적용 할 수 있는 장점이 있다.

이렇듯 데이터 분석을 위한 다양한 형태의 분석 조직을 구성하여 운영할 수 있지만, 어떠한 조직구조가 적합한 형태라고 단정 지을 수 없다. 따라서 각 기업이 처한 환경과 특성을 고려하여 적절한 분석 조직을 구성해야 한다.

분석조직이 낮추어져 있다 하더라도 조직 구성원의 분석 역량이 하루아침에 성장하는 것도 아니고, 한 사람이 데이터 분석과 관련된 모든 역량을 다 갖추기는 현실적으로 어렵다. 따라서 전문 역량을 갖춘 각 분야의 인재들을 모아 조직을 구성하는 것이 바람직하다. 분석 조직을 효과적으로 구성하여 운영하기 위해서는 그름과 같이 비즈니스 이해를 위한 인력, 분석에 필요한 IT 기술을 이해하는 인력, 통계를 이용한 다양한 분석기법을 활용할 수 있는 분석 전문 인력, 조직 내 분석 문화 확산을 위한 변화 관리 인력, 분석 조직뿐 아니라 관련 부서 조직원의 분석 역량 향상을 위한 교육담당 인력 등을 다양하게 구성함으로써 분석 조직의 경쟁력을 극대화할 수 있다.


4. 데이터 거버넌스 체계 수립

빅데이터는 데이터의 크기(Volume)로 그 의미의 절대성을 갖는 것은 아니다. 그러나 실시간으로 쏟아지는 엄청난 양의 데이터와 정형화된 데이터를 넘어 비정형.반정형의 데이터는 조직이나 프로젝트 단위의 데이터 관리체계로는 그 해답을 찾을 수 없고 전사 차원의 체계적인 데이터 거버넌스(Data Governace)의 필요성을 부각시키고 있다.

그러나 아직 많은 기업에서 전사 차원의 데이터 관리체계를 갖추지 못하고 시스템별로 데이터를 관리함으로써 데이터 중복 및 비표준에 따른 정합성 오류와 데이터 활용 저하의 문제점을 갖고 있다. 따라서 빅데이터 프로젝트를 효과적으로 추진하거나 지속적인 효과를 얻기 위해서는 데이터 거버넌스 체계 수립이 중요하며 거버넌스가 없는 빅데이터의 적용은 단발성 효과에 그칠 수 있다.

데이터 거버넌스란 전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화된 관리 체계를 수립하고 운영을 위한 프레임워크(Framework)및 저장소(Repository)를 구축하는 것을 말한다. 특히 마스터 데이터(Master Data), 메타 데이터(Meta Data), 데이터 사전(Data Dictionary)은 데이터 거버넌스의 중요한 관리 대상이다.

기업은 데이터 거버넌스 체계를 구축함으로써 데이터의 가용성, 유용성, 통합성, 보안성, 안전성을 확보할 수 있으며 이는 빅데이터 프로젝트를 성공으로 이끄는 기반이 된다. 데이터 거버넌스는 독자적으로 수행될 수도 있지만 전사 차원의 IT 거버넌스나 EA(Enterprise Architecture)의 구성요소로써 구추고디는 경우도있다.

빅데이터 거버넌스는이러한 데이터거버넌스의 체계에 더하여 빅데이터의 효율적인 관리, 다양한 데이터의관리체계, 데이터 최적화, 정보보호, 데이터 생명주기 관리, 데이터 카테고리별 관리 책임자(Data Steward)지정 등을 포함한다.

데이터 거버넌스의 구성요소인 원칙(Principle), 조직(Organization), 프로세스(Process)는 유기적인 조합을 통하여 데이터를 비즈니스 목적에 부합하고 최적의정보 서비스를 제공할 수 있도록 효과적으로 관리한다.

-원칙
데이터를 유지 관리하기 위한 지침과 가이드
보안, 품질기준, 변경관리

-조직
데이터를 관리할 조직의 역할과 책임
데이터 관리자, 데이터베이스 관리자, 데이터 아키텍트(Data Architect)

-프로세스
데이터 관리를 위한 활동과 체계
작업 절차, 모니터링 활동, 측정 활동

가. 데이터 표준화
데이터 표준화는 데이터 표준 용어 설정, 명명 규칙(Name Rule)수립, 메타 데이터(Meta Data) 구축, 데이터 사전(Data Dictionary)구축 등의 업무로 구성된다. 데이터 표준 용어는 표준 단어 사전, 표준 도메인 사전, 표준 코드 등으로 구성되며 사전 간 상호 검증이 가능하도록 점검 프로세스를 포함해야 한다.
명명 규칙은 필요시 언어별(한글, 영어 등 외국어)로 작성되어 매핑 상태를 유지해야 한다. 메타 데이터와 데이터 사전은 데이터의 데이터 구조 체계를 형성하는 것으로써 데이터 활용을 원활하게 하기 위한 데이터 구조 체계(Data Structure Architecture)나 메타 엔티티 관계 다이어그램(Meta Entity Relationship Diagram)을 제공한다.

나. 데이터 관리 체계
데이터 정합성 및 활용의 효율성을 위하여 표준 데이터를 포함한 메타 데이터(Meta Data)와 데이터 사전(Data Dictionary)의 관리 원칙을 수립한다. 수립된 원칙에 근거하여 항목별 상세한 프로세스를 만들고 관리와 운영을 위한 담당자 및 조직별 역할과 책임을 상세하게 준비한다.
빅데이터의 경우 데이터 양의 급증으로데이터의 생명 주기 관리방안(Data Life Cycle Management)을 수립하지 않으면 데이터 가용성 및 관리비용 증대 문제에 직면하게 될 수도 있다.

다. 데이터 저장소관리(Repository)
메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소를 구성한다. 저장소는 데이터 관리 체계 지원을 위한 워크플로우(Workflow)및 관리용 응용소프트웨어(Application)을 지원하고관리 대상 시스템과의 인터페이스를 통한 통제가 이루어져야 한다. 또한 데이터 구조 변경에 따른 사전 영향 평가도 수행되어야 효율적인 활용이 가능하다.

라. 표준화 활동
데이터 거버넌스 체계를 구축한 후 표준 준수 여부를 주기적으로점검하고 모니터링을 실시한다. 또한 거버넌스의 조직 내 안정적 정착을 위한 계속적인 변화관리 및 주기적인 교육을 진행한다. 지속적인 데이터 표주노하 개선 활동을 통하여 실용성을 높여야 한다.

3. 분석 지원 인프라 방안 수립

분석 과제 단위별로 별도의 부석 시스템을 구축하는 경우, 관리의 복잡도 및 비용의 증대라는 부작용이 나타나게 된다. 따라서 분석 마스터 플랜을 기획하는 단계에서붜 장기적으로 안정적으로활용할 수 있는 확장성을 고려한 플랫폼 구조를 도입하는 것이 적절하다.

플랫폼이란 단순한 분석 응용프로그램뿐만 아니라 분석 서비스를 위한 응용프로그램이 실행될 수 있는 기초를 이루는 컴퓨터 시스템을 의미하며 일반적으로 하드웨어에 탑재되어 테이터 분석에 필요한 프로그래밍환경에 실행 및 서비스 환경을 제공하는 역할을 수행한다. 이러한 분석 플랫폼이 구성되어 있는 경우에는 새로운 데이터 분석 니즈가 존재할 경우 개별적인 분석 시스템을 추가하는 방식이 아닌 서비스를 추가적으로 제공하는 방식으로 확장성을 높일 수 있다.