가. 통계 패키지 R
R은 통계 분석 과정에서 수행되는 복잡한 계산이나 시각화 기법을 쉽게 사용할 수 있도록 설계된 무료 소프트웨어이다. 통계학자나 데이터 분석 전문가들이 주로 사용하며 행렬 계산을 위한 도구로서도 사용될 수 있는데 이 경우 계산 성능 측면에서는 우수한 결과를 보여준다. R은 무료로 사용할 수 있는 오픈소스 소프트웨어라는 장점과 기본으로 제공되는 기능 외에도 사용자들이 직접 제작한 패키지를 이용하여 무수히 많은 기능들을 사용할 수 있도록 확장되는 점, 사용 소프트웨어나 출력물에 견주어도 뒤쳐지지 않는 정도의 강력한 시각화 요소를 갖추고 있다는 점을 무기로 최근 들어 그 인기가 점차 증가하고 있다.
나. R의 역사
R의 역사를 알기 위해서는 S라는 통계 프로그래밍 언어에 대한 이야기를 할 필요가 있다. 'S'는 1976년 AT&T의 Bell Labs Statistics Group에서 John Chamber, Rick Becker와 Allan Wilks가 "to turn ideas into software, quickly and faithfully."라는 목표로 자체 개발한 통계 프로그래밍 언어이다. 그 전까지 대부분의 통계 계산은 Fortran의 서브루틴을 통해 수행되었다. 1976년 최초 개발된 무명의 S는 "Statistical Computing System", "Statistical Analysis System"(그러나 이 이름은 지금의 "SAS System"이 이미 사용하고 있었다), "Interactive SCS" 등의 후보를 거쳐 'S'라는 이름으로 불리게 되었다.
이 'S'라는 이름은 Statistical computing의 머리글자이기도 했지만, 그 당시 같은 기관에서 설계하고 있던 또 다른 프로그래밍 언어와의 연관성을 강조하기 위해 한 글자의 알파벳으로 된 이름을 채택하고자 했기에 선택된 이름이기도 했다. 그 또 다른 프로그래밍 언어가 바로 C언어이다.
1988년 S의 문법 구조나 언어에 많은 변경이 있었으며 객체라는 개념이 도입되기 시작했다. "The New S Language"(Blue Book 출판)라는 책이 출간되어 함수에서 매크로까지 전반적인 기능들에 걸쳐 'New S' 에서 변경된 사항들을 소개했지만 사용자들이 이 'New S'로의 이주를 탐탁지 않게 생각했다. 많은 부분에 생겨난 변화 때문에 기존 사용자들이 사용하고 있던 대부분의 코드를 새로 작성해야 했기 때문이다. 그러던 중 R이 탄생한다.
R은 1993년 뉴질랜드 University of Auckland 에서 Ross Inaka와 Robert Gentleman에 의해 개발된 소프트웨어인데 'Scheme'이라는 언어로부터 렉시컬 스코드(정적 스코프)의 개념을 도입한 또 다른 S언어 프로그램이었다. 이 'R'이라는 이름은 두 개발자 Ross Inaka와 Robert Gentleman의 머리글자에서 따왔으며 S보다 한 단계 발전되었다는 의미에서 알파벳 S보다 앞선 R을 차용했다는 의미도 포함하고 있다. R이 발표되던 당시에도 S언어를 도입한 프로그램들은 계속 존재했었다. 1988년 TIBCO Software Inc. 에서 출시되어 계속 버전업을 거듭한 S-Plus라는 프로그램이 유명했고 최초의 S 역시도 S3, S4등의 후속 프로그램이 출시되었지만 이들은 모두 상용 프로그램이었다.
그런데 R이 처음 발표된지 2년째되던 해인 1995년, R은 자유 소프트웨어 재단(Free Software Foundation)의 GNU 일반 공중 사용 허가서 (GPL, GNU Public General License)로 인해 무료로 공개되었다. 또한 기존 프로그램을 사용하기 위해 대부분의 코드를 실행시킬 수 있었다. 이후로도 R은 대부분의 UNIX계열 플랫폼에 다채롭게 대응하도록 컴파일 되어 Windows는 물론 Linux나 Mac OS를 지원하며 저변을 넓혔다. 그리고 꾸준히 버젼업을 거듭하며 S4나 S-Plus를 체치고 현재는 S언어 기반 프로그램 중 가장 널리 사용되고 있으며 패키지를 통한 확장성 때문에 그 가능성 또한 높게 평가받고 있다. R은 사용자들이 직접 패키지를 계속 만들어서 새로운 기법들을 생성하고 있기 때문에 버전이 계속 갱신되고 있다.
다. R의 특징
R은 무료 소프트웨어이면서도 고차원적인 계산이 가능하며 통계 분석과 시각화에 최적화 된 환경을 통해 단순한 계산부터 복잡한 통계 기법까지 폭넓게 다룰 수 있다. R의 가장 강력한 특징들 몇 가지를 살펴보면 다음과 같다.
1) 그래픽 처리
R은 상용 소프트웨어에 버금가는 상당한 수준의 그래프와 그림을 그릴 수 있다. 기본적인 그래픽 관련 옵션들이 충실하게 갖춰져 있기 때문에 그림의 용도와 역할에 맞게 적절한 그래프를 언제든지 쉽게 생산할 수 있으며 매우 세부적인 부분까지 사용자가 직접 지정하여 섬세한 작업을 수행할 수 있다. 또한 출판물로 사용해도손색이 없을 정도의 고해상도 이미지를 생산함에도 그 처리 시간이 매우 빠르기 때문에 단순히 분석과정에서 뿐만 아니라 보고서 작성이나 발표 자료 작성 시에도 유용하게 사용할 수 있다.
2) 데이터 처리 및 계산 능력
R은 벡터(Vector), 행렬(Matrix), 배열(Array), 데이터 프레임(Data Frame), 리스트(List)등 다양한 형태의 데이터 구조를 지원하므로 다양한 형태의 분석에 대응하기 좋다. 또한 복잡한 구조 내의 개별 데이터에 접근하는 절차가 간단하므로 큰 데이터를 핸들링 하기도 간편하다.
3) 패키지
R에는 패키지라는 개념이 있어 사용자들이 스스로 개발하는 새로운 함수들을 패키지의 형태로 내려 받아 사용할 수 있다. 일반적으로 패키지는 하나의 목적을 가지고제작이 되는데 특정 분석 기법을 사용하기 위해 하나의 패키지를 설치하면 해당 분석에 필요한 과정들을 수행할 수 있는 함수가 패키지에 포함되어 있는 형식이다. 이러한 확장성 덕분에 다른 통계 프로그램에 비해 최신 이론이나 기법을 사용해보기가 더 쉽다. 연구자들이 자신의 기법을 패키지화 해서 올리기만 한다면 누구나 해당 패키지를 통해 그 기법을 사용해 볼 수 있기 때문이다. 또한 쉽게 사용할 수 없는 강력한 그래픽 처리를 원하는 경우에도 패키지의 형태를 적용하여 복잡하고 어려운 옵션이 적용된 고급 그래픽 기능들을 이요해 간편하게 처리할 수 있다.
라. R Studio
R Studio는 R을 사용하는 통합 개발 환경 (Integrated Development Environment; IDE)중의하나이다. IDE를 사용하면 R을 조금 더 간편하고확장된 기능을 가지는 환경에서 실행할 수 있다. 특히 R Studio는 메모리에 저장되어있는 변수의 정보에 바로 접근하여 변수 내에 저장된 값들을 살펴보거나 수정할 수 있으며 특별한 명령어 없이도 변수의 정보에 대해 바로 알 수 있다. 또한 스크립트를 관리하고 문서화하기가 수월해진다. R이 오픈 소스 프로그램이며 다양한 운영체제를 지원하는 것과 마찬가지로 R Studio 역시 무료로 사용할 수 있고 다양한 운영체제를 지원한다.
댓글 없음:
댓글 쓰기