제01강 R 설치와 실습 목차 - https://youtu.be/jb4KtXHCFKw

 

1.R의 특징

2.SPSS, SAS, R 비교

3.R 설치와 실습

4.R Studio 설치와 실습

5.연산자, 내장함수, 기타 논제

1. R의 특징

뉴질랜드 오클랜드(Auckland) 대학의 로스 이하카(Ross Ihaka)와 로버트 젠틀맨 (Robert Gentleman)
1995
년에 개발, 2000 R1.0 공개

R-Core 1997년 결성,  R-foundation 2002 년 설립되어 전 세계 무료 배포 기여

R의 특징 :

무료

오픈소스

다양한 분야

프로그램 업데이트가 빠르게 진행

그래픽 기능이 뛰어남 – ggplot2

다양한 사용자 그룹

R 프로그램 다운로드 :   www.r-project.org

R 개발툴 RStudio 다운로드 :   www.rstudio.com

 

 

2.SPSS, SAS, R 비교

SPSS 가 설치되어 있으면 SPSS를 클릭하면 다음과 같은 화면이 나옵니다. SPSS 는 메뉴방식으로 진행되는데, 메뉴에서 [분석]을 클릭하면 SPSS에서 지원하는 통계분석 기법들이 나열됩니다. 여기에서 분석하고자 하는 기법을 선택하기만 하면 됩니다. 회귀분석을 하려면 메뉴 [분석]-[회귀분석]-[선형] 순서대로 클릭하면 됩니다.

 

(1) SPSS 화면 - 회귀분석

r_r_spss_02

종속변수에는 변수 몸무게 wei를 선택하고, 독립변수에는 변수 hei] 지정하고 [확인] 버튼을 클릭하면 됩니다.

r_r_spss_03

종속변수 wei, 독립변수 hei를 선택, [확인] 클릭

그러면 다음과 같은 SPSS 결과화면을 볼 수 있습니다.

r_r_spss_04

화면 아래를 보면 몸무게 = 의 회귀식을 볼 수 있습니다.

(2) SAS 화면 - 회귀분석

SAS를 실행하면 다음과 같은 SAS 초기화면이 나타납니다. 아래 부분에 있는 프로그램 작성 창에 SAS 프로그램을 작성하고 메뉴 [실행] 클릭하든지 “달리기 선수” 모양의 실행아이콘을 클릭하면 SAS가 실행됩니다.

r_r_sas_01
r_r_sas_02

(3) R 프로그램 - 회귀분석

SPSS와 SAS 로 실행한 회귀분석을 R을 이용하여 분석하려면 다음과 같은 R 프로그램을 작성하여 실행하면 됩니다.

> gender <- c("F","F","F","M","M","M")

> wei <- c(60,61,63,67,68,69)

> hei <- c(171,173,176,174,175,178)

> age <- c(23,24,38,43,40,42)

> a1 <- data.frame(gender,wei,hei,age)

> a1

 

> lm(wei~hei,data=health)

> lm(wei~hei+age,data=health)

> lm_out <- lm(wei~hei,data=health)

> lm_out

> summary(lm_out)

 

SPSS나 SAS 에 비하여 결과물이 보기가 조금 어려워 보이지만 자세히 설펴보면 SPSS와 SAS 의 결과와 동일한 것을 볼 수 있습니다.

 

r_r_r_01

 

 

 

R을 처음 사용하게 되면 현재까지 개발된 패키지가 몇 개인지, 어떤 패키지들이 개발되어 있는지 그리고 매뉴얼은 어디에 있는지 궁금해집니다.
이는 파이썬의 경우도 마찬가지입니다.

 

(1) 패키지 수를 알아보기

왼쪽 메뉴에서 [Packages]를 클릭합니다. 그러면 2022년 4월 25일 현재 18,970 개의 패키지가 개발되어 있습니다.

이 글을 읽고 순간에도 새로운 패키지들이 매우 빠른 속도로 공개되고 있는 것을 알 수 있습니다.

날짜순으로 정렬해 볼 수도 있고 Table of available packages, sorted by date of publication 클릭

패키지 알파벳 순으로 볼 수도 있습니다 Table of available packages, sorted by name 클릭

 

왼쪽 메뉴에서 [Packages] 를 클릭

왼쪽 메뉴에서 [Packages] 를 클릭  r_r_pac_01(n)
알파벳 순으로 보는 패키지 목록     r_r_pac_02

 

 

(2) 패키지를 분야별로 살펴보기

왼쪽 메뉴에서 [Task Views] 를 클릭하면 41개의 Tasks(분야) 별로 볼 수 있습니다. 이 분야별 카테고리도 늘어나고 있습니다. 여러분들이 관심있는 분야로 들어가 보시면 상당한 수준의 패키지들이 이미 개발되어 있는 것을 볼 수 있을 것입니다.

 

41개의 분야별 패키지를 살펴보기     r_r_pac_03(n)

 

Bayesian Bayesian Inference
ChemPhys Chemometrics and Computational Physics
ClinicalTrials Clinical Trial Design, Monitoring, and Analysis
Cluster Cluster Analysis & Finite Mixture Models
Databases Databases with R
DifferentialEquations Differential Equations
Distributions Probability Distributions
Econometrics Econometrics
Environmetrics Analysis of Ecological and Environmental Data
ExperimentalDesign Design of Experiments (DoE) & Analysis of Experimental Data
ExtremeValue Extreme Value Analysis
Finance Empirical Finance
FunctionalData Functional Data Analysis
Genetics Statistical Genetics
Graphics Graphic Displays & Dynamic Graphics & Graphic Devices & Visualization
HighPerformanceComputing High-Performance and Parallel Computing with R
Hydrology Hydrological Data and Modeling
MachineLearning Machine Learning & Statistical Learning
MedicalImaging Medical Image Analysis
MetaAnalysis Meta-Analysis
MissingData Missing Data
ModelDeployment Model Deployment with R
Multivariate Multivariate Statistics
NaturalLanguageProcessing Natural Language Processing
NumericalMathematics Numerical Mathematics
OfficialStatistics Official Statistics & Survey Methodology
Optimization Optimization and Mathematical Programming
Pharmacokinetics Analysis of Pharmacokinetic Data
Phylogenetics Phylogenetics, Especially Comparative Methods
Psychometrics Psychometric Models and Methods
ReproducibleResearch Reproducible Research
Robust Robust Statistical Methods
SocialSciences Statistics for the Social Sciences
Spatial Analysis of Spatial Data
SpatioTemporal Handling and Analyzing Spatio-Temporal Data
Survival Survival Analysis
TeachingStatistics Teaching Statistics
TimeSeries Time Series Analysis
Tracking Processing and Analysis of Tracking Data
WebTechnologies Web Technologies and Services
gR gRaphical Models in R

 

(3) 매뉴얼 보기

CRAN 화면에서 R 매뉴얼 보기 왼쪽 메뉴에서 [Manuals] 선택

r_r_man_01(n)

 

r_r_man_02

   

R 설치 폴더에서 매뉴얼 보기 c:\R\R-4.2.0\doc\manual

r_r_man_03

 

r_r_man_04

 

 

오늘 1일째, 첫 시간입니다. 먼저 R을 설치하는  과정을 설명합니다.
R을 설치하고 나면, 간단한 R 프로그램을 실습합니다.
그리고 곧바로 R-Studio 를 설치하고, R-Studio을 이용하여 R 프로그램 실습을 합니다.
S Studio는 R 프로그램을 간단하게 만드는 툴입니다.
R Studio 안에는 R이 없습니다.
그리하여 R을 먼저 설치하고 R Studio를 설치하게 됩니다.

R 설치 파일을 다운로드 받으려면 www.r-project.org에 접속하여 다운로드 받으면 됩니다.
최신버전은 2022-04-22 버전이고 다운로드 받는데 걸리는 시간을 1~2분이면 됩니다.


R 강의를 하게 되면, 강의를 준비하는 기관에서 "교육장소에 있는 PC에 미리 R을 설치해 놓을까요?"
문의가 들어 옵니다. 
"아닙니다. 강의중에 수강생들이 직접 R과 Rstudio 를 설치하게 됩니다...
 그리고 가능하면 엑셀은 설치를 해 주셨으면 합니다.
엑셀을 이용한 "외부파일 읽어들이기" 와 통계분석 실습을 위해서 필요합니다."
라고 답변을 드립니다.

 

(1) R-4.2.0 다운로드 받는 곳(2022-04-22 버전)

www.r-project.org에 접속해서 다운로드 받으면 됩니다. [CRAN] 을 클릭합니다. 

 

[CRAN] 클릭&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;r_r_dn_01(n)

 

r_r_dn_02(n_

 

[Download R for Windows] 클릭&nbsp; &nbsp; &nbsp;r_r_dn_03(n)

 

[Install R for first time] 클릭&nbsp; &nbsp; &nbsp; r_r_dn_04(n)

 

[Download R 4.2.0 for Windows]&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;r_r_dn_05(n)

 

[Download R-4.2.0 for Windows]를 클릭히면 "R-4.2.0-win.exe" 다운로드됩니다. 다운로드가 완료되면 해당 파일을 더블클릭하면 설치가 됩니다.

 

(2) SAS와 SPSS 등을 설치하는데 10~20 분이 걸리고, SAS는 한참 걸리는데...

SAS, SPSS 는 관련 제품을 전부 설치하지만, R 은 필수적인 몇 가지 기능을 가진 패키지만 일단 설치됩니다.

그리고 필요할 때마다 필요 패키지를 추가로 다운로드 받는 형식입니다.

패키지를 다운로드 받는 이런 경우에도 10~20 초 정도 밖에 걸리지 않습니다.

다운로드 받은 패키지를 삭제하는 것도 간단합니다.

 

(3) R 은 오픈소스로서 무료이고, 각 패키지들마다 수시로 업그레이드 됩니다.

업데이트도 쉽게 할 수 있습니다. 오픈소스이므로 커뮤니티 등도 많이 있습니다.

다만 주의할 점은, 업데이트 하다 보면, 이전의 기능이 변경되는 경우가 있습니다.

그리하여 기존에 만들었던 R 프로그램들이 작동하지 않는 경우도 있습니다.   

 

이제 R이 설치되었으니, R을 이용한 개발툴인 R-Studio를 다운로드-설치 하면 됩니다.

R을 다운로드하였으면 설치를 해 봅니다. R 다운로드는 10초~20초 내로 끝납니다.
(강의장에서는 수강생들이 동시에 접속하기 때문에 1분 정도 소요되기도 합니다)

다운로드한 파일 R-4.2.0-win.exe를 더블클릭합니다.

[확인] 을 클릭합니다; r_r_in_01
[다음(N)]을 클릭합니다&nbsp;&nbsp;r_r_in_02

다음은 R을 설치할 폴더를 지정합니다. C:\Program Files\R\R-4.2.0 처럼 그대로 설치해도 되지만

저는 별도의 폴더(예를 들어 C:\R\R-4.2.0 와 같이 별도의 폴더를 만듭니다.

나중에 R 최신버전(예를 들어 R-4.2.1)이 발표되면 C:\R\R-4.2.1 에 설치하며 R 별도의 폴더를 만들어 관리합니다.

 

R을 설치할 폴더 지정... [다음]을 클릭해도 되지만 [폴더변경] r_r_in_03

 

[다음]을 클릭합니다. [32bit]를 선택하지 않아도 됩니다 ;r_r_in_04
[다음]을 클릭&nbsp; r_r_in_05
[다음]을 클릭합니다                     ;r_r_in_06
[다음]을 클릭합니다                   r_r_in_07

 

R 이 설치된 폴더 c:\R\R-4.2.0을 탐색기로 확인하면 다음과 같게 보입니다.

c:\R 폴더로 가면 예전에 설치하였던 R 버전들을 볼 수 있으며, c:\R\-4.2.0\library\에 가면 R에서 사용 가능한 패키지들이 설치되어 있는 것을 볼 수 있습니다.

c:\R\-4.2.0\doc로 가면 R 매뉴얼들을 볼 수 있습니다.

 

R이 설치된 폴더를 확인해 봅니다

 

그룹별 첫 번째 관측치 구하는 문제입니다.

남녀별 데이터가 있을 때 각 성별의 첫 번째 관측치를 구합니다.

SAS에서는 SET & BY 문을 이용하고

R에서는 by & head(또는 tail) 을 이용합니다.

두 그룹간의 평균치차이 검정인 t검정으로 하려면

SAS에서는 SAS/STAT 제품의 TTEST 프로시져를 사용하고

R 에서는 패키지 stats의 t.test()함수를 사용합니다.

t검정을 실행하기 전에 두 집단 분산이 같은가?를 먼저 검정해야 합니다.

t검정을 실행하는 방법은 간단합니다.

그러므로 t검정을 실행하는 방법도 의미가 있지만 t검정을 이해하는 것이 중요합니다.

통계학책 등을 통해 기본적인 이론을 공부하는 것을 추천합니다.

+ Recent posts