Categories: R

R에서 데이터 변환 (mutate(), transmute())

안녕하세요! 데이터 분석, 하고 싶지만 어려워서 망설이고 계셨나요? 괜찮아요! 제가 도와드릴게요. 오늘 우리가 함께 살펴볼 주제는 바로 R에서 데이터 변환하는 방법이에요. R은 강력한 데이터 분석 도구이지만, 처음 접하면 복잡한 함수들 때문에 어려움을 느낄 수 있어요. 특히 데이터를 원하는 형태로 바꾸는 mutate()와 transmute() 함수는 데이터 분석의 기본이면서도 헷갈리기 쉬운 부분이죠. 하지만 걱정 마세요! 제가 쉽고 재미있게 설명해 드릴 테니, 함께 mutate()와 transmute() 함수를 정복해 보자구요! R 데이터 분석의 마법 같은 세계로 함께 떠나볼까요?

데이터 변환 기초: mutate() 함수

R 언어로 데이터 분석을 하다 보면, 기존 변수를 바탕으로 새로운 변수를 만들거나 변수 값을 변경해야 하는 경우가 정말 많아요. 마치 요리할 때 재료를 손질하고 새로운 맛을 더하는 것과 같죠! 이럴 때 dplyr 패키지의 mutate() 함수는 정말 강력한 도구가 된답니다. 마법처럼 데이터를 휘리릭~ 변환시켜주거든요. 자, 이제 mutate() 함수의 기본적인 사용법부터 차근차근 알아볼까요? ^^

mutate() 함수는 기존 데이터 프레임에 새로운 변수를 추가하거나 기존 변수의 값을 수정하는 데 사용돼요. dplyr 패키지의 핵심 함수 중 하나라고 할 수 있죠. 이 함수를 사용하면 데이터를 원하는 형태로 자유자재로 변형할 수 있어서 데이터 분석 작업이 훨씬 수월해진답니다!

mutate() 함수의 기본 구조

가장 기본적인 mutate() 함수의 구조는 다음과 같아요:

mutate(.data, ..., .keep = c("all", "used", "unused", "none"), .before = NULL, .after = NULL)

.data에는 변환을 적용할 데이터 프레임을 지정하고, ...에는 새로 만들거나 수정할 변수와 그에 대한 계산식을 입력해요. .keep, .before, .after는 변수의 추가 및 위치를 제어하는 옵션인데, 조금 있다가 자세히 설명해 드릴게요!

mutate() 함수의 기본 사용법

먼저 간단한 예제를 통해 mutate() 함수의 작동 방식을 살펴볼까요? mtcars 데이터셋을 사용해서 새로운 변수 mpg_kpl을 만들어 볼게요. 이 변수는 연비(mpg)를 km/l로 변환한 값을 저장해요. 1 mpg는 약 0.425 km/l니까, 다음과 같이 계산할 수 있겠죠?

library(dplyr)

mtcars_new <- mtcars %>%
  mutate(mpg_kpl = mpg * 0.425)

head(mtcars_new)

짜잔! mtcars_new 데이터 프레임에는 mpg_kpl이라는 새로운 변수가 추가되었어요. 기존 mpg 변수의 값에 0.425를 곱한 값이 mpg_kpl에 저장된 것을 확인할 수 있죠? 참 쉽죠?!

여러 변수 동시 생성/수정

mutate() 함수는 여러 개의 변수를 동시에 생성하거나 수정할 수도 있어요. 예를 들어, wt_kg (무게, kg) 변수와 hp_kw (마력, kW) 변수를 추가해 볼게요. 1 lb는 약 0.4536 kg이고, 1 hp는 약 0.7457 kW니까 다음과 같이 코드를 작성할 수 있겠네요.

mtcars_new <- mtcars %>%
  mutate(wt_kg = wt * 0.4536,
         hp_kw = hp * 0.7457)

head(mtcars_new)

이처럼 ,로 구분하여 여러 변수를 한 번에 정의할 수 있어요. 정말 편리하지 않나요? mutate() 함수는 +, -, *, /, ^ 등의 사칙연산뿐만 아니라 다양한 함수와 연산자를 사용할 수 있어요. log(), exp(), sqrt(), round(), ifelse() 등등… 정말 무궁무진하답니다! 필요에 따라 적절한 함수를 조합해서 사용하면 데이터를 원하는 형태로 가공할 수 있어요.

.keep, .before, .after 옵션

자, 이제 .keep, .before, .after 옵션에 대해 알아볼까요? 이 옵션들은 새로운 변수를 추가할 때 기존 변수들을 어떻게 처리할지, 새로운 변수의 위치를 어디로 할지 지정하는 역할을 해요.

.keep = "all" (기본값): 모든 기존 변수와 새 변수를 유지해요.
.keep = "used": 계산에 사용된 기존 변수와 새 변수만 유지하고 나머지는 제거해요.
.keep = "unused": 계산에 사용되지 않은 기존 변수만 유지하고, 사용된 변수와 새 변수는 제거해요.
.keep = "none": 새 변수만 유지하고 기존 변수는 모두 제거해요.
.before: 새로운 변수를 특정 변수 앞에 추가해요.
.after: 새로운 변수를 특정 변수 뒤에 추가해요.

예를 들어, mpg와 wt만 사용하고 새로운 변수 mpg_kpl을 wt 앞에 추가하고 싶다면 다음과 같이 코드를 작성할 수 있어요.

mtcars_new <- mtcars %>%
  mutate(mpg_kpl = mpg * 0.425, .keep = "used", .before = wt)

head(mtcars_new)

이처럼 .keep, .before, .after 옵션을 활용하면 데이터 프레임의 구조를 더욱 세밀하게 제어할 수 있답니다! mutate() 함수, 정말 매력적이지 않나요? 다음에는 transmute() 함수에 대해 알아볼 텐데, 기대해 주세요!

transmute()로 새로운 데이터 프레임 생성

mutate() 함수가 기존 데이터 프레임에 변수를 추가하는 친구라면, transmute()는 완전히 새로운 데이터 프레임을 만들어내는 마법사 같아요! ✨ 기존 데이터 프레임에서 원하는 변수만 쏙쏙 뽑아서 새롭게 구성할 수 있죠. 마치 옷장 정리처럼 필요한 옷만 꺼내서 새로운 옷장을 만드는 느낌이랄까요? 옷장이 너무 복잡해서 뭐가 있는지도 모르겠을 때, 딱 필요한 것들만 꺼내 정리하면 얼마나 속이 시원한지 아시죠? 그런 깔끔함을 데이터 프레임에도 적용할 수 있다는 거예요!

transmute() 함수의 마법

자, 그럼 transmute() 함수가 어떤 마법을 부리는지 좀 더 자세히 알아볼까요? mutate()처럼 dplyr 패키지에 속해 있는 함수이고, 기본적인 사용법도 아주 비슷해요. transmute(데이터프레임, 새로운 변수 = 계산식, 또 다른 새로운 변수 = 또 다른 계산식, ...) 이런 식으로 사용한답니다. 여기서 중요한 점은 결과물이 오직 계산식으로 만든 새로운 변수들로만 구성된다는 거예요! 기존 변수는 몽땅 사라진다는 사실! 잊지 마세요~

transmute() 활용 예시: BMI 지수 계산

예를 들어, 100명의 학생들의 키와 몸무게 데이터가 있다고 해봅시다. 이 데이터를 바탕으로 BMI 지수를 계산하고, BMI 지수만 포함된 새로운 데이터 프레임을 만들고 싶다면 어떻게 해야 할까요? 바로 transmute() 함수를 사용하면 됩니다! transmute(학생_데이터, bmi = 몸무게 / (키/100)^2) 이렇게 한 줄이면 뚝딱! BMI 지수만 깔끔하게 담긴 새로운 데이터 프레임이 뿅! 하고 나타난답니다. 참 쉽죠? ^^

데이터 분석에서의 transmute()

transmute() 함수는 특히 데이터 분석 초반에 아주 유용해요. 방대한 데이터에서 필요한 변수만 쏙쏙 뽑아서 분석에 집중할 수 있게 해주거든요. 예를 들어, 만 명의 고객 데이터에서 연령, 성별, 구매 금액만 뽑아서 분석하고 싶다고 생각해 보세요. transmute()를 사용하면 이런 작업도 순식간에 처리할 수 있답니다! 마치 망망대해에서 보물 지도를 따라 보물 상자를 찾는 것처럼, 필요한 정보만 쏙쏙 골라낼 수 있다는 말씀! 데이터 분석 시간을 획기적으로 줄여주는 효자 함수라고 할 수 있겠죠? 👍

여러 변수 동시 생성

더 나아가, transmute() 함수는 여러 개의 변수를 동시에 생성할 수도 있어요. 예를 들어, transmute(판매_데이터, 총_판매액 = 수량 * 단가, 할인_금액 = 총_판매액 * 0.1, 최종_금액 = 총_판매액 - 할인_금액) 와 같이 사용하면, 총 판매액, 할인 금액, 최종 금액을 한 번에 계산하고 새로운 데이터 프레임에 담을 수 있답니다. 여러 줄의 코드를 한 줄로 줄일 수 있으니 얼마나 편리한가요?! 코딩 시간도 절약하고, 코드도 훨씬 깔끔해지니 일석이조의 효과! 😄

조건문 활용

또 한 가지 흥미로운 점은 transmute() 함수 내에서 ifelse() 함수와 같은 조건문을 활용할 수 있다는 거예요. 예를 들어, 특정 조건에 따라 다른 값을 할당하고 싶을 때 transmute(고객_데이터, vip_여부 = ifelse(구매_금액 > 100000, "VIP", "일반")) 과 같이 사용할 수 있죠. 이렇게 하면 구매 금액이 10만 원 이상인 고객은 “VIP”, 그렇지 않은 고객은 “일반”으로 분류되어 새로운 데이터 프레임에 저장된답니다. 마치 마법의 지팡이처럼 원하는 대로 데이터를 변형시킬 수 있는 거죠! 🤩

transmute() 함수의 활용성

자, 이제 transmute() 함수의 매력을 충분히 느끼셨나요? 데이터 분석의 시작 단계에서 뿐만 아니라, 분석 과정 중간중간에도 필요한 변수만 쏙쏙 뽑아 새로운 데이터 프레임을 만들 수 있으니, 정말 유용한 함수라고 할 수 있어요. 마치 요리할 때 필요한 재료만 꺼내서 새로운 요리를 만드는 것처럼 말이죠! 🍳

실전 예제로 배우는 mutate() 활용법

자, 이제 mutate() 함수를 활용한 실제 데이터 분석 예시들을 살펴볼게요! 어떤 상황에서 어떻게 활용될 수 있는지 엿볼 수 있는 좋은 기회랍니다. 준비되셨나요~? ^^

1. 매출액 증가율 계산하기

먼저 온라인 쇼핑몰의 월별 매출 데이터를 가지고 있다고 가정해 보죠. sales_data라는 데이터 프레임에 ‘월’, ‘매출액’ 정보가 담겨있어요. 이때 전월 대비 매출액 증가율을 계산하고 싶다면 어떻게 해야 할까요? 바로 mutate()와 lag() 함수의 조합을 사용하면 됩니다!

library(dplyr)

sales_data <- data.frame(
  월 = c("2023-01", "2023-02", "2023-03", "2023-04", "2023-05"),
  매출액 = c(1500000, 1700000, 1600000, 1900000, 2100000)
)

sales_data <- sales_data %>%
  mutate(전월_매출액 = lag(매출액),
         증가율 = (매출액 - 전월_매출액) / 전월_매출액 * 100)

print(sales_data)

lag() 함수는 이전 행의 값을 가져오는 역할을 해요. 이를 통해 전월 매출액을 구하고, 현재 매출액과의 차이를 계산해서 증가율을 구할 수 있답니다. 참 쉽죠?!

2. 고객 등급 분류하기

다음으로 고객 데이터를 활용한 예시를 살펴볼게요. customer_data라는 데이터 프레임에 ‘고객ID’, ‘구매횟수’, ‘총구매액’ 정보가 있다고 가정해 봅시다. 구매횟수와 총구매액을 기준으로 고객 등급을 ‘VIP’, ‘골드’, ‘실버’로 분류하려면 어떻게 해야 할까요? case_when() 함수를 mutate() 안에 활용하면 아주 간단하게 해결할 수 있어요!

customer_data <- data.frame(
  고객ID = c(1, 2, 3, 4, 5),
  구매횟수 = c(5, 15, 2, 20, 8),
  총구매액 = c(500000, 2000000, 100000, 3000000, 1000000)
)

customer_data <- customer_data %>%
  mutate(고객등급 = case_when(
    구매횟수 >= 15 | 총구매액 >= 2000000 ~ "VIP",
    구매횟수 >= 5 | 총구매액 >= 500000 ~ "골드",
    TRUE ~ "실버"
  ))

print(customer_data)

case_when() 함수는 여러 조건을 설정하고, 각 조건에 맞는 값을 반환하는 함수예요. 마치 ifelse() 함수의 확장판 같다고 생각하면 돼요. 여기서는 구매횟수 15회 이상 또는 총구매액 200만 원 이상이면 ‘VIP’, 구매횟수 5회 이상 또는 총구매액 50만 원 이상이면 ‘골드’, 그 외에는 ‘실버’ 등급으로 분류했어요.

3. 날짜 데이터 변환하기

날짜 데이터를 다룰 때에도 mutate() 함수는 매우 유용해요! 예를 들어, ‘주문일자’ 정보가 있는 데이터 프레임에서 주문 연도, 월, 요일 정보를 추출하고 싶다면 lubridate 패키지와 함께 mutate()를 사용하면 된답니다.

library(lubridate)

order_data <- data.frame(
  주문번호 = c(1, 2, 3),
  주문일자 = c("2023-07-15", "2023-08-20", "2023-09-10")
)

order_data <- order_data %>%
  mutate(주문일자 = ymd(주문일자),
         주문연도 = year(주문일자),
         주문월 = month(주문일자),
         주문요일 = wday(주문일자, label = TRUE))

print(order_data)

ymd() 함수를 이용해 문자열 형태의 날짜 데이터를 날짜 형식으로 변환하고, year(), month(), wday() 함수를 통해 연도, 월, 요일 정보를 추출했어요. wday() 함수에 label = TRUE 옵션을 추가하면 요일을 숫자가 아닌 요일 이름으로 표시할 수 있답니다!

4. 텍스트 데이터 처리하기

mutate() 함수는 텍스트 데이터 처리에도 활용할 수 있어요. 예를 들어 상품명에 특정 문자열이 포함된 상품만 추출하고 싶다면 str_detect() 함수를 사용하면 돼요.

library(stringr)

product_data <- data.frame(
  상품ID = c(1, 2, 3),
  상품명 = c("유기농 사과", "프리미엄 바나나", "유기농 포도")
)

organic_products <- product_data %>%
  filter(str_detect(상품명, "유기농")) %>%  
  mutate(상품분류 = "유기농") 

print(organic_products)

str_detect() 함수는 특정 문자열이 포함되어 있는지 확인하는 함수예요. 여기서는 상품명에 “유기농”이라는 문자열이 포함된 상품만 필터링하고, mutate()를 사용하여 “상품분류”라는 새로운 변수에 “유기농” 값을 추가했어요. 이처럼 mutate()는 다양한 함수와 조합하여 활용할 수 있답니다!

이 외에도 mutate()는 데이터 변환에 필요한 거의 모든 작업에 활용될 수 있다고 해도 과언이 아니에요. 다양한 함수와 조합하여 여러분의 데이터 분석 능력을 한 단계 업그레이드해보세요! 화이팅!!

mutate()와 transmute() 함수 비교

자, 이제 드디어 mutate()와 transmute() 함수의 차이점을 비교해 볼 시간이에요! 두 함수 모두 dplyr 패키지의 핵심 기능으로, 데이터 변환에 사용되는 강력한 도구들이죠. 마치 쌍둥이처럼 비슷해 보이지만, 둘 사이에는 미묘하지만 중요한 차이점이 숨어 있어요. 이 차이점을 제대로 이해하면 데이터 분석 작업의 효율성을 극대화할 수 있답니다! 그럼, 지금부터 자세히 살펴볼까요?

mutate() 함수

mutate() 함수는 기존 데이터 프레임의 모든 열을 유지하면서 새로운 변수를 추가하는 함수예요. 마치 건물에 새로운 방을 증축하는 것과 같다고 할 수 있죠. 기존의 구조는 그대로 두고, 필요한 공간을 추가하는 방식이에요. 예를 들어, 100개의 행과 5개의 열로 이루어진 데이터 프레임에 mutate()를 사용하여 새로운 변수를 추가하면, 결과적으로 100개의 행과 6개의 열을 가진 데이터 프레임이 생성되는 거죠! 변수가 추가될 뿐, 기존 데이터는 전혀 손상되지 않아 안심하셔도 돼요.

transmute() 함수

반면 transmute() 함수는 새로운 변수를 생성하는 것과 동시에 기존 변수들을 제거하는 역할을 해요. 새로운 집을 짓고 이사하는 것과 비슷한 개념이죠. 필요한 짐(변수)만 챙겨서 새집으로 이동하는 것처럼, transmute()는 선택한 변수들만 남기고 나머지는 과감하게 삭제한답니다. 만약 100개의 행과 5개의 열로 이루어진 데이터 프레임에 transmute()를 사용하여 2개의 새로운 변수를 생성한다면, 결과적으로 100개의 행과 2개의 열(새로운 변수)만 남게 되는 거죠. 기존 데이터 중 필요 없는 부분을 정리하고, 새로운 변수에 집중하고 싶을 때 아주 유용해요.

표로 정리한 mutate()와 transmute() 비교

표로 정리하면 다음과 같아요.

함수	기능	기존 변수	새로운 변수	결과
mutate()	기존 데이터 프레임에 새로운 변수 추가	유지	추가	기존 변수 + 새로운 변수
transmute()	새로운 변수 생성 및 기존 변수 제거	제거	추가	새로운 변수

mutate()와 transmute() 활용 예시

자, 이제 좀 더 실질적인 예시를 통해 두 함수의 차이점을 확실하게 이해해 보도록 할까요? 예를 들어, ‘판매량’과 ‘단가’라는 변수를 가진 데이터 프레임이 있다고 가정해 보겠습니다. 이 데이터 프레임을 사용하여 ‘총매출액’을 계산하고 싶다면, mutate() 함수를 사용하여 다음과 같이 코드를 작성할 수 있어요.

library(dplyr)

df <- data.frame(판매량 = c(10, 20, 30), 단가 = c(1000, 2000, 3000))

df <- df %>%
  mutate(총매출액 = 판매량 * 단가)

print(df)

이 코드를 실행하면 ‘판매량’, ‘단가’, 그리고 새롭게 계산된 ‘총매출액’ 변수까지 포함된 데이터 프레임을 얻을 수 있답니다. 기존 변수들을 그대로 유지하면서 새로운 변수를 추가했죠!

하지만, 만약 ‘총매출액’만 필요하고 기존 변수는 필요 없다면 어떻게 해야 할까요? 바로 이럴 때 transmute() 함수가 빛을 발한답니다! 다음과 같이 코드를 수정하면 ‘총매출액’ 변수만 포함된 새로운 데이터 프레임을 생성할 수 있어요.

library(dplyr)

df <- data.frame(판매량 = c(10, 20, 30), 단가 = c(1000, 2000, 3000))

df <- df %>%
  transmute(총매출액 = 판매량 * 단가)

print(df)

훨씬 간결하고 효율적이죠?! 이처럼 mutate()와 transmute()는 상황에 따라 적절하게 사용하면 데이터 분석 작업을 훨씬 효과적으로 수행할 수 있도록 도와준답니다. 두 함수의 차이점을 확실히 이해하고, 데이터 분석 프로젝트에 적용해 보세요!

빅데이터 분석에서의 mutate()와 transmute()

mutate()와 transmute() 함수는 빅데이터 분석, 특히 수백만 또는 수십억 개의 행이 있는 데이터 프레임을 다룰 때 매우 유용해요. mutate()는 기존 데이터를 유지하면서 새로운 변수를 추가해야 할 때, transmute()는 특정 변수만 추출하여 메모리 사용량을 줄이고 싶을 때 특히 효과적이죠. 데이터 크기가 커질수록 두 함수의 성능 차이는 더욱 두드러지게 나타나요. 예를 들어, 1억 개의 행을 가진 데이터 프레임에서 특정 변수만 추출해야 한다면, transmute()를 사용하는 것이 mutate()를 사용하는 것보다 훨씬 빠르고 효율적일 거예요. 데이터 분석 작업의 효율성을 높이고 싶다면, mutate()와 transmute() 함수를 적극 활용해 보세요!

R로 데이터 주무르기, 생각보다 재밌지 않았나요? mutate()와 transmute() 함수 덕분에 이제 데이터 변환도 훨씬 쉽게 할 수 있을 거예요. 마치 요리사처럼 능숙하게 데이터를 다듬고, 원하는 모양으로 만들어내는 기분이랄까요? 처음엔 조금 낯설 수도 있지만, 몇 번 연습하다 보면 금방 손에 익을 거예요. 복잡한 코드에 얽매이지 않고, 원하는 결과를 쏙쏙 뽑아낼 수 있다는 게 얼마나 편한지 곧 느끼게 될 거랍니다. 이제 여러분의 데이터 분석 여정이 더욱 즐거워지기를 바라요! 다음에 또 유용한 팁으로 만나요!

Itlearner

Next R에서 데이터 병합과 조인 (merge(), inner_join(), left_join()) »

Previous « R에서 중복된 데이터 제거 (distinct(), duplicated())