Categories: R

R에서 데이터 병합과 조인 (merge(), inner_join(), left_join())

안녕하세요, 여러분! 데이터 분석하면서 골치 아픈 순간들이 있죠? 그중 하나가 바로 여러 데이터들을 하나로 합쳐야 할 때예요. 흩어져 있는 데이터들을 마치 퍼즐 조각 맞추듯이 하나로 만들어야 분석이 시작될 수 있잖아요. R을 이용하면 이런 까다로운 데이터 병합 작업도 훨씬 쉽게 할 수 있다는 사실, 알고 계셨나요?

오늘은 R에서 데이터 병합과 조인을 마스터하는 비법을 알려드리려고 해요. merge() 함수를 활용하는 방법부터 inner_join()과 left_join()의 차이점까지, 제가 차근차근 설명해 드릴게요. 다양한 조인 활용 사례를 통해 실제 데이터 분석에서 어떻게 적용되는지도 살펴볼 거예요. 걱정 마세요. 어렵지 않아요! 저와 함께라면 여러분도 데이터 병합 마법사가 될 수 있어요!

쉬운 목차

Toggle

데이터 병합의 기본 개념

데이터 분석, 그중에서도 R을 이용한 데이터 분석에서 가장 기본적이면서도 중요한 작업 중 하나가 바로 데이터 병합이에요. 마치 퍼즐 조각들을 맞추듯이, 서로 다른 데이터들을 하나로 합쳐서 전체 그림을 보는 것과 같죠! 데이터 병합을 잘 이해하고 활용하면 데이터 분석의 효율성이 엄청나게 향상된답니다. 자, 그럼 데이터 병합의 기본 개념에 대해 좀 더 자세히 알아볼까요~?

데이터 병합이란?

데이터 병합이란, 공통된 열(column) 또는 키(key)를 기준으로 두 개 이상의 데이터프레임(dataframe)을 하나로 합치는 과정을 말해요. 마치 레고 블럭처럼 서로 다른 데이터프레임들을 연결해서 더욱 풍부하고 의미 있는 정보를 얻을 수 있게 해주는 마법과도 같죠! 예를 들어, 고객의 구매 데이터와 고객의 인구 통계학적 데이터를 병합하면, 특정 연령대의 고객들이 어떤 상품을 선호하는지 분석할 수 있겠죠? 정말 흥미롭지 않나요?!

데이터 병합 방법

데이터 병합에는 다양한 방법이 존재하는데, 각 방법은 데이터의 특성과 분석 목적에 따라 선택적으로 적용해야 해요. 가장 일반적인 방법으로는 `merge()` 함수를 이용하는 방법이 있고, `dplyr` 패키지의 `inner_join()`, `left_join()`, `right_join()`, `full_join()` 등의 함수를 사용하는 방법도 있어요. 각 함수의 차이점과 활용법은 뒤에서 더 자세히 다뤄볼게요! 기대되시죠~?

데이터 병합의 핵심, ‘키’

데이터 병합의 핵심은 바로 ‘키’에 있다고 해도 과언이 아니에요. 키는 두 개 이상의 데이터프레임에서 공통적으로 존재하는 열로, 병합의 기준이 되는 열이죠. 예를 들어, ‘고객 ID’를 키로 사용하면, 두 데이터프레임에서 동일한 ‘고객 ID’를 가진 행(row)들이 서로 연결되는 거예요. 마치 자석처럼 말이죠! 키를 어떻게 설정하느냐에 따라 병합 결과가 크게 달라질 수 있으니, 신중하게 선택해야 한답니다!

키의 종류

키의 종류도 다양해요. 단일 키를 사용하는 경우도 있고, 여러 개의 열을 조합하여 복합 키를 사용하는 경우도 있어요. 복합 키를 사용하면 더욱 정확하고 세밀한 병합이 가능해진답니다. 만약 고객 ID와 상품 ID를 복합 키로 사용한다면, 특정 고객이 특정 상품을 구매한 정보만 정확하게 추출할 수 있겠죠? 정말 유용하지 않나요?!

데이터 병합 시 주의사항

데이터 병합 과정에서 발생할 수 있는 몇 가지 주의사항도 있어요. 키가 중복되는 경우 어떻게 처리할지, 결측값(NA)은 어떻게 처리할지 등을 미리 고려해야 해요. R은 다양한 옵션을 제공하고 있으니, 상황에 맞게 적절한 옵션을 선택하면 돼요. 예를 들어, `all.x = TRUE` 옵션을 사용하면 첫 번째 데이터프레임의 모든 행을 유지하면서 병합할 수 있고, `all.y = TRUE` 옵션을 사용하면 두 번째 데이터프레임의 모든 행을 유지하면서 병합할 수 있어요. 이러한 옵션들을 잘 활용하면 원하는 결과를 정확하게 얻을 수 있답니다!

데이터 병합의 의미

데이터 병합은 단순히 데이터를 합치는 것 이상의 의미를 가져요. 서로 다른 데이터들을 연결함으로써 새로운 정보를 발견하고, 숨겨진 인사이트를 도출할 수 있게 해주는 강력한 도구죠! 데이터 분석의 세계에서 데이터 병합은 마치 마법의 열쇠와도 같아요. 이 열쇠를 잘 활용하면 데이터 분석의 새로운 지평을 열 수 있을 거예요! 다음에는 `merge()` 함수 활용법에 대해 자세히 알아볼 테니 기대해 주세요!

자, 이제 데이터 병합의 기본 개념을 잘 이해하셨나요? 다음 챕터에서는 `merge()` 함수를 이용한 데이터 병합 방법에 대해 자세히 알아보도록 하겠습니다. 더욱 흥미진진한 내용들이 기다리고 있으니 기대해 주세요!

merge() 함수 활용하기

자, 이제 본격적으로 R의 merge() 함수를 가지고 놀아볼 시간이에요! 마치 레고 블럭을 조립하듯 데이터 프레임을 합쳐볼 수 있다니, 정말 신나지 않나요? 😄 merge() 함수는 기본적으로 SQL의 JOIN과 같은 역할을 해준답니다. 두 개 이상의 데이터 프레임을 특정 열을 기준으로 합치는 강력한 도구죠! 마법처럼요! ✨

merge() 함수의 기본 구조

merge() 함수의 기본적인 구조는 merge(x, y, by = , all = ) 이렇게 생겼어요. x와 y에는 병합하려는 데이터 프레임 이름을 넣어주면 되고요. by = 에는 병합 기준이 되는 열 이름을 지정해 줍니다. all = 부분에는 TRUE 또는 FALSE를 넣어서 어떤 방식으로 병합할지 결정할 수 있는데, all = TRUE면 모든 행을 포함하는 full outer join이 되고, all = FALSE면 교집합만 포함하는 inner join이 됩니다. all.x = TRUE는 왼쪽 데이터 프레임(x)의 모든 행을 유지하는 left outer join, all.y = TRUE는 오른쪽 데이터 프레임(y)의 모든 행을 유지하는 right outer join이 돼요! 참 쉽죠?! 👍

merge() 함수 활용 예시

예를 들어, ‘고객’ 데이터 프레임과 ‘구매내역’ 데이터 프레임이 있다고 해볼게요. ‘고객’ 데이터 프레임에는 고객 ID, 이름, 연락처 등이 있고, ‘구매내역’ 데이터 프레임에는 구매 ID, 고객 ID, 구매 품목, 구매 금액 등이 있다고 가정해 봅시다. 두 데이터 프레임 모두 ‘고객 ID’라는 공통 열을 가지고 있으니 이 열을 기준으로 병합하면 되겠죠?

# 고객 데이터 프레임
customers <- data.frame(
  CustomerID = c(1, 2, 3, 4, 5),
  Name = c("김철수", "이영희", "박민수", "최지혜", "정현우"),
  Contact = c("010-1234-5678", "010-9876-5432", "010-1111-2222", "010-3333-4444", "010-5555-6666")
)

# 구매내역 데이터 프레임
purchases <- data.frame(
  PurchaseID = c(101, 102, 103, 104, 105),
  CustomerID = c(2, 4, 1, 3, 2),
  Item = c("사과", "바나나", "오렌지", "포도", "딸기"),
  Amount = c(1000, 2000, 1500, 3000, 2500)
)

# 두 데이터 프레임 병합 (inner join)
merged_data <- merge(customers, purchases, by = "CustomerID")
print(merged_data)

# 두 데이터 프레임 병합 (left outer join)
left_joined_data <- merge(customers, purchases, by = "CustomerID", all.x = TRUE)
print(left_joined_data)

위 코드에서 by = "CustomerID"라고 지정했으니 ‘고객 ID’를 기준으로 두 데이터 프레임이 병합될 거예요. merged_data에는 ‘고객 ID’가 일치하는 고객의 정보와 구매 내역만 포함되고, left_joined_data에는 모든 고객 정보와 일치하는 구매 내역이 포함됩니다. 만약 고객 정보에는 있는데 구매 내역이 없는 경우, 구매 관련 열에는 NA 값이 들어가겠죠?! 🤔

by.x 및 by.y를 활용한 병합

merge() 함수는 by.x와 by.y 인자를 사용해서 서로 다른 이름의 열을 기준으로 병합할 수도 있어요. 예를 들어 ‘고객’ 데이터 프레임에는 ‘고객ID’, ‘구매내역’ 데이터 프레임에는 ‘구매자ID’처럼 열 이름이 다르다면, by.x = "고객ID", by.y = "구매자ID" 이렇게 지정해주면 됩니다! 정말 유연하죠?! 😉

데이터 분석에서의 활용

merge() 함수를 잘 활용하면 데이터 분석에 날개를 달아줄 수 있어요! 마치 흩어져 있던 퍼즐 조각을 맞추듯, 서로 다른 데이터 프레임을 연결해서 더욱 풍부하고 의미 있는 정보를 얻을 수 있답니다. 다양한 옵션들을 활용해서 여러분의 데이터를 자유자재로 병합해보세요! 다음에는 inner_join()과 left_join() 함수에 대해 더 자세히 알아볼게요. 기대해주세요~! 😊

inner_join(), left_join() 비교

자, 이제 드디어 inner_join()과 left_join() 함수를 비교해 볼 시간이에요! 두 함수 모두 데이터프레임을 병합하는 데 사용되지만, 결과는 미묘하게 다르답니다. 마치 쌍둥이처럼 비슷해 보이지만 성격이 다른 것과 같다고 할까요? ^^ 이러한 차이점을 제대로 이해하는 것이 R 데이터 분석에서 매우 중요해요! 그럼, 각 함수의 특징과 차이점을 꼼꼼하게 살펴보도록 할게요.

inner_join() 함수

inner_join()은 두 데이터프레임에서 공통적으로 존재하는 키 값을 기준으로 병합하는 함수입니다. 벤 다이어그램을 떠올려 보세요! 두 원이 겹치는 부분, 바로 그 교집합 영역에 해당하는 데이터만 추출된다고 생각하면 돼요. 예를 들어, 고객 정보 데이터프레임과 구매 내역 데이터프레임을 inner_join()으로 병합한다면, 실제로 구매를 진행한 고객의 정보만 얻을 수 있겠죠? 만약 어떤 고객이 구매 내역이 없다면, 아쉽지만 병합된 데이터에는 포함되지 않아요.ㅠㅠ 이처럼 inner_join()은 불필요한 정보를 제거하고 핵심 데이터만 분석하고 싶을 때 유용하게 활용될 수 있어요!

left_join() 함수

left_join()은 왼쪽 데이터프레임을 기준으로, 오른쪽 데이터프레임을 병합하는 함수예요. 왼쪽 데이터프레임의 모든 행은 그대로 유지되고, 오른쪽 데이터프레임에 일치하는 키 값이 있는 경우에만 해당 데이터가 병합됩니다. 만약 오른쪽 데이터프레임에 일치하는 키 값이 없다면, 해당 열에는 NA 값이 채워져요. 즉, 왼쪽 데이터프레임을 온전히 보존하면서 오른쪽 데이터프레임의 정보를 추가하고 싶을 때 사용하면 딱! 이랍니다. 예를 들어, 모든 고객 정보를 유지하면서 구매 내역이 있는 고객의 정보만 추가하고 싶다면 left_join()을 사용하면 되겠죠? 구매 내역이 없는 고객의 정보도 그대로 유지되면서, 구매 정보가 있는 열에는 NA 값이 표시될 거예요.

표로 정리

표로 정리하면 다음과 같아요!

함수	기준 데이터프레임	병합 조건	결과
inner_join()	양쪽 모두	양쪽 데이터프레임에 모두 존재하는 키 값	교집합 (공통 키 값을 가진 행만 병합)
left_join()	왼쪽	왼쪽 데이터프레임의 모든 행 + 오른쪽 데이터프레임의 일치하는 키 값	왼쪽 데이터프레임 전체 + 일치하는 오른쪽 데이터

실제 데이터 활용 예시

자, 이제 실제 데이터를 활용한 예시를 통해 inner_join()과 left_join()의 차이점을 더욱 명확하게 이해해 보도록 할까요?

1. inner_join() 예시

“`R
library(dplyr)

df1

결과:

“`
id name age
1 2 Bob 25
2 3 Charlie 30
“`

id 1과 4는 두 데이터프레임에 공통적으로 존재하지 않기 때문에 병합 결과에서 제외되었어요. inner_join()은 이처럼 교집합만 나타낸답니다!

2. left_join() 예시

“`R
left_join(df1, df2, by = “id”)
“`

결과:

“`
id name age
1 1 Alice NA
2 2 Bob 25
3 3 Charlie 30
“`

짜잔! df1의 모든 행이 유지되면서, df2에 일치하는 id 값이 있는 행에만 age 정보가 추가되었죠? df1의 id 1은 df2에 없기 때문에 age 열에 NA 값이 채워졌네요. left_join()은 이처럼 왼쪽 데이터프레임을 온전히 보존하면서 오른쪽 데이터프레임의 정보를 추가해준답니다.

이처럼 inner_join()과 left_join()은 각각의 특징과 장점을 가지고 있어요. 분석 목적과 데이터 특성에 따라 적절한 함수를 선택하는 것이 중요하겠죠?! 어떤 함수를 선택해야 할지 고민될 때는 위의 표와 예시를 다시 한번 참고해 보세요! ^^ 다음에는 더욱 흥미로운 내용으로 찾아올게요!

다양한 조인 활용 사례

후~ 드디어 다양한 조인 활용 사례에 대해 알아볼 시간이에요! inner_join()과 left_join()만 알아도 데이터 분석의 반은 먹고 들어간다고 할 수 있지만, 세상에 데이터는 정말 다양한 형태로 존재하잖아요? 그래서 R은 우리에게 더 많은 조인 옵션을 제공한답니다! 마치 마법 상자처럼요!✨ 자, 그럼 이 마법 상자를 하나씩 열어볼까요?

겹치는 열 이름 다루기

두 데이터 프레임에 똑같은 열 이름이 여러 개 있으면 어떻게 될까요? 예를 들어, 고객 정보와 주문 정보를 담은 데이터 프레임 둘 다에 ‘ID’와 ‘날짜’ 열이 있다고 생각해 보세요. 단순히 merge()나 inner_join()을 사용하면 어떤 ‘ID’와 ‘날짜’를 기준으로 조인해야 할지 R이 헷갈려 할 거예요. 😫 이럴 때 by 인수를 사용하면 돼요! by = c("ID", "날짜")처럼 원하는 열을 명시해 주면 된답니다. 참 쉽죠?

그런데 만약 조인 후에도 두 데이터 프레임에서 온 ‘날짜’ 열을 모두 유지하고 싶다면 어떡해야 할까요? 바로 suffix 인수가 필요한 순간입니다! suffix = c(".고객", ".주문")처럼 붙여주면 “날짜.고객”과 “날짜.주문”처럼 구분하기 쉬운 이름으로 열이 생성될 거예요! 마치 이름표를 붙여주는 것 같죠? 😉

여러 개의 데이터 프레임 조인하기

세 개 이상의 데이터 프레임을 조인해야 한다면 어떨까요? 🤔 inner_join()을 여러 번 반복해서 사용할 수도 있지만, Reduce 함수를 사용하면 훨씬 간편하게 해결할 수 있어요! Reduce 함수는 여러 개의 데이터 프레임을 순차적으로 조인해주는 마법 같은 함수랍니다! 마치 도미노처럼요! 😮 예를 들어, 세 개의 데이터 프레임 df1, df2, df3을 조인하려면 Reduce(function(x, y) inner_join(x, y, by = "ID"), list(df1, df2, df3))처럼 사용하면 돼요. 정말 간단하죠?

full_join()으로 모든 데이터 유지하기

inner_join()이나 left_join()은 조인 조건에 맞는 데이터만 남기고 나머지는 삭제하잖아요? 하지만 모든 데이터를 하나도 잃지 않고 유지하고 싶을 때도 있을 거예요. 예를 들어, 고객 정보와 주문 정보를 조인할 때, 주문 내역이 없는 고객 정보도 모두 포함하고 싶다면 full_join()을 사용하면 돼요! full_join()은 마치 퍼즐 조각을 모두 맞추듯이 모든 데이터를 합쳐준답니다! 🧩 조인 조건에 맞지 않는 부분은 NA 값으로 채워지니까 걱정하지 마세요! 😊

anti_join()으로 특정 데이터 제외하기

반대로, 특정 조건에 맞는 데이터를 제외하고 싶을 때는 어떻게 해야 할까요? 예를 들어, 특정 상품을 구매한 적이 없는 고객 목록을 추출하고 싶다면 anti_join()이 딱이에요! anti_join()은 마치 마법의 지우개처럼 원하는 데이터만 쏙쏙 제거해준답니다! 🪄 정말 신기하죠?

semi_join()으로 특정 데이터만 필터링하기

anti_join()과 비슷하지만, 특정 조건에 맞는 데이터만 포함하고 싶을 때는 semi_join()을 사용할 수 있어요. semi_join()은 마치 돋보기처럼 원하는 데이터만 확대해서 보여주는 것 같아요! 🔍 예를 들어, 특정 상품을 구매한 적이 있는 고객 목록만 추출하고 싶다면 semi_join()을 사용하면 돼요!

실제 데이터 분석 사례: 쇼핑몰 데이터 분석

자, 이제 실제 쇼핑몰 데이터를 분석하는 상황을 가정해 볼게요. 고객 정보, 주문 정보, 상품 정보 등 여러 개의 데이터 프레임이 있고, 이들을 조인하여 다양한 분석을 수행해야 한다고 생각해 보세요. 예를 들어, 어떤 상품이 가장 많이 팔렸는지, 어떤 고객층이 어떤 상품을 선호하는지, 지역별 매출은 어떻게 다른지 등등… 다양한 조인 기법을 활용하면 이 모든 분석을 훨씬 효율적으로 수행할 수 있답니다! 마치 데이터라는 거대한 바다를 항해하는 능숙한 선장이 된 것처럼 말이죠! 🚢

inner_join()을 사용하여 고객 정보와 주문 정보를 연결하고, 다시 상품 정보와 연결하여 상품별 판매량을 분석할 수 있어요. left_join()을 사용하여 모든 고객 정보를 유지하면서 주문 정보를 추가하고, 주문 내역이 없는 고객을 파악할 수도 있죠. full_join()을 사용하여 고객 정보와 상품 정보를 모두 유지하면서, 어떤 고객이 어떤 상품을 구매했는지, 그리고 어떤 고객은 아직 구매하지 않았는지 등을 한눈에 파악할 수도 있답니다!

anti_join()을 사용하면 특정 이벤트에 참여하지 않은 고객을 추출하여 타겟 마케팅을 진행할 수도 있고, semi_join()을 사용하면 특정 기간 동안 활동이 없는 휴면 고객을 파악하여 재활성화 전략을 수립할 수도 있어요. 정말 다양한 활용이 가능하죠?

R의 다양한 조인 함수들을 잘 활용하면 데이터 분석의 효율성을 극대화할 수 있답니다! 여러분도 이 마법 같은 도구들을 자유자재로 활용하여 데이터 분석의 세계를 정복해 보세요! 💪 화이팅! 😄

R로 데이터 다루는 거, 처음엔 좀 어려워 보일 수 있죠? 하지만 merge()와 join 함수들을 알고 나면 신세계가 열린답니다! 마치 퍼즐 조각 맞추듯, 흩어져 있던 데이터들이 하나로 합쳐지는 마법 같아요. inner_join()으로 꼭 맞는 조각들을 찾고, left_join()으로 왼쪽 조각을 기준으로 퍼즐을 완성하는 거죠. 이제 여러분도 데이터 병합 마스터가 될 수 있어요! 다양한 활용법을 익혀서 데이터 분석 실력을 한 단계 업그레이드해보는 건 어떨까요? R과 함께라면 더욱 흥미진진한 데이터 분석 여정이 펼쳐질 거예요! 다음에 또 만나요!

Itlearner

Previous « R에서 데이터 변환 (mutate(), transmute())