R에서 중복된 데이터 제거 (distinct(), duplicated())

데이터 분석 할 때, 똑같은 데이터가 여러 번 나오면 어떻게 해야 할까요? R을 사용한다면 걱정 마세요! 이 블로그 포스팅에서는 R에서 중복된 데이터를 깔끔하게 정리하는 방법을 알려드리려고 해요. 바로 distinct()와 duplicated() 함수를 사용하는 건데요. 복잡한 코드 없이도 간단하게 중복 데이터를 제거할 수 있어서 정말 편리해요. 실제 데이터 분석 예시를 통해서 어떻게 활용하는지도 차근차근 보여드릴 테니, 걱정하지 마세요. 함께 깨끗하고 효율적인 데이터 분석을 시작해봐요!

중복 데이터란 무엇인가?

데이터 분석, 특히 R을 이용한 분석에서 “중복 데이터”는 생각보다 자주 마주치는 골칫덩어리예요! 마치 옷장 속에 똑같은 셔츠가 여러 벌 있는 것처럼, 데이터베이스에도 똑같은 정보가 여러 줄 반복되어 존재할 수 있답니다. 이런 중복 데이터는 분석 결과를 왜곡하고, 저장 공간을 낭비하며, 처리 속도까지 떨어뜨리는 주범이 될 수 있어요! 으으, 생각만 해도 머리가 아프죠? 😅

중복 데이터의 유형

좀 더 자세히 알아볼까요? 중복 데이터는 크게 두 가지 유형으로 나눌 수 있어요. 첫 번째는 완전 중복이에요. 모든 변수의 값이 완벽하게 일치하는 행들이죠. 예를 들어, 고객 데이터베이스에 이름, 주소, 연락처까지 모두 동일한 정보가 두 줄 이상 입력되어 있다면? 이건 완전 중복 데이터라고 할 수 있어요. 마치 복사-붙여넣기를 한 것 같죠?

두 번째 유형은 부분 중복입니다. 특정 변수, 즉 특정 기준에 따라 중복된 값을 가지는 행들이에요. 예를 들어, 온라인 쇼핑몰에서 같은 상품을 여러 번 구매한 고객 데이터를 생각해 보세요. 고객 ID는 동일하지만, 구매 날짜, 수량 등 다른 변수의 값은 다를 수 있겠죠? 이런 경우, 고객 ID를 기준으로 보면 중복 데이터라고 볼 수 있어요. 마치 같은 옷이지만 색깔이나 사이즈가 다른 것과 같아요!

중복 데이터 발생 원인

중복 데이터가 발생하는 이유는 다양해요. 가장 흔한 원인 중 하나는 데이터 입력 오류죠. 사람이 직접 데이터를 입력하는 과정에서 실수로 같은 정보를 두 번 입력할 수도 있고, 시스템 오류로 인해 중복 데이터가 생성될 수도 있어요. 😫 또한, 서로 다른 출처에서 데이터를 가져와 합칠 때, 공통된 변수를 기준으로 중복 데이터가 발생할 수도 있죠. 마치 여러 개의 옷장을 하나로 합치면서 똑같은 옷이 발견되는 것과 같아요!

중복 데이터의 문제점

중복 데이터는 분석 결과에 심각한 영향을 미칠 수 있어요. 예를 들어, 고객 설문조사 결과를 분석할 때 중복 응답이 포함되어 있다면? 실제 고객 의견보다 특정 의견이 과대 대표될 수 있겠죠? 이는 잘못된 결론으로 이어질 수 있어요. 😱 또한, 중복 데이터는 저장 공간을 불필요하게 차지하고, 데이터 처리 속도를 늦추는 원인이 되기도 합니다. 마치 옷장이 꽉 차서 옷을 찾기 힘든 것과 같아요.

R을 이용한 중복 데이터 처리

그렇다면 중복 데이터는 어떻게 찾아낼 수 있을까요? R에서는 distinct() 함수와 duplicated() 함수를 사용하여 중복 데이터를 효율적으로 식별하고 제거할 수 있어요. 이 두 함수는 각각 다른 방식으로 중복 데이터를 처리하는데, 다음 섹션에서 자세히 알아볼게요! 😉 distinct() 함수는 중복된 행을 제거하고 유일한 행만 남기는 데 유용하고, duplicated() 함수는 중복 여부를 논리값(TRUE/FALSE)으로 반환하여 중복된 행을 식별하는 데 도움을 줍니다. 마치 옷장 정리를 할 때, distinct() 함수는 똑같은 옷 중 하나만 남기고 나머지는 버리는 것과 같고, duplicated() 함수는 똑같은 옷을 찾아 표시하는 것과 같아요!

자, 이제 중복 데이터의 개념을 확실히 이해하셨나요? 다음 섹션에서는 distinct() 함수를 활용하여 중복 데이터를 제거하는 방법을 자세히 알아보겠습니다! 😄

distinct() 함수 활용법

자, 이제 드디어!! distinct() 함수 활용법에 대해 알아볼 시간이에요! distinct() 함수는 말이죠, 데이터프레임에서 중복된 행을 제거하고 유니크한 행만 남겨주는 아주 멋진 친구랍니다! 마법 같죠? ✨ 마치 옷장 정리하듯이 데이터를 깔끔하게 만들어준다고 생각하면 돼요! 복잡한 데이터 분석에서 필수적인 함수니까, 제대로 익혀두면 정말 유용할 거예요! 😉

dplyr 패키지에 포함된 이 함수는 기본적으로 모든 열을 고려하여 중복 여부를 판단해요. 예를 들어, 100개의 행을 가진 데이터프레임에서 5개의 행이 완전히 동일하다면, distinct() 함수를 적용하면 95개의 행만 남게 되는 거죠! 참 쉽죠?

하지만, 때로는 특정 열만을 기준으로 중복을 제거하고 싶을 때도 있잖아요? 🤔 걱정 마세요! distinct() 함수는 그런 경우에도 훌륭하게 작동한답니다. .keep_all = TRUE 옵션을 사용하면, 지정한 열을 기준으로 중복을 제거하면서도 다른 열의 정보는 그대로 유지할 수 있어요! 정말 똑똑한 친구죠? 🤓

자, 이제 distinct() 함수의 다양한 활용법을 몇 가지 예시와 함께 자세히 살펴볼게요. 준비되셨나요? Let’s get it! 💪

1. 모든 열을 기준으로 중복 제거

가장 기본적인 활용법이에요. 데이터프레임 전체에서 중복된 행을 모두 제거하고 싶을 때 사용해요.

library(dplyr)

df <- data.frame(
  이름 = c("철수", "영희", "철수", "민수", "영희"),
  나이 = c(25, 23, 25, 27, 23),
  성별 = c("남자", "여자", "남자", "남자", "여자")
)

distinct_df <- distinct(df)
print(distinct_df)

이 코드를 실행하면 “철수”, “영희”, “민수” 각각 한 번씩만 나타나는 데이터프레임이 생성될 거예요!

2. 특정 열을 기준으로 중복 제거

특정 열의 값이 같은 행들을 하나로 합치고 싶을 때 사용해요. 예를 들어, “이름” 열을 기준으로 중복을 제거하려면 다음과 같이 코드를 작성하면 된답니다.

distinct_df <- distinct(df, 이름, .keep_all = TRUE)
print(distinct_df)

이렇게 하면 이름이 같은 행 중 첫 번째 행만 남고 나머지는 제거돼요. .keep_all = TRUE 옵션 덕분에 나이와 성별 정보도 함께 유지되는 것을 확인할 수 있을 거예요! 만약 이 옵션을 사용하지 않으면, “이름” 열만 남게 된답니다. 주의하세요!⚠️

3. 여러 열을 기준으로 중복 제거

“이름”과 “나이”가 모두 같은 행을 제거하고 싶다면 어떻게 해야 할까요? 바로 이렇게 하면 된답니다!

distinct_df <- distinct(df, 이름, 나이, .keep_all = TRUE)
print(distinct_df)

정말 간단하죠? 여러 열을 기준으로 중복을 제거할 때는 쉼표(,)로 구분해서 열 이름을 나열해주면 돼요.

4. NA(결측값) 처리

데이터에는 종종 NA 값이 포함되어 있을 수 있어요. distinct() 함수는 NA 값도 하나의 값으로 인식하기 때문에, NA 값을 가진 행들도 중복으로 처리될 수 있다는 점을 기억해두세요! 만약 NA 값을 가진 행을 제거하고 싶다면, na.omit() 함수와 함께 사용하는 것을 추천해요! 👍

df_with_na <- data.frame(
  이름 = c("철수", "영희", NA, "민수", "영희"),
  나이 = c(25, 23, 25, NA, 23),
  성별 = c("남자", "여자", "남자", "남자", "여자")
)

distinct_df_no_na <- distinct(na.omit(df_with_na), 이름, .keep_all = TRUE)
print(distinct_df_no_na)

자, 이제 distinct() 함수의 다양한 활용법을 살펴봤어요. 어때요? 생각보다 어렵지 않죠? 😄 이 함수를 잘 활용하면 중복 데이터를 효율적으로 제거하고 깔끔한 데이터프레임을 만들 수 있을 거예요! 다음에는 duplicated() 함수에 대해 알아볼 텐데, 기대해도 좋아요! 😉

duplicated() 함수 활용법

자, 이제 R에서 중복 데이터를 찾아내는 또 다른 강력한 도구인 duplicated() 함수에 대해 알아볼까요? distinct() 함수가 중복된 행 전체를 제거하는 데 집중했다면, duplicated() 함수는 어떤 행이 중복되었는지를 콕 집어 알려주는 역할을 해요. 마치 탐정처럼 말이죠!🕵️‍♀️

duplicated() 함수의 작동 방식

duplicated() 함수는 기본적으로 중복된 행의 인덱스를 TRUE/FALSE 형태로 반환해요. 첫 번째로 나타나는 행은 FALSE로, 그 이후에 동일하게 나타나는 행들은 TRUE로 표시되는 거죠. 참 똑똑하죠? 🤔 이렇게 얻은 논리값 벡터를 이용해서 다양한 후속 작업을 진행할 수 있어요. 예를 들어, 중복된 행만 따로 추출하거나, 중복 여부를 새로운 변수로 추가할 수도 있죠.

duplicated() 함수의 활용법

duplicated() 함수의 활용법을 좀 더 자세히 살펴볼게요. 기본적인 사용법은 duplicated(데이터프레임)이에요. 참 간단하죠? 이렇게만 사용하면 전체 행을 기준으로 중복 여부를 판단해요. 하지만 특정 열만을 기준으로 중복을 찾고 싶을 때도 있잖아요? 그럴 땐 특정 열의 이름을 지정해주면 돼요! 예를 들어, duplicated(데이터프레임, fromLast = TRUE)와 같이 사용하면 마지막으로 나타나는 중복 행을 기준으로 TRUE/FALSE 값을 반환해줘요. fromLast = FALSE가 기본값이며, 이는 처음 나타나는 중복 행을 기준으로 판단한다는 뜻이에요. 이처럼 작은 옵션 하나로 결과가 달라질 수 있으니 꼼꼼하게 확인하는 습관을 들이는 게 좋겠죠? 😉

활용 예시

자, 그럼 실제로 어떻게 활용되는지 예시를 통해 알아볼까요? 만약 10,000개의 고객 데이터가 있다고 가정해 봐요. 이 중에서 이름과 생년월일이 같은 고객이 중복 가입된 경우를 찾아야 한다면 어떻게 해야 할까요? duplicated() 함수를 이용하면 아주 간단하게 해결할 수 있어요! duplicated(고객데이터[, c("이름", "생년월일")]) 이렇게 이름과 생년월일 열을 선택해서 중복 여부를 확인하면 끝! 참 쉽죠? 😄

다양한 활용법

duplicated() 함수는 단순히 중복 여부를 판단하는 것을 넘어서, 데이터 분석의 다양한 상황에서 활용될 수 있어요. 예를 들어, 특정 조건을 만족하는 중복 데이터만 추출해야 하는 경우를 생각해 볼까요? subset() 함수와 함께 사용하면 아주 효율적으로 처리할 수 있어요. subset(데이터프레임, duplicated(데이터프레임[, c("열1", "열2")]) & 조건) 이렇게 하면 특정 열의 중복 여부와 다른 조건을 동시에 적용해서 원하는 데이터만 뽑아낼 수 있답니다! 정말 유용하죠? 👍

anyDuplicated() 함수와의 조합

duplicated() 함수는 anyDuplicated() 함수와 함께 사용하면 더욱 강력한 효과를 발휘해요. anyDuplicated() 함수는 중복된 행이 하나라도 존재하면 해당 행의 인덱스를, 중복이 없으면 0을 반환해요. 이를 이용해서 중복 여부를 빠르게 확인하고, 후속 작업을 진행할 수 있죠. 예를 들어, if (anyDuplicated(데이터프레임) > 0) { 중복 처리 로직 }과 같이 사용하면 중복이 존재하는 경우에만 특정 로직을 실행할 수 있어요. 코드의 효율성을 높이는 데 아주 유용하겠죠? 😊

다양한 데이터 타입 지원

또한, duplicated() 함수는 데이터프레임뿐만 아니라 벡터, 행렬, 리스트 등 다양한 데이터 타입에도 적용할 수 있어요. 활용도가 정말 무궁무진하죠? 데이터 분석을 하다 보면 예상치 못한 상황에서 중복 데이터를 만나게 되는 경우가 종종 있어요. 그럴 때 duplicated() 함수를 잘 활용하면 문제 해결에 큰 도움이 될 거예요. 다양한 옵션과 활용법을 익혀서 데이터 분석 실력을 한 단계 업그레이드해 보세요! 🚀

자, 이제 duplicated() 함수를 어떻게 활용하는지 감이 좀 잡히시나요? 처음엔 조금 어려워 보일 수 있지만, 몇 번 연습하다 보면 금방 익숙해질 거예요. 다양한 예시를 통해 직접 코드를 작성하고 실행해 보면서 duplicated() 함수의 매력에 푹 빠져보세요! 🤗 다음에는 더욱 흥미로운 R 함수 이야기로 찾아올게요! 😉

실제 데이터 분석 예시

자, 이제까지 distinct()와 duplicated() 함수를 열심히 공부했으니 실제 데이터로 꼬옥~ 한번 분석해 봐야겠죠?! ^^ 데이터 분석가라면 누구나 공감하시겠지만, 이론만으론 감이 잘 안 잡히는 부분이 있잖아요~? 실전 경험만큼 중요한 건 없으니까요! 그래서 준비했어요! 마치 여러분이 컨설팅 프로젝트를 진행하는 것처럼 생생한 시나리오를 통해 실제 데이터 분석 과정을 함께 살펴볼게요.

가상의 온라인 쇼핑몰 데이터를 활용해서 고객 구매 데이터 분석을 해보도록 하겠습니다. 데이터는 고객 ID, 구매 상품, 구매 날짜, 구매 금액 등으로 구성되어 있어요. 약 50,000건 정도의 데이터라고 가정해 볼까요? 이 정도면 충분히 현실적인 데이터 크기라고 할 수 있겠죠? 😊

중복 구매 고객 파악

자, 그럼 첫 번째 분석 목표는 “중복 구매 고객 파악”입니다. 같은 고객이 같은 상품을 같은 날짜에 여러 번 구매한 경우가 종종 발생할 수 있는데요, 이런 중복 데이터는 분석 결과를 왜곡할 수 있기 때문에 제거하는 것이 중요해요!

# 데이터 불러오기 (가상 데이터 예시) customer_data <- data.frame( customer_id = c(1, 1, 2, 3, 3, 3, 4, 5, 5, 6), product = c("A", "A", "B", "C", "C", "D", "E", "F", "F", "G"), purchase_date = as.Date(c("2024-01-01", "2024-01-01", "2024-01-02", "2024-01-03", "2024-01-03", "2024-01-04", "2024-01-05", "2024-01-06", "2024-01-06", "2024-01-07")), purchase_amount = c(10, 10, 20, 30, 30, 40, 50, 60, 60, 70) )


# 중복 데이터 확인

duplicated_rows <- duplicated(customer_data[, c("customer_id", "product", "purchase_date")])
# 중복 데이터 출력

customer_data[duplicated_rows, ]
# 중복 데이터 제거

unique_customer_data <- customer_data[!duplicated(customer_data[, c("customer_id", "product", "purchase_date")]), ]

# 결과 확인 head(unique_customer_data)

위 코드에서는 customer_id, product, purchase_date 세 가지 열을 기준으로 중복 여부를 판단했어요. duplicated() 함수를 이용해서 중복된 행을 찾고, ! 연산자를 사용해서 중복되지 않은 행만 추출했답니다! 이렇게 하면 중복 구매 데이터를 깔끔하게 제거할 수 있어요! 😉

고객별 Unique한 구매 상품 분석

두 번째 분석 목표는 “고객별 unique한 구매 상품 분석”입니다. 각 고객이 몇 가지 종류의 상품을 구매했는지 알아보는 거죠! 이를 위해 distinct() 함수를 활용해 볼게요.

# 고객별 unique한 구매 상품 library(dplyr)


distinct_products <- customer_data %>%

  distinct(customer_id, product)
# 결과 확인

print(distinct_products)
# 고객별 unique한 구매 상품 개수

product_counts <- distinct_products %>%

  group_by(customer_id) %>%

  summarise(unique_product_count = n())

# 결과 확인 print(product_counts)

dplyr 패키지의 distinct() 함수는 정말 강력해요! 고객 ID와 상품명을 기준으로 중복을 제거하고, 각 고객이 구매한 unique한 상품 목록을 만들어 줍니다. 그리고 group_by()와 summarise() 함수를 조합하면 고객별로 몇 개의 unique한 상품을 구매했는지 쉽게 계산할 수 있어요! 👍

이처럼 distinct()와 duplicated() 함수는 데이터 분석에서 정말 유용하게 활용될 수 있어요. 특히 대용량 데이터를 다룰 때 그 진가가 발휘된답니다! 여러분도 다양한 데이터 분석 시나리오에 적용해보면서 함수 활용 능력을 쑥쑥 키워보세요! 😄 데이터 분석의 세계는 무궁무진하니까요! ✨ 다양한 시도를 통해 여러분만의 인사이트를 발견해보시길 바랍니다!

고객 및 구매 채널별 Unique한 상품 분석

자, 이제 좀 더 복잡한 예시를 살펴볼까요? 고객 데이터에 purchase_channel (구매 채널: 온라인, 오프라인) 정보가 추가되었다고 가정해 봅시다. 그리고 우리는 각 고객이 어떤 채널을 통해서 얼마나 다양한 상품을 구매했는지 분석하고 싶어요. 이럴 때 distinct()와 group_by(), summarise() 함수를 조합하면 아주 효율적으로 분석할 수 있답니다!

# 구매 채널 정보 추가 (가상 데이터) customer_data$purchase_channel <- c("온라인", "온라인", "오프라인", "온라인", "온라인", "오프라인", "온라인", "오프라인", "오프라인", "온라인")


# 고객 및 구매 채널별 unique한 상품 개수 계산

channel_product_counts <- customer_data %>%

  distinct(customer_id, purchase_channel, product) %>%

  group_by(customer_id, purchase_channel) %>%

  summarise(unique_product_count = n())

# 결과 확인 print(channel_product_counts)

이 코드를 실행하면 각 고객이 온라인과 오프라인 채널에서 각각 몇 개의 unique한 상품을 구매했는지 확인할 수 있어요. 이를 통해 고객의 구매 행태를 더욱 깊이 있게 이해하고, 맞춤형 마케팅 전략을 수립하는 데 도움이 될 수 있겠죠?! 😉

이 외에도 distinct()와 duplicated() 함수를 활용해서 다양한 분석을 수행할 수 있습니다. 예를 들어, 특정 기간 동안 가장 많이 판매된 unique한 상품 목록을 추출하거나, 중복된 고객 정보를 제거하여 데이터베이스를 정리하는 등 다양한 활용법이 존재합니다. 여러분의 창의력을 발휘하여 데이터 분석에 활용해 보세요! 데이터 분석의 여정은 이제 시작입니다! 😊

R로 데이터 분석하는 거, 처음엔 막막하게 느껴질 수 있어요. 특히 중복 데이터 때문에 골치 아팠던 경험, 다들 한 번쯤 있지 않나요? 하지만 이제 걱정 끝! distinct()와 duplicated() 함수만 잘 활용하면 중복 데이터 정리, 정말 쉽게 할 수 있답니다. 마치 마법처럼 깔끔하게 변하는 데이터를 보면 속이 다 시원해질 거예요. 오늘 배운 내용으로 여러분의 데이터 분석 실력이 한 단계 업그레이드되었기를 바라요! 앞으로 더 재밌고 유익한 분석 경험을 쌓아가길 응원할게요. 다음에 또 만나요!