Categories: SQL

SQL과 Pandas를 활용한 데이터 분석 기초

안녕하세요! 데이터 분석의 세계에 뛰어들고 싶지만 어디서부터 시작해야 할지 막막하신가요? 걱정 마세요! 제가 친절하게 안내해 드릴게요. 오늘 우리는 강력한 데이터 분석 도구인 SQL과 Pandas를 활용하는 방법을 함께 알아볼 거예요.

SQL 기본 개념을 이해하고 Pandas로 데이터를 자유자재로 다루는 방법을 배우면 생각보다 훨씬 쉽게 데이터 분석을 시작할 수 있어요. 특히 SQL과 Pandas의 환상적인 연동은 정말 놀라운 결과를 만들어낸답니다!

실제 데이터 분석 실습 예제를 통해 여러분의 데이터 분석 능력을 한 단계 업그레이드할 기회를 잡아보세요. 자, 이제 흥미진진한 데이터 분석 여정을 함께 시작해 볼까요?

SQL 기본 개념 이해하기

데이터 분석의 세계에 뛰어들었다면, SQL은 마치 마법 지팡이 같은 존재예요!✨ 데이터베이스라는 거대한 보물 창고에서 원하는 정보만 쏙쏙 뽑아낼 수 있게 해주는 열쇠니까요. 자, 이제 SQL의 기본 개념들을 하나씩 풀어보면서 데이터 분석의 기초를 탄탄하게 다져볼까요?

RDBMS(관계형 데이터베이스 관리 시스템)

가장 먼저 알아야 할 것은 바로 RDBMS(관계형 데이터베이스 관리 시스템)입니다. 데이터들을 표 형태로 저장하고, 각 표 사이의 관계를 정의해서 데이터를 효율적으로 관리할 수 있도록 해주는 시스템이에요. 마치 잘 정리된 엑셀 파일 여러 개를 연결해놓은 것처럼 생각하면 이해하기 쉬울 거예요. RDBMS의 대표적인 예로는 MySQL, Oracle, PostgreSQL 등이 있답니다. MySQL은 오픈 소스라서 접근성이 좋고, Oracle은 안정성이 뛰어나 대기업에서 많이 사용되죠. PostgreSQL은 확장성이 좋아서 복잡한 데이터 분석에 유용해요. 각각의 특징을 잘 파악해서 상황에 맞는 RDBMS를 선택하는 것이 중요하겠죠? 🤔

SQL(Structured Query Language)

다음으로는 SQL(Structured Query Language)! 이름에서 알 수 있듯이, 데이터베이스에 질의를 할 수 있는 구조화된 언어예요. “이런 조건에 맞는 데이터를 찾아줘!” 라고 데이터베이스에 명령을 내릴 수 있는 거죠. SQL을 배우면 데이터베이스에서 원하는 정보만 쏙쏙 골라낼 수 있답니다. 마치 데이터베이스라는 거대한 도서관에서 원하는 책을 검색해서 찾는 것과 같아요. 📚 검색어를 잘 입력해야 원하는 책을 찾을 수 있듯이, SQL 문법을 잘 알아야 원하는 데이터를 얻을 수 있겠죠?

SQL 기본 명령어

SQL에는 다양한 명령어들이 있는데, 가장 기본적이고 중요한 명령어들을 살펴볼까요?

SELECT 문

먼저 SELECT 문은 데이터베이스에서 원하는 데이터를 선택하는 명령어입니다. 예를 들어, 고객 테이블에서 이름과 연락처를 가져오고 싶다면 SELECT 이름, 연락처 FROM 고객 과 같이 쿼리를 작성하면 돼요. 참 쉽죠? 😊

FROM 절

FROM 절은 데이터를 가져올 테이블을 지정하는 부분입니다. 마치 도서관에서 어떤 책장에서 책을 찾을지 정하는 것과 같아요. FROM 고객 이라고 쓰면 고객 테이블에서 데이터를 가져오겠다는 의미가 됩니다.

WHERE 절

WHERE 절은 특정 조건에 맞는 데이터만 선택하고 싶을 때 사용합니다. 예를 들어, 20대 여성 고객의 정보만 가져오고 싶다면 WHERE 나이 BETWEEN 20 AND 29 AND 성별 = '여성' 과 같이 조건을 추가할 수 있어요. 마치 도서관에서 특정 저자의 책만 찾는 것과 같죠? 🧐

INSERT 문

INSERT 문은 테이블에 새로운 데이터를 추가하는 명령어입니다. 새로운 고객 정보를 입력할 때 사용하면 되겠죠? INSERT INTO 고객 (이름, 연락처) VALUES ('홍길동', '010-1234-5678') 와 같이 작성하면 홍길동 님의 정보가 고객 테이블에 추가됩니다!

UPDATE 문

UPDATE 문은 기존 데이터를 수정하는 명령어입니다. 고객 정보가 변경되었을 때 사용하면 편리해요. 예를 들어, 홍길동 님의 연락처가 변경되었다면 UPDATE 고객 SET 연락처 = '010-9876-5432' WHERE 이름 = '홍길동' 와 같이 쿼리를 작성하면 됩니다. 참 간단하죠? 😉

DELETE 문

마지막으로 DELETE 문은 테이블에서 데이터를 삭제하는 명령어입니다. 고객 정보를 삭제해야 할 때 사용하면 돼요. 하지만 데이터 삭제는 신중하게 해야 한다는 것! 잊지 마세요!⚠️ 실수로 중요한 데이터를 삭제하면 복구하기 어려울 수 있으니까요. DELETE FROM 고객 WHERE 이름 = '홍길동' 와 같이 작성하면 홍길동 님의 정보가 고객 테이블에서 삭제됩니다.

SQL은 데이터 분석의 필수 도구예요. 위에서 설명한 기본적인 명령어들을 잘 익혀두면 데이터베이스를 자유자재로 다룰 수 있게 될 거예요. 꾸준히 연습하고 활용하다 보면 어느새 데이터 분석 전문가가 되어 있을지도 몰라요! 😄 다음에는 Pandas로 데이터를 다루는 방법에 대해 알아볼게요. 기대해주세요! 😉

Pandas로 데이터 다루기

SQL로 데이터베이스를 주물럭거렸으니 이제 Pandas로 넘어가 볼까요? Pandas는 파이썬에서 데이터 분석을 할 때 정말정말 없어서는 안 될, 마치 맛있는 요리에 꼭 필요한 양념 같은 존재예요! 마법처럼 데이터를 다룰 수 있게 해주는 도구랄까요? ^^ 데이터를 테이블 형태로 만들고, 수정하고, 분석하는 데 이만한 친구가 없답니다.

Pandas의 강력함

자, 그럼 Pandas가 왜 이렇게 강력한지, 어떤 마법을 부릴 수 있는지 하나씩 살펴볼게요. 먼저 Pandas의 핵심! 바로 Series와 DataFrame입니다. Series는 1차원 배열 같은 친구인데, 데이터에 이름표(index)를 붙여서 관리할 수 있어요. DataFrame은 이 Series들이 모여서 2차원 테이블 형태를 이루는 거죠. 마치 엑셀 스프레드시트처럼 말이에요! 데이터 분석에서 가장 많이 사용하는 형태랍니다.

DataFrame 활용 예시

예를 들어, 온라인 쇼핑몰의 판매 데이터를 생각해 보세요. 각 상품의 이름, 가격, 판매량, 고객 정보 등 다양한 데이터가 있겠죠? 이런 데이터들을 DataFrame으로 만들면 각 열(column)은 ‘상품명’, ‘가격’, ‘판매량’처럼 이름을 붙일 수 있고, 각 행(row)은 각각의 상품 정보를 나타내게 됩니다. 정말 깔끔하게 정리되겠죠?

데이터 자유자재 활용

Pandas의 진짜 매력은 데이터를 자유자재로 다룰 수 있다는 거예요! 특정 조건에 맞는 데이터만 쏙쏙 뽑아내거나, 데이터를 정렬하고, 그룹으로 묶고, 심지어 새로운 열을 만들어서 계산까지 할 수 있답니다! 마치 데이터를 가지고 노는 것 같아요!

데이터 추출

예를 들어, 판매량이 100개 이상인 상품만 보고 싶다고 해볼까요? Pandas에서는 간단한 코드 몇 줄이면 휘리릭! 찾아낼 수 있어요. 가격이 가장 비싼 상품은? 가장 많이 팔린 상품은? 이런 질문에도 Pandas는 척척박사처럼 답을 해준답니다. 정말 신기하지 않나요?!

데이터 전처리

데이터 분석에서 빠질 수 없는 게 바로 데이터 ‘전처리’인데요. 실제 데이터는 깨끗하지 않은 경우가 많아요. 빈칸이 있거나, 오타가 있거나, 형식이 맞지 않거나… 이런 지저분한 데이터를 Pandas를 이용해서 깨끗하게 청소할 수 있어요! 빈칸을 채우고, 오타를 수정하고, 형식을 통일하고… 마치 마법의 빗자루 같아요! 데이터 분석의 시작과 끝은 데이터 전처리라고 해도 과언이 아닐 정도로 중요한 작업이랍니다.

데이터 시각화

Pandas는 데이터 시각화에도 탁월한 능력을 발휘해요! 데이터를 그래프로 만들면 한눈에 쏙쏙 들어오잖아요? Pandas는 matplotlib이나 seaborn 같은 시각화 라이브러리와 찰떡궁합을 자랑해서, 원하는 형태의 그래프를 쉽게 만들 수 있답니다. 막대그래프, 선 그래프, 원 그래프, 산점도… 가능성은 무궁무진해요! 데이터 분석 결과를 효과적으로 보여주는 데 그래프만큼 좋은 게 없죠!

외부 데이터 활용

또, Pandas는 외부 데이터를 불러오고 저장하는 기능도 갖추고 있어요. CSV, Excel, SQL 데이터베이스 등 다양한 형태의 데이터를 Pandas로 가져와서 분석하고, 분석 결과를 다시 저장할 수 있답니다. 데이터 분석의 A부터 Z까지 Pandas 하나면 충분해요!

Pandas 함수

Pandas의 함수는 정말정말 많아요! 처음에는 다 외우려고 하지 말고, 필요할 때마다 찾아보는 게 좋아요. Pandas 공식 문서나 인터넷 검색을 통해 원하는 함수를 쉽게 찾을 수 있답니다. 자주 사용하는 함수들은 자연스럽게 익혀지니까 걱정하지 마세요~

NumPy 기반

Pandas는 NumPy라는 라이브러리를 기반으로 만들어졌어요. NumPy는 파이썬에서 수치 계산을 빠르게 할 수 있게 해주는 라이브러리인데, Pandas는 이 NumPy의 강력한 기능을 활용해서 데이터를 효율적으로 처리한답니다. Pandas와 NumPy는 마치 찰떡궁합 콤비 같아요! 함께 사용하면 더욱 강력한 힘을 발휘하죠!

Pandas 학습

Pandas를 배우는 가장 좋은 방법은 직접 데이터를 가지고 이것저것 만져보는 거예요! 다양한 예제를 통해 Pandas의 다양한 기능을 익히고, 자신만의 분석 프로젝트를 진행해 보면 Pandas의 매력에 푹 빠지게 될 거예요! 데이터 분석의 세계로 떠나는 신나는 여정에 Pandas가 든든한 동반자가 되어줄 거예요! 자, 이제 Pandas와 함께 데이터 분석의 마법을 펼쳐볼까요?

SQL과 Pandas 연동하기

드디어 SQL과 Pandas가 만나는 순간이에요! 데이터 분석의 날개를 달아줄 강력한 콤비, SQL과 Pandas의 시너지를 직접 경험해 볼 시간이랍니다.

SQL과 Pandas의 조합

SQL은 데이터베이스에서 데이터를 가져오는 데 탁월하고, Pandas는 그 데이터를 자유자재로 다루고 분석하는 데 최적화되어 있어요. 이 둘을 연결하면 상상 초월의 효율과 분석 능력을 얻게 된답니다!

SQLAlchemy 소개

SQLAlchemy라는 마법 같은 도구를 사용하면 SQL과 Pandas의 환상적인 협업이 가능해져요. SQLAlchemy는 Python SQL 툴킷이자 객체 관계 매퍼(ORM)입니다. ORM은 객체 지향 프로그래밍 언어의 개념을 사용하여 호환되지 않는 유형 시스템 간에 데이터를 변환하는 기술이에요. 덕분에 데이터베이스와 직접 소통하는 것처럼 SQL 쿼리를 사용해서 데이터를 가져오고, 그 결과를 바로 Pandas DataFrame으로 변환할 수 있다는 사실!

SQLAlchemy를 이용한 SQL과 Pandas 연결

자, 그럼 SQLAlchemy를 이용해 SQL과 Pandas를 어떻게 연결하는지 구체적으로 알아볼까요? 먼저, create_engine 함수를 이용해서 데이터베이스 연결 정보를 설정해야 해요. 예를 들어, MySQL 데이터베이스에 연결하려면 'mysql+mysqlconnector://사용자이름:비밀번호@호스트:포트/데이터베이스이름'처럼 연결 문자열을 만들어야 합니다.

데이터 가져오기

연결 엔진이 만들어졌다면, pandas.read_sql_query 함수 또는 pandas.read_sql_table 함수를 사용해서 SQL 쿼리 결과를 DataFrame으로 바로 가져올 수 있답니다. read_sql_query는 SQL 쿼리를 직접 실행해서 결과를 가져오고, read_sql_table은 테이블 이름을 지정해서 해당 테이블의 전체 데이터를 가져와요.

데이터 내보내기

뿐만 아니라, Pandas DataFrame을 SQL 테이블로 내보낼 수도 있어요! to_sql 함수를 사용하면 DataFrame의 데이터를 새로운 테이블에 추가하거나 기존 테이블을 덮어쓸 수 있습니다. if_exists 매개변수를 사용하여 테이블이 이미 존재하는 경우 수행할 작업('fail', 'replace', 'append')을 지정할 수도 있어요.

트랜잭션 관리

SQLAlchemy의 놀라운 기능은 여기서 끝나지 않아요! 트랜잭션 관리 기능도 제공해서 여러 SQL 쿼리를 하나의 작업 단위로 묶어서 실행할 수 있답니다. 데이터베이스의 무결성을 유지하는 데 필수적인 기능이죠. 예를 들어, 여러 테이블에 데이터를 입력하거나 수정해야 할 때, 트랜잭션을 사용하면 일부 쿼리만 실행되고 나머지는 실행되지 않는 상황을 방지할 수 있어요. 모든 쿼리가 성공적으로 실행되거나, 하나라도 실패하면 모든 변경 사항이 롤백되도록 보장되기 때문이죠.

예시

고객 데이터가 저장된 customers 테이블과 주문 데이터가 저장된 orders 테이블이 있다고 가정해 봅시다. SQLAlchemy를 사용하면 두 테이블을 조인해서 특정 기간 동안 특정 지역의 고객들이 주문한 상품의 총 판매액을 계산하는 복잡한 쿼리도 손쉽게 처리할 수 있어요. 쿼리 결과를 Pandas DataFrame으로 가져와서 다양한 분석 기법을 적용하고 시각화하면 데이터에 숨겨진 인사이트를 발견할 수 있답니다!

결론

SQL과 Pandas는 데이터 분석의 필수 도구예요. 이 둘을 효과적으로 연동하는 방법을 익히면 데이터 분석 능력이 한 단계 더 성장할 수 있을 거예요. SQLAlchemy를 사용하면 복잡한 쿼리도 간편하게 처리하고, 데이터베이스와 Pandas DataFrame 간의 데이터 이동도 자유롭게 할 수 있다는 것을 기억하세요!

데이터 분석 실습 예제

자, 이제 드디어! SQL과 Pandas를 활용해서 실제 데이터 분석을 해보는 시간이에요~! 지금까지 열심히 달려왔으니, 실제로 써먹어 봐야겠죠? ^^ 어떤 데이터를 분석해볼까 고민하다가… 흠… 요즘 온라인 쇼핑몰 데이터가 핫하니까, 그걸로 한번 해보는 게 어떨까요? 가상의 온라인 쇼핑몰 데이터를 만들어서, 고객 구매 패턴 분석을 해보도록 하겠습니다! 두근두근?!

쇼핑몰 데이터 테이블 생성

먼저, 쇼핑몰 데이터에는 어떤 정보가 들어있을지 생각해 봐야겠죠? 고객 ID, 구매 상품, 구매 날짜, 구매 금액… 이 정도면 충분할 것 같아요. SQL로 테이블을 만들어 볼게요. 테이블 이름은 Orders로 하겠습니다!

CREATE TABLE Orders (
    CustomerID INT,
    ProductID INT,
    OrderDate DATE,
    Amount DECIMAL(10, 2)
);

예시 데이터 추가

자, 테이블도 만들었으니 이제 데이터를 넣어야겠죠? INSERT 문을 사용해서 몇 가지 가상의 데이터를 추가해 볼게요. 한 20개 정도면 충분할 것 같아요. 너무 많으면 보기 힘드니까요~?

-- 예시 데이터 입력 (총 20개)
INSERT INTO Orders (CustomerID, ProductID, OrderDate, Amount) VALUES
(1, 101, '2023-07-01', 25.50),
(2, 102, '2023-07-01', 100.00),
… (중략) …
(19, 105, '2023-07-10', 55.75),
(20, 101, '2023-07-10', 25.50);

SQL을 이용한 간단한 분석

데이터 입력이 끝났으니, 이제 SQL을 이용해서 간단한 분석을 해볼까요? 가장 많이 팔린 상품을 알아보는 쿼리를 작성해 봅시다!

SELECT ProductID, COUNT(*) AS OrderCount
FROM Orders
GROUP BY ProductID
ORDER BY OrderCount DESC;

이 쿼리를 실행하면, 상품별 판매량을 내림차순으로 확인할 수 있어요. 어떤 상품이 인기 있는지 한눈에 알 수 있겠죠? 자, 이제 Pandas를 활용해서 좀 더 복잡한 분석을 해볼게요. 먼저 데이터를 Pandas DataFrame으로 불러와야겠죠!

Pandas DataFrame으로 데이터 불러오기

import pandas as pd
import sqlite3

conn = sqlite3.connect(':memory:')  -- 메모리 DB 사용

# SQL 테이블을 DataFrame으로 불러오기
orders_df = pd.read_sql_query("SELECT * FROM Orders", conn)

# OrderDate 컬럼을 datetime 형식으로 변환
orders_df['OrderDate'] = pd.to_datetime(orders_df['OrderDate'])

DataFrame으로 데이터를 불러왔으니 이제 본격적으로 Pandas의 강력한 기능들을 사용해 볼 수 있습니다! 예를 들어, 일별 매출을 계산하고 싶다면 어떻게 해야 할까요? 바로 groupby()와 sum() 함수를 사용하면 됩니다! 정말 간단하죠?!

일별 매출 계산


# 일별 매출 계산
daily_revenue = orders_df.groupby('OrderDate')['Amount'].sum()

print(daily_revenue)

이렇게 하면 날짜별 매출을 깔끔하게 확인할 수 있어요. Pandas를 사용하면 데이터를 다양한 방식으로 분석하고 시각화할 수 있어요. 예를 들어, 고객별 구매 횟수나 특정 상품의 월별 판매 추이 등을 분석할 수 있겠죠? 데이터 분석의 가능성은 무궁무진하답니다! ^^

고객별 총 구매 금액 계산

좀 더 나아가서, 고객별 총 구매 금액을 계산하고, 구매 금액이 높은 고객 순으로 정렬해볼까요?

# 고객별 총 구매 금액 계산 및 정렬
customer_total_amount = orders_df.groupby('CustomerID')['Amount'].sum().sort_values(ascending=False)

print(customer_total_amount)

이렇게 하면 VIP 고객을 쉽게 찾을 수 있겠죠? 이런 정보를 활용해서 마케팅 전략을 세울 수도 있고요! 데이터 분석, 정말 재밌지 않나요?! SQL과 Pandas는 데이터 분석에 정말 강력한 도구예요. 이 두 가지를 함께 사용하면 더욱 효율적이고 다양한 분석을 할 수 있답니다. 앞으로도 SQL과 Pandas를 활용해서 다양한 데이터 분석에 도전해 보세요! 데이터 분석의 세계는 정말 넓고 흥미롭거든요! 다양한 데이터 분석 기법들을 배우고 활용해서 데이터 속에 숨겨진 인사이트를 발견하는 재미를 느껴보시길 바랍니다! 화이팅!

SQL과 Pandas, 어떻게 활용하는지 이제 감이 좀 잡히셨나요? 처음엔 낯설고 어려워 보였을 수도 있지만, 차근차근 따라 해보니 생각보다 재밌지 않았어요? 마치 새로운 언어를 배우는 것처럼 말이죠! 데이터를 다루는 능력은 앞으로 우리에게 정말 큰 도움이 될 거예요. 마법처럼 데이터를 분석해서 원하는 정보를 쏙쏙 뽑아낼 수 있으니까요. 앞으로 더 많은 데이터 분석 기법들을 배우고 싶어졌다면 정말 잘 된 거예요! 호기심을 잃지 않고 꾸준히 탐구하다 보면 어느새 데이터 전문가가 되어있을지도 몰라요. 데이터 세상에서 여러분의 빛나는 여정을 응원할게요!

Itlearner

Next SQL을 활용한 간단한 회원관리 시스템 만들기 »

Previous « Java에서 JDBC를 활용한 MySQL 연동 방법

This website uses cookies.