Categories: Java

Java에서 XML 데이터 파싱하기 (DOM, SAX)

안녕하세요, 여러분! 오늘은 Java로 XML 데이터를 파싱하는 방법에 대해 함께 알아보려고 해요. XML, 많이 들어보셨죠? 데이터를 저장하고 교환하는 데 널리 쓰이는 이 친구를 Java에서 어떻게 다루는지 궁금하지 않으세요?

특히 DOM과 SAX 파서를 활용하는 방법을 중점적으로 살펴볼 거예요. 어떤 파서가 나에게 맞는 도구인지 고민되셨던 분들, 주목해주세요! DOM 파서와 SAX 파서의 차이점을 명확하게 이해하고, 실제 Java 코드 예제를 통해 여러분의 막막함을 시원하게 해결해드릴게요. 자, 그럼 흥미진진한 XML 파싱의 세계로 함께 떠나볼까요?

DOM 파서의 이해

자, 이제 드디어 DOM 파서에 대해 알아볼 시간이에요! DOM 파서는 마치 퍼즐 조각들을 맞추듯 XML 문서를 트리 구조로, 그러니까 계층적인 구조로 메모리에 로드해요. 이 트리 구조를 문서 객체 모델(Document Object Model), 줄여서 DOM이라고 부르는데요, 이 DOM 덕분에 개발자들은 XML 문서의 모든 요소에 자유자재로 접근하고 조작할 수 있답니다! 마치 마법 같죠? ✨

DOM 파서의 XML 문서 처리 방식

DOM 파서가 XML 문서를 처리하는 방식은 꽤나 흥미로워요. 전체 문서를 한 번에 쭉 읽어 들여서 메모리에 올려놓는다고 생각하시면 돼요. 이렇게 하면 XML 문서의 모든 부분에 바로바로 접근할 수 있으니 얼마나 편리한지 몰라요! 예를 들어 특정 요소의 값을 가져오거나, 새로운 요소를 추가하거나, 심지어 기존 요소를 삭제하는 것까지 모두 가능해진답니다. 마치 레고 블록을 조립하는 것처럼 말이죠! 🧱

하지만 이런 편리함에는 대가가 따르죠. 🤔 XML 문서가 크면 클수록, DOM 트리의 크기도 커지고, 그만큼 메모리 사용량도 늘어나요. 만약 1GB짜리 XML 문서를 파싱한다면? 으악, 메모리가 터질지도 몰라요! 💥 그래서 DOM 파서는 용량이 작은 XML 문서를 다룰 때 최고의 효율을 보여준답니다.

DOM 파서의 작동 방식

DOM 파서의 작동 방식을 좀 더 자세히 살펴볼까요? DOM 파서는 XML 문서를 읽어 들이면서 각 요소, 속성, 텍스트를 노드(Node)라는 객체로 표현해요. 이 노드들은 마치 나무의 가지처럼 부모-자식 관계로 연결되어 트리 구조를 이루게 되죠. 🌳 이렇게 만들어진 트리 구조 덕분에 개발자들은 XPath나 CSS 선택자와 같은 강력한 도구를 사용해서 원하는 노드에 쉽게 접근할 수 있어요. XPath는 마치 XML 문서의 네비게이션 시스템 같아요! 🧭 원하는 노드의 위치를 정확하게 알려주거든요.

DOM 파서의 장단점

자, 이제 DOM 파서의 장점과 단점을 표로 정리해 볼게요. 표로 보면 훨씬 이해하기 쉽겠죠? 😉

장점	단점
XML 문서 전체 구조 파악 용이	메모리 사용량 많음
모든 요소에 랜덤 접근 가능	대용량 XML 문서 처리에 부적합
XPath, CSS 선택자 사용 가능	파싱 속도 상대적으로 느림
요소 추가, 수정, 삭제 용이

DOM 파서를 사용하면 XML 문서를 마음대로 주무를 수 있다는 게 정말 큰 장점이에요! 하지만 메모리 사용량이 많다는 단점도 꼭 기억해야 해요. 그러니까 XML 문서의 크기에 따라 적절한 파서를 선택하는 것이 중요하답니다! 👍

DOM 파서 지원 언어

DOM 파서는 다양한 프로그래밍 언어에서 지원되고 있어요. Java에서는 javax.xml.parsers 패키지를 사용하면 DOM 파서를 손쉽게 이용할 수 있죠. 다른 언어들도 각자의 XML 파싱 라이브러리를 제공하고 있으니, 필요에 따라 찾아보시면 될 거예요. 😊

DOM 파서 사용 팁

DOM 파서를 사용할 때 꼭 기억해야 할 팁 하나! 바로 메모리 관리예요. 특히 대용량 XML 문서를 다룰 때는 메모리 누수가 발생하지 않도록 주의해야 해요. 파싱이 끝난 후에는 DOM 트리를 메모리에서 해제하는 것을 잊지 마세요! ♻️ 메모리 누수는 마치 물이 새는 수도꼭지와 같아서, 방치하면 시스템 전체에 문제를 일으킬 수 있답니다. 💧

자, 이제 DOM 파서에 대해 어느 정도 감을 잡으셨나요? 다음에는 SAX 파서에 대해 알아볼 거예요. SAX 파서는 DOM 파서와는 또 다른 매력을 가지고 있으니 기대해 주세요! 😉 XML 파싱의 세계는 정말 넓고 깊으니까요! 함께 즐겁게 탐험해 보아요! 🚀

SAX 파서의 이해

자, 이제 SAX 파서에 대해 자세히 알아볼까요? DOM 파서와는 또 다른 매력을 가진 친구랍니다. 마치 스트리밍 서비스처럼 XML 문서를 순차적으로 읽어가면서 필요한 정보만 쏙쏙 골라내는 방식이에요. 마치 낚시처럼 원하는 물고기(정보)만 낚아채는 거죠!

SAX 파서란?

SAX 파서는 Simple API for XML의 약자로, 이벤트 기반 파서라고도 불려요. XML 문서를 처음부터 끝까지 순회하면서 특정 이벤트가 발생할 때마다 미리 정의된 메서드를 호출하는 방식으로 작동하죠. 이벤트는 시작 태그를 만났을 때, 끝 태그를 만났을 때, 텍스트 데이터를 만났을 때 등 다양하게 정의될 수 있어요. 마치 센서가 감지하는 것처럼 말이죠!

SAX 파서의 작동 방식

예를 들어 <book>이라는 시작 태그를 만나면 startElement() 메서드가 호출되고, </book>이라는 끝 태그를 만나면 endElement() 메서드가 호출되는 식이에요. <title> 태그 사이에 있는 “The Great Gatsby”라는 텍스트 데이터를 만나면 characters() 메서드가 호출되겠죠? 참 똑똑하죠?!

이러한 이벤트 기반 처리 방식 덕분에 SAX 파서는 DOM 파서에 비해 메모리 사용량이 훨씬 적어요. DOM 파서는 XML 문서 전체를 메모리에 로드해야 하지만, SAX 파서는 필요한 정보만 처리하기 때문에 대용량 XML 문서를 다룰 때 특히 유용하답니다. 1GB짜리 XML 파일을 파싱한다고 생각해 보세요! DOM은 헉헉댈지도 몰라요. 하지만 SAX는 거뜬하죠!

SAX 파서의 장점

메모리 효율성: 앞서 말씀드렸듯이 SAX 파서는 XML 문서 전체를 메모리에 로드하지 않아요. 따라서 메모리 사용량이 매우 적고, 대용량 XML 문서를 처리할 때도 훨씬 빠른 속도를 자랑하죠. 10GB, 20GB? 문제없어요!
속도: SAX 파서는 DOM처럼 문서 전체를 파싱할 필요가 없기 때문에, 특정 정보만 필요한 경우 DOM보다 훨씬 빠르게 처리할 수 있어요. 원하는 정보만 쏙! 뽑아낼 수 있으니까요.
단순성: SAX 파서의 API는 DOM에 비해 훨씬 간단해요. 덕분에 배우고 사용하기도 쉽죠. 초보자도 금방 익숙해질 수 있답니다!

SAX 파서의 단점

순차적 접근: SAX 파서는 XML 문서를 순차적으로 읽기 때문에, 특정 부분으로 바로 이동하거나 이전에 읽었던 내용으로 돌아갈 수 없어요. 마치 책을 읽는 것과 같아요. 앞 페이지로 다시 돌아가려면 다시 넘겨야 하죠.
트리 구조 정보 부재: DOM은 XML 문서를 트리 구조로 메모리에 저장하기 때문에 노드 간의 관계를 쉽게 파악할 수 있지만, SAX는 이러한 정보를 제공하지 않아요. 계층 구조를 파악해야 한다면 조금 불편할 수 있겠죠?

SAX 파서의 활용

그래서 SAX 파서는 XML 문서의 특정 부분만 빠르게 읽어야 하거나, 메모리 사용량에 제약이 있는 경우에 특히 유용해요. 대용량 XML 파일을 처리하거나, 실시간 XML 스트림을 처리하는 경우에도 SAX 파서가 빛을 발하죠! 반대로 XML 문서의 전체 구조를 파악해야 하거나, 문서의 여러 부분을 반복적으로 접근해야 하는 경우에는 DOM 파서가 더 적합할 수 있어요.

SAX 파서 vs DOM 파서

SAX 파서와 DOM 파서, 둘 다 각자의 장단점이 있으니 상황에 맞게 적절히 선택하는 것이 중요해요. 어떤 파서를 선택해야 할지 고민이 된다면, XML 문서의 크기, 처리해야 하는 작업의 종류, 메모리 사용량 제한 등을 고려해 보세요. 최고의 선택을 할 수 있을 거예요!

DOM과 SAX 파서의 비교

자, 이제 드디어 DOM 파서와 SAX 파서를 비교해 볼 시간이에요! 두 파서 모두 XML 문서를 다루는 멋진 도구들이지만, 각자의 개성이 뚜렷하답니다. 마치 쌍둥이처럼 말이죠! 어떤 상황에 어떤 파서를 사용해야 할지 고민되시죠? 걱정 마세요! 제가 자세하게 설명해 드릴게요~

DOM 파서

DOM 파서는 XML 문서 전체를 메모리에 로드하여 트리 구조로 만드는 방식을 사용해요. 이 트리 구조 덕분에 개발자는 원하는 노드에 자유롭게 접근하고 수정할 수 있죠. 마치 잘 정리된 서랍장에서 필요한 물건을 쉽게 찾는 것과 같아요! 하지만, 용량이 큰 XML 문서를 다룰 때는 메모리 사용량이 많아진다는 단점이 있어요. 1GB짜리 XML 파일을 파싱한다고 생각해 보세요! 컴퓨터가 헉헉댈 수도 있겠죠?

SAX 파서

반면에 SAX 파서는 이벤트 기반 파서예요. XML 문서를 처음부터 끝까지 순차적으로 읽어 내려가면서, 특정 이벤트가 발생할 때마다 미리 정의된 핸들러 함수를 호출하는 방식이죠. 마치 낚시꾼처럼 말이에요! 물고기(이벤트)가 낚싯대에 걸리면(발생하면) 낚시꾼(핸들러 함수)이 재빨리 낚아채는 것처럼요! SAX 파서는 DOM처럼 문서 전체를 메모리에 로드하지 않기 때문에 메모리 사용량이 적다는 장점이 있어요. 그래서 아주 큰 XML 문서를 처리할 때 유용하죠! 하지만, DOM처럼 특정 노드에 바로 접근할 수는 없어요. 이벤트 발생 순서대로 처리해야 하기 때문에, XML 문서의 구조를 잘 이해하고 있어야 한답니다.

DOM과 SAX 파서 비교표

기능	DOM	SAX
메모리 사용량	높음	낮음
처리 속도	느림	빠름
XML 문서 접근 방식	랜덤 액세스	순차 액세스
문서 수정	가능	불가능
용량이 큰 문서 처리	어려움	용이함
구현 복잡도	낮음	높음

표에서 볼 수 있듯이, DOM과 SAX는 서로 장단점을 가지고 있어요. 마치 동전의 양면과 같죠! 그렇다면 어떤 상황에 어떤 파서를 사용해야 할까요?

DOM 파서 사용 시 적합한 경우

만약 XML 문서의 크기가 작고, 문서 전체를 자유롭게 탐색하고 수정해야 한다면 DOM 파서가 적합해요. 예를 들어, 설정 파일처럼 작은 XML 문서를 읽어와서 프로그램의 설정값을 변경하는 경우에 DOM 파서가 딱이죠!

SAX 파서 사용 시 적합한 경우

반면, XML 문서의 크기가 매우 크고, 메모리 사용량을 최소화해야 한다면 SAX 파서가 적합해요. 예를 들어, 수백 MB 또는 GB 크기의 XML 로그 파일을 분석하는 경우에는 SAX 파서가 훨씬 효율적이죠! 또한, 실시간으로 XML 데이터를 처리해야 하는 경우에도 SAX 파서가 유용하게 쓰일 수 있어요. 데이터 스트림을 순차적으로 처리하면서 필요한 정보만 추출할 수 있기 때문이죠!

자, 이제 DOM과 SAX 파서의 차이점을 확실히 이해하셨나요? 각 파서의 특징을 잘 파악하고 상황에 맞게 적절한 파서를 선택하는 것이 중요해요! 마치 요리할 때 재료에 따라 다른 칼을 사용하는 것과 같은 이치랍니다! DOM과 SAX 파서, 이제 여러분의 손안에 든 강력한 도구가 되었어요! XML 데이터 파싱, 이제 두렵지 않죠?!

DOM 파서의 장점: XML 구조 변경

DOM 파서는 트리 기반 파싱 방식을 사용하기 때문에 XML 문서의 구조를 변경하는 데 유리해요. 새로운 노드를 추가하거나 기존 노드를 삭제하고, 속성 값을 변경하는 등 다양한 작업을 수행할 수 있죠! 마치 레고 블록을 조립하듯이 말이에요! 하지만 SAX 파서는 이벤트 기반 파싱 방식이기 때문에 XML 문서를 수정할 수 없어요. SAX 파서는 읽기 전용 파서라고 생각하면 돼요!

DOM과 SAX 파서의 로딩 시간 비교

DOM 파서는 XML 문서 전체를 메모리에 로드하기 때문에 초기 로딩 시간이 SAX 파서보다 오래 걸릴 수 있어요. 하지만, 일단 문서가 메모리에 로드되면, 원하는 노드에 빠르게 접근할 수 있다는 장점이 있죠! 마치 지도 앱을 사용하는 것과 같아요! 처음에는 지도 데이터를 로드하는 데 시간이 걸리지만, 일단 로드되면 원하는 위치를 빠르게 찾을 수 있잖아요! 반면에 SAX 파서는 초기 로딩 시간이 짧지만, 특정 노드에 접근하려면 문서를 처음부터 다시 읽어야 하는 경우가 발생할 수 있어요. 마치 책에서 특정 문장을 찾으려면 처음부터 다시 읽어야 하는 것과 같죠!

XML 파서 선택 시 고려 사항: 구현 복잡도

XML 파서를 선택할 때 고려해야 할 또 다른 요소는 구현 복잡도예요. DOM 파서는 SAX 파서보다 구현하기가 더 간단해요. DOM 파서는 XML 문서를 트리 구조로 제공하기 때문에, 개발자는 트리의 노드를 탐색하고 조작하는 데 익숙한 API를 사용할 수 있죠! 반면, SAX 파서는 이벤트 핸들러를 구현해야 하기 때문에 DOM 파서보다 구현 복잡도가 높아요. 하지만, SAX 파서는 메모리 효율성이 뛰어나기 때문에 대용량 XML 문서를 처리할 때는 SAX 파서가 더 나은 선택일 수 있어요!

결론

이처럼 DOM과 SAX 파서는 각자의 장단점을 가지고 있기 때문에, XML 문서의 크기, 처리 방식, 메모리 사용량 등을 고려하여 적절한 파서를 선택하는 것이 중요해요! 어떤 파서를 선택하든, XML 데이터를 효율적으로 처리하고 분석하는 데 도움이 될 거예요!

자바에서 XML 파싱 예제

휴~, 드디어 예제 파트에 도착했네요! 지금까지 DOM과 SAX 파서에 대해 열심히 알아봤으니, 이제 실제로 어떻게 사용하는지 꼼꼼하게 살펴볼 시간이에요! 백문이 불여일견이라고 하잖아요? ^^ 자, 그럼 코드를 통해 직접 XML 데이터를 파싱하는 방법을 알아보도록 할게요. 준비되셨나요?!

DOM 파서 예제

자, 먼저 DOM 파서를 이용한 예제부터 살펴볼게요. DOM 파서는 XML 문서 전체를 메모리에 로드해서 트리 형태로 구조화하는 방식이었죠? 이 방식은 특정 요소에 접근하거나 수정하기 쉽다는 장점이 있지만, XML 문서가 크면 메모리 사용량이 많아질 수 있다는 점, 기억하시죠~? 자, 그럼 예제 코드를 볼까요?

<bookstore>
    <book category="cooking">
        <title lang="en">Everyday Italian</title>
        <author>Giada De Laurentiis</author>
        <year>2005</year>
        <price>30.00</price>
    </book>
    <book category="children">
        <title lang="en">Harry Potter</title>
        <author>J K. Rowling</author>
        <year>2005</year>
        <price>29.99</price>
    </book>
</bookstore>

위와 같은 XML 문서가 있다고 가정해 볼게요. 이 문서에서 “book” 태그의 “category” 속성 값과 “title” 태그 값을 출력하는 자바 코드는 다음과 같아요.

import javax.xml.parsers.*;
import org.w3c.dom.*;
import org.xml.sax.SAXException;

import java.io.IOException;

public class DOMParserExample {
    public static void main(String[] args) throws ParserConfigurationException, IOException, SAXException {

        // DocumentBuilderFactory 객체 생성
        DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
        DocumentBuilder builder = factory.newDocumentBuilder();

        // XML 문서 파싱
        Document document = builder.parse("books.xml"); // XML 파일명

        // "book" 태그를 가진 모든 요소 가져오기
        NodeList bookList = document.getElementsByTagName("book");

        // 각 "book" 요소에 대해
        for (int i = 0; i < bookList.getLength(); i++) {
            Node bookNode = bookList.item(i);
            if (bookNode.getNodeType() == Node.ELEMENT_NODE) {
                Element bookElement = (Element) bookNode;

                // "category" 속성 값 가져오기
                String category = bookElement.getAttribute("category");

                // "title" 태그 값 가져오기
                NodeList titleList = bookElement.getElementsByTagName("title");
                String title = titleList.item(0).getTextContent();

                System.out.println("Category: " + category + ", Title: " + title);
            }
        }
    }
}

자, 어때요? DOM 파서를 이용해서 XML 데이터를 파싱하는 방법, 생각보다 어렵지 않죠?! 핵심은 DocumentBuilderFactory와 DocumentBuilder를 이용해서 XML 문서를 파싱하고, NodeList와 Node, Element 인터페이스를 활용해서 원하는 데이터를 추출하는 거예요! 기억해 두세요~!

SAX 파서 예제

이제 SAX 파서를 이용한 예제를 살펴볼 차례네요! SAX 파서는 XML 문서를 순차적으로 읽어 들이면서 이벤트를 발생시키고, 우리는 이 이벤트를 처리하는 방식으로 데이터를 파싱한다는 것을 앞에서 배웠죠? DOM 파서와는 다르게 문서 전체를 메모리에 로드하지 않기 때문에 메모리 사용량이 적다는 장점이 있지만, 특정 요소에 접근하기는 조금 더 복잡하다는 점도 기억해야 해요.

자, 그럼 SAX 파서 예제 코드도 한번 볼까요? 위와 동일한 XML 문서를 사용할 거예요.

import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;

import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;

import java.io.IOException;

public class SAXParserExample {

    public static void main(String[] args) throws Exception {

        SAXParserFactory factory = SAXParserFactory.newInstance();
        SAXParser saxParser = factory.newSAXParser();

        DefaultHandler handler = new DefaultHandler() {

            String categoryValue = "";
            String titleValue = "";
            boolean bTitle = false;

            public void startElement(String uri, String localName,String qName,
                                     Attributes attributes) throws SAXException {

                if (qName.equalsIgnoreCase("book")) {
                    categoryValue = attributes.getValue("category");
                }
                if (qName.equalsIgnoreCase("title")) {
                    bTitle = true;
                }
            }

            public void characters(char ch[], int start, int length) throws SAXException {

                if (bTitle) {
                    titleValue = new String(ch, start, length);
                    bTitle = false;
                }

            }


            public void endElement(String uri, String localName,
                                   String qName) throws SAXException {

                if (qName.equalsIgnoreCase("book")) {
                    System.out.println("Category : " + categoryValue + ", Title : " + titleValue);
                }
            }

        };

        saxParser.parse("books.xml", handler);

    }
}

SAX 파서는 DefaultHandler를 상속받아 이벤트 처리 메소드를 오버라이딩하는 방식으로 구현해요. startElement 메소드에서는 시작 태그를 만났을 때, characters 메소드에서는 태그 사이의 문자열을 읽을 때, endElement 메소드에서는 종료 태그를 만났을 때의 동작을 정의할 수 있어요. 각 메소드를 적절히 활용해서 원하는 데이터를 추출하면 된답니다! 어때요? DOM 파서보다는 조금 복잡해 보이지만, 메모리 효율성 측면에서는 SAX 파서가 훨씬 유리하다는 점! 잊지 마세요~?

DOM 파서와 SAX 파서 비교

DOM 파서와 SAX 파서는 각각 장단점이 있으니, XML 문서의 크기와 파싱 목적에 따라 적절한 파서를 선택하는 것이 중요해요! 작은 XML 문서를 다루거나 특정 요소에 자주 접근해야 한다면 DOM 파서를, 아주 큰 XML 문서를 다루거나 메모리 사용량에 민감하다면 SAX 파서를 선택하는 것이 좋겠죠?! 이제 여러분도 자바에서 XML 파싱하는 방법을 잘 이해하셨으리라 믿어요! ^^

자, 이렇게 DOM과 SAX 파서를 이용해서 XML 데이터를 다루는 방법을 살펴봤어요! 어때요, 이제 좀 XML 파싱이 친숙하게 느껴지나요? 처음엔 조금 어려워 보일 수 있지만, 막상 해보면 생각보다 간단하다는 걸 알게 될 거예요. 각자의 장단점을 잘 이해하고 상황에 맞는 파서를 선택하는 것이 중요해요.

DOM은 문서 전체를 메모리에 올려서 편하게 탐색할 수 있지만, 큰 파일을 다룰 땐 메모리 부담이 있을 수 있다는 점, 꼭 기억해 두세요. SAX는 이벤트 기반으로 처리해서 메모리 효율이 좋지만, 코드가 조금 복잡해질 수 있다는 점도 알아두면 좋겠죠? 이제 여러분도 자바로 XML 데이터를 자유자재로 다룰 수 있을 거예요! 직접 코드를 작성하고 실행해 보면서 감을 익혀보면 더 재미있을 거예요. 파이팅!