BeautifulSoup로 HTML 파싱 하기- 데이터 추출의 마법

BeautifulSoup 라이브러리 소개: HTML/XML 문서 파싱 마법사

웹 페이지에서 필요한 데이터를 추출하려면 복잡한 HTML 구조를 분석하고 원하는 정보를 찾아내야 한다. 마치 미로 속에서 보물을 찾는 것 같은 느낌이다. 하지만 BeautifulSoup이 튼튼한 조력자가 되어 줄 것이다.

BeautifulSoup는 HTML/XML 문서를 파싱 하여 파이썬 객체로 변환해 주는 강력한 라이브러리이다. 복잡한 HTML 구조를 사람이 이해하기 쉬운 트리 형태로 변환해 주기 때문에 파이썬 코드로 원하는 정보를 손쉽게 추출할 수 있다.

BeautifulSoup의 장점

사용하기 쉬운 직관적인 인터페이스: 복잡한 설정 없이 몇 줄의 코드만으로 HTML/XML 문서를 파싱하고 데이터를 추출할 수 있다.
다양한 파서 지원: 파이썬 내장 HTML 파서부터 빠르고 강력한 lxml, html5lib 파서까지 지원하여 필요에 따라 선택할 수 있다.
풍부한 기능: 특정 태그 검색, CSS 선택자 활용, 태그 속성 및 내용 접근 등 데이터 추출에 필요한 다양한 기능을 제공한다.

파서 선택: 나에게 맞는 파서는?

BeautifulSoup은 다양한 파서를 지원하며, 각 파서는 장단점을 가지고 있다.

lxml: 가장 빠르고 강력한 파서이다. C로 작성된 라이브러리에 의존하며, HTML5 문서를 완벽하게 파싱 하지 못할 수도 있다.
html.parser: 파이썬 내장 HTML 파서로, 별도의 라이브러리 설치 없이 사용할 수 있다. 속도는 lxml보다 느리지만, HTML5 문서를 파싱 할 수 있다.
html5lib: HTML5 표준을 준수하는 파서이다. 가장 정확하게 파싱 하지만, 속도가 가장 느리다.

일반적으로 lxml 파서를 사용하는 것을 추천한다. 속도와 정확성 면에서 가장 뛰어나기 때문이다. 완벽한 HTML5 문서 파싱이 필요하다면 html5lib을 사용하는 것이 좋다.

BeautifulSoup 객체 생성: HTML 문서 파싱 시작

BeautifulSoup을 사용하려면 먼저 라이브러리를 설치해야 한다.

1	pip install beautifulsoup4

라이브러리를 설치한 후, 다음과 같이 BeautifulSoup 객체를 생성하여 HTML 문서를 파싱 할 수 있다.

from bs4 import BeautifulSoup

# HTML 문자열
html = """
<html>
<head>
  <title>웹 스크래핑 연습</title>
</head>
<body>
  <h1>안녕하세요, BeautifulSoup!</h1>
  <p>웹 스크래핑은 재미있어요!</p>
</body>
</html>
"""

# BeautifulSoup 객체 생성
soup = BeautifulSoup(html, 'lxml')

# 파싱된 HTML 출력
print(soup.prettify())

BeautifulSoup(html, ‘lxml’) 코드는 HTML 문자열과 사용할 파서를 인자로 받아 BeautifulSoup 객체를 생성한다. 이제 soup 객체를 통해 파싱 된 HTML 문서를 자유롭게 탐색하고 원하는 정보를 추출할 수 있다.

태그 탐색 및 데이터 추출: HTML 문서의 숨겨진 정보 찾기

BeautifulSoup 객체를 생성했으니, 이제 본격적으로 HTML 문서를 탐색하고 원하는 데이터를 추출해 보자. BeautifulSoup는 다양한 메서드를 제공하여 원하는 태그를 쉽게 찾고, 태그의 속성 값이나 텍스트 내용을 가져올 수 있도록 도와준다.

find() 와 find_all(): HTML 문서에서 원하는 태그 찾기

find() 메서드는 HTML 문서에서 특정 조건을 만족하는 첫 번째 태그를 찾아 반환한다. find_all() 메서드는 조건에 맞는 모든 태그를 리스트 형태로 반환한다. 태그 이름, 속성, 텍스트 내용 등 다양한 조건을 지정하여 원하는 태그를 정확하게 찾아낼 수 있다.

# 예시 HTML
html = """
<html>
<head>
  <title>뉴스 기사 목록</title>
</head>
<body>
  <h1>오늘의 주요 뉴스</h1>
  <ul class="news-list">
    <li class="news-item"><a href="https://www.example.com/news1">뉴스 기사 1</a></li>
    <li class="news-item important"><a href="https://www.example.com/news2">중요 뉴스 기사</a></li>
    <li class="news-item"><a href="https://www.example.com/news3">뉴스 기사 3</a></li>
  </ul>
</body>
</html>
"""

soup = BeautifulSoup(html, 'lxml')

# 첫 번째 'h1' 태그 찾기
title_tag = soup.find('h1')
print(title_tag.text) # 출력: 오늘의 주요 뉴스

# 모든 'li' 태그 찾기
news_items = soup.find_all('li')
for item in news_items:
  print(item)

# 'class' 속성 값이 'important'인 'li' 태그 찾기
important_news = soup.find('li', class_='important')
print(important_news)

# 'href' 속성 값이 'https://www.example.com/news2' 인 'a' 태그 찾기
news2_link = soup.find('a', href='https://www.example.com/news2')
print(news2_link.text) # 출력: 중요 뉴스 기사

select() 메서드: CSS 선택자로 정밀 타격!

select() 메서드는 CSS 선택자를 사용하여 원하는 태그를 더욱 정확하고 효율적으로 선택할 수 있도록 도와준다. CSS 선택자는 HTML 요소를 선택하기 위한 강력한 문법으로, 웹 개발 분야에서 널리 사용된다.

# 예시 HTML (5.2.1 동일)

# 'class' 속성 값이 'news-list'인 'ul' 태그 아래의 모든 'a' 태그 찾기
news_links = soup.select('ul.news-list a')
for link in news_links:
  print(link['href'], link.text)

# 'class' 속성 값에 'news-item'과 'important'를 모두 포함하는 'li' 태그 찾기
important_news_item = soup.select('li.news-item.important')
print(important_news_item)

태그 속성 접근: get(), attrs로 정보를 획득하라!

태그를 찾았다면, 태그의 속성 값을 가져와야 한다. BeautifulSoup는 get() 메서드와 attrs 속성을 통해 태그의 속성 값에 쉽게 접근할 수 있도록 지원한다.

# 예시 HTML (5.2.1 동일)

# 첫 번째 'a' 태그의 'href' 속성 값 가져오기
first_link = soup.find('a')
link_url = first_link.get('href')  # 또는 first_link['href']
print(link_url) # 출력: https://www.example.com/news1

# 'id' 속성 값이 'profile-image'인 'img' 태그의 'src' 속성 값 가져오기
profile_image = soup.find('img', id='profile-image')
image_url = profile_image['src']
print(image_url)

마무리

이 글에서는 BeautifulSoup를 이용하여 HTML 문서를 파싱하고, find(), find_all(), select() 메서드를 사용하여 원하는 태그를 선택하는 방법을 알아보았다. 또한 get() 메서드와 attrs 속성을 활용하여 태그의 속성 값에 접근하는 방법도 살펴보았다.

한 발짝 더 나아가서 찾아낸 태그에서 텍스트 콘텐츠를 추출하고 가공하는 방법을 알아볼 필요가 있겠다.