본문 바로가기

BeautifulSoup4

python - 웹 크롤링 예제 ( Requests & BeautifulSoup ) 들어가며.. 비정형 데이터인 웹페이지 데이터를 수집하기 위해 Python진영에는 BeautifulSoup이라는 강력한 라이브러리가 존재한다. 이를 사용하여 어떻게 웹 스크래핑을 하는지 간단히 살펴보도록 한다. 목적 데이터를 자동화 프로그램을 통해 수집, 가공하는 행위를 "스크래핑" 혹은 "크롤링" 이라한다. (웹 크롤링은 자동화된 시스템에 의해 최신의 정보를 수집, 가공하는 조직화된 시스템으로 해당 의미에서 스크래핑과는 약간의 의미 차이가 있다.) 1. Library install - Anaconda( https://www.anaconda.com/distribution/#download-section ) 가 설치 되어있거나 pip 패키지를 사용할 수 있는 환경 - Requests & BeautifulSo.. 2022. 4. 22.
Python - BeautifulSoup 객체(ResultSet, Tag) Dict, XML로 변환하기 준비 라이브러리 from bs4 import BeautifulSoup import json import xmltodict XML 파싱을 위한 라이브러리 BeautifulSoup JSON 변환용 라이브러리 json XML을 JSON으로 변환 라이브러리 xmltodic XML 파싱 soup = BeautifulSoup('Your xml here', 'xml') 본 블로그에서 사용한 xml 일부 더보기 00541349 셀트리온제약 068760 20200225 00264255 바텍 043150 20200225 00617314 타이거일렉 219130 20200225 우선 테스트를 위해 한개의 리스트만 find로 조회하면 다음과 같은 결과를 얻는다. s = soup.find('list') parsed_dict = .. 2021. 2. 8.
Python - XML 파싱 오류 해결 ( xml.etree.ElementTree.ParseError ) xml 파싱 오류 해결 ( with BeautifulSoup ) xml 파일을 파싱하기 위해 xml.etree 를 사용했다. from os import listdir from shutil import copyfile import xml.etree.ElementTree as ET ..중략.. def copy_js_file(done_list): for file in done_list: _parser = ET.XMLParser(encoding="utf-8") _file = ET.parse(file, _parser) 파싱 대상 파일은 단순한 xml이 아닌 RIA 기반의 웹XML 파일이다. 위 코드 실행시 아래와 같은 오류가 발생했다. xml.etree.ElementTree.ParseError: not well-.. 2020. 12. 7.
python - 웹 스크래핑(크롤링) 기초 ( With Requests & BeautifulSoup ) 우리는 웹을 통해 필요한 정보를 얻습니다. 목적한 데이터를 자동화 프로그램을 통해 수집, 가공하는 행위를 "스크래핑" 혹은 "크롤링" 이라고 합니다. (웹 크롤링은 자동화된 시스템에 의해 최신의 정보를 수집, 가공하는 조직화된 시스템으로 해당 의미에서 스크래핑과는 약간의 의미 차이가 있습니다.) python은 웹 데이터 수집, 가공을 위해 많은 외부라이브러리를 제공합니다. HTTP library 인 Reqeusts 와 HTML, XML Parsing library 인 Beautiful Soup4 (BS4) 를 사용해서 간단한 웹 스크래핑 기술을 살펴보겠습니다. 참조 https://requests.readthedocs.io/en/master/# https://www.crummy.com/software/Be.. 2020. 1. 31.