본문 바로가기

스크래핑4

python - 웹 크롤링 예제 ( Requests & BeautifulSoup ) 들어가며.. 비정형 데이터인 웹페이지 데이터를 수집하기 위해 Python진영에는 BeautifulSoup이라는 강력한 라이브러리가 존재한다. 이를 사용하여 어떻게 웹 스크래핑을 하는지 간단히 살펴보도록 한다. 목적 데이터를 자동화 프로그램을 통해 수집, 가공하는 행위를 "스크래핑" 혹은 "크롤링" 이라한다. (웹 크롤링은 자동화된 시스템에 의해 최신의 정보를 수집, 가공하는 조직화된 시스템으로 해당 의미에서 스크래핑과는 약간의 의미 차이가 있다.) 1. Library install - Anaconda( https://www.anaconda.com/distribution/#download-section ) 가 설치 되어있거나 pip 패키지를 사용할 수 있는 환경 - Requests & BeautifulSo.. 2022. 4. 22.
Python - 상장법인 종목코드 초간단 스크래핑(코스피, 코스닥 구분) 기업공시채널 KIND에서 상장법인목록을 스크래핑 한다. "상장법인목록" 메뉴를 보면 검색조건에 "유가증권", "코스닥" 라디오 버튼이 위치하고 오른쪽 하단에 "EXCEL"버튼을 확인 할 수있다. 엑셀 버튼 클릭 시 시장구분 조건을 달리 하여 조회하면 POST 폼 데이터가 바뀌는 것을 확인 할 수있다. (크롬 개발자 도구의 Network 탭 에서 확인 ) 폼 데이터의 "marketType" 파라미터 이름으로 코스피(유가증권)는 "stockMkt", 코스닥은 "kosdaqMkt"로 구분된다. 수동으로 엑셀버튼을 다운로드 하여 노트패드 등에서 열어보면 엑셀이 아닌 HTML로 구성된 것을 확인 할 수있다. Pandas는 많은 임포트 기능을 지원하는데 온라인에 html을 읽어 바로 Dataframe형태로 변환 할.. 2021. 2. 19.
1. Python 주식 일간 변동률 계산 - ( 삼성전자 vs 애플 시각화 비교 ) 일간변동률은 주식간의 주가변화를 상대적으로 비교하기 용이한 척도다. 국내 주식과 해외 주식간에 주식변화 추이를 비교하는 경우 통화에 차이가 있기 때문에 단순 종가로는 비교하는 것은 무의미하다. 변동률을 구한 뒤 누적합계를 구하여 비교하면 유의미한 결과를 얻을 수 있다. 본 블로그에서는 샘플DataFrame을 사용하여 일간변동률, 누적합계를 쉽게 이해해보고 뒤에서 삼성전자와 애플의 일간변동율 변화를 시각화하여 비교해 보도록 한다. 일간변동률 주가의 변화를 상대적으로 비교하기 위해 일간변동률을 사용한다. 식은 아래와 같다. Python 예제 ( python version 3.9 ) 가상의 주식데이터 생성 import pandas as pd # 가상의 주식 데이터 10일치 생성 close_data = [100.. 2021. 2. 16.
python - 웹 스크래핑(크롤링) 기초 ( With Requests & BeautifulSoup ) 우리는 웹을 통해 필요한 정보를 얻습니다. 목적한 데이터를 자동화 프로그램을 통해 수집, 가공하는 행위를 "스크래핑" 혹은 "크롤링" 이라고 합니다. (웹 크롤링은 자동화된 시스템에 의해 최신의 정보를 수집, 가공하는 조직화된 시스템으로 해당 의미에서 스크래핑과는 약간의 의미 차이가 있습니다.) python은 웹 데이터 수집, 가공을 위해 많은 외부라이브러리를 제공합니다. HTTP library 인 Reqeusts 와 HTML, XML Parsing library 인 Beautiful Soup4 (BS4) 를 사용해서 간단한 웹 스크래핑 기술을 살펴보겠습니다. 참조 https://requests.readthedocs.io/en/master/# https://www.crummy.com/software/Be.. 2020. 1. 31.