본문 바로가기

크롤링3

python - 웹 크롤링 예제 ( Requests & BeautifulSoup ) 들어가며.. 비정형 데이터인 웹페이지 데이터를 수집하기 위해 Python진영에는 BeautifulSoup이라는 강력한 라이브러리가 존재한다. 이를 사용하여 어떻게 웹 스크래핑을 하는지 간단히 살펴보도록 한다. 목적 데이터를 자동화 프로그램을 통해 수집, 가공하는 행위를 "스크래핑" 혹은 "크롤링" 이라한다. (웹 크롤링은 자동화된 시스템에 의해 최신의 정보를 수집, 가공하는 조직화된 시스템으로 해당 의미에서 스크래핑과는 약간의 의미 차이가 있다.) 1. Library install - Anaconda( https://www.anaconda.com/distribution/#download-section ) 가 설치 되어있거나 pip 패키지를 사용할 수 있는 환경 - Requests & BeautifulSo.. 2022. 4. 22.
Python - 상장법인 종목코드 초간단 스크래핑(코스피, 코스닥 구분) 기업공시채널 KIND에서 상장법인목록을 스크래핑 한다. "상장법인목록" 메뉴를 보면 검색조건에 "유가증권", "코스닥" 라디오 버튼이 위치하고 오른쪽 하단에 "EXCEL"버튼을 확인 할 수있다. 엑셀 버튼 클릭 시 시장구분 조건을 달리 하여 조회하면 POST 폼 데이터가 바뀌는 것을 확인 할 수있다. (크롬 개발자 도구의 Network 탭 에서 확인 ) 폼 데이터의 "marketType" 파라미터 이름으로 코스피(유가증권)는 "stockMkt", 코스닥은 "kosdaqMkt"로 구분된다. 수동으로 엑셀버튼을 다운로드 하여 노트패드 등에서 열어보면 엑셀이 아닌 HTML로 구성된 것을 확인 할 수있다. Pandas는 많은 임포트 기능을 지원하는데 온라인에 html을 읽어 바로 Dataframe형태로 변환 할.. 2021. 2. 19.
python - 웹 스크래핑(크롤링) 기초 ( With Requests & BeautifulSoup ) 우리는 웹을 통해 필요한 정보를 얻습니다. 목적한 데이터를 자동화 프로그램을 통해 수집, 가공하는 행위를 "스크래핑" 혹은 "크롤링" 이라고 합니다. (웹 크롤링은 자동화된 시스템에 의해 최신의 정보를 수집, 가공하는 조직화된 시스템으로 해당 의미에서 스크래핑과는 약간의 의미 차이가 있습니다.) python은 웹 데이터 수집, 가공을 위해 많은 외부라이브러리를 제공합니다. HTTP library 인 Reqeusts 와 HTML, XML Parsing library 인 Beautiful Soup4 (BS4) 를 사용해서 간단한 웹 스크래핑 기술을 살펴보겠습니다. 참조 https://requests.readthedocs.io/en/master/# https://www.crummy.com/software/Be.. 2020. 1. 31.