본문 바로가기

코리아IT

240520

Crawling

1. 크롤링과 스크레이핑

  • 크롤링(Crawling): 인터넷의 데이터를 활용하기 위해 정보들을 분석하고 활용할 수 있도록 수집하는 행위
  • 스크레이핑(Scraping): 크롤링 + 데이터를 추출하고 가공하는 행위

2. Basic English Speaking

- requests 라이브러리는 파이썬에서 HTTP 요청을 보내고 응답을 받기 위한 매우 간편하고 직관적인 방법을 제공함. 이를통해 웹 서버와 상호작용하고, 웹 API를 호출하거나 웹페이지의 데이터를 스크래핑을 쉽게 할 수 있음.

 

- BeautifulSoup은 파이썬에서 HTML 및 XML 파일을 파싱(parsing)하는 데 사용되는 라이브러리로, 웹 페이지의 소스 코드를 가져와서 원하는 데이터를 쉽게 추출할 수 있도록 도와주는 웹 스크래핑(web scraping) 작업에서 많이 사용됨.

 

  • Basic English Speaking 페이지의 아래 목록을 scraping 작업 수행하기

'div', {'class':'thrv-columns'}로 1차 크롤링 후 

a 태그를 타겟으로 각 목록을 가져왔음.

 

len()함수로 개수를 확인 후 차례대로 정리 함.

 

3. 다음 뉴스기사

 

4. 벅스뮤직 차트

 

5. 멜론 차트

- 멜론 차트는 접근 제어가 걸려있음

- robots.txt: 웹 사이트에 크롤러같은 접근을 제어하기 위한 규약(권고안이라 꼭 지킬 의무는 없음)

 

6. 네이버 증권

증권의 이름, 가격, 종목코드, 거래량을 키 벨류로 가져오기

 

각 코드 별로 dic()으로 묶어 pandas로 정리

 

엑셀로 저장

'코리아IT' 카테고리의 다른 글

240522  (0) 2024.05.22
240521  (0) 2024.05.21
240416  (0) 2024.04.16
240415  (0) 2024.04.15
240413 과제 진행중  (0) 2024.04.15