본문 바로가기
프레임워크/Spring Boot

[Spring Batch] ItemReader, Jsoup을 이용하여 네이버 증권 데이터 크롤링 (1)

by 연어바케트 2022. 12. 28.
반응형

Spring Batch를 이용하여, 네이버 증권 데이터를 크롤링하는 예제 프로그램을 만들 예정이다. 

 

목표

네이버 증권 - 국내증시 - 시가총액에 있는 항목들의 데이터를 크롤링하여 올 것이다.

 

 

1. Jsoup Depnency 추가 

   웹을 크롤링하여 올꺼기 때문에 Jsoup을 사용할것이다. 그래서 dependency에 Jsoup을 추가해 준다. 

dependencies {
    implementation("org.springframework.boot:spring-boot-starter-batch")
    testImplementation("org.springframework.boot:spring-boot-starter-test")
    testImplementation("org.springframework.batch:spring-batch-test")
    compileOnly("org.projectlombok:lombok:1.18.24")
    implementation("org.jsoup:jsoup:1.15.3")
}

 

2. 크롤링 할 데이터 확인 

  네이버증권의 시가총액 페이지는 아래와 같은 url로 페이지를 이동하고 있다. 

그래서 필자는 아래 url 마지막에 숫자를 넣어 주어 페이지를 이동시키면서 크롤링을 할 예정이다. 

https://finance.naver.com/sise/sise_market_sum.naver?&page=

 

그리고 필자가 필요한 정보는 코스피에 상장되어있는 기업들을 알고 싶기 때문에,

해당부분의 태그 값을 확인 해보았다.

어느 페이지를 읽어서 어떤 태그의 값을 크롤링할 지 확인 했으니, 이제 코드를 짜보자.

 

3. Batch 기본틀을 구성한다. 

4. ItemReader 설명 

5. Jsoup 함수 구성 

6. 크롤링 확인.

 

반응형

댓글