본문 바로가기

DataScience/Crawling & Scraping6

더보기, LoadMore 눌러야 할 때 ( dynamic crawling ) https://github.com/mkk4726/recsys-movie GitHub - mkk4726/recsys-movie Contribute to mkk4726/recsys-movie development by creating an account on GitHub. github.com 관련 코드는 위의 깃헙 주소에서 확인할 수 있습니다. (MF/src/crawling-scraping/modules 폴더) 데이터를 긁어오다보면 더보기나, Load More과 같은 버튼들을 눌러야할 때가 있습니다. 이를 위해서는 동적크롤링을 사용해야됩니다. 동적크롤링은 Selenium 패키지를 이용하면 쉽게 사용할 수 있습니다. 2023.07.02 - [DataScience/Crawling & Scraping] - Scr.. 2023. 7. 4.
Scraping IMDb review data https://github.com/mkk4726/CB-movie GitHub - mkk4726/CB-movie: Content-based filtering about movie Content-based filtering about movie . Contribute to mkk4726/CB-movie development by creating an account on GitHub. github.com 이번 글의 코드를 crawling-scraping 폴더에서 찾을 수 있습니다. IMDb data를 이용해 영화를 추천하는 프로젝트를 진행하고 있습니다. 리뷰가 비슷한 영화를 추천해주면 만족하겠다라는 가정을 세우고, 리뷰를 기반으로 유사도를 측정해 추천하려 합니다. 이를 위해 데이터를 긁어와야합니다. 위 페이지.. 2023. 7. 2.
네이버 금융 web scraping * 코드는 Jupyter Notebook에서 작성되었습니다. 다음과 같은 네이버 금융 홈페이지에서 날짜, 종가, 전일비, 시가,고가, 거래량 정보를 따오는 코드를 공유해보려한다. 네이버 금융 홈페이지에 카카오를 검색해서 들어간 후 시세를 누르면(그림2참고) 일별 시세 (그림3참고)를 확인할 수 있다. 이 일별시세를 전부 따오기 위해서는 밑의 페이지번호를 눌러줘야한다. 처음에는 동적크롤링을 통해 하나씩 눌러주는 방안을 생각했었는데, 생각보다 문제가 쉽게 해결되었다. control+shift+c 를 누르고 페이지번호를 누르면 해당 페이지의 html을 확인할 수 있다. 해당 페이지 번호에는 href = url, 로 url이 연결되어있음을 알 수 있다. 그 url을 누르면 다음과 같은 페이지로 넘어가게 되고 이.. 2022. 4. 19.
데이터 뽑아내기_ YouTube * Colab 기준으로 작성되었습니다. 졸업과제를 진행 중에 유튜브에서 데이터를 추출해와야하는 상황이 생겨 진행했다. 처음엔 어떻게 뽑아낼지 몰라 막막했는데 이미 구현된 패키지를 이용하니 정말 별거 없더라. 썸네일, 동영상 캡쳐, 기타 메타 정보들을 추출해올 것이다. 먼저 필요한 패키지를 설치해준다. pytube를 이용해서 추출할 것이다. 필요한 라이브러리들을 import 해준다. ytube의 YouTube 객체를 이용해 데이터를 뽑아낸다. 원하는 url를 넣고 YouTube 객체를 만든 후 아래 주석처리 되어있는 것처럼 데이터를 뽑아올 수 있다. 해당 url의 썸네일을 뽑아오는 것인데, 유튜브의 썸네일은 지정된 url에 업로드 되어있다. 그 url을 객체에서 따온 후 urllib을 이용해 다운받아주면 .. 2022. 4. 12.
와디즈 크롤링 - 필요한 정보 수집해오기 * Colab에서 작성되었습니다. 전편 (https://mkk4726.tistory.com/20) 에서 만든, 홈페이지 정보를 가지고 있는 meta.csv를 이용해 이번에는 원하는 정보들을 추출해올 것이다. 기간, 새소식 수, 본문에 있는 이미지 수, 제목에 있는 이미지 수, 커뮤니티 댓글 수, 커뮤니티 댓글 감성분석 결과, 목표 금액 등을 예측변수로, 성공여부를 종속변수로 가지는 데이터를 만들었다. 아직 실력이 부족해 모르는 것들을 배우고, 시행착오를 겪느라 하루를 이 작업에 투자했다. 해당 코드는 첨부한 Code(1).ipynb를 통해 확인할 수 있다. 이 과정을 하나씩 설명해보겠다. 먼저 Selenium과 Konlpy를 설치해준다. Konlpy를 Jupyter notebook에서 사용하기 위해 설치.. 2022. 4. 9.
와디즈 url, 상품 코드 가져오기 와디즈(wadiz)라는 보상형 크라우드 플랫폼을 대상으로 프로젝트를 진행 중이다. 상품들의 정보를 불러오기 위해서는 상품들의 코드를 알거나 url을 알면된다. 이를 통해 html을 받아와 원하는 정보를 추출해낼 수 있다. url과 상품코드를 가져오는 코드를 작성해 총 940개의 url, 코드를 수집했다. 생각보다 꽤 까다로운 과정이었다. 그림2에서 보이는 것처럼 상품들이 나열되어있고 이를 하나씩 클릭한 후 url정보를 가져와야한다. 해당 페이지의 url은 https://www.wadiz.kr/web/campaign/detail/94198?_refer_section_st=REWARD_1이다. 여기서 94198이 이 상품의 코드다. 이러한 메타정보들을 위의 과정을 반복하며 수집해줘야한다. 방법에서 알 수 있.. 2022. 4. 8.