분류 전체보기
-
20200225 개발일지개발/개발일지 2020. 2. 25. 05:07
팀원이 짠 코드를 바탕으로 https://www.koreafilm.or.kr/library/search/type?keyTypeCode=01 유형별 검색 - 한국영상자료원 디렉토리 - 한국영상자료원 www.koreafilm.or.kr 사이트에서 크롤링을 통해 독립영화를 크롤링해보았다. 하지만 줄거리를 크롤링하던중 Art_movie.select_one( 'div:nth-child(5) > div:nth-child(' + str( cnt) + ') > table > tbody > tr:nth-child(11) > td').text).strip() 여기서 11 이라는 부분이 모든 영화가 다 다르고, 심지어 다른 부분들도 정확히 맞아떨어지지 않는것을 발견했다. 그래서 단편영화 크롤링은 장편영화크롤링과 달리 제공하..
-
20200218 개발일지 첫번째카테고리 없음 2020. 2. 18. 04:10
팀원이 짜준 셀레니움 코드를 바탕으로 포문을 통해 한번의 컴파일만 하면 원하는 모든 영화정보가 디비에 저장되게끔 하는 코드를 작성했다. 그리고 이제 분업을 하는게 나을 것 같아서 기능에 대해 자세히 생각해보니까 긴 시간과 팀원들의 의지에 비해 구현할 내용이 너무 없어 분업을 하기도 힘들 것 같다는 생각이 문득 들어 추가할 수 있는 기능들에 대해 생각해보았다. 우리는 네이버영화에서 각 장르별 top10을 뽑아서 하나의 디비에 저장을 한다. 하지만 top10의 기준은 매일 달라진다. 그래서 나는 이 매번 크롤링을 통해 장르마다 10개씩 넣는 과정을 매번 사이트에 접속시에 진행하면 어떨까 생각을 했다. (하지만 실제 구현하면 크롤링 과정이 너무 길어 그동안 서버가 죽어버릴 수 있다는 생각도 해봐야 한다.) 그..