python
크롤링 연습 5. urllib 사용 및 게시판 글 리스트 모두 가져오기
easy16
2019. 12. 25. 20:43
#urllib 사용법 #requests를 사용할 때, encoding 관련 에러가 발생하면 아래의 urllib을 사용해보도록. from urllib.request import urlopen from bs4 import BeautifulSoup res = urlopen('https://seeko.earlyadopter.co.kr/bbs/board.php?bo_table=mainnews') #print(type(res)) soup = BeautifulSoup(res, 'html.parser') data = soup.find_all('a','item-subject') for item in item_list: l1 = item.get_text().strip('\t\n31').split('\n') print(l1)
#게시판의 여러 페이지 읽어오기 #1 페이지 #https://seeko.earlyadopter.co.kr/bbs/board.php?bo_table=buysell&page=1 #2 페이지 #https://seeko.earlyadopter.co.kr/bbs/board.php?bo_table=buysell&page=2 #3 페이지 #https://seeko.earlyadopter.co.kr/bbs/board.php?bo_table=buysell&page=3 #링크에 대한 규칙을 파악 import requests from bs4 import BeautifulSoup for page in range(20, 1,-1): site = 'https://seeko.earlyadopter.co.kr/bbs/board.php?bo_table=buysell&page='+str(page) #print(site) res = requests.get(site) soup = BeautifulSoup(res.content, 'html.parser') item_list = soup.find_all('a','item-subject') print('====start page : '+str(page)+'====') for item in item_list: l1 = item.get_text().strip('\r\t\n123').split('\n') print(l1) #print(l1 ,'item') print('====end page '+str(page)+'====')