크롤링 연습 5. urllib 사용 및 게시판 글 리스트 모두 가져오기

python

크롤링 연습 5. urllib 사용 및 게시판 글 리스트 모두 가져오기

easy16 2019. 12. 25. 20:43

 
#urllib 사용법
#requests를 사용할 때, encoding 관련 에러가 발생하면 아래의 urllib을 사용해보도록.

from urllib.request import urlopen
from bs4 import BeautifulSoup


res = urlopen('https://seeko.earlyadopter.co.kr/bbs/board.php?bo_table=mainnews')
#print(type(res))
soup = BeautifulSoup(res, 'html.parser')

data = soup.find_all('a','item-subject')
for item in item_list:
    l1 = item.get_text().strip('\t\n31').split('\n')
    print(l1)

 
#게시판의 여러 페이지 읽어오기

#1 페이지
#https://seeko.earlyadopter.co.kr/bbs/board.php?bo_table=buysell&page=1
#2 페이지
#https://seeko.earlyadopter.co.kr/bbs/board.php?bo_table=buysell&page=2
#3 페이지
#https://seeko.earlyadopter.co.kr/bbs/board.php?bo_table=buysell&page=3

#링크에 대한 규칙을 파악



import requests
from bs4 import BeautifulSoup


for page in range(20, 1,-1):
    site = 'https://seeko.earlyadopter.co.kr/bbs/board.php?bo_table=buysell&page='+str(page)
    #print(site)
    
    res = requests.get(site)
    soup = BeautifulSoup(res.content, 'html.parser')

    item_list = soup.find_all('a','item-subject')
    print('====start page : '+str(page)+'====')
    for item in item_list:
        l1 = item.get_text().strip('\r\t\n123').split('\n')
        print(l1)
        #print(l1 ,'item')
    print('====end page '+str(page)+'====')