ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [혼자 공부하는 데이터 분석]with 파이썬 02 데이터 수집하기 part 2
    카테고리 없음 2023. 9. 16. 13:01

    API  사용하기
     
    requests 패키지 사용
    requests.get() 함수 : 반환하는 값은 API 호출의 결과를 담고 있는 requests 패키지의 Response 클래스 객체

    import requests
    r = requests.get(url.format(isbn))

    requests.Response.json() 함수 : 응답받은 JSON 문자열을 파이썬 객체로 변환하여 반환
     
    웹 스크래핑
     
    데이터프레임 행과 열 선택하기: loc 함수

    books_df.loc[[0,1],['bookname','authors']]

    첫번째 매개변수로 행 인덱스 0과 1을 리스트로 전달
    두번째 매개변수로 'bookname''authors'를 리스트로 전달

    books_df.loc[0:1,'bookname':'authors']

    슬라이스 연산자 사용 가능함(파이썬 슬라이싱과 다르게 마지막 항목 포함)

    books = books_df.loc[:,'no':'isbn13']

    전체 열 이름을 나열하는 것보다 loc 메서드와 슬라이스 연산자 사용
     
    HTML에서 데이터 추출하기 : 뷰티풀수프

    from bs4 import BeautifulSoup
    soup = BeautifulSoup(r.text,'html.parser')

    매개변수는 파싱할 HTML 문서이고 파싱에 사용할 파서를 사용
     
    태그 위치 찾기 : find() 메서드
    BeautifulSoup.find() 

    prd_link=soup.find('a',attrs={'class':'gd_name'})

    처음에는 찾을 태그이름 지정, attrs 매개변수에는 찾으려는 태그의 속성을 딕셔너리로 찾음
     
    태이블 태그를 리스트로 가져오기: find_all() 메서드
    BeautifulSoup.find_all() : 모든 특정 HTML 태그를 찾아서 리스트로 제공 

    prd_tr_list=prd_detail.find_all('tr')
    print(prd_tr_list)

    태그 안의 텍스트 가져오기: get_text() 메서드
    get_text() : <td>안에 있는 텍스트를 가져오려면 Tag 객체안에 있는 텍스트 반환 

     

    실습내용 링크
    https://colab.research.google.com/drive/18Ao9mPDwwzkXz2TIcbNVKZvr813nXPtF

Designed by Tistory.