[혼자 공부하는 데이터 분석]with 파이썬 02 데이터 수집하기 part 2

카테고리 없음

oneaney 2023. 9. 16. 13:01

API 사용하기

requests 패키지 사용
requests.get() 함수 : 반환하는 값은 API 호출의 결과를 담고 있는 requests 패키지의 Response 클래스 객체

import requests

r = requests.get(url.format(isbn))

requests.Response.json() 함수 : 응답받은 JSON 문자열을 파이썬 객체로 변환하여 반환

웹 스크래핑

데이터프레임 행과 열 선택하기: loc 함수

books_df.loc[[0,1],['bookname','authors']]

첫번째 매개변수로 행 인덱스 0과 1을 리스트로 전달
두번째 매개변수로 'bookname''authors'를 리스트로 전달

books_df.loc[0:1,'bookname':'authors']

슬라이스 연산자 사용 가능함(파이썬 슬라이싱과 다르게 마지막 항목 포함)

books = books_df.loc[:,'no':'isbn13']

전체 열 이름을 나열하는 것보다 loc 메서드와 슬라이스 연산자 사용

HTML에서 데이터 추출하기 : 뷰티풀수프

from bs4 import BeautifulSoup

soup = BeautifulSoup(r.text,'html.parser')

매개변수는 파싱할 HTML 문서이고 파싱에 사용할 파서를 사용

태그 위치 찾기 : find() 메서드
BeautifulSoup.find()

prd_link=soup.find('a',attrs={'class':'gd_name'})

처음에는 찾을 태그이름 지정, attrs 매개변수에는 찾으려는 태그의 속성을 딕셔너리로 찾음

태이블 태그를 리스트로 가져오기: find_all() 메서드
BeautifulSoup.find_all() : 모든 특정 HTML 태그를 찾아서 리스트로 제공

prd_tr_list=prd_detail.find_all('tr')

print(prd_tr_list)

태그 안의 텍스트 가져오기: get_text() 메서드
get_text() : <td>안에 있는 텍스트를 가져오려면 Tag 객체안에 있는 텍스트 반환

실습내용 링크
https://colab.research.google.com/drive/18Ao9mPDwwzkXz2TIcbNVKZvr813nXPtF