PDF(Portable Document Format)
PyMuPDF (fitz)
– PDF 렌더링 엔진이 강력함.
– 텍스트 + 이미지 + 좌표 + 벡터 데이터까지 모두 추출 가능
– 속도가 매우 빠름.
– PDF 페이지를 이미지로 렌더링하는 기능이 매우 강함.
설치
pip install pymupdf
pdfplumber
– 텍스트/표 추출에 최적화
– OCR이 아닌 레이아웃 기반 분석이 매우 뛰어남.
설치
pip install pdfplumber