여러분 모두 PDF가 무엇인지 잘 알고 있어야 합니다. 실제로, 이는 가장 중요하고 널리 사용되는 디지털 미디어 중 하나입니다. PDF는 다음을 의미합니다. 휴대용 문서 형식 . 그것은 사용한다 .pdf 확대. 소프트웨어, 하드웨어 또는 운영 체제에 관계없이 문서를 안정적으로 제시하고 교환하는 데 사용됩니다.
두 개의 Python 라이브러리를 사용하여 PDF 파일에서 텍스트를 추출합니다. pypdf 그리고 PyMuPDF , 이 기사에서는.
pypdf 라이브러리를 사용하여 PDF 파일에서 텍스트를 추출합니다.
파이썬 패키지 pypdf 필요한 것보다 더 많은 일을 할 수 있지만 원하는 것(텍스트 추출)을 달성하는 데 사용할 수 있습니다. 이 패키지는 PDF 파일을 생성, 해독 및 병합하는 데에도 사용할 수 있습니다. 메모: 자세한 내용은 다음을 참조하세요. Python에서 PDF 파일 작업
설치
이 패키지를 설치하려면 터미널에 아래 명령을 입력하세요.
pip install pypdf>
예: PDF 입력: 
파이썬3
세 번째 정규형
# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)> |
>
>
산출:
위의 코드를 덩어리로 이해해 보겠습니다.
reader = PdfReader('example.pdf')> - 우리는 객체를 만들었습니다 PDF리더 의 수업 pypdf 기준 치수.
- 그만큼 PDF리더 클래스는 pdf 파일 경로의 필수 위치 인수를 사용합니다.
print(len(reader.pages))>
- 페이지 속성은 다음 목록을 제공합니다. PageObject . 따라서 여기서는 내장된 기능을 사용할 수 있습니다. 오직() PDF 파일의 페이지 수를 가져오는 Python 함수입니다.
page = reader.pages[0]>
- 이제 다음과 같이 리더.페이지 다음의 목록입니다. PageObject , 우리는 구체적인 결과를 얻을 수 있습니다 페이지 페이지의 색인을 탭하여 PDF를 확인하세요. Python 목록 인덱싱은 0부터 시작하므로 리더.페이지[0] pdf 파일의 첫 번째 페이지를 제공합니다.
text = page.extract_text() print(text)>
- 페이지 객체에는 기능이 있습니다 추출_텍스트() PDF 페이지에서 텍스트를 추출합니다.
PyMuPDF 라이브러리를 사용하여 PDF 파일에서 텍스트 추출.
PyMuPDF XPS, PDF, CBR 및 CBZ와 같은 파일 형식을 지원하는 Python 라이브러리입니다. 하지만 지금은 이 기사에서는 PDF(Portable Document Format) 파일에 집중하겠습니다.
설치
pip install pymupdf pip install fitz>
PDF에서 텍스트를 추출하려면 다음 단계를 따라야 합니다.
- 라이브러리 가져오기
- 문서 열기
- 텍스트 추출
메모: 여기서는 Sample.pdf를 사용하고 있습니다. PDF를 얻으려면 아래 링크를 사용하십시오.
샘플.pdf – 링크
1. 라이브러리 가져오기
플로피 디스크
파이썬3
import> fitz> |
>
>
2. 문서개설
파이썬3
100.00개 중 15개
doc>=> fitz.>open>(>'sample.pdf'>)> |
>
>
여기서는 다음과 같은 객체를 만들었습니다. 문서 , 파일 이름은 Python 문자열이어야 합니다.
3. 텍스트 추출
파이썬3
npm 클린 캐시
for> page>in> doc:> >text>=> page.get_text()> >print>(text)> |
>
>
여기서는 PDF의 페이지를 반복하고 다음을 사용했습니다. get_text() 파일에서 각 페이지를 추출하는 방법.
텍스트를 추출하는 모든 코드
파이썬3
자바 규칙 명명
import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)> |
>
>
산출:

결론
우리는 두 개의 Python 라이브러리를 보았습니다. pypdf 그리고 PyMuPDF , PDF 파일에서 텍스트를 추출할 수 있습니다. 위의 두 라이브러리 중 선호하는 라이브러리에 대해 댓글을 달아주세요.