라이트스택
메뉴

문서 텍스트 추출 도구

HWP, PDF, 오피스 문서, 이미지, 압축 파일까지 — 한 인터페이스에서 받아 정제된 데이터로 인도합니다. 검색·미리보기 같은 전통적 활용부터 빅데이터 분석, AI 데이터 전처리, 개인정보 탐지까지 동일 파이프라인 위에서 수행됩니다.

HWP / PDF / OfficeREST API · JSONCloud NativeBig Data Ready
Document Text Extraction

천차만별의 문서를, 하나의 정제된 데이터로 인도합니다.

검색이든, RAG 든, 데이터 파이프라인이든 — 모두 깨끗한 텍스트를 전제로 합니다. 그러나 현실의 문서는 HWP, 보안 PDF, 다양한 오피스 포맷, 압축 파일까지 형태가 천차만별입니다.

라이트스택의 문서 텍스트 추출 도구는 그 다양성을 한 인터페이스로 받아 정제된 데이터로 인도합니다. 큰 파일도 빠르고 정확하게, 표는 표 그대로, 메타데이터는 Dublin Core 표준으로.

추출 엔진(Docpler) 위에 데이터 엔지니어링 경험과 운영 노하우를 더해, 검색 색인, RAG, 개인정보 탐지, 빅데이터 적재까지 — 도입 단계에서 운영까지 한 자리에서 책임집니다.

추출부터 적재까지, 한 파이프라인에서

다양한 포맷, 표준 인터페이스, 그리고 운영 환경까지 모두 고려한 통합 솔루션.

광범위한 포맷 지원

한글(HWP), PDF, Word, Excel, PowerPoint, iWork, EPUB, RTF, 그리고 ZIP·GZ·7Z·TAR 같은 압축 포맷까지 한 엔진으로 다룹니다.

표 · 구조 보존

문서 안의 표를 구조 그대로 추출합니다. CSV·Excel·데이터베이스에 그대로 적재할 수 있는 형태로 인도합니다.

REST API · JSON 출력

표준 HTTP 와 JSON 만으로 어떤 언어·자동화 도구에서도 호출할 수 있습니다. 별도 SDK 없이도 시스템 통합이 자연스럽습니다.

Dublin Core 메타데이터

파일의 메타데이터를 표준화된 DC (Dublin Core) 형식으로 추출합니다. 자산 관리·분류 시스템과 자연스럽게 호환됩니다.

클라우드 네이티브 운영

컨테이너 환경에 최적화되어 있고, 헬스체크와 업타임 모니터링이 내장되어 있습니다. Kubernetes 환경에서 그대로 운영할 수 있습니다.

검색 · 분석 · 보안 통합

ElasticSearch 색인, RAG 전처리, 개인정보(PII) 탐지·마스킹까지 — 추출 결과를 후속 시스템과 자연스럽게 연결합니다.

이 솔루션을 구성하는 요소

자체 추출 엔진과 데이터 엔지니어링 노하우가 함께 들어갑니다.

사례 연구

한국전기안전공사

수십만 건의 HWP 표를 엑셀로 변환해 데이터베이스화

라이트스택의 (HWP) SDK 를 통해 수십만 건의 아래한글 파일의 표 데이터를 유형별로 분류하고 이를 엑셀 데이터로 변환하는 프로젝트를 수행했습니다. 고객은 이를 통해 그간 수년간 누적된 비정형 데이터의 데이터베이스 전환을 마치고, 데이터 분석·예측을 위한 기반 마련에 성공했습니다.

Big DataData Migration
한국관광공사

사내 문서를 한 곳에서 검색하기 위한 검색엔진 통합

ElasticSearch 와의 손쉬운 통합으로 고가의 라이선스 구매 없이도 문서 파일 검색 기능을 제공할 수 있었습니다. 안내원은 게시글, 사내 Knowledge Base, 첨부 파일, 각종 문서들을 한 곳에서 검색하여 빠르게 고객 응대를 할 수 있었습니다.

Search EngineElasticSearch
한국관광공사

사용자가 업로드한 문서 내 텍스트를 추출, 실시간으로 개인정보를 탐지

파일 업로드 시점에 실시간으로 탐지할 수 있도록 SDK 로 제공, 기존 게시판 기능에 적용하여 사용자 편의성을 유지하면서 개인정보 보호 정책을 반영했습니다. 운영자가 정기·비정기적으로 개인정보 탐지 현황을 파악할 수 있게 대시보드를 제공하고, 오탐 여부를 확인할 수 있도록 탐지된 정보를 제공하는 등 편의 기능도 함께 제공했습니다.

Privacy FilteringRealtime
한국저작권위원회

원문공개시스템의 문서 내 개인정보 탐지

시스템 내의 문서를 실시간 혹은 배치로 분석하여 개인정보를 탐지해야 하는 시스템에서 SDK 형태의 텍스트 추출 도구가 유용하게 도입되었습니다.

Privacy Filtering