Database

역색인 (Inverted Index)

BUST 2018. 8. 27. 23:37

역색인 (Inverted Index)

  • 낱말이나 숫자와 같은 내용물로부터 매핑정보를 데이터베이스 파일의 특정 지점이나 문서또는 문서 집합 안에 저장하는 색인 데이터의 구조
  • 문서 검색 시스템에서 쓰이는 가장 대중적인 데이터 구조. 대규모의 데이터에서 사용이 되다.
  • 두 가지 주된 종류가 있다 레코드 단위의 inverted index, Word 단위의 Inverted Index
  • 검색 시스템에서 본문을 LIKE로 Full Scan 하는 방식도 있지만 매우 비효율적인 방식

Lucene에서의 inverted index

3107787182
  • 단어 (Term)으로 인덱싱하는 Inverted Index 방식
  • content를 LIKE 방식으로 검색하기에는 효율적이기 않기 때문에 Term으로 나누고 Term에 해당하는 Document Id를 인덱스를 만든다.


Reference

https://en.wikipedia.org/wiki/Inverted_index