일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Elasticsearch
- cleancode
- 애자일기법
- 코드
- 그리디
- 엘라스틱서치
- database
- Baekjoon
- 코딩
- 알고리즘
- 코딩테스트
- mongoDB
- 스프링
- 자바
- 개발
- JPA
- ES
- 프레임워크
- Spring
- 애자일프로그래밍
- 클린코드
- framework
- API
- 백준
- 그리디알고리즘
- spring boot
- 데이터베이스
- Java
- 개발자
- 읽기쉬운코드
- Today
- Total
목록데이터 모델링 (2)
튼튼발자 개발 성장기🏋️
분석기는 전처리 필터를 이용한 데이터 정제후 토크나이저를 이용해 본격적인 토큰 분리 작업을 한다. 그 다음 생성된 토큰 리스트를 토큰 필터를 통해 재가공하는 3단계 방식으로 동작한다. 하지만 토크나이저 내부에서도 일종의 전처리가 가능하기 때문에 전처리 필터는 상대적으로 활용도가 많이 떨어진다. 그렇기 때문에 엘라스틱서치에서 공식적으로 많은 종류의 전처리 필터를 제공하지 않는다. 이 가운데 HTML 문서의 전처리를 위해 제공하는 전처리 필터를 알아보자. HTML strip char filter 문장에서 HTML을 제거하는 전처리 필터이며 필터 옵션은 아래와 같다. escaped_tags 특정 태그만 삭제한다. 기본 값으로 HTML 태그를 전부 삭제한다. Tokenizer Filter 전처리 필터를 거쳐 토..
필드에는 다음과 같은 데이터 타입을 지정할 수 있다. - keyword, text 같은 문자열 데이터 타입 - date, long, double, integer, boolean, ip 같은 일반적인 데이터 타입 - 객체 또는 중첩문과 같은 JSON 계층의 특성의 데이터 타입 - geo_point, geo_shape 같은 특수한 데이터 타입 Keyword 타입 별도의 분석기를 거치지 않고 원문 그대로 색인되기 때문에 특정 코드나 키워드 등 정형화된 콘텐츠에 주로 사용된다. 엘라스틱서치의 일부 기능은 형태소 분석을 하지 않아야만 사용이 가능한데 이 경우에도 Keyword 타입이 사용된다. PUT movie_search_datatype/_mapping/_doc { "properties": { "multiMov..