Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 개발
- 읽기쉬운코드
- API
- 그리디
- 그리디알고리즘
- 자바
- Java
- 엘라스틱서치
- Spring
- 코딩
- framework
- 프레임워크
- JPA
- 코딩테스트
- Elasticsearch
- 개발자
- ES
- 애자일기법
- 코드
- Baekjoon
- spring boot
- 알고리즘
- 애자일프로그래밍
- 데이터베이스
- 스프링
- database
- cleancode
- 백준
- 클린코드
- mongoDB
Archives
- Today
- Total
목록전처리필터 (1)
튼튼발자 개발 성장기🏋️
데이터 모델링: 전처리 필터
분석기는 전처리 필터를 이용한 데이터 정제후 토크나이저를 이용해 본격적인 토큰 분리 작업을 한다. 그 다음 생성된 토큰 리스트를 토큰 필터를 통해 재가공하는 3단계 방식으로 동작한다. 하지만 토크나이저 내부에서도 일종의 전처리가 가능하기 때문에 전처리 필터는 상대적으로 활용도가 많이 떨어진다. 그렇기 때문에 엘라스틱서치에서 공식적으로 많은 종류의 전처리 필터를 제공하지 않는다. 이 가운데 HTML 문서의 전처리를 위해 제공하는 전처리 필터를 알아보자. HTML strip char filter 문장에서 HTML을 제거하는 전처리 필터이며 필터 옵션은 아래와 같다. escaped_tags 특정 태그만 삭제한다. 기본 값으로 HTML 태그를 전부 삭제한다. Tokenizer Filter 전처리 필터를 거쳐 토..
Reading/엘라스틱서치 실무 가이드
2023. 12. 13. 21:36