출처 문서의 수에 따른 분류
- 단일 문서 (Single-document) : 하나의 문서를 요약
- 다중 문서 (Multi-document) : 여러 문서에서 정보를 통합하여 하나로 요약
특정 작업에 대한 제약 (Task-specific constraints)
- 특정 질문 (Query-focused)
- 정보 업데이트 (Update)
- 지침에 따름 (Guided)
지식의 양에 따른 분류
- 지식이 적은 경우 (Knowledge-poor) : 문서 내의 정보에만 의존
- 지식이 풍부한 경우 (Knowledge-rich) : 외부 지식이나 데이터베이스와 같은 외부 자원 활용 (Use of external resources)
요약 방법에 따른 분류
추출 요약 (Extractive Summarization)
추출 기반 (Extraction-based) 요약 : 원본 텍스트에서 중요한 문장이나 구절을 선택하여 요약
강점 : 원문의 정확도를 유지
단점 : 불필요한 정보를 포함하거나 문맥상의 연결이 부족
생성 요약 (Abstractive Summarization)
생성 기반 (Abstraction-based) 요약 : 원본 텍스트를 모델이 해석하여 새로운 문장으로 요약
강점 : 더 자연스럽고 읽기 쉬운 요약을 제공
단점 : 더 복잡한 알고리즘이 필요하며, 원문의 정확한 내용을 오해하거나 잘못 전달할 위험성
추출 요약은 원문의 정확도를 중시할 때 적합하고, 생성 요약은 더 유동적이고 자연스러운 내용 전달이 필요할 때 유리
두 요약 방식을 결합하여 추출 요약 후 생성 요약을 진행하는 2단계 문서 요약 방식도 연구 중
ROGUE 스코어
Recall-Oriented Understudy for Gisting Evaluation
모델이 추론한 요약문과 정답 요약문 간의 겹치는 부분이 얼마나 많은지를 체크하는 스코어
ROGUE-N
ROGUE-1 :추론 요약문과 정답 요약문 간 겹치는 unigram의 수를 평가 (한 문단)
ROGUE-2 :추론 요약문과 정답 요약문 간 겹치는 bigram의 수를 평가 (두 문단)
ROGUE-L
추론 요약문과 정답 요약문의 LCS(Longest Commont Subsequence)를 이용항 유사성을 측정
순서나 위치 관계를 고려한 알고리즘
ROGUE-W
ROGUE-L의 방법에 더하여 연속적인 매칭(consecutive matches)에 가중치를 주는 방법
ROGUE-S
Window Size가 주어졌을 때, 이 사이즈 내에 위치하는 단어쌍들을 묶어 해당 단어쌍이 얼마나 중복되는지 측정
하지만 동음이의어에 대한 평가가 없어 특히 한국어 요약에서 좋은 평가 방법이 아님
참조
'STUDY' 카테고리의 다른 글
[데이터] GIS (0) | 2024.06.27 |
---|---|
[LLM] VLM (Multimodal) 업무 (1) | 2024.06.19 |
[LLM] RAG (0) | 2024.06.05 |
[자격증] SQLD 준비 (0) | 2024.05.24 |
RANSAC 알고리즘 (0) | 2023.09.12 |