본문 바로가기

STUDY

[NLP] 요약 모델

출처 문서의 수에 따른 분류

- 단일 문서 (Single-document) : 하나의 문서를 요약

- 다중 문서 (Multi-document) : 여러 문서에서 정보를 통합하여 하나로 요약

 

특정 작업에 대한 제약 (Task-specific constraints)

- 특정 질문 (Query-focused)

- 정보 업데이트 (Update)

- 지침에 따름 (Guided)

 

지식의 양에 따른 분류

- 지식이 적은 경우 (Knowledge-poor) : 문서 내의 정보에만 의존

- 지식이 풍부한 경우 (Knowledge-rich) : 외부 지식이나 데이터베이스와 같은 외부 자원 활용 (Use of external resources)

 

요약 방법에 따른 분류

추출 요약 (Extractive Summarization)

추출 기반 (Extraction-based) 요약 : 원본 텍스트에서 중요한 문장이나 구절을 선택하여 요약

강점 : 원문의 정확도를 유지

단점 : 불필요한 정보를 포함하거나 문맥상의 연결이 부족

 

생성 요약 (Abstractive Summarization)

생성 기반 (Abstraction-based) 요약 : 원본 텍스트를 모델이 해석하여 새로운 문장으로 요약

강점 : 더 자연스럽고 읽기 쉬운 요약을 제공

단점 : 더 복잡한 알고리즘이 필요하며, 원문의 정확한 내용을 오해하거나 잘못 전달할 위험성

 

추출 요약은 원문의 정확도를 중시할 때 적합하고, 생성 요약은 더 유동적이고 자연스러운 내용 전달이 필요할 때 유리

두 요약 방식을 결합하여 추출 요약 후 생성 요약을 진행하는 2단계 문서 요약 방식도 연구 중

 

ROGUE 스코어

Recall-Oriented Understudy for Gisting Evaluation

모델이 추론한 요약문과 정답 요약문 간의 겹치는 부분이 얼마나 많은지를 체크하는 스코어

 

ROGUE-N

ROGUE-1 :추론 요약문과 정답 요약문 간 겹치는 unigram의 수를 평가 (한 문단)

ROGUE-2 :추론 요약문과 정답 요약문 간 겹치는 bigram의 수를 평가 (두 문단)

 

ROGUE-L

추론 요약문과 정답 요약문의 LCS(Longest Commont Subsequence)를 이용항 유사성을 측정

순서나 위치 관계를 고려한 알고리즘

 

ROGUE-W

ROGUE-L의 방법에 더하여 연속적인 매칭(consecutive matches)에 가중치를 주는 방법

 

ROGUE-S

Window Size가 주어졌을 때, 이 사이즈 내에 위치하는 단어쌍들을 묶어 해당 단어쌍이 얼마나 중복되는지 측정

 

하지만 동음이의어에 대한 평가가 없어 특히 한국어 요약에서 좋은 평가 방법이 아님

 

 

참조

https://aiheroes.ai/community/108

 

https://aiheroes.ai/community/108

 

aiheroes.ai

https://supkoon.tistory.com/26

 

[자연어처리][Metric] ROUGE score : Recall-Oriented Understudy for Gisting Evaluation

ROUGE ROUGE(Recall-Oriented Understudy for Gisting Evaluation)는 text summarization, machine translation과 같은 generation task를 평가하기 위해 사용되는 대표적인 Metric입니다. 본 글의 내용은 ROUGE score에 관한 논문인 https

supkoon.tistory.com

'STUDY' 카테고리의 다른 글

[데이터] GIS  (0) 2024.06.27
[LLM] VLM (Multimodal) 업무  (1) 2024.06.19
[LLM] RAG  (0) 2024.06.05
[자격증] SQLD 준비  (0) 2024.05.24
RANSAC 알고리즘  (0) 2023.09.12