You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
1. 구텐버그 프로젝트에 포함된 소설을 이용해 text segmentation 데이터셋 구축 2. Local Method: * Weighted Overlap Cut(WOC): unsupervised, 각 챕터 내 빈번히 등장하는 단어가 다를것이라는 점에서 착안, 두 문장을 비교해 단어의 밀집도(overlap하는 경우)가 최소화 되는 곳을 Break point로 둠 * BERT for Break Prediction (BBP): supervised, 두 문장을 비교해 두 문장이 연속적인지(같은 챕터인지) 아니면 연속적이지 않은지(break point)를 분류 문제로 계산 3. Global Method using Optimization: segment의 길이를 일정하게 만드는 것이 좋은 segmentation 결과를 보여줌 * 동적 프로그래밍 기법을 사용해 recursive하게 해결