-
Notifications
You must be signed in to change notification settings - Fork 11
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
KAIST 변환 이전의 품사 제공 필요 #13
Comments
👍 품사 외에 우리말샘의 경우 옛말/방언/북한어 여부에 대한 정보도 필요합니다. |
해당 내용은 사전 카테고리에 명시되고 있지 않아 표현하기가 어렵습니다만, raw 데이터에서 한번 확인이 필요할거 같습니다. |
표준국어대사전 원본 데이터라면 있을 겁니다. 옛말/방언/북한어의 경우에는 용도에 따라 다르겠지만 보통 불필요하거나 노이즈 데이터가 될 가능성이 높아서 꼭 구분이 필요합니다. |
바라는 게 많아서 죄송하지만 ^^ "...의 잘못"으로 등록된 항목도 우리말샘 데이터에 들어 있는데 이것도 구분할 수 있었으면 좋겠습니다. 예를 들어 "찌게" 항목도 있는데 이건 "찌개의 잘못"이라고 표준국어대사전에 들어 있거든요. 잘못된 단어임을 알 수 있을까요? 대응되는 바른 말의 ("찌개") 레퍼런스 정보가 있으면 금상첨화이고요. ^^ |
원본에서 구분은 하기 어렵습니다만, 업데이트시 참고하도록 하겠습니다. |
KoNLP활용을 위해 원래의 품사를 제거하고 KAIST 태그로 제공하고 있는 부분에 대해서 세종 태그를 부착해서 데이터를 제공한다.
The text was updated successfully, but these errors were encountered: