Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Trainning để có thể nhận diện số điện thoại Việt Nam #6

Open
ducpt2 opened this issue Mar 5, 2020 · 7 comments
Open

Comments

@ducpt2
Copy link

ducpt2 commented Mar 5, 2020

Hi anh, em có test thử project tại link http://undertheseanlp.com/ thì hiện tại em thấy NER chưa nhận diện được số điện thoại Việt Nam.
Anh có thể hướng dẫn em trainning thêm để có thể nhận diện phone ko ạ? Hiện tại em có đoạn regex phone của Việt Nam.
Cảm ơn anh đã tạo 1 project tuyệt vời.

@rain1024
Copy link
Contributor

rain1024 commented Mar 6, 2020

@ducpt2
Em có thể đưa ra một vài ví dụ về các trường hợp không nhận diện được số điện thoại Việt Nam không?
Anh nghĩ cái này có thể xử lý bằng cách dùng luật ở bước tokenize bằng regex như em bảo

@ducpt2
Copy link
Author

ducpt2 commented Mar 6, 2020

vâng, em ví dụ nhé ạ.
Chuyển hàng cho mình tại ngõ 68 triều khúc thanh xuân hà nội.

@rain1024
Copy link
Contributor

rain1024 commented Mar 6, 2020

Hi anh, em có test thử project tại link http://undertheseanlp.com/ thì hiện tại em thấy NER chưa nhận diện được số điện thoại Việt Nam.

Chuyển hàng cho mình tại ngõ 68 triều khúc thanh xuân hà nội.

Em muốn làm gì với đoạn text này? Đoạn text này có số điện thoại Việt Nam đâu nhỉ?

@ducpt2
Copy link
Author

ducpt2 commented Mar 6, 2020

Sorry anh em rep hơi nhanh nên có chút nhầm lẫn ạ. Em sửa lại đoạn text 1 chút.

  • Chuyển hàng cho mình tại ngõ 68 triều khúc thanh xuân hà nội, số điện thoại là 0983234523.
    mình có thể xác định location và số phone là:
  • 68 triều khúc thanh xuân hà nội
  • 0983234523
    không anh? Cảm ơn anh đã support.

@rain1024
Copy link
Contributor

rain1024 commented Mar 9, 2020

Hiện tại, về việc tokenize, thì anh đang cũng có phần nhận các số rồi.

Selection_050

Anh cũng chưa nghĩ ra cách nào để tích hợp regex cho riêng số phone vào, mà ko bị conflict với phần nhận số này

Em có đề xuất gì không?

PS: Về regex tokenize của underthesea, em có thể tham khảo ở đây

https://github.com/undertheseanlp/underthesea/blob/master/underthesea/word_tokenize/regex_tokenize.py#L8

@ducpt2
Copy link
Author

ducpt2 commented Mar 9, 2020

Em cảm ơn anh nhiều ạ,
Hiện tại thì chắc em chưa đủ kiến thức để contribute được phần này, thành thật sorry anh.

@ooker777
Copy link

ooker777 commented Feb 5, 2024

tại sao mình ko dùng regex cho nhanh nhỉ?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants