Đơn giản hóa văn bản

Đơn giản hóa văn bản là một hoạt động được dùng trong lĩnh vực xử lý ngôn ngữ tự nhiên để thay đổi, nâng cao, phân loại hoặc xử lý một corpus văn bản mà con người có thể đọc theo cách ngữ pháp và cấu trúc văn xuôi được đơn giản hóa đi rất nhiều, trong khi vẫn giữ ý nghĩa và thông tin trong đó.

Đơn giản hóa văn bản là một lĩnh vực nghiên cứu quan trọng, bởi vì các ngôn ngữ tự nhiên của con người chứa lượng lớn các từ vựng và cấu trúc kết hợp phức tạp mà không dễ xử ký thông qua quá trình tự động hóa. Về các khía cạnh giảm sự đa dạng ngôn ngữ, nén ngữ nghĩa (semantic compression) có thể được sử dụng để giới hạn và đơn giản hóa một tập hợp các từ dùng trong các văn bản cho trước.

Xem thêm

  • Paraphrasing (computational linguistics)
  • Controlled natural language
  • Lexical simplification
  • Lexical substitution
  • Nén ngữ nghĩa
  • Text normalization
  • Simplified Technical English
  • Basic English

Tham khảo

  • Wei Xu, Chris Callison-Burch and Courtney Napoles. "Problems in Current Text Simplification Research". In Transactions of the Association for Computational Linguistics (TACL), Volume 3, 2015, Pages 283–297.
  • Advaith Siddharthan. "Syntactic Simplification and Text Cohesion". In Research on Language and Computation, Volume 4, Issue 1, Jun 2006, Pages 77–109, Springer Science, the Netherlands.
  • Siddhartha Jonnalagadda, Luis Tari, Joerg Hakenberg, Chitta Baral and Graciela Gonzalez. Towards Effective Sentence Simplification for Automatic Processing of Biomedical Text. In Proc. of the NAACL-HLT 2009, Boulder, USA, June. [1]

Liên kết ngoài

  • Automatic Induction of Rules for Text Simplification (pdf)
  • Text Simplification for Information-Seeking Applications
  • x
  • t
  • s
Thuật ngữ chung
Khai thác văn bản
Tóm tắt tự động
Dịch tự động
Nhận dạng tự động
và thu thập dữ liệu
Mô hình chủ đề
Xem xét với
sự trợ giúp máy tính
Giao diện người dùng
ngôn ngữ tự nhiên
Bài viết này vẫn còn sơ khai. Bạn có thể giúp Wikipedia mở rộng nội dung để bài được hoàn chỉnh hơn.
  • x
  • t
  • s