Natural Language Toolkit

Natural Language Toolkit

Тип	Обробка природної мови
Автор	Стівен Берд, Едвард Лопер, Еван Клейн
Розробники	Team NLTK
Перший випуск	2001; 23 років тому (2001)^[1]
Стабільний випуск	3.6.1 (7 квітня, 2021; 3 роки тому (2021-04-07)^[2])
Версії	3.8.1 (2 січня 2023)^[3]
Мова програмування	Python
Ліцензія	Apache 2.0^[4]
Онлайн-документація	nltk.org/api/nltk.html
Репозиторій	github.com/nltk/nltk
Вебсайт	www.nltk.org

Набір інструментів природної мови, або частіше NLTK, — це набір бібліотек і програм для символьної та статистичної обробки природної мови (NLP) для англійської мови, написаних мовою програмування Python. Його розробили Стівен Берд і Едвард Лопер з кафедри комп'ютерних та інформаційних наук університету Пенсільванії^[5]. NLTK містить як набори даних, так і графічні матеріали. До пакету входить книга, яка пояснює основні концепції завдань обробки мови, що підтримуються набором інструментів^[6], а також прикладами застосування пакету^[7].

NLTK призначений для підтримки досліджень і викладання навчальних курсів пов'язаних з НЛП та близькоспорідненими областями, включаючи емпіричну лінгвістику, когнітивну науку, штучний інтелект, пошук інформації та машинне навчання^[8]. NLTK успішно використовується як навчальний інструмент, а також як платформа для створення прототипів і побудови дослідницьких систем. У США та ще у 25 країнах 32 університети використовують NLTK у своїх курсах. NLTK підтримує функціональні можливості класифікації, токенізації, стемінгу, тегів, аналізу та семантичного міркування.^[9]

Основні компоненти бібліотеки

Лексичний аналіз: Токенізатор слів і тексту
n-грам і колокації
Теггер частини мови
Модель дерева та фрагмент тексту для запису
Розпізнавання іменованих об'єктів

Див. також

SpaCy

Примітки

↑ Project site on SourceForge. 9 липня 2001. Архів оригіналу за 29 січня 2022. Процитовано 29 січня 2022.
↑ NLTK ChangeLog. nltk.org. Архів оригіналу за 29 січня 2022. Процитовано 13 квітня 2021.
↑ Release 3.8.1 — 2023.
↑ NLTK License. NLTK Project. Архів оригіналу за 29 січня 2022. Процитовано 14 лютого 2015.
↑ Preface. www.nltk.org. Архів оригіналу за 26 січня 2022. Процитовано 15 червня 2016.
↑ Bird, Steven; Klein, Ewan; Loper, Edward (2009). Natural Language Processing with Python. O'Reilly Media Inc. ISBN 978-0-596-51649-9.
↑ Perkins, Jacob (2010). Python Text Processing with NLTK 2.0 Cookbook. Packt Publishing. ISBN 978-1849513609.
↑ Bird, Steven; Klein, Ewan; Loper, Edward; Baldridge, Jason (2008). Multidisciplinary instruction with the Natural Language Toolkit (PDF). Proceedings of the Third Workshop on Issues in Teaching Computational Linguistics, ACL. Архів оригіналу (PDF) за 2 September 2011.
↑ NLTK Courses. Google Docs. Архів оригіналу за 29 січня 2022. Процитовано 15 червня 2016.

Посилання

Офіційний сайт

п о р Обробка природної мови

Загальні терміни	Розуміння природної мови Корпус текстів Корпус мовлення Стоп-слова Торба слів AI-повнота N-грама (Біграма, Триграма)

Аналіз тексту	Сегментація тексту^[en] Розмічування частин мови Поверхнево-синтаксичний аналіз Обробка складних слів^[en] Видобування колокацій^[en] Стемінг Лематизація Розпізнавання іменованих сутностей Розв'язання кореферентності Аналіз тональності тексту Виокремлення концептів^[en] Синтаксичний аналіз Вирішення лексичної багатозначності^[en] Навчання онтологій^[en] Видобування термінології Видобування інформації Визначення регістру^[en]

Автоматизоване реферування	Багатодокументне реферування^[en] Видобування речень^[en] Спрощення тексту

Машинний переклад	Автоматизований переклад На основі прикладів На основі правил^[en] На основі словника^[en] На основі трансформації^[en] Нейронний Гібридний^[en] Інтерлінгвіальний^[en] Статистичний

Автоматична ідентифікація і збір даних	Розпізнавання мовлення Синтез мовлення Оптичне розпізнавання символів Генерація природної мови

Тематичне моделювання	Розміщення патінко^[en] Приховане розміщення Діріхле^[en] Латентно-семантичний аналіз

Автоматизоване рецензування^[en]	Автоматизоване оцінювання творів (в освіті)^[en] Конкордансер Система перевірки граматики^[en] Система перевірки орфографії Предиктивне введення тексту Вгадування синтаксису^[en]

Інтерфейс користувача природною мовою^[en]	Автоматизований онлайн-помічник Чат-бот Інтерактивна література Питально-відповідна система Голосовий інтерфейс користувача

Програмне забезпечення	Natural Language Toolkit SpaCy