Natural Language Toolkit
Тип | Обробка природної мови |
---|---|
Автор | Стівен Берд, Едвард Лопер, Еван Клейн |
Розробники | Team NLTK |
Перший випуск | 2001; 23 років тому (2001)[1] |
Стабільний випуск | 3.6.1 (7 квітня, 2021; 3 роки тому (2021-04-07)[2]) |
Мова програмування | Python |
Ліцензія | Apache 2.0[3] |
Онлайн-документація | nltk.org/api/nltk.html |
Репозиторій | github.com/nltk/nltk |
Вебсайт | www.nltk.org |
Набір інструментів природної мови, або частіше NLTK, — це набір бібліотек і програм для символьної та статистичної обробки природної мови (NLP) для англійської мови, написаних мовою програмування Python. Його розробили Стівен Берд і Едвард Лопер з кафедри комп'ютерних та інформаційних наук університету Пенсільванії[4]. NLTK містить як набори даних, так і графічні матеріали. До пакету входить книга, яка пояснює основні концепції завдань обробки мови, що підтримуються набором інструментів[5], а також прикладами застосування пакету[6].
NLTK призначений для підтримки досліджень і викладання навчальних курсів пов'язаних з НЛП та близькоспорідненими областями, включаючи емпіричну лінгвістику, когнітивну науку, штучний інтелект, пошук інформації та машинне навчання[7]. NLTK успішно використовується як навчальний інструмент, а також як платформа для створення прототипів і побудови дослідницьких систем. У США та ще у 25 країнах 32 університети використовують NLTK у своїх курсах. NLTK підтримує функціональні можливості класифікації, токенізації, стемінгу, тегів, аналізу та семантичного міркування.[8]
Основні компоненти бібліотеки
- Лексичний аналіз: Токенізатор слів і тексту
- n-грам і колокації
- Теггер частини мови
- Модель дерева та фрагмент тексту для запису
- Розпізнавання іменованих об'єктів
Див. також
Примітки
- ↑ Project site on SourceForge. 9 липня 2001. Архів оригіналу за 29 січня 2022. Процитовано 29 січня 2022.
- ↑ NLTK ChangeLog. nltk.org. Архів оригіналу за 29 січня 2022. Процитовано 13 квітня 2021.
- ↑ NLTK License. NLTK Project. Архів оригіналу за 29 січня 2022. Процитовано 14 лютого 2015.
- ↑ Preface. www.nltk.org. Архів оригіналу за 26 січня 2022. Процитовано 15 червня 2016.
- ↑ Bird, Steven; Klein, Ewan; Loper, Edward (2009). Natural Language Processing with Python. O'Reilly Media Inc. ISBN 978-0-596-51649-9.
- ↑ Perkins, Jacob (2010). Python Text Processing with NLTK 2.0 Cookbook. Packt Publishing. ISBN 978-1849513609.
- ↑ Bird, Steven; Klein, Ewan; Loper, Edward; Baldridge, Jason (2008). Multidisciplinary instruction with the Natural Language Toolkit (PDF). Proceedings of the Third Workshop on Issues in Teaching Computational Linguistics, ACL. Архів оригіналу (PDF) за 2 September 2011.
- ↑ NLTK Courses. Google Docs. Архів оригіналу за 29 січня 2022. Процитовано 15 червня 2016.
Посилання
- Офіційний сайт
- п
- о
- р
- Розуміння природної мови
- Корпус текстів
- Корпус мовлення
- Стоп-слова
- Торба слів
- AI-повнота
- N-грама (Біграма, Триграма)
- Сегментація тексту[en]
- Розмічування частин мови
- Поверхнево-синтаксичний аналіз
- Обробка складних слів[en]
- Видобування колокацій[en]
- Стемінг
- Лематизація
- Розпізнавання іменованих сутностей
- Розв'язання кореферентності
- Аналіз тональності тексту
- Виокремлення концептів[en]
- Синтаксичний аналіз
- Вирішення лексичної багатозначності[en]
- Навчання онтологій[en]
- Видобування термінології
- Видобування інформації
- Визначення регістру[en]
- Багатодокументне реферування[en]
- Видобування речень[en]
- Спрощення тексту
- Автоматизований переклад
- На основі прикладів
- На основі правил[en]
- На основі словника[en]
- На основі трансформації[en]
- Нейронний
- Гібридний[en]
- Інтерлінгвіальний[en]
- Статистичний
і збір даних
- Розпізнавання мовлення
- Синтез мовлення
- Оптичне розпізнавання символів
- Генерація природної мови
- Розміщення патінко[en]
- Приховане розміщення Діріхле[en]
- Латентно-семантичний аналіз
- Автоматизоване оцінювання творів (в освіті)[en]
- Конкордансер
- Система перевірки граматики[en]
- Система перевірки орфографії
- Предиктивне введення тексту
- Вгадування синтаксису[en]
природною мовою[en]
- Natural Language Toolkit
- SpaCy