У цьому підручнику ви дізнаєтесь -
- Встановлення NLTK в Windows
- Встановлення Python в Windows
- Встановлення NLTK в Mac / Linux
- Встановлення NLTK через Anaconda
- Набір даних NLTK
- Як завантажити всі пакети NLTK
- Запуск сценарію NLP
- Як запустити сценарій NLTK
Встановлення NLTK в Windows
У цій частині ми дізнаємося, як зробити налаштування NLTK через термінал (командний рядок у вікнах).
Інструкції, наведені нижче, базуються на припущенні, що у вас не встановлений python. Отже, перший крок - це встановити python.
Встановлення Python в Windows:
Крок 1) Перейдіть по посиланню https://www.python.org/downloads/ , і виберіть останню версію для вікон.
Примітка . Якщо ви не хочете завантажувати останню версію, ви можете перейти на вкладку завантаження та переглянути всі випуски.
Крок 2) Клацніть на завантажений файл
Крок 3) Виберіть Налаштувати інсталяцію
Крок 4) Клацніть ДАЛІ
Крок 5) На наступному екрані
- Виберіть додаткові параметри
- Вкажіть спеціальне місце встановлення. У моєму випадку для зручності роботи вибирається папка на диску C.
- Натисніть Встановити
Крок 6) Після завершення встановлення натисніть кнопку Закрити.
Крок 7) Скопіюйте шлях до вашої папки Scripts.
Крок 8) У командному рядку Windows
- Перейдіть до розташування папки pip
- Введіть команду, щоб встановити NLTK
pip3 install nltk
- Встановлення має бути виконано успішно
ПРИМІТКА . Для Python2 використовуйте команду pip2 install nltk
Крок 9) У меню Пуск Windows знайдіть і відкрийте PythonShell
Крок 10) Ви можете перевірити, чи правильна установка, подаючи наведену нижче команду
import nltk
Якщо помилки не відображаються, установка завершена.
Встановлення NLTK в Mac / Linux
Для встановлення NLTK у Mac / Unix для встановлення nltk потрібен pyp-менеджер пакунків. Якщо pip не встановлено, дотримуйтесь інструкцій нижче, щоб завершити процес
Крок1) Оновіть індекс пакета, ввівши команду нижче
sudo apt update
Крок 2) Встановлення pip для Python 3:
sudo apt install python3-pip
Ви також можете встановити pip за допомогою easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Тепер встановлено easy_install. Виконайте команду нижче, щоб встановити pip
sudo easy_install pip
Крок 3) Використовуйте наступну команду, щоб встановити NLTK
sudo pip install -U nltksudo pip3 install -U nltk
Встановлення NLTK через Anaconda
Крок 1) Встановіть anaconda (який також можна використовувати для встановлення різних пакетів), відвідавши https://www.anaconda.com/products/individual і виберіть, яку версію python потрібно встановити для anaconda.
Примітка. Зверніться до цього посібника, щоб отримати докладні інструкції щодо встановлення анаконди
Крок 2) У запиті Anaconda
- Введіть команду
conda install -c anaconda nltk
- Перегляньте оновлення пакета, понизьте його, встановіть інформацію та введіть так
- NLTK завантажується та встановлюється
Набір даних NLTK
Модуль NLTK має безліч наборів даних, які потрібно завантажити, щоб використовувати. Більш технічно це називається корпус . Деякі з прикладів ігнорованих слів , Гутенберг , framenet_v15 , large_grammars і так далі.
Як завантажити всі пакети NLTK
Крок 1) Запустіть інтерпретатор Python в Windows або Linux
Крок 2)
- Введіть команди
import nltknltk.download ()
- Відкривається завантажене вікно NLTK. Натисніть кнопку Завантажити, щоб завантажити набір даних. Цей процес займе час на основі вашого Інтернету
ПРИМІТКА. Ви можете змінити місце завантаження, натиснувши Файл> Змінити каталог завантажень
Крок 3) Для перевірки встановлених даних використовуйте наступний код
>>> from nltk.corpus import brown>>>brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said',…]
Запуск сценарію NLP
Ми обговоримо, як буде виконуватися сценарій NLP на нашому локальному ПК. На ринку існує багато бібліотек з обробки природних мов. Тож вибір бібліотеки залежить від ваших потреб. Ось список бібліотек NLP.
Як запустити сценарій NLTK
Крок1) У вашому улюбленому редакторі коду скопіюйте код і збережіть файл як " NLTKsample.py "
from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)
Пояснення коду:
- У цій програмі метою було видалити всі типи пунктуації з даного тексту. Ми імпортували "RegexpTokenizer", який є модулем NLTK. Він видаляє всі вирази, символ, символ, числові чи будь-які речі, які завгодно.
- Ви щойно передали регулярний вираз до модуля "RegexpTokenizer".
- Далі ми позначили слово за допомогою модуля "tokenize". Вихідні дані зберігаються у змінній "filterdText".
- І надрукував їх за допомогою "print ()."
Крок 2) У командному рядку
- Перейдіть до місця, де ви зберегли файл
- Запустіть команду Python NLTKsample.py
Це буде відображати результат як:
['Привіт', 'Guru99', 'Ти', 'мати', 'побудувати', 'а', 'дуже', 'добре', 'сайт', 'та', 'Я', 'кохання', ' відвідування ',' вашого ',' сайту ']