Як завантажити & Встановіть NLTK на Windows / Mac

Зміст:

Anonim

У цьому підручнику ви дізнаєтесь -

  • Встановлення NLTK в Windows
  • Встановлення Python в Windows
  • Встановлення NLTK в Mac / Linux
  • Встановлення NLTK через Anaconda
  • Набір даних NLTK
  • Як завантажити всі пакети NLTK
  • Запуск сценарію NLP
  • Як запустити сценарій NLTK

Встановлення NLTK в Windows

У цій частині ми дізнаємося, як зробити налаштування NLTK через термінал (командний рядок у вікнах).

Інструкції, наведені нижче, базуються на припущенні, що у вас не встановлений python. Отже, перший крок - це встановити python.

Встановлення Python в Windows:

Крок 1) Перейдіть по посиланню https://www.python.org/downloads/ , і виберіть останню версію для вікон.

Примітка . Якщо ви не хочете завантажувати останню версію, ви можете перейти на вкладку завантаження та переглянути всі випуски.

Крок 2) Клацніть на завантажений файл

Крок 3) Виберіть Налаштувати інсталяцію

Крок 4) Клацніть ДАЛІ

Крок 5) На наступному екрані

  1. Виберіть додаткові параметри
  2. Вкажіть спеціальне місце встановлення. У моєму випадку для зручності роботи вибирається папка на диску C.
  3. Натисніть Встановити

Крок 6) Після завершення встановлення натисніть кнопку Закрити.

Крок 7) Скопіюйте шлях до вашої папки Scripts.

Крок 8) У командному рядку Windows

  • Перейдіть до розташування папки pip
  • Введіть команду, щоб встановити NLTK
    pip3 install nltk
  • Встановлення має бути виконано успішно

ПРИМІТКА . Для Python2 використовуйте команду pip2 install nltk

Крок 9) У меню Пуск Windows знайдіть і відкрийте PythonShell

Крок 10) Ви можете перевірити, чи правильна установка, подаючи наведену нижче команду

import nltk

Якщо помилки не відображаються, установка завершена.

Встановлення NLTK в Mac / Linux

Для встановлення NLTK у Mac / Unix для встановлення nltk потрібен pyp-менеджер пакунків. Якщо pip не встановлено, дотримуйтесь інструкцій нижче, щоб завершити процес

Крок1) Оновіть індекс пакета, ввівши команду нижче

sudo apt update

Крок 2) Встановлення pip для Python 3:

sudo apt install python3-pip

Ви також можете встановити pip за допомогою easy_install.

sudo apt-get install python-setuptools python-dev build-essential 

Тепер встановлено easy_install. Виконайте команду нижче, щоб встановити pip

sudo easy_install pip

Крок 3) Використовуйте наступну команду, щоб встановити NLTK

sudo pip install -U nltksudo pip3 install -U nltk

Встановлення NLTK через Anaconda

Крок 1) Встановіть anaconda (який також можна використовувати для встановлення різних пакетів), відвідавши https://www.anaconda.com/products/individual і виберіть, яку версію python потрібно встановити для anaconda.

Примітка. Зверніться до цього посібника, щоб отримати докладні інструкції щодо встановлення анаконди

Крок 2) У запиті Anaconda

  1. Введіть команду
    conda install -c anaconda nltk
  2. Перегляньте оновлення пакета, понизьте його, встановіть інформацію та введіть так
  3. NLTK завантажується та встановлюється

Набір даних NLTK

Модуль NLTK має безліч наборів даних, які потрібно завантажити, щоб використовувати. Більш технічно це називається корпус . Деякі з прикладів ігнорованих слів , Гутенберг , framenet_v15 , large_grammars і так далі.

Як завантажити всі пакети NLTK

Крок 1) Запустіть інтерпретатор Python в Windows або Linux

Крок 2)

  1. Введіть команди
import nltknltk.download ()
  1. Відкривається завантажене вікно NLTK. Натисніть кнопку Завантажити, щоб завантажити набір даних. Цей процес займе час на основі вашого Інтернету

ПРИМІТКА. Ви можете змінити місце завантаження, натиснувши Файл> Змінити каталог завантажень

Крок 3) Для перевірки встановлених даних використовуйте наступний код

>>> from nltk.corpus import brown>>>brown.words()

['The', 'Fulton', 'County', 'Grand', 'Jury', 'said',…]

Запуск сценарію NLP

Ми обговоримо, як буде виконуватися сценарій NLP на нашому локальному ПК. На ринку існує багато бібліотек з обробки природних мов. Тож вибір бібліотеки залежить від ваших потреб. Ось список бібліотек NLP.

Як запустити сценарій NLTK

Крок1) У вашому улюбленому редакторі коду скопіюйте код і збережіть файл як " NLTKsample.py "

from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)

Пояснення коду:

  1. У цій програмі метою було видалити всі типи пунктуації з даного тексту. Ми імпортували "RegexpTokenizer", який є модулем NLTK. Він видаляє всі вирази, символ, символ, числові чи будь-які речі, які завгодно.
  2. Ви щойно передали регулярний вираз до модуля "RegexpTokenizer".
  3. Далі ми позначили слово за допомогою модуля "tokenize". Вихідні дані зберігаються у змінній "filterdText".
  4. І надрукував їх за допомогою "print ()."

Крок 2) У командному рядку

  • Перейдіть до місця, де ви зберегли файл
  • Запустіть команду Python NLTKsample.py

Це буде відображати результат як:

['Привіт', 'Guru99', 'Ти', 'мати', 'побудувати', 'а', 'дуже', 'добре', 'сайт', 'та', 'Я', 'кохання', ' відвідування ',' вашого ',' сайту ']