Позначення речень
Позначення речення у ширшому розумінні стосується додавання міток дієслова, іменника тощо за контекстом речення. Ідентифікація POS-міток - складний процес. Таким чином, загальне позначення POS неможливо вручну, оскільки деякі слова можуть мати різне (неоднозначне) значення відповідно до структури речення. Перетворення тексту у формі списку є важливим кроком перед позначенням, оскільки кожне слово у списку циклічне та враховується для певного тегу. Будь ласка, перегляньте наведений нижче код, щоб краще зрозуміти його
import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))
ВИХІД
[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]
Пояснення коду
- Код для імпорту nltk (Набір інструментів для природних мов, що містить такі підмодулі, як речення tokenize та слово tokenize.)
- Текст, теги якого слід надрукувати.
- Токенізація речення
- Цикл For реалізований там, де слова маркуються зі речення, а тег кожного слова друкується як вихід.
У Corpus існує два типи міток POS:
- На основі правил
- Стохастичні мітки POS
1. Тег POS на основі правил: Для слів, що мають неоднозначне значення, застосовується підхід на основі правил на основі контекстної інформації. Це робиться шляхом перевірки або аналізу значення попереднього або наступного слова. Інформація аналізується з оточення слова або всередині нього самого. Тому слова позначені граматичними правилами певної мови, такими як написання великих літер та пунктуація. наприклад, мітка Бриля.
2. Стохастичний мітка POS: За допомогою цього методу застосовуються різні підходи, такі як частота або ймовірність. Якщо слово в основному позначається певним тегом у навчальному наборі, тоді в тестовому реченні йому дається саме цей тег. Слово тег залежить не тільки від власного тегу, але і від попереднього тегу. Цей метод не завжди є точним. Інший спосіб - це обчислення ймовірності появи певного тегу в реченні. Таким чином, кінцевий тег обчислюється шляхом перевірки найбільшої ймовірності слова з певним тегом.
Прихована модель Маркова:
Проблеми позначення також можна змоделювати за допомогою HMM. Він розглядає вхідні маркери як спостережувану послідовність, тоді як теги розглядаються як приховані стани, а мета - визначити приховану послідовність станів. Наприклад x = x 1 , x 2 ,…, x n, де x - послідовність лексем, тоді як y = y 1 , y 2 , y 3 , y 4 … y n - прихована послідовність.
Як працює модель HMM?
HMM використовує розподіл об'єднань, який є P (x, y), де x - вхідна послідовність / послідовність маркерів, а y - послідовність тегів.
Послідовність тегів для x буде argmax y1… .yn p (x1, x2,… .xn, y1, y2, y3,…). Ми класифікували теги з тексту, але статистика таких тегів є життєво важливою. Отже, наступна частина - підрахунок цих тегів для статистичного вивчення.