Проблеми позначення та прихована модель Маркова

Зміст:

Anonim

Позначення речень

Позначення речення у ширшому розумінні стосується додавання міток дієслова, іменника тощо за контекстом речення. Ідентифікація POS-міток - складний процес. Таким чином, загальне позначення POS неможливо вручну, оскільки деякі слова можуть мати різне (неоднозначне) значення відповідно до структури речення. Перетворення тексту у формі списку є важливим кроком перед позначенням, оскільки кожне слово у списку циклічне та враховується для певного тегу. Будь ласка, перегляньте наведений нижче код, щоб краще зрозуміти його

import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))

ВИХІД

[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]

Пояснення коду

  1. Код для імпорту nltk (Набір інструментів для природних мов, що містить такі підмодулі, як речення tokenize та слово tokenize.)
  2. Текст, теги якого слід надрукувати.
  3. Токенізація речення
  4. Цикл For реалізований там, де слова маркуються зі речення, а тег кожного слова друкується як вихід.

У Corpus існує два типи міток POS:

  • На основі правил
  • Стохастичні мітки POS

1. Тег POS на основі правил: Для слів, що мають неоднозначне значення, застосовується підхід на основі правил на основі контекстної інформації. Це робиться шляхом перевірки або аналізу значення попереднього або наступного слова. Інформація аналізується з оточення слова або всередині нього самого. Тому слова позначені граматичними правилами певної мови, такими як написання великих літер та пунктуація. наприклад, мітка Бриля.

2. Стохастичний мітка POS: За допомогою цього методу застосовуються різні підходи, такі як частота або ймовірність. Якщо слово в основному позначається певним тегом у навчальному наборі, тоді в тестовому реченні йому дається саме цей тег. Слово тег залежить не тільки від власного тегу, але і від попереднього тегу. Цей метод не завжди є точним. Інший спосіб - це обчислення ймовірності появи певного тегу в реченні. Таким чином, кінцевий тег обчислюється шляхом перевірки найбільшої ймовірності слова з певним тегом.

Прихована модель Маркова:

Проблеми позначення також можна змоделювати за допомогою HMM. Він розглядає вхідні маркери як спостережувану послідовність, тоді як теги розглядаються як приховані стани, а мета - визначити приховану послідовність станів. Наприклад x = x 1 , x 2 ,…, x n, де x - послідовність лексем, тоді як y = y 1 , y 2 , y 3 , y 4 … y n - прихована послідовність.

Як працює модель HMM?

HMM використовує розподіл об'єднань, який є P (x, y), де x - вхідна послідовність / послідовність маркерів, а y - послідовність тегів.

Послідовність тегів для x буде argmax y1… .yn p (x1, x2,… .xn, y1, y2, y3,…). Ми класифікували теги з тексту, але статистика таких тегів є життєво важливою. Отже, наступна частина - підрахунок цих тегів для статистичного вивчення.