Разделы дневника

MadWin [7]
Основная проблематика связанная с программой и исследования на ее основе
Слова "паразиты" [2]
Поиск, извлечение, анализ слов "паразитов"
Сайт [1]
Записи по поводу сайта и изменений на нем
Бизнес [3]
Видение бизнеса при помощи разработок нашей команды
Культура и досуг [7]
неотъемлемая часть нас любого исследователя и ученого
Глобализация [4]
Проблемы глобализации общества
Информационная экология [3]

Форма входа

Календарь

«  Май 2009  »
ПнВтСрЧтПтСбВс
    123
45678910
11121314151617
18192021222324
25262728293031

Друзья сайта




Онлайн всего: 1
Гостей: 1
Пользователей: 0


Суббота, 2024-04-20, 3:11 AM
Приветствую Вас Гость | RSS
Автоматизований інформаційний аналіз
Главная | Регистрация | Вход
Блог информационного исследователя


Главная » 2009 » Май » 26 » Автоматизируем процесс анализа методом "Окон - Фактов", строим алгоритм. Часть №1 - первые постулаты и выводы
Автоматизируем процесс анализа методом "Окон - Фактов", строим алгоритм. Часть №1 - первые постулаты и выводы
11:18 AM

Сегодня мы буде говорить о том как автоматизировать процесс анализа методом «Окон-Фактов». Об этом методы Вы можете почерпнуть достаточно много по средствам любой поисковой машины в интернете. В общих чертах задача метода сводится к поиску в тексте неоспоримых фактов. Но уточним, что же именно стоит понимать под фактом. В этой статье под фактом будет пониматься следующее — это суждение (предложение) в котором упоминается какой либо субъект или именованный объект. Имея возможность извлекать подобные факты из многих текстов, мы получаем текст лишенный «воды» и содержащий одни лишь факты.

Сформулируем задачу которая перед нами стоит: в имеющейся информации в виде текста найти слова, которые являются персоналиями или другими важными объектами( например названия местности, места или что либо другое значимое в человеческом понимании этого слова).

По какому признаку мы отличаем персоналию от обычного слова? Думаю ответ на этот вопрос очень прост - по большой букве! Разумеется такое обобщение имеет очень много проблем, без решения которых подобный метод может не работать. И именно о том, какие проблемы возникают у человека который пытается реализовать нечто подобное и как с ними бороться и будет данный пост.

С главным мы разобрались (для начала) — все что начинается с большой буквы — будем именовать Субъектом или Объектом о которых идет речь в тексте или о которых в тексте упоминается. Однако сразу же стоит вспомнить об некоторых ограничениях: в каждом языке существуют символы после которых следующее слово чаще всего начинается большой буквой. Для нашего языка такими символами могут служить точка, вопросительный знак, восклицательный знак и т.д. Таким образом из поля зрения нашего подхода выпадают как минимум все те слова, которые стоят в начале предложения, так как нету не известно по какой причине в них большая буква. Такое ограничение не может положительно сказаться на результате роботы.

Итак подведя итоги первой части статьи:

Мы научились определять Субъекты информации по большой букве,

Так как не все слова начинающиеся с большой буквой — Субъекты, то мы пришли к необходимости составить список правил — исключений.

Категория: MadWin | Просмотров: 1174 | Добавил: analiz | Рейтинг: 0.0/0 |
Всего комментариев: 0
Имя *:
Email *:
Код *:

Copyright MyCorp © 2024