Если о принадлежности отпечатков пальцев конкретному человеку говорят методы дактилоскопии, то принадлежность текста конкретному автору можно определить с высокой точностью с помощью представляемой сегодня Cognitive Text Analyzer. Однако, при решении задачи анализа текстов необходимо принимать во внимание факт, что стиль (впрочем, как и линии руки) может со временем меняться.
Принцип работы Cognitive Text Analyzer состоит в следующем. В систему вводится исследуемый текст. Далее, Cognitive Text Analyzer проводит синтаксический, семантический и структурный разбор и анализ текста, устраняет синтаксические и семантические неоднозначности и выявляет порядка сотни характеристик, присущих данному тексту. Точное количество характеристик зависит от объема текста и разнообразия конструкций, встречающихся внутри него. Скорость разбора текста на современном офисном компьютере составляет 450-500 страниц текста в минуту.
В отличие от существующих систем проверки на плагиат, использующих признаки, которые можно рассчитать вручную (например, среднее количество слов в предложении, среднее число прилагательных и т.п.), Cognitive Text Analyzer учитывает не только и не столько грамматические категории, выделенные в тексте, сколько структурные связи, подчиненность одних конструкций другим в рамках предложения. Выделенные связи инвариантны к перестановке абзацев и предложений внутри текста, контекстной замене слов. Как показали исследования, эти характеристики демонстрируют высокую статистическую устойчивость в применении к произведениям конкретного автора. Это позволяет сравнивать текстовые произведения, получать количественные оценки их близости и с высокой статистической достоверностью судить о принадлежности перу того или иного автора. Например, если в басне И.Крылова «Ворона и лисица» заменить «ворону» на «корову», «лисицу» на «синицу», а «сыр» на «сервелат», то Cognitive Text Analyzer, несмотря на это с высокой долей вероятности подтвердит близость измененного текста к оригиналу. Аналогичная оценка будет и в случае, если в тексте переставить местами абзацы.
Основной модуль анализа и разбора текста Cognitive Text Analyzer находится в открытом доступе на интернет-сайте компании Cognitive Technologies www.cognitive.ru. Данная технология уже сегодня привлекает большое внимание исследователей в сфере лингвистики, как из России, так и из стран СНГ и ряда зарубежных стран (США, Франция, Великобритания и др.).
Редактор раздела: Юрий Мальцев (info@mskit.ru)
Рубрики: Интеграция, ПО