Главная
Онлайн-демонстрация
Проекты
Другие системы
Скачать
Функционал
Выделение именованных сущностей из неструктурированных русскоязычных текстов (Named Entity Recognition for Russian Language). Типы сущностей: персоны, организации, даты, страны, указы и др. Выделение сущностей основаны на правилах. Некоторые типы сущностей могут отождествляться с записями внешних словарей, если таковые есть (например, готовыми списками сотрудников или организаций). В ограниченном объёме система работает с украинскими текстами.
Предназначение
Это SDK для информационных систем, имеющих дело с неструктурированными данными - текстами на естественном языке. Удобно для использования в системах, разрабатываемых на .NET. Для Mac и Linux-систем работает на платформе Mono.
Опыт показал, что для решения большинства практических задач достаточно морфологического анализа и некоторых вспомогательных возможностей типа выделения именных групп, анализа концов предложений и кавычек, анализа различных числовых представлений и пр. Это всё есть в SDK Pullenti.
Демонстрация
Вы можете попробовать работоспособность в online-режиме: 1) выделение сущностей 2) семантический анализ 3) анализ структуры НПА и договоров 4) анализ заголовков статей, научных работ и т.п. (попробовать)
Развитие
С версии 2.24 проводятся работы по реализации полноценного семантического анализа, строящего семантическую сеть на основе синтаксического анализа всего текста. Online-демонстрация содержит этот вариант, однако следует иметь в виду, что здесь мы только в начале пути (на самом деле эта возможность пока не была востребована, поэтому работы приостановлены в этом направлении)
С версии 2.38 проводятся работы по выделению фактов и связей между сущностями на основе семантического анализа (в связи с ненужностью этого работы здесь также приостановлены).
Некоторые специфические приложения можно в online-режиме посмотреть на Семантик.
Соревнование
В рамках конференции Диалог-2016 мы участвовали в соревновании FactRuEval с другими системами в 2-х дорожках (4 модификации). Участие анонимное, мы были под псевдонимом Pink. На дорожках T1, T2 и T2_m Pullenti занял 1-е место, на T1_l - второе. Подробности здесь.
Мелкая пакость на Диалог-2016
На конференции неожиданно выяснилось, что поданная нами статья (и принятая к публикации) по непонятной причине не вошла в сборник. Главный редактор В.Н.Селегей уверяет - дело в досадном недоразумении. Но так как (1) г-н Селегей является одним из идеологов Compreno и (2) Pullenti немного обошло это Compreno, то ясно, что всякое бывает... Да пёс с ней (со статьёй)!
Сотрудничество
Приглашаем программистов на C# и группы программистов для реализации проектов по обработке текстов на базе технологии Pullenti. Оплата договорная. Контакты даны ниже.
Открытость
На текущем этапе своего развития система не позволяет сторонним разработчикам создавать собственные модули. Разработка новых модулей осуществляется силами команды разработчиков. Однако несложно выйти на уровень полной открытости при наличии заинтересованности и спонсорской поддержки. Пока сторонние разработчики могут на уровне API загружать свои внешние сущности, если таковые есть.
Лицензионная политика
Система бесплатна для некоммерческого использования (скачать). Для коммерческого использования покупается необходимая комплектация SDK без ограничений на число конечных пользователей и инсталляций.
Контакты
Почта: k.smith@mail.ru
Скайп: konstantin.smith
Компания: Семантик
Реализация
SDK написано на C# .NET и представляет собой набор сборок .NET Framework (2.0 и выше). Модули сторонних разработчиков не используются.
При необходимости можно оформить в виде сервиса по стандарту обработки неструктурированной информации UIMA (Unstructured Information Management Architecture). Планируются работы по автоматическому переводу проектов C# на Java.
Особенности
При разработке большое внимание уделено качеству атрибутов выделяемых сущностей и их падежной нормализации. Упор сделан на русский язык, при необходимости можно включить и другие языки. Сейчас работы ведутся над настройкой на украинский язык. Система постоянно совершенствуется на реальных данных, текущая версия:
Скорость работы
Очень примерная оценка: 60.000-80.000 знаков в секунду на компьютере типовой комплектации.
Максимальный объём текста на 32-разрядном компьютере, обрабатываемого за один раз: не более 20Мб. На 64-разрядном - зависит от объёма ОП.
Морфология
Морфология реализована в сборке EP.Morphology.dll и может использоваться независимо от SDK.
Это POS-Tagger для русского, украинского и английского языков, примерная скорость работы: 2Мб в секунду.
Строит морфологические варианты и для неизвестных слов. Предлагает нормальную форму слова (лемму).
Извлечение текста из файлов
Структурно-текстовое представление - это промежуточное представление информации между плоским текстом и форматированным документом. Фактически это плоский текст с таблицами, списками, сносками, комментариями, гиперссылками и пр. Есть модуль на .NET, который переводит в него из разных форматов: DOC, DOCX, RTF, PDF, ODT, HTML, MHT и др. Подробности и online-демонстрацию см. doc2struct.
© Кузнецов К.И., 2013. All rights reserved.