Анализируемый текст, точнее, обёртка над нимПространство имен: com.pullenti.ner
Синтаксис
Конструкторы
Имя | Описание | ||
---|---|---|---|
![]() | SourceOfAnalysis | Создать контейнер на основе плоского текста. При создании будут автоматически сделаны транслитеральные замены, если они будут найдены. |
Свойства (get/set)
Имя | Тип | Описание | |
---|---|---|---|
![]() | getStyles setStyles | byte[] | Это если есть информация о стилях символов, то можно её закодировать здесь. styles.Length = text.Length. Бит 0 - bold, бит 1 - italic. Пока используется только при анализе структуры НПА |
![]() | getTag setTag | Object | Используется произвольным образом |
![]() | getText setText | String | Исходный плоский текст |
Методы
Имя | Тип значения | Описание | |
---|---|---|---|
![]() | substring | String | Извлечь фрагмент из исходного текста. Переходы на новую строку заменяются пробелами. |
Поля
Имя | Тип | Описание | |
---|---|---|---|
![]() | clearDust | boolean | Игнорировать сбойные участки (это участки с неправильной кодировкой, мусором и т.п.) |
![]() | correctionDict | java.util.HashMap<String, String> | Словарь корректировки типовых ошибок. Ключ - ошибочное написание, Значение - правильное. Ключи и значения должны быть в верхнем регистре и без Ё. |
![]() | createNumberTokens | boolean | Создавать автоматически NumberToken |
![]() | crlfCorrectedCount | int | Количество исправлений переходов на новую строку |
![]() | doWordCorrectionByMorph | boolean | Пытаться ли делать коррекцию слов, не попавших в словарь. |
![]() | doWordsMergingByMorph | boolean | Объединять соседние слова, не попавшие в словарь, если при объединении получается слово из словаря (очень полезно для текстов из PDF) |
![]() | ignoredBeginChar | int | Начало фрагмента текста, игнорируемого большинством анализаторов при анализе. Используется для поверхностной обработки больших текстов. |
![]() | ignoredEndChar | int | Окончание фрагмента текста, игнорируемого большинством анализаторов при анализе. Используется для поверхностной обработки больших текстов. По умолчанию, 0 - текст обрабатывается целиком. |
![]() | userParams | String | Строка с доп. параметрами (зависят от анализаторов) Например, для адресов параметр-строка ADDRESS обозначает, что анализируемый текст есть чистый адрес, что даёт некоторые доп. улучшения при анализе (слова в нижнем регистре) |