Базовый класс для всех токенов. Наследные классы - TextToken (конечная словоформа) и MetaToken (связный фрагмент других токенов).Пространство имен: com.pullenti.ner
Синтаксис
Свойства (get/set)
Имя | Тип | Описание | |
---|---|---|---|
![]() | getBeginChar | int | Позиция в тексте начального символа |
![]() | getEndChar | int | Позиция в тексте конечного символа |
![]() | isAnd | boolean | Это соединительный союз И (на всех языках) |
![]() | isComma | boolean | Это запятая |
![]() | isCommaAnd | boolean | Это запятая или союз И |
![]() | isHiphen | boolean | Это символ переноса |
![]() | isIgnored | boolean | Игнорировать токен при обработке |
![]() | isLetters | boolean | Признак того, что это буквенный текстовой токен (TextToken) |
![]() | isNewlineAfter setNewlineAfter | boolean | Элемент заканчивает строку. Для последнего элемента всегда true. |
![]() | isNewlineBefore setNewlineBefore | boolean | Элемент начинается с новой строки. Для 1-го элемента всегда true. |
![]() | isOr | boolean | Это соединительный союз ИЛИ (на всех языках) |
![]() | isTableControlChar | boolean | Это спец-символы для табличных элементов (7h, 1Eh, 1Fh) |
![]() | isWhitespaceAfter setWhitespaceAfter | boolean | Наличие пробельных символов после |
![]() | isWhitespaceBefore setWhitespaceBefore | boolean | Наличие пробельных символов перед |
![]() | getLengthChar | int | Длина в текстовых символах |
![]() | getMorph setMorph | MorphCollection | Морфологическая информация |
![]() | getNewlinesAfterCount | int | Количество переходов на новую строку перед |
![]() | getNewlinesBeforeCount | int | Количество переходов на новую строку перед |
![]() | getNext setNext | Token | Следующий токен в цепочке токенов |
![]() | getPrevious setPrevious | Token | Предыдущий токен в цепочке токенов |
![]() | getWhitespacesAfterCount | int | Количество пробелов перед, переход на новую строку = 10, табуляция = 5 |
![]() | getWhitespacesBeforeCount | int | Количество пробелов перед, переход на новую строку = 10, табуляция = 5 |
Методы
Имя | Тип значения | Описание | |
---|---|---|---|
![]() | getMorphClassInDictionary | MorphClass | Проверка, что слово есть в словаре соответствующего языка |
![]() | getNormalCaseText | String | Получить связанный с токеном текст в именительном падеже |
![]() | getReferent | Referent | Получить ссылку на сущность (не null только для ReferentToken) |
![]() | getReferents | java.util.ArrayList<Referent> | Получить список ссылок на все сущности, скрывающиеся под элементом. Дело в том, что одни сущности могут накрывать другие (например, адрес накроет город). |
![]() | getSourceText | String | Получить фрагмент исходного текста, связанный с токеном |
![]() | isChar | boolean | Токен состоит из конкретного символа |
![]() | isCharOf | boolean | Токен состоит из одного символа, который есть в указанной строке |
![]() | isValue | boolean | Проверка конкретного значения слова (с учётом морф.вариантов) |
![]() | isValue2 | boolean | Проверка двух подряд идущих слов (с учётом морф.вариантов) |
![]() | isValue3 | boolean | Проверка трёх подряд идущих слова (с учётом морф.вариантов) |
Поля
Имя | Тип | Описание | |
---|---|---|---|
![]() | chars | CharsInfo | Информация о символах |
![]() | kit | AnalysisKit | Аналитический контейнер |
![]() | tag | Object | Используется произвольным образом |