Разные полезные процедурки лингвистического анализа. Особо полезные функции выделены шрифтом.

Пространство имен: com.pullenti.ner.core

Синтаксис

Java
public class MiscHelper

Методы

Имя	Тип значения	Описание
canBeEqualCyrAndLatSS	boolean	Проверка на возможную эквивалентность русского и латинского написания одного и того же слова. Например, ИКЕЯ ? IKEA
canBeEqualCyrAndLatTS	boolean	Проверка на возможную эквивалентность русского и латинского написания одного и того же слова
canBeEqualCyrAndLatTT	boolean	Проверка на возможную эквивалентность русского и латинского написания одного и того же слова. Например, ИКЕЯ ? IKEA
canBeEquals	boolean	Сравнение 2-х строк на предмет равенства с учётом морфологии и пунктуации (то есть инвариантно относительно них). Функция довольно трудоёмка, не использовать без крайней необходимости. ВНИМАНИЕ! Вместо этой функции теперь используйте canBeEqualsEx.
canBeEqualsEx	boolean	Сравнение 2-х строк на предмет равенства с учётом морфологии и пунктуации (то есть инвариантно относительно них). Функция довольно трудоёмка, не использовать без крайней необходимости.
canBeStartOfSentence	boolean	Проверка того, может ли здесь начинаться новое предложение. Для проверки токена конца предложения используйте canBeStartOfSentence(t.next) проверку на начало следующего в цепочке токена.
checkAbbreviation	boolean	Проверить аббревиатуру
checkFalseNewline	boolean	Проверка, что на самом деле с токена не новая строка, а фальшивка (отрыжка PDF)
checkImage	Token	Проверка картинки - конструкции вида [КартинкаXXX]
checkNumberPrefix	Token	Проверка различных способов написания ключевых слов для номеров (ном., №, рег.номер и пр.)
checkPureVerb	boolean	Проверка, что в данном диапазоне есть глагол такой, что данный фрагмент не является наименованием, а является законченным предложением.
convertFirstCharUpperAndOtherLower	String	Преобразовать строку, чтобы первая буква стала большой, остальные маленькие
convertLatinWordToRussianVariants	java.util.ArrayList<String>	Преобразовать слово, написанное по латыни, в варианты на русском языке. Например, "Mikhail" -> "Михаил"
convertRussianWordToLatinVariants	java.util.ArrayList<String>	Преобразовать слово, написанное в кириллице, в варианты на латинице.
createCyrLatAlternative	String	Попытка через транслитеральную замену сделать альтернативное написание строки Например, А-10 => A-10 (здесь латиница и кириллица).
findEndOfSentence	Token	Переместиться на конец предложения
getAbbreviation	String	Сделать аббревиатуру для строки из нескольких слов
getAbsoluteNormalValue	String	Получение абсолютного нормализованного значения (с учётом гласных, удалением невидимых знаков и т.п.). Используется для сравнений различных вариантов написаний. Преобразования: гласные заменяются на , Щ на Ш, Х на Г, одинаковые соседние буквы сливаются, Ъ и Ь выбрасываются. Например, ХАБИБУЛЛИН - ГББЛ*Н
getPureReferentToken	MetaToken	Для сущности вычислить точное подмножество вхождения. Дело в том, что для некоторых сущностей в диапазон вхождения (ReferentToken) включаются и другие дополнительные сущности. Например, для персоны её атрибуты, должности и т.п., а также контактные даннные за ней, для организации это адреса, реквизиты и пр. Через эту функцию можно получить точное подмножество диапазона, содержащее только эту сущность. Например, для "председатель правления ВТБ Иван Пупкин, +7-905-234-43-21" эта функция вернёт диапазон "Иван Пупкин".
getTextMorphVarByCaseAndNumberEx	String	Корректировка числа и падежа строки. Например, getTextMorphVarByCaseAndNumberEx("год", MorphCase.NOMINATIVE, MorphNumber.UNDEFINED, "55") = "лет".
getTextMorphVarBySample	String	Преобразовать строку в нужный род, число и падеж (точнее, преобразуется первая именная группа), регистр определяется соответствующими символами примера. Морфология определяется по первой именной группе примера. Фукнция полезна при замене по тексту одной комбинации на другую с учётом морфологии и регистра.
getTextMorphVariant	String	Преобразовать строку к нужному падежу и числу. Преобразуется только начало строки, содержащее именную группу или персону.
getTextValue	String	Получить текст, задаваемый диапазоном токенов. Текст корректируется в соответствии с атрибутами.
getTextValueOfMetaToken	String	Получить текст, покрываемый метатокеном. Текст корректируется в соответствии с атрибутами.
hasVowel	boolean	Проверка, что текстовой токен имеет хотя бы одну гласную
isExistsInDictionary	boolean	Проверка, что хотя бы одно из слов внутри заданного диапазона находится в морфологическом словаре
isNotMoreThanOneError	boolean	Сравнение, чтобы не было больше одной ошибки в написании. Ошибка - это замена буквы или пропуск буквы.
isTokenAnimate	boolean	Проверка, что токен - "одушевлённая" словоформа
testAcronym	boolean	Проверка акронима, что из первых букв слов диапазона может получиться проверяемый акроним. Например, РФ = Российская Федерация, ГосПлан = государственный план
tryAttachWordByLetters	Token	Проверить написание слова вразбивку по буквам (например: П Р И К А З)