Включая защищенные члены
Включая унаследованные члены

Include .NET Framework Members
Include .NET Compact Framework Members
Include XNA Framework Members

SDK Pullenti programming reference for Java

SourceOfAnalysis - класс

Анализируемый текст, точнее, обёртка над ним

Пространство имен: com.pullenti.ner

Синтаксис

Конструкторы

	Имя		Описание
	SourceOfAnalysis		Создать контейнер на основе плоского текста. При создании будут автоматически сделаны транслитеральные замены, если они будут найдены.

Свойства (get/set)

	Имя	Тип	Описание
	getStyles setStyles	byte[]	Это если есть информация о стилях символов, то можно её закодировать здесь. styles.Length = text.Length. Бит 0 - bold, бит 1 - italic. Пока используется только при анализе структуры НПА
	getTag setTag	Object	Используется произвольным образом
	getText setText	String	Исходный плоский текст

Методы

	Имя	Тип значения	Описание
	substring	String	Извлечь фрагмент из исходного текста. Переходы на новую строку заменяются пробелами.

Поля

	Имя	Тип	Описание
	clearDust	boolean	Игнорировать сбойные участки (это участки с неправильной кодировкой, мусором и т.п.)
	correctionDict	java.util.HashMap<String, String>	Словарь корректировки типовых ошибок. Ключ - ошибочное написание, Значение - правильное. Ключи и значения должны быть в верхнем регистре и без Ё.
	createNumberTokens	boolean	Создавать автоматически NumberToken
	crlfCorrectedCount	int	Количество исправлений переходов на новую строку
	doWordCorrectionByMorph	boolean	Пытаться ли делать коррекцию слов, не попавших в словарь.
	doWordsMergingByMorph	boolean	Объединять соседние слова, не попавшие в словарь, если при объединении получается слово из словаря (очень полезно для текстов из PDF)
	ignoredBeginChar	int	Начало фрагмента текста, игнорируемого большинством анализаторов при анализе. Используется для поверхностной обработки больших текстов.
	ignoredEndChar	int	Окончание фрагмента текста, игнорируемого большинством анализаторов при анализе. Используется для поверхностной обработки больших текстов. По умолчанию, 0 - текст обрабатывается целиком.
	userParams	String	Строка с доп. параметрами (зависят от анализаторов) Например, для адресов параметр-строка ADDRESS обозначает, что анализируемый текст есть чистый адрес, что даёт некоторые доп. улучшения при анализе (слова в нижнем регистре)