DeterministicTokenizer

Instance Constructors

new DeterministicTokenizer(caseSensitive: Boolean = false, tokenizeSgml: Boolean = false, tokenizeNewline: Boolean = false, tokenizeAllDashedWords: Boolean = false, abbrevPreceedsLowercase: Boolean = false)

Value Members

final def !=(arg0: AnyRef): Boolean

Definition Classes
AnyRef
final def !=(arg0: Any): Boolean

Definition Classes
Any
final def ##(): Int

Definition Classes
AnyRef → Any
final def ==(arg0: AnyRef): Boolean

Definition Classes
AnyRef
final def ==(arg0: Any): Boolean

Definition Classes
Any
val abbrev: String
val abbrevs: String
val ap: String
val ap2: String
def apply(s: String): Seq[String]

Convenience function to run the tokenizer on an arbitrary String.
Convenience function to run the tokenizer on an arbitrary String. The implementation builds a Document internally, then maps to token strings.
val apword: String
final def asInstanceOf[T0]: T0

Definition Classes
Any
val atuser: String
val caps: String
val catchAll: String
def clone(): AnyRef

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( ... )
val consonantNonAbbrevs: String
val contractedWord: String
val contraction: String
val contraction2: String
val currency: String
val dash: String
val dashedPrefixWord: String
val dashedPrefixes: String
val dashedSuffixWord: String
val dashedSuffixes: String
val date: String
val day: String
def documentAnnotationString(document: Document): String

How the annotation of this DocumentAnnotator should be printed as extra information after a one-word-per-line (OWPL) format.
How the annotation of this DocumentAnnotator should be printed as extra information after a one-word-per-line (OWPL) format. If there is no document annotation, return the empty string. Used in Document.owplString.

Definition Classes
DocumentAnnotator
val ellipsis: String
val email: String
val emoticon: String
final def eq(arg0: AnyRef): Boolean

Definition Classes
AnyRef
def equals(arg0: Any): Boolean

Definition Classes
AnyRef → Any
val filename: String
def finalize(): Unit

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( classOf[java.lang.Throwable] )
val fraction: String
val frphone: String
final def getClass(): Class[_]

Definition Classes
AnyRef → Any
def hashCode(): Int

Definition Classes
AnyRef → Any
val hashtag: String
val honorific: String
val html: String
val htmlAccentedLetter: String
val htmlChar: String
val htmlComment: String
val htmlSymbol: String
val initials: String
val initials2: String
final def isInstanceOf[T0]: Boolean

Definition Classes
Any
val latin: String
val latin2: String
val letter: String
val mdash: String
def mentionAnnotationString(mention: Mention): String

Definition Classes
DocumentAnnotator
val month: String
final def ne(arg0: AnyRef): Boolean

Definition Classes
AnyRef
val newline: String
val noAbbrev: String
final def notify(): Unit

Definition Classes
AnyRef
final def notifyAll(): Unit

Definition Classes
AnyRef
val number: String
val number2: String
val ordinals: String
val org: String
val patterns: ArrayBuffer[String]
def phraseAnnotationString(phrase: Phrase): String

Definition Classes
DocumentAnnotator
val place: String
def postAttrs: Iterable[Class[_]]

Definition Classes
DeterministicTokenizer → DocumentAnnotator
def prereqAttrs: Iterable[Class[_]]

Definition Classes
DeterministicTokenizer → DocumentAnnotator
def process(document: Document): Document

Definition Classes
DeterministicTokenizer → DocumentAnnotator
def processParallel(documents: Iterable[Document], nThreads: Int = ...): Iterable[Document]

Definition Classes
DocumentAnnotator
def processSequential(documents: Iterable[Document]): Iterable[Document]

Definition Classes
DocumentAnnotator
val punc: String
val quote: String
val repeatedPunc: String
val sgml: String
val sgml2: String
val space: String
val state: String
val state2: String
val suffix: String
val symbol: String
final def synchronized[T0](arg0: ⇒ T0): T0

Definition Classes
AnyRef
def toString(): String

Definition Classes
AnyRef → Any
def tokenAnnotationString(token: Token): String

How the annotation of this DocumentAnnotator should be printed in one-word-per-line (OWPL) format.
How the annotation of this DocumentAnnotator should be printed in one-word-per-line (OWPL) format. If there is no per-token annotation, return null. Used in Document.owplString.

Definition Classes
DeterministicTokenizer → DocumentAnnotator
val tokenRegex: Regex
val tokenRegexString: String
val units: String
val url: String
val url2: String
val url3: String
val usphone: String
final def wait(): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long, arg1: Int): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
val word: String

class DeterministicTokenizer extends DocumentAnnotator

Instance Constructors

new DeterministicTokenizer(caseSensitive: Boolean = false, tokenizeSgml: Boolean = false, tokenizeNewline: Boolean = false, tokenizeAllDashedWords: Boolean = false, abbrevPreceedsLowercase: Boolean = false)

Value Members

final def !=(arg0: AnyRef): Boolean

final def !=(arg0: Any): Boolean

final def ##(): Int

final def ==(arg0: AnyRef): Boolean

final def ==(arg0: Any): Boolean

val abbrev: String

val abbrevs: String

val ap: String

val ap2: String

def apply(s: String): Seq[String]

val apword: String

final def asInstanceOf[T0]: T0

val atuser: String

val caps: String

val catchAll: String

def clone(): AnyRef

val consonantNonAbbrevs: String

val contractedWord: String

val contraction: String

val contraction2: String

val currency: String

val dash: String

val dashedPrefixWord: String

val dashedPrefixes: String

val dashedSuffixWord: String

val dashedSuffixes: String

val date: String

val day: String

def documentAnnotationString(document: Document): String

val ellipsis: String

val email: String

val emoticon: String

final def eq(arg0: AnyRef): Boolean

def equals(arg0: Any): Boolean

val filename: String

def finalize(): Unit

val fraction: String

val frphone: String

final def getClass(): Class[_]

def hashCode(): Int

val hashtag: String

val honorific: String

val html: String

val htmlAccentedLetter: String

val htmlChar: String

val htmlComment: String

val htmlSymbol: String

val initials: String

val initials2: String

final def isInstanceOf[T0]: Boolean

val latin: String

val latin2: String

val letter: String

val mdash: String

def mentionAnnotationString(mention: Mention): String

val month: String

final def ne(arg0: AnyRef): Boolean

val newline: String

val noAbbrev: String

final def notify(): Unit

final def notifyAll(): Unit

val number: String

val number2: String

val ordinals: String

val org: String

val patterns: ArrayBuffer[String]

def phraseAnnotationString(phrase: Phrase): String

val place: String

def postAttrs: Iterable[Class[_]]

def prereqAttrs: Iterable[Class[_]]

def process(document: Document): Document

def processParallel(documents: Iterable[Document], nThreads: Int = ...): Iterable[Document]

def processSequential(documents: Iterable[Document]): Iterable[Document]

val punc: String

val quote: String