A mondatokra bontó algoritmus működése

A potenciális mondathatároló jelekre megvizsgáljuk, hogy milyen szabályok illeszkednek a jel adott környezetére, és ennek alapján döntünk. Ha több szabály illeszkedik, akkor a szabályok súlyának aggregálásával határozzuk meg a végső konfidenciaértéket (ez lehet additív vagy multiplikatív).

A szegmentálást támogató nyelvfüggő leírófájlnak a következő elemeket kell tartalmaznia:

Mondathatároló jelek: .!?
Attribútuma:

Mondathatároló szabályok: A szabályok szabályelemekből állnak.
Attribútuma:

Szabályelemek: Rövidítés típusa vagy reguláris kifejezés, ld. később.
Attribútumai:

Rövidítéslista: Rövidítéselemekből áll.

Rövidítéselem: Értéke a rövidítés szövege.
Attribútuma:

A fenti szabálykészlettel kell leírni a lehetséges mondathatároló-jelet tartalmazó, de más funkciót betöltő karakterláncokat. Ezeknek egy bő listája: