Přejít na navigaci (přeskočit obsah)

Text Miner

Přídavné produkty

Text Miner je vhodným pro převod nestrukturovaného textu do smysluplných shluků, které představují cennou informaci pro podporu rozhodování.
Statistica Text Miner je plně integrován do systému Statistica a obdobně jako jiné produkty společnosti StatSoft, nabízí i tento systém ty nejvýkonnější nástroje dostupné na trhu. Tyto vlastnosti byly do systému implementovány s ohledem na efektivitu a škálovatelnost a zavádění vícevláknové počítačové technologie. Tato technologie umožňuje získat optimální výkon ze serveru, který podporuje použití více procesorů.

Obdobně jako komponenty systému Statistica Data Miner, Statistica Text Miner byl speciálně navržen jako obecný nástroj s otevřenou architekturou pro vytěžování informací. Vlastnost získávání/výběr a jiné analytické nástroje dostupné v systému Statistica Text Miner nejsou pouze použitelné na textové dokumenty a webové stránky, ale také mohou být aplikovány na indexované, tříděné, shlukované vstupní soubory včetně bitmap a hudebních souborů.

Hlavní funkce systému Statistica Text Miner

Přístup k dokumentům
Program obsahuje několik možností pro přístup k dokumentům v několika formátech, zahrnující soubory typu .txt (text), .pdf (Adobe), .ps (PostScript), .html, .xml (Web-formáty) a většinu formátu Microsoft Office (např: .doc, .rtf).
Flexibilní možnosti uživatelského prostředí (a automatické funkce) umožňují výběr velkého počtu souborů (např. výběr všech dokumentů v konkrétním místě adresařové struktury).
Program plně podporuje internetové technologie. Vzhledem k tomu mohou být dokumenty zpracovávány z webu - zpracování začne na příslušné hlavní stránce (URL). Zpracovány budou všechny dokumenty připojené k této stránce a rovněž dokumenty příslušné k daným dokumentům atd. Uživatelé si mohou přesně stanovit úroveň vnoření. Jména souborů a URL mohou být také uchována v textových proměnných a v souborech typu Statistica. V tomto případě, program nemusí zpracovávat aktuální text uložený v textové proměnné, ale správně analyzuje odkazy na textové dokumenty a URL. Z tohoto důvodu mohou být číselné a textové informace (obsáhlé dokumenty) uložené po případech (pozorováních) a následující analýzy mohou být provedeny na datových souborech, kde pro každé pozorování je dostupná číselná a nestrukturovaná textová informace (např. rok narození pacienta, výška, váha, spolu s lékařským popisem příznaků nemoci). Systém poskytuje flexibilní import pro seznam názvů souborů nebo URL do sloupců tabulky.

Zpracování dokumentů
Dokumenty mohou být předzpracovány dříve než (lze i současně s) proběhne indexování všech dokumentů:
Vylučovací pravidla mohou být aplikována (pro vyloučení běžných slov jako např: "a", "the", "to", "is" v anglickém jazyce atd.) před dalšími algoritmy pro úpravu textu (anglická slova jako "traveled", "traveling" představují instanci téhož slova "travel").
Statistica Text Miner podporuje následující jazyky: dánština, holandština, angličtina, francouzština, němčina, italština, portugalština, španělština, švédština a další ( pro aktuální informace kontaktuje pobočku společnosti StatSoft). Architektura programu je navržena tak, aby bylo možné s minimálním úsilím přidat další jazyk.
V dalším kroku, program indexuje předzpracované dokumenty a vypočte četnosti pro všechna slova a všechny dokumenty; tyto četnosti jsou vstupem pro všechny následující analýzy.
Před vytvořením datového souboru Statistica, který obsahuje četnosti, mohou být aplikovány dodatečné filtry, např. četnosti pro jednotlivé (nejčastěji vyskytující se) slova v dokumentu mohou být normalizovány (vztaženo k délce každého dokumentu), transformovány (např. logaritmická transformace) a volitelně zmenšeny "komprimovány" např. použitím algoritmů pro výběr příznaků jako SVD (singular value decomposition, speciálně optimalizováno pro zpracování velkých řídkých matic).

Získaný datový soubor s číselnými informacemi (např. dimenze SVD, četnosti, relativní četnosti, nejčastěji se vyskytující slova, atd. je připravený pro další analýzy).
Je k dispozici několik možností, jakým způsobem zapsat informace získané z textu do datového souboru, nebo rovnou do databáze.

Analýza dokumentů
Všechny statistické metody mohou být aplikovány na číselné souhrny reprezentující texty:
Jednoduché souhrnné statistiky mohou odhalit nejčastěji vyskytující se slova v dokumentech.
Převedením dokumentů do SVB dimenze (např. užitím PCA), mohou být vytvořeny dimenzionální mapy, které slouží pro porovnání podobnosti dokumentů. Převedením dokumentů do dimenzí založených na originálních (transformovaných) počtech slov, mohou být paralelně vytvořeny mapy dokumentů a slov, které odrážejí "smysl" dokumentů.
Shlukovací techniky (jako EM nebo k-Means) mohou být použity pro identifikování shluků podobných dokumentů. Prediktivní dataminingové techniky mohou být použity pro vytvoření souvislostí souhrnů dokumentů s jinými ukazateli, např. podvodný úmysl, lékařská diagnóza, atd.
Klíčové analytické komponenty vyžadující rozsáhlé zpracování dat využívají vícevláknové zpracování z důvodu dosažení co nejvyššího výkonu.


Created by www.Corpus.cx
Copyright 2004 - 2019 StatSoft CR s.r.o.