Pracovní prostředí je vždy otevřeno v okně přímo v prostředí STATISTICA, které samo o sobě je velice optimalizované a standardní („Microsoft-like“), čímž je dosaženo toho, že uživatel velmi rychle zvládne ovládání či přizpůsobení si tohoto prostředí (vlastní nabídky, panely nástrojů apod.).
STATISTICA Data Miner samozřejmě umožňuje okamžitě pracovat s různými formáty dat jako je soubor Excelu (.xls), soubor dBase (.dbf), textový soubor (.txt, .csv), soubor html (.htm, .html) a mnoha dalšími, ovšem typický datamingový projekt bude spíše zahrnovat získávání dat z databáze nebo datového skladu. Proto je STATISTICA Data Miner optimalizován pro zpracování extrémně velkých dat s miliony případů i miliony proměnných. Porovnání ukázala, že tento systém je až 2x rychlejší než jiné (i výrazně méně pokročilé a obsáhlé) systémy nabízené pro podobné aplikace.
Systém STATISTICA Data Miner může číst data z libovolné databáze, která podporuje OLE DB (což podporuje každá běžně používaná databáze). Součástí systému je i intuitivní grafické prostředí pro tvorbu dotazů do databází. Toto prostředí je velice snadno použitelné, ale zároveň poskytuje i přístup k textovému SQL dotazu pro případné nestandardní doplnění dotazu.
STATISTICA Data Miner obsahuje možnosti ke zpracování databází „na místě“ pomocí vysoce optimalizované technologie In-Place Databases Processing (IDP). Pomocí této technologie je možné rozdělit práci na lokální stanici s databázovým serverem a tak provádět dotaz do databáze a přitom simultánně může běžet výpočet na lokální stanici. Tímto způsobem lze zpracovávat i data takové velikosti, že by je jinak vůbec nebylo možno zpracovat na lokální stanici a zároveň výrazně zrychlit zpracování u „menších“ souborů dat.
V desktop verzi programu STATISTICA Data Miner všechny výpočty probíhají na lokálním počítači a zdroje ostatních počítačů jsou použity pouze v případě, pokud je zadán interface do externí databáze pomocí In-Place Database Processing (IDP). IDP je technologie, která umožňuje asynchronní čtení dat přímo ze vzdáleného databázového serveru (za použití distribuovaného processingu, pokud jej podporuje server) a tím se obchází nutnost tvorby lokální kopie dat. Záznamy dat z databáze jsou posílány do počítače se systémem STATISTICA Data Miner asynchronně za použití CPU databázového serveru, přičemž STATISTICA Data Miner je simultánně zpracovává pomocí CPU lokálního počítače.
Client-server architektura
Při použití client-server verze systému STATISTICA Data Miner je lokální počítač použit pouze jako uživatelský interface k STATISTICA Data Miner a všechny výpočty probíhají na serveru. Client-server architektura využívá multithreadingu a technologie distribuovaného processingu (viz níže) a případně rozšíření na více serverů, které mohou pracovat paralelně. Tato architektura poskytuje zřejmé výhody v případě, že dataminingové projekty jsou velmi velké (např. výpočetně náročné či zahrnují zpracování extrémně velkých dat) – je možné je přemístit na stranu serveru a uvolnit tak lokální počítač na jinou práci.
Multithreading, distribuovaný processing
Mnoho dalších výhod přináší konkrétní implementace client-server architektury v systému STATISTICA Data Miner, která je založena na použití systému WebSTATISTICA. Rozšíření na client-server verzi je velice snadné a například všechny vlastní analytické uzly lze používat i při přechodu na client-server verzi. WebSTATISTICA je založena na pokročilém (true) distribuovaném processingu a multithreadingu tak, aby podporovala optimální zpracování velkých výpočtů. Tato technologie umožňuje rychlé zpracování i velmi velkých a výpočetně náročných projektů, neboť plně využívá více CPU na serveru a dokonce i více serverů, které pracují společně. Na obrázku je vidět projekt, který běží na serveru se čtyřmi procesory spolu se zobrazením výkonu serveru a tak je vidět plné využití všech čtyř CPU.
Neomezená rozšiřitelnost (paralelní processing)
Jednou z unikátních vlastností distribuovaného processingu tak, jak je zpracován v systému WebSTATISTICA, je flexibilita ve využití nejen všech CPU na daném serveru, ale také možnost rozšíření na více serverů. Tato unikátní vlastnost je důležitá, neboť přináší výrazný výpočetní zisk. Například, pokud jsou k dispozici tři servery každý se čtyřmi procesory, STATISTICA může jeden projekt spustit na všech 12 procesorech.
Implementace systému WebSTATISTICA umožňuje uživateli navrhovat, upravovat a spravovat dataminingové projekty na klientském počítači v prostředí internetového prohlížeče (např. Internet Explorer, Netscape) prakticky stejně jako v případě desktop aplikace!
Proto tedy klientská část aplikace může být spustitelná prakticky na libovolném počítači (např. notebook), pokud je připojen k internetu (příp. intranetu). Všechny výpočty a další operace probíhají na serveru s lepším procesorem a lepšími možnostmi ukládání dat (a tyto výpočty budou probíhat pomocí optimalizovaného multithreadingu a distribuovaného processingu a tak využívat maximum výkonu serveru).
STATISTICA Data Miner umožňuje pracovat s různými formáty dat, jako je soubor Excelu (.xls), soubor dBase (.dbf), textový soubor (.txt, .csv), soubor html (.htm, .html) a mnoha dalšími, ovšem typický data miningový projekt bude spíše zahrnovat získávání dat z databáze nebo datového skladu. Proto je produkt optimalizován pro zpracování extrémně velkých dat s miliony případů i proměnných. Systém je až 2x rychlejší než software podobného zaměření na trhu.
Produkt může číst data z libovolné databáze, která podporuje OLE DBP/OLAP (tj. ze všech běžných databází). Součástí systému je i intuitivní grafické prostředí pro tvorbu dotazů do databází. Toto prostředí zároveň poskytuje i přístup k textové formě SQL dotazu pro případné nestandardní dotazy.
Jednotlivé analytické moduly (a nyní ponecháme stranou nabídku stovek grafů) lze rozdělit do několika skupin na:
Základní statistické moduly
Pokročilé lineární a nelineární modely
Vícerozměrné průzkumné techniky
Specializované dataminingové moduly
Základní statistické moduly
Základní statistiky a tabulky
poskytuje přístup ke všem základním statistikám – výpočet mnoha popisných statistik (průměr, rozptyl, apod. včetně např. libovolných kvantilů), korelací či kontingenčních tabulek
Neparametrická statistika - obsahuje robustní statistické testy a postupy
Prokládání rozdělení - nabízí možnosti k testování spojitých a diskrétních rozdělení
Pokročilé lineární a nelineární modely
Neuronové sítě
Analýza nezávislých komponent
Zobecněná shluková analýza
Asociační pravidla
Obecné klasifikační a regresní stromové modely
Obecné modely CHAID
Interaktivní stromy
Náhodné lesy pro regresi a klasifikaci
Zobecněné aditivní modely
Vícerozměrné adaptivní regresní spliny
Strojové učení
Feature selection and variables screening
Tento modul umožňuje automaticky vybrat podskupinu proměnných z extrémně velkého datového souboru nebo z databáze připojené pomocí in-place processing.
Interaktivní průzkumník s drill-down
Interaktivní průzkumník s drill-down a OLAP (On-Line Analytic Processing)
Nejjednodušší postupy, které umožňuje tento modul, jsou velmi obdobné funkcím, které nabízejí speciálně navržené nástroje pro OLAP. Nicméně zde je nutné zdůraznit, že Interaktivní průzkumník s drill-down je pouze jedním z velmi mnoha analytických nástrojů systému STATISTICA Data Miner, také drill-up není běžnou součástí nástrojů pro OLAP. Samozřejmě také přístup ke všem grafickým prostředkům systému STATISTICA Data Miner spolu s platformovou nezávislostí přináší uživateli daleko více možností než běžné nástroje pro OLAP.
Rapid deployment
Modul rychlého použití prediktivních modelů umožňuje snadné nahrání jednoho nebo více standardních souborů PMML (Predictive Models Markup Language) s informacemi pro deployment modelů. Velice snadno lze tyto modely použít pro výpočet předpovědí (jedním průchodem daty) velkého počtu pozorování (platí i pro více alternativních modelů). Soubory PMML mohou být generovány v prakticky všech modulech pro prediktivní datamining.