STATISTICA - Vícerozměrné průzkumné techniky nabízí široký výběr vyšetřovacích metod, od shlukové analýzy až po rozvinuté klasifikační stromy. Všechny metody jsou vybaveny téměř nekonečnou sadou interaktivních vizualizačních nástrojů pro průzkum vztahů a vzorů. Můžete také využít kompletního vestavěného Visual Basicu.
Tento modul obsahuje rozsáhlý soubor metod shlukové analýzy (k-průměry, hierarchické shluky, dvoucestné spojování). Program je schopen zpracovávat data buď z původních datových souborů nebo z matic míry vzdáleností (např. korelačních matic). Uživatel může seskupovat případy, proměnné nebo obojí podle širokého výběru měr vzdáleností (včetně euklidovské metriky, čtverce euklidovské metriky, měr typu "city-blok" (Manhattan), Čebyševovy, mocninných, procenta neshody a "l-r") a podle slučovacích pravidel (včetně jednoduchých, kompletních, vážených a nevážených skupinových průměrů, těžišť, Wardovy metody a dalších). Matice vzdáleností lze uložit pro další analýzu v ostatních modulech programu STATISTICA . Při použití metody "k-průměrů" má uživatel plnou kontrolu nad počátečními centry shluků. Lze zpracovávat extrémně velké modely, např. hierarchické (stromové) uspořádání může analyzovat matici 90 000 vzdáleností. V doplnění standardních výstupních hodnot program počítá rozsáhlý soubor popisných statistik a rozšířených diagnostik. Data obsažená ve shlucích lze připojit k současnému souboru dat pro další zpracování. Grafické prostředky modulu shlukové analýzy zahrnují upravovatelné stromové diagramy, diskrétní obrysové maticové grafy a mnoho dalších.
Modul obsahuje širokou paletu statistik a možností a poskytuje obsáhlou sadu prostředků faktorové a hierarchické faktorové analýzy s rozsáhlými diagnostickými postupy a množstvím analytických a průzkumných grafických nástrojů. Modul provádí analýzu hlavních komponent a běžnou a hierarchickou faktorovou analýzu pro rozsáhlé problémy (až tisíce proměnných). Průkaznou faktorovou analýzu lze provádět v modulu "SEPATH".
STATISTICA obsahuje také program pro hledání hlavních komponent a klasifikační analýzu. Mezi možnými výstupy najdete vlastní hodnoty (řádné, kumulativní, relativní), faktorovou zátěž, faktorová skóre (která lze přidat do souboru vstupních hodnot, graficky znázornit jako ikony a interaktivně měnit) a množství dalších technických statistik a diagnostik. Dostupné rotace zahrnují typy: Varimax, Equimax, Quartimax, Biquartimax (normalizovanou nebo ryzí) a nakloněnou rotaci. Faktorový prostor lze zobrazit a prohlížet "řez po řezu" ve 2D či 3D bodových grafech s vyznačenými body proměnných. Mezi další integrované grafy patří "Scree-grafy", sloupcové a čárové grafy a další. Po nalezení faktorového řešení má uživatel možnost přepočítat (tzn. rekonstruovat) korelační matici podle příslušného počtu faktorů. Jak původní datové soubory tak i korelační matice lze použít jako vstupní data. Potvrzující faktorovou analýzu je možné provést pomocí modulu strukturálních modelů SEPATH. V tomto modulu nalezne uživatel "průvodce potvrzující faktorovou analýzou", který jej krok za krokem provede procesem specifikace modelu.
Modul obsahuje prostředky kanonické analýzy a doplňuje tak postupy této analýzy, vestavěné do ostatních modulů (např. modulu "ANCOVA/MANCOVA" nebo modulu "DISKRIMINAČNÍ FUNKČNÍ ANALÝZY"). Modul zpracovává vstupní datové soubory nebo korelační matice, na nichž počítá všechny standardní korelační statistiky (včetně vlastních vektorů, vlastních čísel, koeficientů nadbytečnosti, kanonických vah, zátěží, extrahovaných variancí, testů významnosti pro každý kořen atd.) a množství rozšířených diagnostik. Pro každý případ lze vypočíst skóre kanonických variancí. Výsledky lze znázornit pomocí vestavěných grafů ikon, nebo je lze přidat k datovému souboru. Modul umožňuje vytvářet množství různých grafů, (včetně grafů vlastních hodnot, kanonických korelací, bodových grafů kanonických variací a mnoho dalších). Potvrzující analýzu strukturálních závislostí mezi latentními proměnnými lze provádět rovněž pomocí modulu "SEPATH".
Tento modul obsahuje výběr procedur pro přípravu a vyhodnocení průzkumů a dotazníků. Stejně jako u ostatních modulů programu STATISTICA lze analyzovat i značně velké modely (škály s až 300 prvky lze zpracovávat v jednom běhu). Uživatel může počítat spolehlivostní statistiky pro všechny prvky škály, interaktivně volit podmnožiny nebo porovnávat podmnožiny prvků ve škále. Při interaktivním vynechávání prvků se automaticky okamžitě spočítá nová spolehlivost bez nutnosti zpracovávat znovu celý soubor vstupních dat. Výstup obsahuje korelační matice a popisné statistiky pro prvky: Cronbachoova "alfa", standardizovaná "alfa", průměrná meziprvková korelace, kompletní ANOVA tabulka pro škálu, kompletní sada statistik "item-total", "split-half" spolehlivost a korelace mezi polovinami s opravou na útlum. K dispozici je výběr grafů (včetně různých bodových grafů, histogramů, čárových a dalších grafů). Pro konstrukci škál má uživatel k dispozici interaktivní podmínkové procedury ("what-if"). Tak například lze počítat očekávanou spolehlivost po přidání určitého počtu prvků do škály nebo odhadovat počet prvků, které je nutno přidat do škály aby byla dosažena určitá spolehlivost.
Modul klasifikačních stromů obsahuje implementaci nejnovějších algoritmů pro efektivní produkci a testování "robustnosti" klasifikačních stromů ("klasifikační strom" je pravidlo pro předpovídání třídy objektů z predikčních hodnot). Klasifikační stromy lze vytvářet použitím kategorických predikčních proměnných, tříděných predikčních proměnných nebo obou typů najednou a použitím jedno-variančních rozštěpů nebo lineárních kombinací rozštěpů. Analytické prostředky zahrnují postupy pro provádění úplných rozštěpů (jako ve THAID a CART™) nebo diskriminačně-založených rozštěpů, výběr nestranné proměnné (jako v QUEST), přímých ukončovacích pravidel (jako ve FACT), větvení (jako v CART), větvení založeném na deklasifikačních poměrech nebo na klasifikační funkci, či mírách dobré shody jako zobecněný Chi-kvadrát, G-kvadrát nebo Giniho index. Uživatel má možnost specifikovat "v" hodnotu pro v-násobnou validaci odhadu chyby, velikost SE pravidla, minimální velikost uzlu před větvením, startovací proměnnou pro generátor náhodných čísel a "alfa" hodnotu pro výběr proměnné. Pro studium vstupních a výstupních dat jsou v modulu integrované grafické prostředky.
Modul obsahuje úplnou implementaci jednoduchých i vícenásobných technik analýzy korespondence, které umožňují analyzovat i extrémně velké soubory dat. Program přijímá vstupní data spolu se skupinovými (kódovými) proměnnými, které slouží pro výpočet křížových tabulek. Vstupní data mohou obsahovat četnosti (nebo jinou podobnou míru shody, asociace, podobnosti, záměny atd.) a kódové proměnné které identifikují (číslují) buňky vstupní tabulky nebo datové soubory s četnostmi. Při vícenásobné analýze shody může uživatel přímo specifikovat Burtovu tabulku jako vstup pro analýzu. Program počítá různé tabulky, včetně tabulky řádkových četností v procentech, sloupcových četností v procentech, celkových četností v procentech, očekávaných hodnot, rozdílů pozorovaných a očekávaných hodnot, standardizovaných odchylek a příspěvků k hodnotám Chi-kvadrát statistiky. Všechny tyto statistiky lze vynášet do 3D histogramů nebo studovat prostřednictvím animovaného rozvrstvení. Modul analýzy korespondence počítá zobecněná vlastní čísla a vlastní vektory a míry netečnosti pro každou dimenzi. Uživatel může sám zvolit počet dimenzí, nebo zvolit mezní hodnotu pro maximální kumulativní procento netečnosti. Program spočítá standardní souřadnice pro sloupcové a řádkové body. Uživatel má možnost volby standardizace podle řádkového či sloupcového profilu nebo kanonické standardizace. Pro každou dimenzi a řádkový nebo sloupcový bod spočítá program hodnoty netečnosti, kvality a cos2. Dále lze zobrazit matice zobecněných singulárních vektorů. Tyto matice lze zpracovávat prostřednictvím modulu STATISTICA Visual Basic, např. v případě potřeby implementace nestandardních metod výpočtu souřadnic. Uživatel může spočítat hodnoty souřadnic a příslušných statistik pro doplňkové body (řádkové či sloupcové) a porovnat výsledky s normálními řádkovými a sloupcovými body. Doplňkové body lze specifikovat i pro vícenásobnou korespondenční analýzu. Kromě 3D histogramů, které lze počítat pro všechny tabulky, může uživatel vytvářet čárový graf vlastních hodnot a 1D, 2D a 3D grafy pro řádkové či sloupcové body. Všechny body jsou opatřeny návěštími a program poskytuje možnost zkrátit návěští na uživatelem určený počet znaků.
Modul vícerozměrného škálování obsahuje kompletní implementaci nemetrického vícerozměrného škálování. Pomocí modulu lze analyzovat matice podobností, rozdílností nebo korelací mezi proměnnými při specifikaci až 9 dimenzí. Výchozí konfiguraci sestavuje buď program sám (prostřednictvím analýzy hlavních komponent), nebo ji lze zadat uživatelsky. Program používá interaktivní proceduru pro minimalizaci zátěžové proměnné a koeficient poruchy. Uživatel má možnost monitorování iterací a sledování změn těchto hodnot. Konečnou konfiguraci lze prohlížet ve výsledkových tabulkách a v 2D a 3D bodových grafech dimensionálního prostoru s vyznačenými datovými body. Testy dobré shody lze oceňovat pomocí Shepardových diagramů (d-hats a d-stars). Jako u všech ostatních modulů lze i zde konečnou konfiguraci uložit do datového souboru.
Modul obsahuje úplnou implementaci krokové diskriminační funkční analýzy. Program provádí dopředné nebo zpětné krokové analýzy nebo analýzy po uživatelem specifikovaných skupin proměnných. Kromě početných grafů a diagnostik popisujících diskriminační funkce poskytuje program široký výběr statistik pro klasifikaci starých nebo nových případů (pro validaci modelu). Výsledky obsahují odpovídající koeficienty Wilkových "lambd", parciální "lambdy", koeficient "F", "p" úrovně, hodnoty tolerance a "R-čtverce". Program provádí úplnou kanonickou analýzu a počítá řádková a kumulativní vlastní čísla pro všechny kořeny a jejich "p" úrovně, řádkové a standardizované koeficienty diskriminační (kanonické) funkce, matici strukturálních koeficientů, průměry pro diskriminační funkce a diskriminační skóre pro každý případ. Připojené grafy zahrnují histogramy kanonických skóre uvnitř každé skupiny (a kombinace všech skupin), speciální bodové grafy pro páry kanonických proměnných (ve kterých je vyznačena příslušnost jednotlivých případu do odpovídající skupiny) a rozsáhlý výběr kategorizovaných grafů, které uživateli umožňují vyšetřovat distribuce a relace mezi závislými proměnnými napříč skupinami (vícenásobné krabicové grafy, histogramy, bodové grafy a grafy rozložení). Modul dále počítá pro každou skupinu standardní klasifikační funkce. Klasifikaci případů lze posuzovat v termínech Mahalanobisových vzdáleností, posterior pravděpodobností nebo skutečných klasifikací a skóre pro individuální případy lze znázornit prostřednictvím ikonových grafů či dalších vícedimensionálních grafů propojených přímo s výsledkovými tabulkami. Všechny tyto hodnoty lze připojit ke zpracovávanému datovému souboru pro účely další analýzy. Rovněž lze zobrazit sumární klasifikační matici počtu a procent korektně klasifikovaných případů. Uživatel má několik možností jak specifikovat a priori klasifikační pravděpodobnosti a výběrové podmínky pro zahrnutí či vynechání vybraných případů z klasifikace.
Modul představuje aplikaci a rozšíření Obecných lineárních modelů na klasifikační problémy. Stejně jako modul Diskriminační analýzy vám i GDA umožní provádět standardní a krokovou diskriminační analýzu. GDA se na problém dikriminační analýzy dívá jako na speciální případ obecného lineárního modelu, a tímto způsobem vám nabízí velice užitečné analytické techniky, které jsou inovativní, efektivní a velice mocné. Jako tradiční diskriminační analýza, i GDA umožňuje určit kategorizovanou závislou proměnnou. Při analýze se příslušnost ke skupině překóduje do indikačních proměnných, a tak se dají použít všechny metody GRM. Ve výsledkových dialozích je k dispozici rozsáhlý výběr reziduálních statistik GRM, GLM a GDA. GDA dále nabízí mocné a efektivní nástroje pro vytěžování dat i pro aplikovaný výzkum. Spočítá všechny standardní výsledky diskriminační analýzy, včetně koeficientů diskriminační funkce, výsledků kanonické analýzy, klasifikačních statistik, atd.