Den mest grundläggande formen av den statistiska analysen är det genomsnittliga . Det finns tre typer av genomsnitt : medelvärde , median och läge . Medelvärdet hittas genom att hitta summan av en uppsättning data och dividera denna summa med antalet datapunkter. Medianvärdet erhålls som alla datapunkter i storleksordning och välja mittdatapunkt . Läget är helt enkelt det datavärde som visas oftast. Alla tre typerna av genomsnittlig används i populationsgenetik , men det vanligaste är medelvärdet .
Varians
Variansen är ett mått på hur mycket värdena i en uppsättning data varierar . Variansen symboliseras av s ^ 2 , eller en sigma kvadrat symbol . Variansen beräknas genom att finna summan av kvadraten på skillnaden mellan varje värde och medelvärdet , och därefter division med ett mindre än antalet datapunkter. Ett exempel på varians kan innebära att antalet fläckar i en viss art av skalbagge. Anta att det finns fem skalbaggar i uppsättningen , och antalet prickar på varje skalbagge är 5 , 5 , 6 , 6 och 8 Medelvärdet är : .
( 5 + 5 + 6 + 6 + 8 ) /5 = 6
variansen beräknas på följande sätt :
[(5 - 6) ^ 2 + ( 5-6 ) ^ 2 + ( 6-6 ) ^ 2 + ( 6 - 6 ) ^ 2 + ( 8-6 ) ^ 2 ] /( 5 - 1 ) = 1,5
Detta ger oss en indikation på spridningen av värdena Addera
standardavvikelse
Standardavvikelsen är ett annat mått på spridningen . Det är kvadratroten av variansen . Det har den fördelen att den har samma enheter som de datamängd det kommer från . I exemplet ovan standardavvikelsen är :
^
(1,5) (0,5) = 1,22474
Detta visar att standardavvikelsen i antalet fläckar på populationen av skalbaggar är cirka 1,22 fläckar . Addera Korrelation
Korrelation är ett mått på mängden av association mellan två datauppsättningar . I populationsgenetik , skulle korrelationer användas för att studera sambandet mellan innehav av vissa gener och förekomster av särskilda egenskaper . Korrelation symboliseras av ett r med nedsänkt xy , där x och y är variabler för de två uppsättningarna data . Korrelationer är alltid mellan -1 och 1 . -1 Innebär att det finns en negativ korrelation , 0 betyder att det inte finns någon korrelation och 1 innebär att det finns en positiv korrelation .
Regression
Regression är ett statistiskt verktyg som används för att hitta sambandet mellan två variabler . Regressionskoefficienten ges symbolen b med det nedsänkta yx , där y och x är variabler för de två uppsättningarna data . Regressionskoefficientenmäter den förväntade förändringen i ay variabel per en enhet förändring i variabeln x .
Genetiska sjukdomar nomenklaturen
När man diskuterar genetisk sjukdom , det finns flera tekniska termer som beskriva mönstret av oordning i den allmänna befolkningen. Dessa termer inkluderar incidens , prevalens , mortalitet , och livstidsrisken. Förekomsten av en genetisk sjukdom är andelen personer i befolkningen med en viss genetisk sjukdom . Förekomsten av en genetisk sjukdom är antalet personer inom en viss undergrupp , till exempel en viss åldersgrupp , som har en viss genetisk sjukdom . Dödlighet avser antalet personer i en viss grupp , som dör av en särskild störning per år. Ett exempel på en dödlighet statistik kan vara " 10 000 personer i USA dog av syndrom X år 2010 . " Livstidsrisken är den genomsnittliga risken för att utveckla en viss genetisk sjukdom någon gång i en individs liv . Addera