{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Introduction to mathematical statistics \n",
"\n",
"Welcome to the lecture 11 in 02403\n",
"\n",
"During the lectures we will present both slides and notebooks. "
]
},
{
"cell_type": "code",
"execution_count": 89,
"metadata": {},
"outputs": [],
"source": [
"import numpy as np\n",
"import matplotlib.pyplot as plt\n",
"import pandas as pd\n",
"import scipy.stats as stats\n",
"import statsmodels.api as sm\n",
"import statsmodels.formula.api as smf\n",
"import statsmodels.stats.power as smp\n",
"import statsmodels.stats.proportion as smprop"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Example: Two-way ANOVA"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"To introduce two-way ANOVA we start by considering the following data (and do some data visuallisation)"
]
},
{
"cell_type": "code",
"execution_count": 90,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" value | \n",
" treatment | \n",
" block | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" 2.8 | \n",
" A | \n",
" 1 | \n",
"
\n",
" \n",
" 1 | \n",
" 3.6 | \n",
" A | \n",
" 2 | \n",
"
\n",
" \n",
" 2 | \n",
" 3.4 | \n",
" A | \n",
" 3 | \n",
"
\n",
" \n",
" 3 | \n",
" 2.3 | \n",
" A | \n",
" 4 | \n",
"
\n",
" \n",
" 4 | \n",
" 5.5 | \n",
" B | \n",
" 1 | \n",
"
\n",
" \n",
" 5 | \n",
" 6.3 | \n",
" B | \n",
" 2 | \n",
"
\n",
" \n",
" 6 | \n",
" 6.1 | \n",
" B | \n",
" 3 | \n",
"
\n",
" \n",
" 7 | \n",
" 5.7 | \n",
" B | \n",
" 4 | \n",
"
\n",
" \n",
" 8 | \n",
" 5.8 | \n",
" C | \n",
" 1 | \n",
"
\n",
" \n",
" 9 | \n",
" 8.3 | \n",
" C | \n",
" 2 | \n",
"
\n",
" \n",
" 10 | \n",
" 6.9 | \n",
" C | \n",
" 3 | \n",
"
\n",
" \n",
" 11 | \n",
" 6.1 | \n",
" C | \n",
" 4 | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" value treatment block\n",
"0 2.8 A 1\n",
"1 3.6 A 2\n",
"2 3.4 A 3\n",
"3 2.3 A 4\n",
"4 5.5 B 1\n",
"5 6.3 B 2\n",
"6 6.1 B 3\n",
"7 5.7 B 4\n",
"8 5.8 C 1\n",
"9 8.3 C 2\n",
"10 6.9 C 3\n",
"11 6.1 C 4"
]
},
"execution_count": 90,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Typing the data:\n",
"data = pd.DataFrame({\n",
" 'value': [2.8, 3.6, 3.4, 2.3, 5.5, 6.3, 6.1, 5.7, 5.8, 8.3, 6.9, 6.1], \n",
" 'treatment': np.repeat([\"A\", \"B\", \"C\"], 4),\n",
" 'block': np.tile([\"1\", \"2\", \"3\", \"4\"], 3)})\n",
"data"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"##### Visualising the data with box plots:"
]
},
{
"cell_type": "code",
"execution_count": 91,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"Text(0.5, 0.98, 'Boxplots')"
]
},
"execution_count": 91,
"metadata": {},
"output_type": "execute_result"
},
{
"data": {
"image/png": "",
"text/plain": [
""
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"fig, axs = plt.subplots(1, 2, figsize=(10, 5))\n",
"data.boxplot(\"value\", by=\"treatment\", ax=axs[0], showmeans=True)\n",
"data.boxplot(\"value\", by=\"block\", ax=axs[1], showmeans=True)\n",
"fig.suptitle(\"Boxplots\")"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Things to consider:\n",
"\n",
"Does it look like the value is different for different treatments?\n",
"\n",
"Does it look like the value is diiferent for different blocks?"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Example: Estimate parameters $\\mu$, $\\alpha_i$ and $\\beta_j$"
]
},
{
"cell_type": "code",
"execution_count": 92,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" value | \n",
" treatment | \n",
" block | \n",
" overall_mean | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" 2.8 | \n",
" A | \n",
" 1 | \n",
" 5.233333 | \n",
"
\n",
" \n",
" 1 | \n",
" 3.6 | \n",
" A | \n",
" 2 | \n",
" 5.233333 | \n",
"
\n",
" \n",
" 2 | \n",
" 3.4 | \n",
" A | \n",
" 3 | \n",
" 5.233333 | \n",
"
\n",
" \n",
" 3 | \n",
" 2.3 | \n",
" A | \n",
" 4 | \n",
" 5.233333 | \n",
"
\n",
" \n",
" 4 | \n",
" 5.5 | \n",
" B | \n",
" 1 | \n",
" 5.233333 | \n",
"
\n",
" \n",
" 5 | \n",
" 6.3 | \n",
" B | \n",
" 2 | \n",
" 5.233333 | \n",
"
\n",
" \n",
" 6 | \n",
" 6.1 | \n",
" B | \n",
" 3 | \n",
" 5.233333 | \n",
"
\n",
" \n",
" 7 | \n",
" 5.7 | \n",
" B | \n",
" 4 | \n",
" 5.233333 | \n",
"
\n",
" \n",
" 8 | \n",
" 5.8 | \n",
" C | \n",
" 1 | \n",
" 5.233333 | \n",
"
\n",
" \n",
" 9 | \n",
" 8.3 | \n",
" C | \n",
" 2 | \n",
" 5.233333 | \n",
"
\n",
" \n",
" 10 | \n",
" 6.9 | \n",
" C | \n",
" 3 | \n",
" 5.233333 | \n",
"
\n",
" \n",
" 11 | \n",
" 6.1 | \n",
" C | \n",
" 4 | \n",
" 5.233333 | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" value treatment block overall_mean\n",
"0 2.8 A 1 5.233333\n",
"1 3.6 A 2 5.233333\n",
"2 3.4 A 3 5.233333\n",
"3 2.3 A 4 5.233333\n",
"4 5.5 B 1 5.233333\n",
"5 6.3 B 2 5.233333\n",
"6 6.1 B 3 5.233333\n",
"7 5.7 B 4 5.233333\n",
"8 5.8 C 1 5.233333\n",
"9 8.3 C 2 5.233333\n",
"10 6.9 C 3 5.233333\n",
"11 6.1 C 4 5.233333"
]
},
"execution_count": 92,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Compute the overall mean and add to dataframe:\n",
"data['overall_mean'] = data[\"value\"].mean()\n",
"data"
]
},
{
"cell_type": "code",
"execution_count": 93,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" value | \n",
" treatment | \n",
" block | \n",
" overall_mean | \n",
" treatment_mean | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" 2.8 | \n",
" A | \n",
" 1 | \n",
" 5.233333 | \n",
" 3.025 | \n",
"
\n",
" \n",
" 1 | \n",
" 3.6 | \n",
" A | \n",
" 2 | \n",
" 5.233333 | \n",
" 3.025 | \n",
"
\n",
" \n",
" 2 | \n",
" 3.4 | \n",
" A | \n",
" 3 | \n",
" 5.233333 | \n",
" 3.025 | \n",
"
\n",
" \n",
" 3 | \n",
" 2.3 | \n",
" A | \n",
" 4 | \n",
" 5.233333 | \n",
" 3.025 | \n",
"
\n",
" \n",
" 4 | \n",
" 5.5 | \n",
" B | \n",
" 1 | \n",
" 5.233333 | \n",
" 5.900 | \n",
"
\n",
" \n",
" 5 | \n",
" 6.3 | \n",
" B | \n",
" 2 | \n",
" 5.233333 | \n",
" 5.900 | \n",
"
\n",
" \n",
" 6 | \n",
" 6.1 | \n",
" B | \n",
" 3 | \n",
" 5.233333 | \n",
" 5.900 | \n",
"
\n",
" \n",
" 7 | \n",
" 5.7 | \n",
" B | \n",
" 4 | \n",
" 5.233333 | \n",
" 5.900 | \n",
"
\n",
" \n",
" 8 | \n",
" 5.8 | \n",
" C | \n",
" 1 | \n",
" 5.233333 | \n",
" 6.775 | \n",
"
\n",
" \n",
" 9 | \n",
" 8.3 | \n",
" C | \n",
" 2 | \n",
" 5.233333 | \n",
" 6.775 | \n",
"
\n",
" \n",
" 10 | \n",
" 6.9 | \n",
" C | \n",
" 3 | \n",
" 5.233333 | \n",
" 6.775 | \n",
"
\n",
" \n",
" 11 | \n",
" 6.1 | \n",
" C | \n",
" 4 | \n",
" 5.233333 | \n",
" 6.775 | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" value treatment block overall_mean treatment_mean\n",
"0 2.8 A 1 5.233333 3.025\n",
"1 3.6 A 2 5.233333 3.025\n",
"2 3.4 A 3 5.233333 3.025\n",
"3 2.3 A 4 5.233333 3.025\n",
"4 5.5 B 1 5.233333 5.900\n",
"5 6.3 B 2 5.233333 5.900\n",
"6 6.1 B 3 5.233333 5.900\n",
"7 5.7 B 4 5.233333 5.900\n",
"8 5.8 C 1 5.233333 6.775\n",
"9 8.3 C 2 5.233333 6.775\n",
"10 6.9 C 3 5.233333 6.775\n",
"11 6.1 C 4 5.233333 6.775"
]
},
"execution_count": 93,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# compute the mean within each treatment-group and add to dataframe:\n",
"data['treatment_mean'] = data.groupby(\"treatment\")['value'].transform('mean')\n",
"data"
]
},
{
"cell_type": "code",
"execution_count": 94,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" value | \n",
" treatment | \n",
" block | \n",
" overall_mean | \n",
" treatment_mean | \n",
" treatment_alpha | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" 2.8 | \n",
" A | \n",
" 1 | \n",
" 5.233333 | \n",
" 3.025 | \n",
" -2.208333 | \n",
"
\n",
" \n",
" 1 | \n",
" 3.6 | \n",
" A | \n",
" 2 | \n",
" 5.233333 | \n",
" 3.025 | \n",
" -2.208333 | \n",
"
\n",
" \n",
" 2 | \n",
" 3.4 | \n",
" A | \n",
" 3 | \n",
" 5.233333 | \n",
" 3.025 | \n",
" -2.208333 | \n",
"
\n",
" \n",
" 3 | \n",
" 2.3 | \n",
" A | \n",
" 4 | \n",
" 5.233333 | \n",
" 3.025 | \n",
" -2.208333 | \n",
"
\n",
" \n",
" 4 | \n",
" 5.5 | \n",
" B | \n",
" 1 | \n",
" 5.233333 | \n",
" 5.900 | \n",
" 0.666667 | \n",
"
\n",
" \n",
" 5 | \n",
" 6.3 | \n",
" B | \n",
" 2 | \n",
" 5.233333 | \n",
" 5.900 | \n",
" 0.666667 | \n",
"
\n",
" \n",
" 6 | \n",
" 6.1 | \n",
" B | \n",
" 3 | \n",
" 5.233333 | \n",
" 5.900 | \n",
" 0.666667 | \n",
"
\n",
" \n",
" 7 | \n",
" 5.7 | \n",
" B | \n",
" 4 | \n",
" 5.233333 | \n",
" 5.900 | \n",
" 0.666667 | \n",
"
\n",
" \n",
" 8 | \n",
" 5.8 | \n",
" C | \n",
" 1 | \n",
" 5.233333 | \n",
" 6.775 | \n",
" 1.541667 | \n",
"
\n",
" \n",
" 9 | \n",
" 8.3 | \n",
" C | \n",
" 2 | \n",
" 5.233333 | \n",
" 6.775 | \n",
" 1.541667 | \n",
"
\n",
" \n",
" 10 | \n",
" 6.9 | \n",
" C | \n",
" 3 | \n",
" 5.233333 | \n",
" 6.775 | \n",
" 1.541667 | \n",
"
\n",
" \n",
" 11 | \n",
" 6.1 | \n",
" C | \n",
" 4 | \n",
" 5.233333 | \n",
" 6.775 | \n",
" 1.541667 | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" value treatment block overall_mean treatment_mean treatment_alpha\n",
"0 2.8 A 1 5.233333 3.025 -2.208333\n",
"1 3.6 A 2 5.233333 3.025 -2.208333\n",
"2 3.4 A 3 5.233333 3.025 -2.208333\n",
"3 2.3 A 4 5.233333 3.025 -2.208333\n",
"4 5.5 B 1 5.233333 5.900 0.666667\n",
"5 6.3 B 2 5.233333 5.900 0.666667\n",
"6 6.1 B 3 5.233333 5.900 0.666667\n",
"7 5.7 B 4 5.233333 5.900 0.666667\n",
"8 5.8 C 1 5.233333 6.775 1.541667\n",
"9 8.3 C 2 5.233333 6.775 1.541667\n",
"10 6.9 C 3 5.233333 6.775 1.541667\n",
"11 6.1 C 4 5.233333 6.775 1.541667"
]
},
"execution_count": 94,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# also add the corresponding alpha for each treatment-group:\n",
"data[\"treatment_alpha\"] = data[\"treatment_mean\"] - data[\"overall_mean\"]\n",
"data"
]
},
{
"cell_type": "code",
"execution_count": 95,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" value | \n",
" treatment | \n",
" block | \n",
" overall_mean | \n",
" treatment_mean | \n",
" treatment_alpha | \n",
" block_mean | \n",
" block_beta | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" 2.8 | \n",
" A | \n",
" 1 | \n",
" 5.233333 | \n",
" 3.025 | \n",
" -2.208333 | \n",
" 4.700000 | \n",
" -0.533333 | \n",
"
\n",
" \n",
" 1 | \n",
" 3.6 | \n",
" A | \n",
" 2 | \n",
" 5.233333 | \n",
" 3.025 | \n",
" -2.208333 | \n",
" 6.066667 | \n",
" 0.833333 | \n",
"
\n",
" \n",
" 2 | \n",
" 3.4 | \n",
" A | \n",
" 3 | \n",
" 5.233333 | \n",
" 3.025 | \n",
" -2.208333 | \n",
" 5.466667 | \n",
" 0.233333 | \n",
"
\n",
" \n",
" 3 | \n",
" 2.3 | \n",
" A | \n",
" 4 | \n",
" 5.233333 | \n",
" 3.025 | \n",
" -2.208333 | \n",
" 4.700000 | \n",
" -0.533333 | \n",
"
\n",
" \n",
" 4 | \n",
" 5.5 | \n",
" B | \n",
" 1 | \n",
" 5.233333 | \n",
" 5.900 | \n",
" 0.666667 | \n",
" 4.700000 | \n",
" -0.533333 | \n",
"
\n",
" \n",
" 5 | \n",
" 6.3 | \n",
" B | \n",
" 2 | \n",
" 5.233333 | \n",
" 5.900 | \n",
" 0.666667 | \n",
" 6.066667 | \n",
" 0.833333 | \n",
"
\n",
" \n",
" 6 | \n",
" 6.1 | \n",
" B | \n",
" 3 | \n",
" 5.233333 | \n",
" 5.900 | \n",
" 0.666667 | \n",
" 5.466667 | \n",
" 0.233333 | \n",
"
\n",
" \n",
" 7 | \n",
" 5.7 | \n",
" B | \n",
" 4 | \n",
" 5.233333 | \n",
" 5.900 | \n",
" 0.666667 | \n",
" 4.700000 | \n",
" -0.533333 | \n",
"
\n",
" \n",
" 8 | \n",
" 5.8 | \n",
" C | \n",
" 1 | \n",
" 5.233333 | \n",
" 6.775 | \n",
" 1.541667 | \n",
" 4.700000 | \n",
" -0.533333 | \n",
"
\n",
" \n",
" 9 | \n",
" 8.3 | \n",
" C | \n",
" 2 | \n",
" 5.233333 | \n",
" 6.775 | \n",
" 1.541667 | \n",
" 6.066667 | \n",
" 0.833333 | \n",
"
\n",
" \n",
" 10 | \n",
" 6.9 | \n",
" C | \n",
" 3 | \n",
" 5.233333 | \n",
" 6.775 | \n",
" 1.541667 | \n",
" 5.466667 | \n",
" 0.233333 | \n",
"
\n",
" \n",
" 11 | \n",
" 6.1 | \n",
" C | \n",
" 4 | \n",
" 5.233333 | \n",
" 6.775 | \n",
" 1.541667 | \n",
" 4.700000 | \n",
" -0.533333 | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" value treatment block overall_mean treatment_mean treatment_alpha \\\n",
"0 2.8 A 1 5.233333 3.025 -2.208333 \n",
"1 3.6 A 2 5.233333 3.025 -2.208333 \n",
"2 3.4 A 3 5.233333 3.025 -2.208333 \n",
"3 2.3 A 4 5.233333 3.025 -2.208333 \n",
"4 5.5 B 1 5.233333 5.900 0.666667 \n",
"5 6.3 B 2 5.233333 5.900 0.666667 \n",
"6 6.1 B 3 5.233333 5.900 0.666667 \n",
"7 5.7 B 4 5.233333 5.900 0.666667 \n",
"8 5.8 C 1 5.233333 6.775 1.541667 \n",
"9 8.3 C 2 5.233333 6.775 1.541667 \n",
"10 6.9 C 3 5.233333 6.775 1.541667 \n",
"11 6.1 C 4 5.233333 6.775 1.541667 \n",
"\n",
" block_mean block_beta \n",
"0 4.700000 -0.533333 \n",
"1 6.066667 0.833333 \n",
"2 5.466667 0.233333 \n",
"3 4.700000 -0.533333 \n",
"4 4.700000 -0.533333 \n",
"5 6.066667 0.833333 \n",
"6 5.466667 0.233333 \n",
"7 4.700000 -0.533333 \n",
"8 4.700000 -0.533333 \n",
"9 6.066667 0.833333 \n",
"10 5.466667 0.233333 \n",
"11 4.700000 -0.533333 "
]
},
"execution_count": 95,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# compute the mean within each person (block) and add to dataframe:\n",
"data['block_mean'] = data.groupby(\"block\")['value'].transform('mean')\n",
"\n",
"# also add the corresponding beta for each person (block):\n",
"data[\"block_beta\"] = data[\"block_mean\"] - data[\"overall_mean\"]\n",
"\n",
"data"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Example: SST, SS(Tr), SS(Bl) and SSE"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"$Y_{ij} = \\mu + \\alpha_i + \\beta_j + \\epsilon_{ij}$"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"We start with residuals (and SSE):"
]
},
{
"cell_type": "code",
"execution_count": 96,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" value | \n",
" treatment | \n",
" block | \n",
" overall_mean | \n",
" treatment_mean | \n",
" treatment_alpha | \n",
" block_mean | \n",
" block_beta | \n",
" residual | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" 2.8 | \n",
" A | \n",
" 1 | \n",
" 5.233333 | \n",
" 3.025 | \n",
" -2.208333 | \n",
" 4.700000 | \n",
" -0.533333 | \n",
" 0.308333 | \n",
"
\n",
" \n",
" 1 | \n",
" 3.6 | \n",
" A | \n",
" 2 | \n",
" 5.233333 | \n",
" 3.025 | \n",
" -2.208333 | \n",
" 6.066667 | \n",
" 0.833333 | \n",
" -0.258333 | \n",
"
\n",
" \n",
" 2 | \n",
" 3.4 | \n",
" A | \n",
" 3 | \n",
" 5.233333 | \n",
" 3.025 | \n",
" -2.208333 | \n",
" 5.466667 | \n",
" 0.233333 | \n",
" 0.141667 | \n",
"
\n",
" \n",
" 3 | \n",
" 2.3 | \n",
" A | \n",
" 4 | \n",
" 5.233333 | \n",
" 3.025 | \n",
" -2.208333 | \n",
" 4.700000 | \n",
" -0.533333 | \n",
" -0.191667 | \n",
"
\n",
" \n",
" 4 | \n",
" 5.5 | \n",
" B | \n",
" 1 | \n",
" 5.233333 | \n",
" 5.900 | \n",
" 0.666667 | \n",
" 4.700000 | \n",
" -0.533333 | \n",
" 0.133333 | \n",
"
\n",
" \n",
" 5 | \n",
" 6.3 | \n",
" B | \n",
" 2 | \n",
" 5.233333 | \n",
" 5.900 | \n",
" 0.666667 | \n",
" 6.066667 | \n",
" 0.833333 | \n",
" -0.433333 | \n",
"
\n",
" \n",
" 6 | \n",
" 6.1 | \n",
" B | \n",
" 3 | \n",
" 5.233333 | \n",
" 5.900 | \n",
" 0.666667 | \n",
" 5.466667 | \n",
" 0.233333 | \n",
" -0.033333 | \n",
"
\n",
" \n",
" 7 | \n",
" 5.7 | \n",
" B | \n",
" 4 | \n",
" 5.233333 | \n",
" 5.900 | \n",
" 0.666667 | \n",
" 4.700000 | \n",
" -0.533333 | \n",
" 0.333333 | \n",
"
\n",
" \n",
" 8 | \n",
" 5.8 | \n",
" C | \n",
" 1 | \n",
" 5.233333 | \n",
" 6.775 | \n",
" 1.541667 | \n",
" 4.700000 | \n",
" -0.533333 | \n",
" -0.441667 | \n",
"
\n",
" \n",
" 9 | \n",
" 8.3 | \n",
" C | \n",
" 2 | \n",
" 5.233333 | \n",
" 6.775 | \n",
" 1.541667 | \n",
" 6.066667 | \n",
" 0.833333 | \n",
" 0.691667 | \n",
"
\n",
" \n",
" 10 | \n",
" 6.9 | \n",
" C | \n",
" 3 | \n",
" 5.233333 | \n",
" 6.775 | \n",
" 1.541667 | \n",
" 5.466667 | \n",
" 0.233333 | \n",
" -0.108333 | \n",
"
\n",
" \n",
" 11 | \n",
" 6.1 | \n",
" C | \n",
" 4 | \n",
" 5.233333 | \n",
" 6.775 | \n",
" 1.541667 | \n",
" 4.700000 | \n",
" -0.533333 | \n",
" -0.141667 | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" value treatment block overall_mean treatment_mean treatment_alpha \\\n",
"0 2.8 A 1 5.233333 3.025 -2.208333 \n",
"1 3.6 A 2 5.233333 3.025 -2.208333 \n",
"2 3.4 A 3 5.233333 3.025 -2.208333 \n",
"3 2.3 A 4 5.233333 3.025 -2.208333 \n",
"4 5.5 B 1 5.233333 5.900 0.666667 \n",
"5 6.3 B 2 5.233333 5.900 0.666667 \n",
"6 6.1 B 3 5.233333 5.900 0.666667 \n",
"7 5.7 B 4 5.233333 5.900 0.666667 \n",
"8 5.8 C 1 5.233333 6.775 1.541667 \n",
"9 8.3 C 2 5.233333 6.775 1.541667 \n",
"10 6.9 C 3 5.233333 6.775 1.541667 \n",
"11 6.1 C 4 5.233333 6.775 1.541667 \n",
"\n",
" block_mean block_beta residual \n",
"0 4.700000 -0.533333 0.308333 \n",
"1 6.066667 0.833333 -0.258333 \n",
"2 5.466667 0.233333 0.141667 \n",
"3 4.700000 -0.533333 -0.191667 \n",
"4 4.700000 -0.533333 0.133333 \n",
"5 6.066667 0.833333 -0.433333 \n",
"6 5.466667 0.233333 -0.033333 \n",
"7 4.700000 -0.533333 0.333333 \n",
"8 4.700000 -0.533333 -0.441667 \n",
"9 6.066667 0.833333 0.691667 \n",
"10 5.466667 0.233333 -0.108333 \n",
"11 4.700000 -0.533333 -0.141667 "
]
},
"execution_count": 96,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# calculate the residuals according to the model:\n",
"data['residual'] = data['value'] - (data['overall_mean']+data['treatment_alpha']+data['block_beta'])\n",
"data"
]
},
{
"cell_type": "code",
"execution_count": 97,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"1.241666666666668\n"
]
}
],
"source": [
"data['sse_contribution'] = data['residual']**2\n",
"\n",
"SSE = data['sse_contribution'].sum()\n",
"\n",
"print(SSE)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Now calculate SST:"
]
},
{
"cell_type": "code",
"execution_count": 98,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"35.98666666666667\n"
]
}
],
"source": [
"data['sst_contribution'] = (data['value'] - data['overall_mean'])**2\n",
"\n",
"SST = data['sst_contribution'].sum()\n",
"\n",
"print(SST)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Now calculate SS(tr) and SS(Bl):"
]
},
{
"cell_type": "code",
"execution_count": 99,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"30.791666666666668\n"
]
}
],
"source": [
"data['sstr_contribution'] = (data['treatment_mean'] - data['overall_mean'])**2\n",
"\n",
"SSTr = data['sstr_contribution'].sum()\n",
"\n",
"print(SSTr)"
]
},
{
"cell_type": "code",
"execution_count": 100,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"3.953333333333335\n"
]
}
],
"source": [
"data['ssbl_contribution'] = (data['block_mean'] - data['overall_mean'])**2\n",
"\n",
"SSBl = data['ssbl_contribution'].sum()\n",
"\n",
"print(SSBl)"
]
},
{
"cell_type": "code",
"execution_count": 101,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"35.98666666666667\n",
"35.98666666666667\n"
]
}
],
"source": [
"# sanity check:\n",
"print(SST)\n",
"print(SSTr + SSBl + SSE)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Projection set up"
]
},
{
"cell_type": "code",
"execution_count": 102,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"array([[1., 0., 0., 0., 0., 0.],\n",
" [1., 0., 0., 1., 0., 0.],\n",
" [1., 0., 0., 0., 1., 0.],\n",
" [1., 0., 0., 0., 0., 1.],\n",
" [1., 1., 0., 0., 0., 0.],\n",
" [1., 1., 0., 1., 0., 0.],\n",
" [1., 1., 0., 0., 1., 0.],\n",
" [1., 1., 0., 0., 0., 1.],\n",
" [1., 0., 1., 0., 0., 0.],\n",
" [1., 0., 1., 1., 0., 0.],\n",
" [1., 0., 1., 0., 1., 0.],\n",
" [1., 0., 1., 0., 0., 1.]])"
]
},
"execution_count": 102,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"one = np.repeat(1,4)\n",
"zero = np.repeat(0,4)\n",
"X0 = np.ones((12,1))\n",
"col2 = np.append(np.append(zero,one),zero)\n",
"col3 = np.append(np.append(zero,zero),one)\n",
"\n",
"X_tr = np.array([col2,col3]).T\n",
"\n",
"X_bl0 = np.c_[X0,X_tr]\n",
"\n",
"X_bl = np.array([[0,1,0,0,0,1,0,0,0,1,0,0],\n",
" [0,0,1,0,0,0,1,0,0,0,1,0],\n",
" [0,0,0,1,0,0,0,1,0,0,0,1]]).T\n",
"\n",
"X = np.c_[X0,X_tr,X_bl]\n",
"X"
]
},
{
"cell_type": "code",
"execution_count": 103,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" value | \n",
" treatment | \n",
" block | \n",
" overall_mean | \n",
" treatment_mean | \n",
" treatment_alpha | \n",
" block_mean | \n",
" block_beta | \n",
" residual | \n",
" sse_contribution | \n",
" sst_contribution | \n",
" sstr_contribution | \n",
" ssbl_contribution | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" 2.8 | \n",
" A | \n",
" 1 | \n",
" 5.233333 | \n",
" 3.025 | \n",
" -2.208333 | \n",
" 4.700000 | \n",
" -0.533333 | \n",
" 0.308333 | \n",
" 0.095069 | \n",
" 5.921111 | \n",
" 4.876736 | \n",
" 0.284444 | \n",
"
\n",
" \n",
" 1 | \n",
" 3.6 | \n",
" A | \n",
" 2 | \n",
" 5.233333 | \n",
" 3.025 | \n",
" -2.208333 | \n",
" 6.066667 | \n",
" 0.833333 | \n",
" -0.258333 | \n",
" 0.066736 | \n",
" 2.667778 | \n",
" 4.876736 | \n",
" 0.694444 | \n",
"
\n",
" \n",
" 2 | \n",
" 3.4 | \n",
" A | \n",
" 3 | \n",
" 5.233333 | \n",
" 3.025 | \n",
" -2.208333 | \n",
" 5.466667 | \n",
" 0.233333 | \n",
" 0.141667 | \n",
" 0.020069 | \n",
" 3.361111 | \n",
" 4.876736 | \n",
" 0.054444 | \n",
"
\n",
" \n",
" 3 | \n",
" 2.3 | \n",
" A | \n",
" 4 | \n",
" 5.233333 | \n",
" 3.025 | \n",
" -2.208333 | \n",
" 4.700000 | \n",
" -0.533333 | \n",
" -0.191667 | \n",
" 0.036736 | \n",
" 8.604444 | \n",
" 4.876736 | \n",
" 0.284444 | \n",
"
\n",
" \n",
" 4 | \n",
" 5.5 | \n",
" B | \n",
" 1 | \n",
" 5.233333 | \n",
" 5.900 | \n",
" 0.666667 | \n",
" 4.700000 | \n",
" -0.533333 | \n",
" 0.133333 | \n",
" 0.017778 | \n",
" 0.071111 | \n",
" 0.444444 | \n",
" 0.284444 | \n",
"
\n",
" \n",
" 5 | \n",
" 6.3 | \n",
" B | \n",
" 2 | \n",
" 5.233333 | \n",
" 5.900 | \n",
" 0.666667 | \n",
" 6.066667 | \n",
" 0.833333 | \n",
" -0.433333 | \n",
" 0.187778 | \n",
" 1.137778 | \n",
" 0.444444 | \n",
" 0.694444 | \n",
"
\n",
" \n",
" 6 | \n",
" 6.1 | \n",
" B | \n",
" 3 | \n",
" 5.233333 | \n",
" 5.900 | \n",
" 0.666667 | \n",
" 5.466667 | \n",
" 0.233333 | \n",
" -0.033333 | \n",
" 0.001111 | \n",
" 0.751111 | \n",
" 0.444444 | \n",
" 0.054444 | \n",
"
\n",
" \n",
" 7 | \n",
" 5.7 | \n",
" B | \n",
" 4 | \n",
" 5.233333 | \n",
" 5.900 | \n",
" 0.666667 | \n",
" 4.700000 | \n",
" -0.533333 | \n",
" 0.333333 | \n",
" 0.111111 | \n",
" 0.217778 | \n",
" 0.444444 | \n",
" 0.284444 | \n",
"
\n",
" \n",
" 8 | \n",
" 5.8 | \n",
" C | \n",
" 1 | \n",
" 5.233333 | \n",
" 6.775 | \n",
" 1.541667 | \n",
" 4.700000 | \n",
" -0.533333 | \n",
" -0.441667 | \n",
" 0.195069 | \n",
" 0.321111 | \n",
" 2.376736 | \n",
" 0.284444 | \n",
"
\n",
" \n",
" 9 | \n",
" 8.3 | \n",
" C | \n",
" 2 | \n",
" 5.233333 | \n",
" 6.775 | \n",
" 1.541667 | \n",
" 6.066667 | \n",
" 0.833333 | \n",
" 0.691667 | \n",
" 0.478403 | \n",
" 9.404444 | \n",
" 2.376736 | \n",
" 0.694444 | \n",
"
\n",
" \n",
" 10 | \n",
" 6.9 | \n",
" C | \n",
" 3 | \n",
" 5.233333 | \n",
" 6.775 | \n",
" 1.541667 | \n",
" 5.466667 | \n",
" 0.233333 | \n",
" -0.108333 | \n",
" 0.011736 | \n",
" 2.777778 | \n",
" 2.376736 | \n",
" 0.054444 | \n",
"
\n",
" \n",
" 11 | \n",
" 6.1 | \n",
" C | \n",
" 4 | \n",
" 5.233333 | \n",
" 6.775 | \n",
" 1.541667 | \n",
" 4.700000 | \n",
" -0.533333 | \n",
" -0.141667 | \n",
" 0.020069 | \n",
" 0.751111 | \n",
" 2.376736 | \n",
" 0.284444 | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" value treatment block overall_mean treatment_mean treatment_alpha \\\n",
"0 2.8 A 1 5.233333 3.025 -2.208333 \n",
"1 3.6 A 2 5.233333 3.025 -2.208333 \n",
"2 3.4 A 3 5.233333 3.025 -2.208333 \n",
"3 2.3 A 4 5.233333 3.025 -2.208333 \n",
"4 5.5 B 1 5.233333 5.900 0.666667 \n",
"5 6.3 B 2 5.233333 5.900 0.666667 \n",
"6 6.1 B 3 5.233333 5.900 0.666667 \n",
"7 5.7 B 4 5.233333 5.900 0.666667 \n",
"8 5.8 C 1 5.233333 6.775 1.541667 \n",
"9 8.3 C 2 5.233333 6.775 1.541667 \n",
"10 6.9 C 3 5.233333 6.775 1.541667 \n",
"11 6.1 C 4 5.233333 6.775 1.541667 \n",
"\n",
" block_mean block_beta residual sse_contribution sst_contribution \\\n",
"0 4.700000 -0.533333 0.308333 0.095069 5.921111 \n",
"1 6.066667 0.833333 -0.258333 0.066736 2.667778 \n",
"2 5.466667 0.233333 0.141667 0.020069 3.361111 \n",
"3 4.700000 -0.533333 -0.191667 0.036736 8.604444 \n",
"4 4.700000 -0.533333 0.133333 0.017778 0.071111 \n",
"5 6.066667 0.833333 -0.433333 0.187778 1.137778 \n",
"6 5.466667 0.233333 -0.033333 0.001111 0.751111 \n",
"7 4.700000 -0.533333 0.333333 0.111111 0.217778 \n",
"8 4.700000 -0.533333 -0.441667 0.195069 0.321111 \n",
"9 6.066667 0.833333 0.691667 0.478403 9.404444 \n",
"10 5.466667 0.233333 -0.108333 0.011736 2.777778 \n",
"11 4.700000 -0.533333 -0.141667 0.020069 0.751111 \n",
"\n",
" sstr_contribution ssbl_contribution \n",
"0 4.876736 0.284444 \n",
"1 4.876736 0.694444 \n",
"2 4.876736 0.054444 \n",
"3 4.876736 0.284444 \n",
"4 0.444444 0.284444 \n",
"5 0.444444 0.694444 \n",
"6 0.444444 0.054444 \n",
"7 0.444444 0.284444 \n",
"8 2.376736 0.284444 \n",
"9 2.376736 0.694444 \n",
"10 2.376736 0.054444 \n",
"11 2.376736 0.284444 "
]
},
"execution_count": 103,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"data"
]
},
{
"cell_type": "code",
"execution_count": 106,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"array([30.79166667, 3.95333333, 1.24166667, 35.98666667])"
]
},
"execution_count": 106,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"H = X @ np.linalg.inv(X.T @ X) @ X.T\n",
"H_bl0 = X_bl0 @ np.linalg.inv(X_bl0.T @ X_bl0) @ X_bl0.T\n",
"H0 = X0@ np.linalg.inv(X0.T @ X0) @ X0.T\n",
"I = np.identity(12)\n",
"y = data[\"value\"]\n",
"SST = y.T @ (I - H0) @ y\n",
"SSTr = y.T @ (H_bl0 - H0) @ y\n",
"SSBl = y.T @ (H - H_bl0) @ y\n",
"SSE = y.T @ (I - H) @ y\n",
"np.array([SSTr, SSBl, SSE, SST])\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Example: F-test and ANOVA table"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"TReatment groups:"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"$F_{Tr}=\\frac{SS(Tr)/(k-1)}{SSE/((k-1)(l-1))}$"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"# Compute F-statistic (for treatment groups)\n",
"FTr = (SSTr/(3-1)) / (SSE/((3-1)*(4-1)))\n",
"print(FTr)"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"# compute critical value:\n",
"stats.f.ppf(0.95, dfn = (3-1), dfd = (3-1)*(4-1) )"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"# p-value\n",
"p_Tr = 1 - stats.f.cdf(FTr, dfn = (3-1), dfd = (3-1)*(4-1) )\n",
"print(p_Tr)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Blocks:"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"$F_{Bl}=\\frac{SS(Bl)/(l-1)}{SSE/((k-1)(l-1))}$"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"# Compute F-statistic (for block)\n",
"FBl = (SSBl/(4-1)) / (SSE/((3-1)*(4-1)))\n",
"print(FBl)"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"# compute critical value:\n",
"stats.f.ppf(0.95, dfn = (4-1), dfd = (3-1)*(4-1) )"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"# p-value\n",
"p_Bl = 1 - stats.f.cdf(FBl, dfn = (4-1), dfd = (3-1)*(4-1) )\n",
"print(p_Bl)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"##### Twoway ANOVA table"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"# Make the ANOVA table:\n",
"fit = smf.ols(\"value ~ treatment + block\", data=data).fit()\n",
"anova_table = sm.stats.anova_lm(fit)\n",
"print(anova_table)\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Example: Model diagnostics"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"$Y_{ij} = \\mu + \\alpha_i + \\beta_j + \\epsilon_{ij}$"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"# QQplot:\n",
"sm.qqplot(data[\"residual\"], line='q',a=1/2)\n",
"plt.tight_layout()\n",
"plt.show()"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"# Plot residuals grouped by either treatment or block:\n",
"fig, axs = plt.subplots(1, 2, figsize=(10, 5))\n",
"data.boxplot(\"residual\", by=\"treatment\", showmeans=True, ax=axs[0])\n",
"data.boxplot(\"residual\", by=\"block\", showmeans=True, ax=axs[1])\n",
"fig.suptitle(\"Boxplots of residuals\")\n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Skive Fjord"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"SkiveAvg = pd.read_csv(\"../week1/skiveAvg.csv\", sep=';')\n",
"SkiveAvg[\"vmp\"] = pd.Categorical(SkiveAvg[\"vmp\"])\n",
"SkiveAvg[\"month\"] = pd.Categorical(SkiveAvg[\"month\"])\n",
"SkiveAvg[\"year_f\"] = pd.Categorical(SkiveAvg[\"year\"])\n",
"SkiveAvg"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"fit = smf.ols(\"Nload ~ month + vmp\", data=SkiveAvg).fit()\n",
"sm.stats.anova_lm(fit,typ=3)"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"sm.stats.anova_lm(fit,typ=3)"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"fit.summary(slim=True)"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"#fig, ax =plt.subplots(1,2)\n",
"plt.plot(np.arange(2,13),fit.params[1:12])"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"fit_year = smf.ols(\"Nload ~ month + year_f\", data=SkiveAvg).fit()\n",
"sm.stats.anova_lm(fit_year,typ=1)"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"sm.stats.anova_lm(fit,fit_year)"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"fig, ax =plt.subplots(1,2)\n",
"ax[0].plot(np.arange(2,13),fit_year.params[1:12])\n",
"ax[1].plot(np.arange(1983,2007),np.array(fit_year.params[12:36]))"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.10.16"
}
},
"nbformat": 4,
"nbformat_minor": 2
}