In the world of statistics, raw data can often feel overwhelming. To make sense of it, we use specific numerical summaries that describe the "typical" value and how spread out those values are. These concepts are known as measures of central tendency and dispersion.

Finding the Center: Measures of Central Tendency

A measure of central tendency numerically describes the average or typical data value. While the media often uses the term "average" to refer strictly to the mean, a savvy statistician knows that the "center" can be measured in three distinct ways, which can yield very different results.

1. The Mean (The Arithmetic Average) The arithmetic mean is calculated by adding all values in a dataset and dividing by the number of observations. It is helpful to think of the mean as the "center of gravity" for the data—the point where a histogram would balance perfectly.

Population Mean ($\mu$): Computed using all individuals in a population (a parameter).

Sample Mean ($\overline{x}$): Computed using sample data (a statistic).

2. The Median (The Middle) The median ($M$) is the value lying in the exact middle of the data when arranged in ascending order.

If the number of observations ($n$) is odd, the median is the exact middle value.

If $n$ is even, the median is the mean of the two middle observations.

3. The Mode (The Most Frequent) The mode is simply the observation that occurs most frequently. A dataset can be bimodal (two modes), multimodal, or have no mode at all if no value repeats.

Which should you use? The shape of the distribution matters. The median is resistant, meaning extreme values do not substantially affect it, whereas the mean is not resistant.

Skewed Left: The mean is substantially smaller than the median.

Symmetric: The mean and median are roughly equal.

Skewed Right: The mean is substantially larger than the median.

Measuring the Spread: Measures of Dispersion

Knowing the center isn't enough; we must also understand dispersion, which is the degree to which data is spread out.

The Range The simplest measure of dispersion is the range ($R$), calculated as the difference between the largest and smallest data values.

Standard Deviation and Variance The standard deviation measures the "typical" deviation from the mean. It is calculated as the square root of the mean of the squared deviations.

Population Standard Deviation ($\sigma$): Divides the sum of squared deviations by $N$ (population size).

Sample Standard Deviation ($s$): Divides by $n-1$ (degrees of freedom). This adjustment is necessary to avoid bias.

The variance is simply the square of the standard deviation ($\sigma^2$ or $s^2$).

Putting it in Perspective: Two Key Rules

How do we interpret spread? Statisticians use two rules depending on the shape of the data.

1. The Empirical Rule (Bell-Shaped Data) If a distribution is roughly bell-shaped, the following applies:

68% of data lies within 1 standard deviation of the mean.

95% of data lies within 2 standard deviations.

99.7% of data lies within 3 standard deviations.

2. Chebyshev’s Inequality (Any Data Shape) For any set of data, regardless of shape, Chebyshev’s Inequality states that at least $(1 - \frac{1}{k^2}) \cdot 100\%$ of observations lie within $k$ standard deviations of the mean (where $k > 1$). For example, at least 75% of data will always fall within 2 standard deviations of the mean.

By combining these measures of center and dispersion, you can move beyond simple averages and gain a complete understanding of what your data is actually telling you.