# Data set
data_url = 'https://raw.githubusercontent.com/danhphan/workshops/main/2023-PyMCon/data/salmon.csv'
salmon_data = pd.read_csv(data_url)
x, y = salmon_data[['spawners', 'recruits']].values.T
print("Data shape: ", salmon_data.shape, x.shape, y.shape)
salmon_data.plot.scatter(x='spawners', y='recruits', s=50, figsize=(5,3));
plt.xlabel("x: spawners");
plt.ylabel("y: recruits");

Data shape:  (40, 2) (40,) (40,)


# Create a PyMC model
with pm.Model() as linear_salmon_model:
    # Prior
    beta_0 = pm.Normal('beta_0', mu=0, sigma=50)
    beta_1 = pm.Normal('beta_1', mu=0, sigma=50)
    sigma = pm.HalfNormal('sigma', sigma=50)    
    mean = beta_0 + beta_1 * x
    # Likelihood
    recruits = pm.Normal('recruits', mu=mean, sigma=sigma, observed=y)


# Prior distribution
a_normal_distribution = pm.Normal.dist(mu=0, sigma=50)
plt.hist(pm.draw(a_normal_distribution, draws=1000));


# Prior distribution
a_half_normal_distribution = pm.HalfNormal.dist(sigma=50)
plt.hist(pm.draw(a_half_normal_distribution, draws=1000));


with linear_salmon_model:    
    linear_trace = pm.sample(1000, tune=2000, cores=2)

Auto-assigning NUTS sampler...
Initializing NUTS using jitter+adapt_diag...
Multiprocess sampling (2 chains in 2 jobs)
NUTS: [beta_0, beta_1, sigma]

Sampling 2 chains for 2_000 tune and 1_000 draw iterations (4_000 + 2_000 draws total) took 4 seconds.


# Posterior distribution
az.plot_trace(linear_trace.posterior);
plt.tight_layout()


# Prediction
X_pred = np.linspace(0, 500, 100)

ax = salmon_data.plot.scatter(x='spawners', y='recruits', c='k', s=50, figsize=(5,3))
ax.set_ylim(0, None)
for b0,b1 in zip(linear_trace.posterior['beta_0'].sel(chain=0)[:20], 
                 linear_trace.posterior['beta_1'].sel(chain=0)[:20]):
    b0,b1=b0.values,b1.values
    ax.plot(X_pred, b0 + b1*X_pred, alpha=0.3, color='seagreen');
plt.xlabel("x: spawners");
plt.ylabel("y: recruits");


with pm.Model() as gp_salmon_model:

    ρ = pm.HalfCauchy('ρ', 5)
    η = pm.HalfCauchy('η', 5)
    
    M = pm.gp.mean.Linear(coeffs=(salmon_data.recruits/salmon_data.spawners).mean())
    K = (η**2) * pm.gp.cov.ExpQuad(input_dim=1, ls=ρ) 
    
    σ = pm.HalfNormal('σ', 50)
    
    recruit_gp = pm.gp.Marginal(mean_func=M, cov_func=K)
    recruit_gp.marginal_likelihood('recruits', 
                        X=salmon_data.spawners.values.reshape(-1,1), 
                        y=salmon_data.recruits.values, noise=σ)


with gp_salmon_model:
    gp_trace = pm.sample(1000, tune=2000, cores=2, random_seed=42)

Auto-assigning NUTS sampler...
Initializing NUTS using jitter+adapt_diag...
Multiprocess sampling (2 chains in 2 jobs)
NUTS: [ρ, η, σ]

Sampling 2 chains for 2_000 tune and 1_000 draw iterations (4_000 + 2_000 draws total) took 22 seconds.


az.plot_trace(gp_trace, var_names=['ρ', 'η', 'σ']);
plt.tight_layout()


# Prediction 
with gp_salmon_model:
    salmon_pred = recruit_gp.conditional("salmon_pred", 
                                        X_pred.reshape(-1,1))
    gp_salmon_samples = pm.sample_posterior_predictive(gp_trace, 
                                  var_names=['salmon_pred'], random_seed=42)

Sampling: [salmon_pred]


ax = salmon_data.plot.scatter(x='spawners', y='recruits', c='k', s=50)
ax.set_ylim(0, None)
for x in (gp_salmon_samples.posterior_predictive['salmon_pred']
          .sel(chain=0)[:3,:]):
    ax.plot(X_pred, x);


from pymc.gp.util import plot_gp_dist
fig, ax = plt.subplots(figsize=(8,6))
plot_gp_dist(ax, (gp_salmon_samples.posterior_predictive['salmon_pred']
                  .sel(chain=0)[:50,:]), X_pred)
salmon_data.plot.scatter(x='spawners', y='recruits', c='k', s=50, ax=ax)
ax.set_ylim(0, 350);

1. Introduction¶

1.1 Bayesian Linear Regression¶

1.2 Gaussian Process¶

1.3 GP Mean and Covariance Functions¶

2. Model implementation in PyMC¶

2.1 Bayesian Linear Regression¶

2.2 Gaussian Processes in PyMC¶

3. References¶