diff --git a/slides.html b/slides.html
index 96a7f64..767a6ce 100644
--- a/slides.html
+++ b/slides.html
@@ -7769,8 +7769,9 @@ <h2 style="color: #b51f2a">Environment</h2>
 <ul>
 <li><strong>Initialization</strong>: setup the environment, declares the allowed <code>observation_space</code> and <code>action_space</code></li>
 <li><code>reset</code> <strong>method</strong>: resets the environment for a new episode, returns 2-tuple <code>(observation, info)</code></li>
-<li><code>step</code> <strong>method</strong>: main logic of the environment. It takes an <code>action</code>, changes the environment to a new <code>state</code>, get new <code>observation</code>, compute the <code>reward</code>, and finally returns the 4-tuple <code>(observation, reward, done, info)</code><ul>
-<li><code>done</code> checks if the current episode should be terminated (reached goal reached, or exceeded some thresholds)</li>
+<li><code>step</code> <strong>method</strong>: main logic of the environment. It takes an <code>action</code>, changes the environment to a new <code>state</code>, get new <code>observation</code>, compute the <code>reward</code>, and finally returns the 5-tuple <code>(observation, reward, terminated, truncated, info)</code><ul>
+<li><code>terminated</code> checks if the current episode should be terminated according to the underlying MDP (reached goal reached, or exceeded some thresholds)</li>
+<li><code>truncated</code> checks if the current episode should be truncated outside of the underlying MD (e.g. time limit)</li>
 </ul>
 </li>
 <li><code>render</code> <strong>method</strong>: to visualize the environment (a video, or just some plots)</li>
@@ -7804,7 +7805,7 @@ <h2 style="color: #b51f2a">Code directory structure</h2>
 <li><code>ARESEA</code> implements the ARES Experimental Area transverse tuning task as a <code>gym.Env</code>. It contains the basic logic, such as definition of observation space, action space, and reward. How an action is taken is implemented in child classes with specific backends.</li>
 <li><code>ARESEACheetah</code> is derived from the base class <code>ARESEA</code>, where it uses <code>cheetah</code> simulation as a backend.</li>
 <li><code>make_env</code> Initializes a <code>ARESEA</code> envrionment, and wraps it with required <a href="https://www.gymlibrary.dev/api/wrappers/">gym.wrappers</a> with convenient features (e.g. monitoring the progress, end episode when time_limit is reached, rescales the action, normalize the observation, ...)</li>
-<li><code>train</code> convenient function for training the RL agent. It calls <code>make_env</code>, setup the RL algorithm, starts training, and saves the results in <code>utils/recordings</code>, <code>utils/monitors</code> and <code>utils/models</code>.</li>
+<li><code>train</code> convenient function for training the RL agent. It calls <code>make_env</code>, sets up the RL algorithm, starts training, and saves the results in <code>utils/recordings</code>, <code>utils/monitors</code> and <code>utils/models</code>.</li>
 </ul>
 </li>
 </ul>
@@ -7960,7 +7961,7 @@ <h3 style="color:#038aa1;">Set a target beam you want to achieve</h3>
 <div class="cm-editor cm-s-jupyter">
 <div class="highlight hl-ipython3"><pre><span></span><span class="n">env</span><span class="o">.</span><span class="n">target_beam_values</span> <span class="o">=</span> <span class="n">target_beam</span>
 <span class="n">env</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>  <span class="c1">##</span>
-<span class="n">plt</span><span class="o">.</span><span class="n">figure</span><span class="p">(</span><span class="n">figsize</span> <span class="o">=</span> <span class="p">(</span><span class="mi">7</span><span class="p">,</span> <span class="mi">4</span><span class="p">))</span>
+<span class="n">plt</span><span class="o">.</span><span class="n">figure</span><span class="p">(</span><span class="n">figsize</span><span class="o">=</span><span class="p">(</span><span class="mi">7</span><span class="p">,</span> <span class="mi">4</span><span class="p">))</span>
 <span class="n">plt</span><span class="o">.</span><span class="n">imshow</span><span class="p">(</span><span class="n">env</span><span class="o">.</span><span class="n">render</span><span class="p">())</span>  <span class="c1"># Plot the screen image</span>
 </pre></div>
 </div>
@@ -8035,7 +8036,7 @@ <h3 style="color:#038aa1;">Get familiar with the Gym environment</h3>
 <div class="highlight hl-ipython3"><pre><span></span><span class="n">env</span> <span class="o">=</span> <span class="n">RescaleAction</span><span class="p">(</span><span class="n">env</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>  <span class="c1"># rescales the action to the interval [-1, 1]</span>
 <span class="n">env</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
 <span class="n">env</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">action</span><span class="p">)</span>
-<span class="n">plt</span><span class="o">.</span><span class="n">figure</span><span class="p">(</span><span class="n">figsize</span> <span class="o">=</span> <span class="p">(</span><span class="mi">7</span><span class="p">,</span> <span class="mi">4</span><span class="p">))</span>
+<span class="n">plt</span><span class="o">.</span><span class="n">figure</span><span class="p">(</span><span class="n">figsize</span><span class="o">=</span><span class="p">(</span><span class="mi">7</span><span class="p">,</span> <span class="mi">4</span><span class="p">))</span>
 <span class="n">plt</span><span class="o">.</span><span class="n">imshow</span><span class="p">(</span><span class="n">env</span><span class="o">.</span><span class="n">render</span><span class="p">())</span>
 </pre></div>
 </div>
@@ -8096,16 +8097,17 @@ <h3 style="color:#038aa1;">Get familiar with the Gym environment</h3>
 <div class="highlight hl-ipython3"><pre><span></span><span class="n">env</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
 <span class="n">steps</span> <span class="o">=</span> <span class="mi">10</span>
 
+
 <span class="k">def</span> <span class="nf">change_vertical_corrector</span><span class="p">(</span><span class="n">q1</span><span class="p">,</span> <span class="n">q2</span><span class="p">,</span> <span class="n">cv</span><span class="p">,</span> <span class="n">q3</span><span class="p">,</span> <span class="n">ch</span><span class="p">,</span> <span class="n">steps</span><span class="p">,</span> <span class="n">i</span><span class="p">):</span>
     <span class="n">action</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span><span class="n">q1</span><span class="p">,</span> <span class="n">q2</span><span class="p">,</span> <span class="n">cv</span> <span class="o">+</span> <span class="mi">1</span> <span class="o">/</span> <span class="n">steps</span> <span class="o">*</span> <span class="n">i</span><span class="p">,</span> <span class="n">q3</span><span class="p">,</span> <span class="n">ch</span><span class="p">])</span>
     <span class="k">return</span> <span class="n">action</span>
 
 
-<span class="n">fig</span><span class="p">,</span> <span class="n">ax</span> <span class="o">=</span> <span class="n">plt</span><span class="o">.</span><span class="n">subplots</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">figsize</span> <span class="o">=</span> <span class="p">(</span><span class="mi">7</span><span class="p">,</span> <span class="mi">4</span><span class="p">))</span>
+<span class="n">fig</span><span class="p">,</span> <span class="n">ax</span> <span class="o">=</span> <span class="n">plt</span><span class="o">.</span><span class="n">subplots</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">figsize</span><span class="o">=</span><span class="p">(</span><span class="mi">7</span><span class="p">,</span> <span class="mi">4</span><span class="p">))</span>
 <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">steps</span><span class="p">):</span>
     <span class="n">action</span> <span class="o">=</span> <span class="n">change_vertical_corrector</span><span class="p">(</span><span class="mf">0.2</span><span class="p">,</span> <span class="o">-</span><span class="mf">0.2</span><span class="p">,</span> <span class="o">-</span><span class="mf">0.5</span><span class="p">,</span> <span class="mf">0.3</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">steps</span><span class="p">,</span> <span class="n">i</span><span class="p">)</span>
     <span class="n">env</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">action</span><span class="p">)</span>
-    
+
     <span class="n">img</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">render</span><span class="p">()</span>
     <span class="n">ax</span><span class="o">.</span><span class="n">imshow</span><span class="p">(</span><span class="n">img</span><span class="p">)</span>
     <span class="n">display</span><span class="p">(</span><span class="n">fig</span><span class="p">)</span>
@@ -8250,8 +8252,8 @@ <h3>Relevant <code>config</code> parameters</h3>
 <h3>Reward = <code>objective_improvement</code></h3>
 Difference of the objective:
 
-<p>$$ r_\mathrm{obj-improvement} = ( \mathrm{obj}_{j-1} - \mathrm{obj}_{j} ) / \mathrm{obj}_0 $$</p>
-<p>$$ obj = \sum_{i}|b_i^\mathrm{(c)} - b_i^\mathrm{(t)}|$$</p>
+<p>$$ r*\mathrm{obj-improvement} = ( \mathrm{obj}*{j-1} - \mathrm{obj}\_{j} ) / \mathrm{obj}\_0 $$</p>
+<p>$$ obj = \sum\_{i}|b_i^\mathrm{(c)} - b_i^\mathrm{(t)}|$$</p>
 <p>where $j$ is the index of the current time step.</p>
 </div>
 </div>
@@ -8290,7 +8292,7 @@ <h3 style="color:#038aa1;">Question</h3>
 <span class="k">while</span> <span class="ow">not</span> <span class="p">(</span><span class="n">terminated</span> <span class="ow">or</span> <span class="n">truncated</span><span class="p">):</span>
     <span class="n">action</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">loaded_model</span><span class="o">.</span><span class="n">predict</span><span class="p">(</span><span class="n">observation</span><span class="p">)</span>
     <span class="n">observation</span><span class="p">,</span> <span class="n">reward</span><span class="p">,</span> <span class="n">terminated</span><span class="p">,</span> <span class="n">truncated</span><span class="p">,</span> <span class="n">info</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">action</span><span class="p">)</span>
-    
+
     <span class="n">img</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">render</span><span class="p">()</span>
     <span class="n">ax</span><span class="o">.</span><span class="n">imshow</span><span class="p">(</span><span class="n">img</span><span class="p">)</span>
     <span class="n">display</span><span class="p">(</span><span class="n">fig</span><span class="p">)</span>
@@ -8369,7 +8371,7 @@ <h3 style="color:#038aa1;">Question</h3>
 <span class="k">while</span> <span class="ow">not</span> <span class="p">(</span><span class="n">terminated</span> <span class="ow">or</span> <span class="n">truncated</span><span class="p">):</span>
     <span class="n">action</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">loaded_model</span><span class="o">.</span><span class="n">predict</span><span class="p">(</span><span class="n">observation</span><span class="p">)</span>
     <span class="n">observation</span><span class="p">,</span> <span class="n">reward</span><span class="p">,</span> <span class="n">terminated</span><span class="p">,</span> <span class="n">truncated</span><span class="p">,</span> <span class="n">info</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">action</span><span class="p">)</span>
-    
+
     <span class="n">img</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">render</span><span class="p">()</span>
     <span class="n">ax</span><span class="o">.</span><span class="n">imshow</span><span class="p">(</span><span class="n">img</span><span class="p">)</span>
     <span class="n">display</span><span class="p">(</span><span class="n">fig</span><span class="p">)</span>
@@ -8412,7 +8414,7 @@ <h3>Relevant <code>config</code> parameters</h3>
 <h3>Reward = <code>objective_improvement</code></h3>
 Difference of the objective:
 
-<p>$$ r_\mathrm{obj-improvement} = ( \mathrm{obj}_{j-1} - \mathrm{obj}_{j} ) / \mathrm{obj}_0 $$
+<p>$$ r*\mathrm{obj-improvement} = ( \mathrm{obj}*{j-1} - \mathrm{obj}_{j} ) / \mathrm{obj}\_0 $$
 $$ obj = \sum_{i}|b_i^\mathrm{(c)} - b_i^\mathrm{(t)}|$$</p>
 <p>where $j$ is the index of the current time step.</p>
 </div>
@@ -8453,7 +8455,7 @@ <h3 style="color:#038aa1;">Question</h3>
 <span class="k">while</span> <span class="ow">not</span> <span class="p">(</span><span class="n">terminated</span> <span class="ow">or</span> <span class="n">truncated</span><span class="p">):</span>
     <span class="n">action</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">loaded_model</span><span class="o">.</span><span class="n">predict</span><span class="p">(</span><span class="n">observation</span><span class="p">)</span>
     <span class="n">observation</span><span class="p">,</span> <span class="n">reward</span><span class="p">,</span> <span class="n">terminated</span><span class="p">,</span> <span class="n">truncated</span><span class="p">,</span> <span class="n">info</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">action</span><span class="p">)</span>
-    
+
     <span class="n">img</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">render</span><span class="p">()</span>
     <span class="n">ax</span><span class="o">.</span><span class="n">imshow</span><span class="p">(</span><span class="n">img</span><span class="p">)</span>
     <span class="n">display</span><span class="p">(</span><span class="n">fig</span><span class="p">)</span>
@@ -8496,7 +8498,7 @@ <h3>Relevant <code>config</code> parameters</h3>
 <h3>Reward = <code>objective_improvement</code></h3>
 Difference of the objective:
 
-<p>$$ r_\mathrm{obj-improvement} = ( \mathrm{obj}_{j-1} - \mathrm{obj}_{j} ) / \mathrm{obj}_0 $$
+<p>$$ r*\mathrm{obj-improvement} = ( \mathrm{obj}*{j-1} - \mathrm{obj}_{j} ) / \mathrm{obj}\_0 $$
 $$ obj = \sum_{i}|b_i^\mathrm{(c)} - b_i^\mathrm{(t)}|$$</p>
 <p>where $j$ is the index of the current time step.</p>
 </div>
@@ -8537,7 +8539,7 @@ <h3 style="color:#038aa1;">Question</h3>
 <span class="k">while</span> <span class="ow">not</span> <span class="p">(</span><span class="n">terminated</span> <span class="ow">or</span> <span class="n">truncated</span><span class="p">):</span>
     <span class="n">action</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">loaded_model</span><span class="o">.</span><span class="n">predict</span><span class="p">(</span><span class="n">observation</span><span class="p">)</span>
     <span class="n">observation</span><span class="p">,</span> <span class="n">reward</span><span class="p">,</span> <span class="n">terminated</span><span class="p">,</span> <span class="n">truncated</span><span class="p">,</span> <span class="n">info</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">action</span><span class="p">)</span>
-    
+
     <span class="n">img</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">render</span><span class="p">()</span>
     <span class="n">ax</span><span class="o">.</span><span class="n">imshow</span><span class="p">(</span><span class="n">img</span><span class="p">)</span>
     <span class="n">display</span><span class="p">(</span><span class="n">fig</span><span class="p">)</span>
@@ -8580,7 +8582,7 @@ <h3>Relevant <code>config</code> parameters</h3>
 <h3>Reward = <code>negative_objective"</code></h3>
 $$ \mathrm{obj} = \sum_{i}|b_i^\mathrm{(c)} - b_i^\mathrm{(t)}|$$
 
-<p>$$ r_\mathrm{neg-obj} = -1 * \mathrm{obj} / \mathrm{obj}_0 $$</p>
+<p>$$ r\_\mathrm{neg-obj} = -1 \* \mathrm{obj} / \mathrm{obj}\_0 $$</p>
 <p>where $b = [\mu_x,\sigma_x,\mu_y,\sigma_y]$, $b^\mathrm{(c)}$ is the current beam, and $b^\mathrm{(t)}$ is the target beam. $\mathrm{obj}_0$ is the initial objective after <code>reset</code>.</p>
 </div>
 </div>
@@ -8619,7 +8621,7 @@ <h3 style="color:#038aa1;">Question</h3>
 <span class="k">while</span> <span class="ow">not</span> <span class="p">(</span><span class="n">terminated</span> <span class="ow">or</span> <span class="n">truncated</span><span class="p">):</span>
     <span class="n">action</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">loaded_model</span><span class="o">.</span><span class="n">predict</span><span class="p">(</span><span class="n">observation</span><span class="p">)</span>
     <span class="n">observation</span><span class="p">,</span> <span class="n">reward</span><span class="p">,</span> <span class="n">terminated</span><span class="p">,</span> <span class="n">truncated</span><span class="p">,</span> <span class="n">info</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">action</span><span class="p">)</span>
-    
+
     <span class="n">img</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">render</span><span class="p">()</span>
     <span class="n">ax</span><span class="o">.</span><span class="n">imshow</span><span class="p">(</span><span class="n">img</span><span class="p">)</span>
     <span class="n">display</span><span class="p">(</span><span class="n">fig</span><span class="p">)</span>
@@ -8973,7 +8975,7 @@ <h2 style="color: #b51f2a">Agent evaluation</h2>
 <div class="jp-InputPrompt jp-InputArea-prompt">In [26]:</div>
 <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline">
 <div class="cm-editor cm-s-jupyter">
-<div class="highlight hl-ipython3"><pre><span></span><span class="n">plt</span><span class="o">.</span><span class="n">figure</span><span class="p">(</span><span class="n">figsize</span> <span class="o">=</span> <span class="p">(</span><span class="mi">7</span><span class="p">,</span><span class="mi">4</span><span class="p">))</span>
+<div class="highlight hl-ipython3"><pre><span></span><span class="n">plt</span><span class="o">.</span><span class="n">figure</span><span class="p">(</span><span class="n">figsize</span><span class="o">=</span><span class="p">(</span><span class="mi">7</span><span class="p">,</span> <span class="mi">4</span><span class="p">))</span>
 <span class="n">evaluate_ares_ea_agent</span><span class="p">(</span><span class="n">agent_under_investigation</span><span class="p">,</span> <span class="n">include_position</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">n</span><span class="o">=</span><span class="mi">2000</span><span class="p">)</span>
 </pre></div>
 </div>
@@ -9037,7 +9039,7 @@ <h2 style="color: #b51f2a">Agent evaluation</h2>
 <span class="k">while</span> <span class="ow">not</span> <span class="n">done</span><span class="p">:</span>
     <span class="n">action</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">loaded_model</span><span class="o">.</span><span class="n">predict</span><span class="p">(</span><span class="n">observation</span><span class="p">)</span>
     <span class="n">observation</span><span class="p">,</span> <span class="n">reward</span><span class="p">,</span> <span class="n">done</span><span class="p">,</span> <span class="n">info</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">action</span><span class="p">)</span>
-    
+
     <span class="n">img</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">render</span><span class="p">(</span><span class="n">mode</span><span class="o">=</span><span class="s2">"rgb_array"</span><span class="p">)</span>
     <span class="n">ax</span><span class="o">.</span><span class="n">imshow</span><span class="p">(</span><span class="n">img</span><span class="p">)</span>
     <span class="n">display</span><span class="p">(</span><span class="n">fig</span><span class="p">)</span>