docs/examples.html

<!DOCTYPE html>
<html class="writer-html5" lang="en" data-content_root="./">
<head>
  <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />

  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
  <title>Usage Examples &mdash; MABWiser 2.7.4 documentation</title>
      <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=80d5e7a1" />
      <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=19f00094" />

  
  <!--[if lt IE 9]>
    <script src="_static/js/html5shiv.min.js"></script>
  <![endif]-->
  
        <script src="_static/jquery.js?v=5d32c60e"></script>
        <script src="_static/_sphinx_javascript_frameworks_compat.js?v=2cd50e6c"></script>
        <script src="_static/documentation_options.js?v=e8140b17"></script>
        <script src="_static/doctools.js?v=888ff710"></script>
        <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
    <script src="_static/js/theme.js"></script>
    <link rel="author" title="About these documents" href="about.html" />
    <link rel="index" title="Index" href="genindex.html" />
    <link rel="search" title="Search" href="search.html" />
    <link rel="next" title="Contributing" href="contributing.html" />
    <link rel="prev" title="Quick Start" href="quick.html" /> 
</head>

<body class="wy-body-for-nav"> 
  <div class="wy-grid-for-nav">
    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
      <div class="wy-side-scroll">
        <div class="wy-side-nav-search" >

          
          <a href="index.html" class="icon icon-home">
            MABWiser
          </a>
<div role="search">
  <form id="rtd-search-form" class="wy-form" action="search.html" method="get">
    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
    <input type="hidden" name="check_keywords" value="yes" />
    <input type="hidden" name="area" value="default" />
  </form>
</div>
        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
              <ul class="current">
<li class="toctree-l1"><a class="reference internal" href="about.html">About Multi-Armed Bandits</a></li>
<li class="toctree-l1"><a class="reference internal" href="installation.html">Installation</a></li>
<li class="toctree-l1"><a class="reference internal" href="quick.html">Quick Start</a></li>
<li class="toctree-l1 current"><a class="current reference internal" href="#">Usage Examples</a><ul>
<li class="toctree-l2"><a class="reference internal" href="#context-free-mab">Context-Free MAB</a></li>
<li class="toctree-l2"><a class="reference internal" href="#parametric-contextual-mab">Parametric Contextual MAB</a></li>
<li class="toctree-l2"><a class="reference internal" href="#non-parametric-contextual-mab">Non-Parametric Contextual MAB</a></li>
<li class="toctree-l2"><a class="reference internal" href="#parallel-mab">Parallel MAB</a></li>
<li class="toctree-l2"><a class="reference internal" href="#simulator">Simulator</a></li>
</ul>
</li>
<li class="toctree-l1"><a class="reference internal" href="contributing.html">Contributing</a></li>
<li class="toctree-l1"><a class="reference internal" href="new_bandit.html">Adding a New Bandit</a></li>
<li class="toctree-l1"><a class="reference internal" href="api.html">MABWiser Public API</a></li>
</ul>

        </div>
      </div>
    </nav>

    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
          <a href="index.html">MABWiser</a>
      </nav>

      <div class="wy-nav-content">
        <div class="rst-content">
          <div role="navigation" aria-label="Page navigation">
  <ul class="wy-breadcrumbs">
      <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
      <li class="breadcrumb-item active">Usage Examples</li>
      <li class="wy-breadcrumbs-aside">
            <a href="_sources/examples.rst.txt" rel="nofollow"> View page source</a>
      </li>
  </ul>
  <hr/>
</div>
          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
           <div itemprop="articleBody">
             
  <section id="usage-examples">
<span id="examples"></span><h1>Usage Examples<a class="headerlink" href="#usage-examples" title="Link to this heading"></a></h1>
<p>The examples below show how to use different bandit policies to make decisions among multiple arms based on their expected rewards.</p>
<p>Conceptually, given a set of historical decisions and their corresponding rewards,
the high-level idea behind MABWiser is to train a model using the <code class="docutils literal notranslate"><span class="pre">fit()</span></code> method to make predictions
about next best decisions using the <code class="docutils literal notranslate"><span class="pre">predict()</span></code> method.</p>
<p>It is possible to retrieve the expected reward of each arm using the <code class="docutils literal notranslate"><span class="pre">predict_expectations()</span></code> method and
online training is available using the <code class="docutils literal notranslate"><span class="pre">partial_fit()</span></code> method.
New arms can be added to the bandits using the <code class="docutils literal notranslate"><span class="pre">add_arm()</span></code> method.
Decisions and rewards data support lists, 1D numpy arrays, and pandas series.
Contexts data supports 2D lists, 2D numpy arrays, pandas series and data frames.</p>
<div class="admonition seealso">
<p class="admonition-title">See also</p>
<p>Additional examples are available in the <a class="reference external" href="https://github.com/fidelity/mabwiser/tree/master/examples">examples folder</a> in the repo.</p>
</div>
<section id="context-free-mab">
<h2>Context-Free MAB<a class="headerlink" href="#context-free-mab" title="Link to this heading"></a></h2>
<div class="highlight-python notranslate"><div class="highlight"><pre><span></span>    <span class="kn">from</span> <span class="nn">mabwiser.mab</span> <span class="kn">import</span> <span class="n">MAB</span><span class="p">,</span> <span class="n">LearningPolicy</span>

<span class="c1">######################################################################################</span>
<span class="c1">#</span>
<span class="c1"># MABWiser</span>
<span class="c1"># Scenario: A/B Testing for Website Layout Design</span>
<span class="c1">#</span>
<span class="c1"># An e-commerce website experiments with 2 different layouts options for their homepage</span>
<span class="c1"># Each layouts decision leads to generating different revenues</span>
<span class="c1">#</span>
<span class="c1"># What should the choice of layouts be based on historical data?</span>
<span class="c1">#</span>
<span class="c1">######################################################################################</span>

<span class="c1"># Arms</span>
<span class="n">options</span> <span class="o">=</span> <span class="p">[</span><span class="mi">1</span><span class="p">,</span> <span class="mi">2</span><span class="p">]</span>

<span class="c1"># Historical data of layouts decisions and corresponding rewards</span>
<span class="n">layouts</span> <span class="o">=</span> <span class="p">[</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">]</span>
<span class="n">revenues</span> <span class="o">=</span> <span class="p">[</span><span class="mi">10</span><span class="p">,</span> <span class="mi">17</span><span class="p">,</span> <span class="mi">22</span><span class="p">,</span> <span class="mi">9</span><span class="p">,</span> <span class="mi">4</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">7</span><span class="p">,</span> <span class="mi">8</span><span class="p">,</span> <span class="mi">20</span><span class="p">,</span> <span class="mi">9</span><span class="p">,</span> <span class="mi">50</span><span class="p">,</span> <span class="mi">5</span><span class="p">,</span> <span class="mi">7</span><span class="p">,</span> <span class="mi">12</span><span class="p">,</span> <span class="mi">10</span><span class="p">]</span>

<span class="c1"># Arm to features</span>
<span class="n">arm_to_features</span> <span class="o">=</span> <span class="p">{</span><span class="mi">1</span><span class="p">:</span> <span class="p">[</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">],</span> <span class="mi">2</span><span class="p">:</span> <span class="p">[</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">0</span><span class="p">],</span> <span class="mi">3</span><span class="p">:</span> <span class="p">[</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">0</span><span class="p">]}</span>

<span class="c1">###################################</span>
<span class="c1"># Epsilon Greedy Learning Policy</span>
<span class="c1">###################################</span>

<span class="c1"># Epsilon Greedy learning policy with random exploration set to 15%</span>
<span class="n">greedy</span> <span class="o">=</span> <span class="n">MAB</span><span class="p">(</span><span class="n">arms</span><span class="o">=</span><span class="n">options</span><span class="p">,</span>
             <span class="n">learning_policy</span><span class="o">=</span><span class="n">LearningPolicy</span><span class="o">.</span><span class="n">EpsilonGreedy</span><span class="p">(</span><span class="n">epsilon</span><span class="o">=</span><span class="mf">0.15</span><span class="p">),</span>
             <span class="n">seed</span><span class="o">=</span><span class="mi">123456</span><span class="p">)</span>

<span class="c1"># Learn from previous layouts decisions and revenues generated</span>
<span class="n">greedy</span><span class="o">.</span><span class="n">fit</span><span class="p">(</span><span class="n">decisions</span><span class="o">=</span><span class="n">layouts</span><span class="p">,</span> <span class="n">rewards</span><span class="o">=</span><span class="n">revenues</span><span class="p">)</span>

<span class="c1"># Predict the next best layouts decision</span>
<span class="n">prediction</span> <span class="o">=</span> <span class="n">greedy</span><span class="o">.</span><span class="n">predict</span><span class="p">()</span>

<span class="c1"># Expected revenues of each layouts learnt from historical data based on epsilon greedy policy</span>
<span class="n">expectations</span> <span class="o">=</span> <span class="n">greedy</span><span class="o">.</span><span class="n">predict_expectations</span><span class="p">()</span>

<span class="c1"># Results</span>
<span class="nb">print</span><span class="p">(</span><span class="s2">&quot;Epsilon Greedy: &quot;</span><span class="p">,</span> <span class="n">prediction</span><span class="p">,</span> <span class="s2">&quot; &quot;</span><span class="p">,</span> <span class="n">expectations</span><span class="p">)</span>
<span class="k">assert</span><span class="p">(</span><span class="n">prediction</span> <span class="o">==</span> <span class="mi">2</span><span class="p">)</span>

<span class="c1"># Additional historical data becomes available which allows online learning</span>
<span class="n">additional_layouts</span> <span class="o">=</span> <span class="p">[</span><span class="mi">1</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">2</span><span class="p">]</span>
<span class="n">additional_revenues</span> <span class="o">=</span> <span class="p">[</span><span class="mi">0</span><span class="p">,</span> <span class="mi">12</span><span class="p">,</span> <span class="mi">7</span><span class="p">,</span> <span class="mi">19</span><span class="p">]</span>

<span class="c1"># Online updating of the model</span>
<span class="n">greedy</span><span class="o">.</span><span class="n">partial_fit</span><span class="p">(</span><span class="n">additional_layouts</span><span class="p">,</span> <span class="n">additional_revenues</span><span class="p">)</span>

<span class="c1"># Adding a new layout option</span>
<span class="n">greedy</span><span class="o">.</span><span class="n">add_arm</span><span class="p">(</span><span class="mi">3</span><span class="p">)</span>

<span class="c1"># Warm start new arm</span>
<span class="n">greedy</span><span class="o">.</span><span class="n">warm_start</span><span class="p">(</span><span class="n">arm_to_features</span><span class="p">,</span> <span class="n">distance_quantile</span><span class="o">=</span><span class="mf">0.5</span><span class="p">)</span>
</pre></div>
</div>
</section>
<section id="parametric-contextual-mab">
<h2>Parametric Contextual MAB<a class="headerlink" href="#parametric-contextual-mab" title="Link to this heading"></a></h2>
<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="kn">import</span> <span class="nn">pandas</span> <span class="k">as</span> <span class="nn">pd</span>
<span class="kn">from</span> <span class="nn">sklearn.preprocessing</span> <span class="kn">import</span> <span class="n">StandardScaler</span>

<span class="kn">from</span> <span class="nn">mabwiser.mab</span> <span class="kn">import</span> <span class="n">MAB</span><span class="p">,</span> <span class="n">LearningPolicy</span><span class="p">,</span> <span class="n">NeighborhoodPolicy</span>

<span class="c1">######################################################################################</span>
<span class="c1">#</span>
<span class="c1"># MABWiser</span>
<span class="c1"># Scenario: Advertisement Optimization</span>
<span class="c1">#</span>
<span class="c1"># An e-commerce website needs to solve the problem of which ad to display to online users</span>
<span class="c1"># Each advertisement decision leads to generating different revenues</span>
<span class="c1">#</span>
<span class="c1"># What should the choice of advertisement be given the context of an online user</span>
<span class="c1"># based on customer data such as age, click rate, subscriber?</span>
<span class="c1">#</span>
<span class="c1">######################################################################################</span>

<span class="c1"># Arms</span>
<span class="n">ads</span> <span class="o">=</span> <span class="p">[</span><span class="mi">1</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">4</span><span class="p">,</span> <span class="mi">5</span><span class="p">]</span>

<span class="c1"># Historical data of ad decisions with corresponding revenues and context information</span>
<span class="n">train_df</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">({</span><span class="s1">&#39;ad&#39;</span><span class="p">:</span> <span class="p">[</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">4</span><span class="p">,</span> <span class="mi">5</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">4</span><span class="p">,</span> <span class="mi">5</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">5</span><span class="p">],</span>
                                                     <span class="s1">&#39;revenues&#39;</span><span class="p">:</span> <span class="p">[</span><span class="mi">10</span><span class="p">,</span> <span class="mi">17</span><span class="p">,</span> <span class="mi">22</span><span class="p">,</span> <span class="mi">9</span><span class="p">,</span> <span class="mi">4</span><span class="p">,</span> <span class="mi">20</span><span class="p">,</span> <span class="mi">7</span><span class="p">,</span> <span class="mi">8</span><span class="p">,</span> <span class="mi">20</span><span class="p">,</span> <span class="mi">9</span><span class="p">,</span> <span class="mi">50</span><span class="p">,</span> <span class="mi">5</span><span class="p">,</span> <span class="mi">7</span><span class="p">,</span> <span class="mi">12</span><span class="p">,</span> <span class="mi">10</span><span class="p">],</span>
                                                     <span class="s1">&#39;age&#39;</span><span class="p">:</span> <span class="p">[</span><span class="mi">22</span><span class="p">,</span> <span class="mi">27</span><span class="p">,</span> <span class="mi">39</span><span class="p">,</span> <span class="mi">48</span><span class="p">,</span> <span class="mi">21</span><span class="p">,</span> <span class="mi">20</span><span class="p">,</span> <span class="mi">19</span><span class="p">,</span> <span class="mi">37</span><span class="p">,</span> <span class="mi">52</span><span class="p">,</span> <span class="mi">26</span><span class="p">,</span> <span class="mi">18</span><span class="p">,</span> <span class="mi">42</span><span class="p">,</span> <span class="mi">55</span><span class="p">,</span> <span class="mi">57</span><span class="p">,</span> <span class="mi">38</span><span class="p">],</span>
                                                     <span class="s1">&#39;click_rate&#39;</span><span class="p">:</span> <span class="p">[</span><span class="mf">0.2</span><span class="p">,</span> <span class="mf">0.6</span><span class="p">,</span> <span class="mf">0.99</span><span class="p">,</span> <span class="mf">0.68</span><span class="p">,</span> <span class="mf">0.15</span><span class="p">,</span> <span class="mf">0.23</span><span class="p">,</span> <span class="mf">0.75</span><span class="p">,</span> <span class="mf">0.17</span><span class="p">,</span>
                                                                                    <span class="mf">0.33</span><span class="p">,</span> <span class="mf">0.65</span><span class="p">,</span> <span class="mf">0.56</span><span class="p">,</span> <span class="mf">0.22</span><span class="p">,</span> <span class="mf">0.19</span><span class="p">,</span> <span class="mf">0.11</span><span class="p">,</span> <span class="mf">0.83</span><span class="p">],</span>
                                                     <span class="s1">&#39;subscriber&#39;</span><span class="p">:</span> <span class="p">[</span><span class="mi">1</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">0</span><span class="p">]}</span>
                                                     <span class="p">)</span>

<span class="c1"># Arm features for warm start</span>
<span class="n">arm_to_features</span> <span class="o">=</span> <span class="p">{</span><span class="mi">1</span><span class="p">:</span> <span class="p">[</span><span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">],</span> <span class="mi">2</span><span class="p">:</span> <span class="p">[</span><span class="mi">0</span><span class="p">,</span> <span class="mf">0.5</span><span class="p">,</span> <span class="mf">0.5</span><span class="p">],</span> <span class="mi">3</span><span class="p">:</span> <span class="p">[</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mf">0.5</span><span class="p">],</span> <span class="mi">4</span><span class="p">:</span> <span class="p">[</span><span class="mf">0.2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">0</span><span class="p">],</span> <span class="mi">5</span><span class="p">:</span> <span class="p">[</span><span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mf">0.1</span><span class="p">],</span> <span class="mi">6</span><span class="p">:</span> <span class="p">[</span><span class="mi">0</span><span class="p">,</span> <span class="mf">0.5</span><span class="p">,</span> <span class="mf">0.5</span><span class="p">]}</span>

<span class="c1"># Test data to for new prediction</span>
<span class="n">test_df</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">({</span><span class="s1">&#39;age&#39;</span><span class="p">:</span> <span class="p">[</span><span class="mi">37</span><span class="p">,</span> <span class="mi">52</span><span class="p">],</span> <span class="s1">&#39;click_rate&#39;</span><span class="p">:</span> <span class="p">[</span><span class="mf">0.5</span><span class="p">,</span> <span class="mf">0.6</span><span class="p">],</span> <span class="s1">&#39;subscriber&#39;</span><span class="p">:</span> <span class="p">[</span><span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">]})</span>
<span class="n">test_df_revenue</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">Series</span><span class="p">([</span><span class="mi">7</span><span class="p">,</span> <span class="mi">13</span><span class="p">])</span>

<span class="c1"># Scale the training and test data</span>
<span class="n">scaler</span> <span class="o">=</span> <span class="n">StandardScaler</span><span class="p">()</span>
<span class="n">train</span> <span class="o">=</span> <span class="n">scaler</span><span class="o">.</span><span class="n">fit_transform</span><span class="p">(</span><span class="n">train_df</span><span class="p">[[</span><span class="s1">&#39;age&#39;</span><span class="p">,</span> <span class="s1">&#39;click_rate&#39;</span><span class="p">,</span> <span class="s1">&#39;subscriber&#39;</span><span class="p">]])</span>
<span class="n">test</span> <span class="o">=</span> <span class="n">scaler</span><span class="o">.</span><span class="n">transform</span><span class="p">(</span><span class="n">test_df</span><span class="p">)</span>

<span class="c1">##################################################</span>
<span class="c1"># Linear Upper Confidence Bound Learning Policy</span>
<span class="c1">##################################################</span>

<span class="c1"># LinUCB learning policy with alpha 1.25 and l2_lambda 1</span>
<span class="n">linucb</span> <span class="o">=</span> <span class="n">MAB</span><span class="p">(</span><span class="n">arms</span><span class="o">=</span><span class="n">ads</span><span class="p">,</span>
                             <span class="n">learning_policy</span><span class="o">=</span><span class="n">LearningPolicy</span><span class="o">.</span><span class="n">LinUCB</span><span class="p">(</span><span class="n">alpha</span><span class="o">=</span><span class="mf">1.25</span><span class="p">,</span> <span class="n">l2_lambda</span><span class="o">=</span><span class="mi">1</span><span class="p">))</span>

<span class="c1"># Learn from previous ads shown and revenues generated</span>
<span class="n">linucb</span><span class="o">.</span><span class="n">fit</span><span class="p">(</span><span class="n">decisions</span><span class="o">=</span><span class="n">train_df</span><span class="p">[</span><span class="s1">&#39;ad&#39;</span><span class="p">],</span> <span class="n">rewards</span><span class="o">=</span><span class="n">train_df</span><span class="p">[</span><span class="s1">&#39;revenues&#39;</span><span class="p">],</span> <span class="n">contexts</span><span class="o">=</span><span class="n">train</span><span class="p">)</span>

<span class="c1"># Predict the next best ad to show</span>
<span class="n">prediction</span> <span class="o">=</span> <span class="n">linucb</span><span class="o">.</span><span class="n">predict</span><span class="p">(</span><span class="n">test</span><span class="p">)</span>

<span class="c1"># Expectation of each ad based on learning from past ad revenues</span>
<span class="n">expectations</span> <span class="o">=</span> <span class="n">linucb</span><span class="o">.</span><span class="n">predict_expectations</span><span class="p">(</span><span class="n">test</span><span class="p">)</span>

<span class="c1"># Results</span>
<span class="nb">print</span><span class="p">(</span><span class="s2">&quot;LinUCB: &quot;</span><span class="p">,</span> <span class="n">prediction</span><span class="p">,</span> <span class="s2">&quot; &quot;</span><span class="p">,</span> <span class="n">expectations</span><span class="p">)</span>
<span class="k">assert</span><span class="p">(</span><span class="n">prediction</span> <span class="o">==</span> <span class="p">[</span><span class="mi">5</span><span class="p">,</span> <span class="mi">2</span><span class="p">])</span>

<span class="c1"># Online update of model</span>
<span class="n">linucb</span><span class="o">.</span><span class="n">partial_fit</span><span class="p">(</span><span class="n">decisions</span><span class="o">=</span><span class="n">prediction</span><span class="p">,</span> <span class="n">rewards</span><span class="o">=</span><span class="n">test_df_revenue</span><span class="p">,</span> <span class="n">contexts</span><span class="o">=</span><span class="n">test</span><span class="p">)</span>

<span class="c1"># Update the model with new arm</span>
<span class="n">linucb</span><span class="o">.</span><span class="n">add_arm</span><span class="p">(</span><span class="mi">6</span><span class="p">)</span>

<span class="c1"># Warm start new arm</span>
<span class="n">linucb</span><span class="o">.</span><span class="n">warm_start</span><span class="p">(</span><span class="n">arm_to_features</span><span class="p">,</span> <span class="n">distance_quantile</span><span class="o">=</span><span class="mf">0.75</span><span class="p">)</span>
</pre></div>
</div>
</section>
<section id="non-parametric-contextual-mab">
<h2>Non-Parametric Contextual MAB<a class="headerlink" href="#non-parametric-contextual-mab" title="Link to this heading"></a></h2>
<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="kn">import</span> <span class="nn">pandas</span> <span class="k">as</span> <span class="nn">pd</span>
<span class="kn">from</span> <span class="nn">sklearn.preprocessing</span> <span class="kn">import</span> <span class="n">StandardScaler</span>

<span class="kn">from</span> <span class="nn">mabwiser.mab</span> <span class="kn">import</span> <span class="n">MAB</span><span class="p">,</span> <span class="n">LearningPolicy</span><span class="p">,</span> <span class="n">NeighborhoodPolicy</span>

<span class="c1">######################################################################################</span>
<span class="c1">#</span>
<span class="c1"># MABWiser</span>
<span class="c1"># Scenario: Advertisement Optimization</span>
<span class="c1">#</span>
<span class="c1"># An e-commerce website needs to solve the problem of which ad to display to online users</span>
<span class="c1"># Each advertisement decision leads to generating different revenues</span>
<span class="c1">#</span>
<span class="c1"># What should the choice of advertisement be given the context of an online user</span>
<span class="c1"># based on customer data such as age, click rate, subscriber?</span>
<span class="c1">#</span>
<span class="c1">######################################################################################</span>

<span class="c1"># Arms</span>
<span class="n">ads</span> <span class="o">=</span> <span class="p">[</span><span class="mi">1</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">4</span><span class="p">,</span> <span class="mi">5</span><span class="p">]</span>

<span class="c1"># Historical data of ad decisions with corresponding revenues and context information</span>
<span class="n">train_df</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">({</span><span class="s1">&#39;ad&#39;</span><span class="p">:</span> <span class="p">[</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">4</span><span class="p">,</span> <span class="mi">5</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">4</span><span class="p">,</span> <span class="mi">5</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">5</span><span class="p">],</span>
                                                     <span class="s1">&#39;revenues&#39;</span><span class="p">:</span> <span class="p">[</span><span class="mi">10</span><span class="p">,</span> <span class="mi">17</span><span class="p">,</span> <span class="mi">22</span><span class="p">,</span> <span class="mi">9</span><span class="p">,</span> <span class="mi">4</span><span class="p">,</span> <span class="mi">20</span><span class="p">,</span> <span class="mi">7</span><span class="p">,</span> <span class="mi">8</span><span class="p">,</span> <span class="mi">20</span><span class="p">,</span> <span class="mi">9</span><span class="p">,</span> <span class="mi">50</span><span class="p">,</span> <span class="mi">5</span><span class="p">,</span> <span class="mi">7</span><span class="p">,</span> <span class="mi">12</span><span class="p">,</span> <span class="mi">10</span><span class="p">],</span>
                                                     <span class="s1">&#39;age&#39;</span><span class="p">:</span> <span class="p">[</span><span class="mi">22</span><span class="p">,</span> <span class="mi">27</span><span class="p">,</span> <span class="mi">39</span><span class="p">,</span> <span class="mi">48</span><span class="p">,</span> <span class="mi">21</span><span class="p">,</span> <span class="mi">20</span><span class="p">,</span> <span class="mi">19</span><span class="p">,</span> <span class="mi">37</span><span class="p">,</span> <span class="mi">52</span><span class="p">,</span> <span class="mi">26</span><span class="p">,</span> <span class="mi">18</span><span class="p">,</span> <span class="mi">42</span><span class="p">,</span> <span class="mi">55</span><span class="p">,</span> <span class="mi">57</span><span class="p">,</span> <span class="mi">38</span><span class="p">],</span>
                                                     <span class="s1">&#39;click_rate&#39;</span><span class="p">:</span> <span class="p">[</span><span class="mf">0.2</span><span class="p">,</span> <span class="mf">0.6</span><span class="p">,</span> <span class="mf">0.99</span><span class="p">,</span> <span class="mf">0.68</span><span class="p">,</span> <span class="mf">0.15</span><span class="p">,</span> <span class="mf">0.23</span><span class="p">,</span> <span class="mf">0.75</span><span class="p">,</span> <span class="mf">0.17</span><span class="p">,</span>
                                                                                    <span class="mf">0.33</span><span class="p">,</span> <span class="mf">0.65</span><span class="p">,</span> <span class="mf">0.56</span><span class="p">,</span> <span class="mf">0.22</span><span class="p">,</span> <span class="mf">0.19</span><span class="p">,</span> <span class="mf">0.11</span><span class="p">,</span> <span class="mf">0.83</span><span class="p">],</span>
                                                    <span class="s1">&#39;subscriber&#39;</span><span class="p">:</span> <span class="p">[</span><span class="mi">1</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">0</span><span class="p">]}</span>
                                                    <span class="p">)</span>

<span class="c1"># Arm features for warm start</span>
<span class="n">arm_to_features</span> <span class="o">=</span> <span class="p">{</span><span class="mi">1</span><span class="p">:</span> <span class="p">[</span><span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">],</span> <span class="mi">2</span><span class="p">:</span> <span class="p">[</span><span class="mi">0</span><span class="p">,</span> <span class="mf">0.5</span><span class="p">,</span> <span class="mf">0.5</span><span class="p">],</span> <span class="mi">3</span><span class="p">:</span> <span class="p">[</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mf">0.5</span><span class="p">],</span> <span class="mi">4</span><span class="p">:</span> <span class="p">[</span><span class="mf">0.2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">0</span><span class="p">],</span> <span class="mi">5</span><span class="p">:</span> <span class="p">[</span><span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mf">0.1</span><span class="p">],</span> <span class="mi">6</span><span class="p">:</span> <span class="p">[</span><span class="mi">0</span><span class="p">,</span> <span class="mf">0.5</span><span class="p">,</span> <span class="mf">0.5</span><span class="p">]}</span>

<span class="c1"># Test data to for new prediction</span>
<span class="n">test_df</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">({</span><span class="s1">&#39;age&#39;</span><span class="p">:</span> <span class="p">[</span><span class="mi">37</span><span class="p">,</span> <span class="mi">52</span><span class="p">],</span> <span class="s1">&#39;click_rate&#39;</span><span class="p">:</span> <span class="p">[</span><span class="mf">0.5</span><span class="p">,</span> <span class="mf">0.6</span><span class="p">],</span> <span class="s1">&#39;subscriber&#39;</span><span class="p">:</span> <span class="p">[</span><span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">]})</span>
<span class="n">test_df_revenue</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">Series</span><span class="p">([</span><span class="mi">7</span><span class="p">,</span> <span class="mi">13</span><span class="p">])</span>

<span class="c1"># Scale the training and test data</span>
<span class="n">scaler</span> <span class="o">=</span> <span class="n">StandardScaler</span><span class="p">()</span>
<span class="n">train</span> <span class="o">=</span> <span class="n">scaler</span><span class="o">.</span><span class="n">fit_transform</span><span class="p">(</span><span class="n">train_df</span><span class="p">[[</span><span class="s1">&#39;age&#39;</span><span class="p">,</span> <span class="s1">&#39;click_rate&#39;</span><span class="p">,</span> <span class="s1">&#39;subscriber&#39;</span><span class="p">]])</span>
<span class="n">test</span> <span class="o">=</span> <span class="n">scaler</span><span class="o">.</span><span class="n">transform</span><span class="p">(</span><span class="n">test_df</span><span class="p">)</span>

<span class="c1">########################################################</span>
<span class="c1"># Radius Neighborhood Policy with UCB1 Learning Policy</span>
<span class="c1">########################################################</span>

<span class="c1"># Radius contextual policy with radius equals to 5 and ucb1 learning with alpha 1.25</span>
<span class="n">radius</span> <span class="o">=</span> <span class="n">MAB</span><span class="p">(</span><span class="n">arms</span><span class="o">=</span><span class="n">ads</span><span class="p">,</span>
                             <span class="n">learning_policy</span><span class="o">=</span><span class="n">LearningPolicy</span><span class="o">.</span><span class="n">UCB1</span><span class="p">(</span><span class="n">alpha</span><span class="o">=</span><span class="mf">1.25</span><span class="p">),</span>
                             <span class="n">neighborhood_policy</span><span class="o">=</span><span class="n">NeighborhoodPolicy</span><span class="o">.</span><span class="n">Radius</span><span class="p">(</span><span class="n">radius</span><span class="o">=</span><span class="mi">5</span><span class="p">))</span>

<span class="c1"># Learn from previous ads shown and revenues generated</span>
<span class="n">radius</span><span class="o">.</span><span class="n">fit</span><span class="p">(</span><span class="n">decisions</span><span class="o">=</span><span class="n">train_df</span><span class="p">[</span><span class="s1">&#39;ad&#39;</span><span class="p">],</span> <span class="n">rewards</span><span class="o">=</span><span class="n">train_df</span><span class="p">[</span><span class="s1">&#39;revenues&#39;</span><span class="p">],</span> <span class="n">contexts</span><span class="o">=</span><span class="n">train</span><span class="p">)</span>

<span class="c1"># Predict the next best ad to show</span>
<span class="n">prediction</span> <span class="o">=</span> <span class="n">radius</span><span class="o">.</span><span class="n">predict</span><span class="p">(</span><span class="n">test</span><span class="p">)</span>

<span class="c1"># Expectation of each ad based on learning from past ad revenues</span>
<span class="n">expectations</span> <span class="o">=</span> <span class="n">radius</span><span class="o">.</span><span class="n">predict_expectations</span><span class="p">(</span><span class="n">test</span><span class="p">)</span>

<span class="c1"># Results</span>
<span class="nb">print</span><span class="p">(</span><span class="s2">&quot;Radius: &quot;</span><span class="p">,</span> <span class="n">prediction</span><span class="p">,</span> <span class="s2">&quot; &quot;</span><span class="p">,</span> <span class="n">expectations</span><span class="p">)</span>
<span class="k">assert</span><span class="p">(</span><span class="n">prediction</span> <span class="o">==</span> <span class="p">[</span><span class="mi">4</span><span class="p">,</span> <span class="mi">4</span><span class="p">])</span>

<span class="c1"># Online update of model</span>
<span class="n">radius</span><span class="o">.</span><span class="n">partial_fit</span><span class="p">(</span><span class="n">decisions</span><span class="o">=</span><span class="n">prediction</span><span class="p">,</span> <span class="n">rewards</span><span class="o">=</span><span class="n">test_df_revenue</span><span class="p">,</span> <span class="n">contexts</span><span class="o">=</span><span class="n">test</span><span class="p">)</span>

<span class="c1"># Updating of the model with new arm</span>
<span class="n">radius</span><span class="o">.</span><span class="n">add_arm</span><span class="p">(</span><span class="mi">6</span><span class="p">)</span>

<span class="c1"># Warm start new arm</span>
<span class="n">radius</span><span class="o">.</span><span class="n">warm_start</span><span class="p">(</span><span class="n">arm_to_features</span><span class="p">,</span> <span class="n">distance_quantile</span><span class="o">=</span><span class="mf">0.75</span><span class="p">)</span>
</pre></div>
</div>
</section>
<section id="parallel-mab">
<h2>Parallel MAB<a class="headerlink" href="#parallel-mab" title="Link to this heading"></a></h2>
<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
<span class="kn">from</span> <span class="nn">sklearn.datasets</span> <span class="kn">import</span> <span class="n">make_classification</span>
<span class="kn">from</span> <span class="nn">sklearn.preprocessing</span> <span class="kn">import</span> <span class="n">StandardScaler</span>
<span class="kn">from</span> <span class="nn">sklearn.model_selection</span> <span class="kn">import</span> <span class="n">train_test_split</span>

<span class="kn">from</span> <span class="nn">mabwiser.mab</span> <span class="kn">import</span> <span class="n">MAB</span><span class="p">,</span> <span class="n">LearningPolicy</span>

<span class="c1">######################################################################################</span>
<span class="c1">#</span>
<span class="c1"># MABWiser</span>
<span class="c1"># Scenario: Playlist recommendation for music streaming service</span>
<span class="c1">#</span>
<span class="c1"># An online music streaming service wants to recommend a playlist to a user</span>
<span class="c1"># based on a user&#39;s listening history and user features. There is a large amount</span>
<span class="c1"># of data available to train this recommender model, which means the parallel</span>
<span class="c1"># functionality in MABWiser can be useful.</span>
<span class="c1">#</span>
<span class="c1">#</span>
<span class="c1">######################################################################################</span>

<span class="c1"># Seed</span>
<span class="n">seed</span> <span class="o">=</span> <span class="mi">111</span>

<span class="c1"># Arms</span>
<span class="n">arms</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="mi">100</span><span class="p">))</span>

<span class="c1"># Historical on user contexts and rewards (i.e. whether a user clicked</span>
<span class="c1"># on the recommended playlist or not)</span>
<span class="n">contexts</span><span class="p">,</span> <span class="n">rewards</span> <span class="o">=</span> <span class="n">make_classification</span><span class="p">(</span><span class="n">n_samples</span><span class="o">=</span><span class="mi">100000</span><span class="p">,</span> <span class="n">n_features</span><span class="o">=</span><span class="mi">200</span><span class="p">,</span>
                                        <span class="n">n_informative</span><span class="o">=</span><span class="mi">20</span><span class="p">,</span> <span class="n">weights</span><span class="o">=</span><span class="p">[</span><span class="mf">0.01</span><span class="p">],</span> <span class="n">scale</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span>

<span class="c1"># Independently simulate the recommended playlist for each event</span>
<span class="n">decisions</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">choice</span><span class="p">(</span><span class="n">arms</span><span class="p">,</span> <span class="n">size</span><span class="o">=</span><span class="mi">100000</span><span class="p">)</span>

<span class="c1"># Split data into train and test data sets</span>
<span class="n">contexts_train</span><span class="p">,</span> <span class="n">contexts_test</span> <span class="o">=</span> <span class="n">train_test_split</span><span class="p">(</span><span class="n">contexts</span><span class="p">,</span> <span class="n">test_size</span><span class="o">=</span><span class="mf">0.3</span><span class="p">,</span> <span class="n">random_state</span><span class="o">=</span><span class="n">seed</span><span class="p">)</span>
<span class="n">rewards_train</span><span class="p">,</span> <span class="n">rewards_test</span> <span class="o">=</span> <span class="n">train_test_split</span><span class="p">(</span><span class="n">rewards</span><span class="p">,</span> <span class="n">test_size</span><span class="o">=</span><span class="mf">0.3</span><span class="p">,</span> <span class="n">random_state</span><span class="o">=</span><span class="n">seed</span><span class="p">)</span>
<span class="n">decisions_train</span><span class="p">,</span> <span class="n">decisions_test</span> <span class="o">=</span> <span class="n">train_test_split</span><span class="p">(</span><span class="n">decisions</span><span class="p">,</span> <span class="n">test_size</span><span class="o">=</span><span class="mf">0.3</span><span class="p">,</span> <span class="n">random_state</span><span class="o">=</span><span class="n">seed</span><span class="p">)</span>

<span class="c1">#############################################################################</span>
<span class="c1"># Parallel Radius Neighborhood Policy with UCB1 Learning Policy using 8 Cores</span>
<span class="c1">#############################################################################</span>

<span class="c1"># Radius contextual policy with radius equals to 5 and ucb1 learning with alpha 1.25</span>
<span class="n">radius</span> <span class="o">=</span> <span class="n">MAB</span><span class="p">(</span><span class="n">arms</span><span class="o">=</span><span class="n">ads</span><span class="p">,</span>
                             <span class="n">learning_policy</span><span class="o">=</span><span class="n">LearningPolicy</span><span class="o">.</span><span class="n">UCB1</span><span class="p">(</span><span class="n">alpha</span><span class="o">=</span><span class="mf">1.25</span><span class="p">),</span>
                             <span class="n">neighborhood_policy</span><span class="o">=</span><span class="n">NeighborhoodPolicy</span><span class="o">.</span><span class="n">Radius</span><span class="p">(</span><span class="n">radius</span><span class="o">=</span><span class="mi">5</span><span class="p">),</span>
                             <span class="n">n_jobs</span><span class="o">=</span><span class="mi">8</span><span class="p">)</span>

<span class="c1"># Parallel Training</span>
<span class="c1"># Learn from playlists shown and observed click rewards for each arm</span>
<span class="c1"># In reality, we can scale the data --skipping this step in the toy example here</span>
<span class="n">radius</span><span class="o">.</span><span class="n">fit</span><span class="p">(</span><span class="n">decisions</span><span class="o">=</span><span class="n">decisions_train</span><span class="p">,</span> <span class="n">rewards</span><span class="o">=</span><span class="n">rewards_train</span><span class="p">,</span> <span class="n">contexts</span><span class="o">=</span><span class="n">contexts_train</span><span class="p">)</span>

<span class="c1"># Parallel Testing</span>
<span class="c1"># Predict the next best playlist to recommend</span>
<span class="n">prediction</span> <span class="o">=</span> <span class="n">radius</span><span class="o">.</span><span class="n">predict</span><span class="p">(</span><span class="n">contexts_test</span><span class="p">)</span>

<span class="c1"># Results</span>
<span class="nb">print</span><span class="p">(</span><span class="s2">&quot;radius: &quot;</span><span class="p">,</span> <span class="n">prediction</span><span class="p">[:</span><span class="mi">10</span><span class="p">])</span>
</pre></div>
</div>
</section>
<section id="simulator">
<h2>Simulator<a class="headerlink" href="#simulator" title="Link to this heading"></a></h2>
<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="kn">import</span> <span class="nn">random</span>
<span class="kn">from</span> <span class="nn">sklearn.preprocessing</span> <span class="kn">import</span> <span class="n">StandardScaler</span>
<span class="kn">from</span> <span class="nn">mabwiser.mab</span> <span class="kn">import</span> <span class="n">MAB</span><span class="p">,</span> <span class="n">LearningPolicy</span><span class="p">,</span> <span class="n">NeighborhoodPolicy</span>
<span class="kn">from</span> <span class="nn">mabwiser.simulator</span> <span class="kn">import</span> <span class="n">Simulator</span>

<span class="c1">######################################################################################</span>
<span class="c1">#</span>
<span class="c1"># MABWiser</span>
<span class="c1"># Scenario: Hyper-Parameter Tuning using the built-in Simulator capability</span>
<span class="c1">#</span>
<span class="c1">######################################################################################</span>

<span class="c1"># Data</span>
<span class="n">size</span> <span class="o">=</span> <span class="mi">1000</span>
<span class="n">decisions</span> <span class="o">=</span> <span class="p">[</span><span class="n">random</span><span class="o">.</span><span class="n">randint</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">)</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">size</span><span class="p">)]</span>
<span class="n">rewards</span> <span class="o">=</span> <span class="p">[</span><span class="n">random</span><span class="o">.</span><span class="n">randint</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">1000</span><span class="p">)</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">size</span><span class="p">)]</span>
<span class="n">contexts</span> <span class="o">=</span> <span class="p">[[</span><span class="n">random</span><span class="o">.</span><span class="n">random</span><span class="p">()</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">50</span><span class="p">)]</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">size</span><span class="p">)]</span>

<span class="c1"># Bandits to simulate</span>
<span class="n">n_jobs</span> <span class="o">=</span> <span class="mi">2</span>
<span class="n">hyper_parameter_tuning</span> <span class="o">=</span> <span class="p">[]</span>
<span class="k">for</span> <span class="n">radius</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">6</span><span class="p">,</span> <span class="mi">10</span><span class="p">):</span>
    <span class="n">hyper_parameter_tuning</span><span class="o">.</span><span class="n">append</span><span class="p">((</span><span class="s1">&#39;Radius&#39;</span><span class="o">+</span><span class="nb">str</span><span class="p">(</span><span class="n">radius</span><span class="p">),</span>
                                  <span class="n">MAB</span><span class="p">([</span><span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">],</span> <span class="n">LearningPolicy</span><span class="o">.</span><span class="n">UCB1</span><span class="p">(</span><span class="mi">1</span><span class="p">),</span>
                                      <span class="n">NeighborhoodPolicy</span><span class="o">.</span><span class="n">Radius</span><span class="p">(</span><span class="n">radius</span><span class="p">),</span>
                                      <span class="n">n_jobs</span><span class="o">=</span><span class="n">n_jobs</span><span class="p">)))</span>

<span class="c1"># Simulator with given bandits and data</span>
<span class="c1"># The parameters uses standard scaler,</span>
<span class="c1"># Test split size set to 0.5</span>
<span class="c1"># The split is not order dependent, i.e., random split</span>
<span class="c1"># Online training with batch size 10, i.e., bandits will re-train at each batch</span>
<span class="c1"># Offline training can be run with batch_size 0, i.e., no re-training during test phase</span>
<span class="n">sim</span> <span class="o">=</span> <span class="n">Simulator</span><span class="p">(</span><span class="n">hyper_parameter_tuning</span><span class="p">,</span> <span class="n">decisions</span><span class="p">,</span> <span class="n">rewards</span><span class="p">,</span> <span class="n">contexts</span><span class="p">,</span>
                <span class="n">scaler</span><span class="o">=</span><span class="n">StandardScaler</span><span class="p">(),</span> <span class="n">test_size</span><span class="o">=</span><span class="mf">0.5</span><span class="p">,</span> <span class="n">is_ordered</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">batch_size</span><span class="o">=</span><span class="mi">10</span><span class="p">,</span> <span class="n">seed</span><span class="o">=</span><span class="mi">123456</span><span class="p">)</span>

<span class="c1"># Run the simulator</span>
<span class="n">sim</span><span class="o">.</span><span class="n">run</span><span class="p">()</span>

<span class="c1"># Save the results with a prefix</span>
<span class="n">sim</span><span class="o">.</span><span class="n">save_results</span><span class="p">(</span><span class="s2">&quot;my_results_&quot;</span><span class="p">)</span>

<span class="c1"># You can probe the fields of the simulator for other statisics</span>
<span class="k">for</span> <span class="n">mab_name</span><span class="p">,</span> <span class="n">mab</span> <span class="ow">in</span> <span class="n">sim</span><span class="o">.</span><span class="n">bandits</span><span class="p">:</span>
    <span class="nb">print</span><span class="p">(</span><span class="n">mab_name</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">)</span>

    <span class="c1"># Since the simulation is online, print the &#39;total&#39; stats</span>
    <span class="nb">print</span><span class="p">(</span><span class="s1">&#39;Worst Case Scenario:&#39;</span><span class="p">,</span> <span class="n">sim</span><span class="o">.</span><span class="n">bandit_to_arm_to_stats_min</span><span class="p">[</span><span class="n">mab_name</span><span class="p">][</span><span class="s1">&#39;total&#39;</span><span class="p">])</span>
    <span class="nb">print</span><span class="p">(</span><span class="s1">&#39;Average Case Scenario:&#39;</span><span class="p">,</span> <span class="n">sim</span><span class="o">.</span><span class="n">bandit_to_arm_to_stats_avg</span><span class="p">[</span><span class="n">mab_name</span><span class="p">][</span><span class="s1">&#39;total&#39;</span><span class="p">])</span>
    <span class="nb">print</span><span class="p">(</span><span class="s1">&#39;Best Case Scenario:&#39;</span><span class="p">,</span> <span class="n">sim</span><span class="o">.</span><span class="n">bandit_to_arm_to_stats_max</span><span class="p">[</span><span class="n">mab_name</span><span class="p">][</span><span class="s1">&#39;total&#39;</span><span class="p">],</span> <span class="s2">&quot;</span><span class="se">\n\n</span><span class="s2">&quot;</span><span class="p">)</span>

<span class="c1"># Plot the average case results per every arm for each bandit</span>
<span class="n">sim</span><span class="o">.</span><span class="n">plot</span><span class="p">(</span><span class="n">metric</span><span class="o">=</span><span class="s1">&#39;avg&#39;</span><span class="p">,</span> <span class="n">is_per_arm</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
</pre></div>
</div>
<div class="admonition seealso">
<p class="admonition-title">See also</p>
<p>Additional examples are available in the <a class="reference external" href="https://github.com/fidelity/mabwiser/tree/master/examples">examples folder</a> in the repo.</p>
</div>
</section>
</section>


           </div>
          </div>
          <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
        <a href="quick.html" class="btn btn-neutral float-left" title="Quick Start" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
        <a href="contributing.html" class="btn btn-neutral float-right" title="Contributing" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
    </div>

  <hr/>

  <div role="contentinfo">
    <p>&#169; Copyright Copyright (C), FMR LLC.</p>
  </div>

  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
    provided by <a href="https://readthedocs.org">Read the Docs</a>.
   

</footer>
        </div>
      </div>
    </section>
  </div>
  <script>
      jQuery(function () {
          SphinxRtdTheme.Navigation.enable(true);
      });
  </script> 

</body>
</html>