slides/2013-02-22-Decision-Trees.html

<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
               "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" lang="en" xml:lang="en">
<head>
<title>2013-02-22-Decision-Trees</title>
<meta http-equiv="Content-Type" content="text/html;charset=utf-8"/>
<meta name="title" content="2013-02-22-Decision-Trees"/>
<meta name="generator" content="Org-mode"/>
<meta name="generated" content="2013-02-22 08:41:02 PST"/>
<meta name="author" content="Jim Blomo"/>
<meta name="description" content=""/>
<meta name="keywords" content=""/>

<link rel="stylesheet" type="text/css" href="production/common.css" />
<link rel="stylesheet" type="text/css" href="production/screen.css" media="screen" />
<link rel="stylesheet" type="text/css" href="production/projection.css" media="projection" />
<link rel="stylesheet" type="text/css" href="production/color-blue.css" media="projection" />
<link rel="stylesheet" type="text/css" href="production/presenter.css" media="presenter" />
<link href='http://fonts.googleapis.com/css?family=Lobster+Two:700|Yanone+Kaffeesatz:700|Open+Sans' rel='stylesheet' type='text/css'>


</head>
<body>

<div id="preamble">

</div>

<div id="content">
<h1 class="title">2013-02-22-Decision-Trees</h1>


<div id="table-of-contents">
<h2>Table of Contents</h2>
<div id="text-table-of-contents">
<ul>
<li><a href="#sec-1">1 Classification: Decision Trees</a></li>
<li><a href="#sec-2">2 Types of Models</a>
<ul>
<li><a href="#sec-2-1">2.1 Details</a></li>
</ul>
</li>
<li><a href="#sec-3">3 Process</a>
<ul>
<li><a href="#sec-3-1">3.1 Steps</a></li>
</ul>
</li>
<li><a href="#sec-4">4 Learning</a>
<ul>
<li><a href="#sec-4-1">4.1 Example</a></li>
</ul>
</li>
<li><a href="#sec-5">5 Classification</a>
<ul>
<li><a href="#sec-5-1">5.1 Possibilities</a></li>
</ul>
</li>
<li><a href="#sec-6">6 Machine Learning</a>
<ul>
<li><a href="#sec-6-1">6.1 Which is this?</a></li>
</ul>
</li>
<li><a href="#sec-7">7 Confusion Matrix</a>
<ul>
<li><a href="#sec-7-1">7.1 Basis for Evaluation</a></li>
</ul>
</li>
<li><a href="#sec-8">8 Recall &amp; Precision</a>
<ul>
<li><a href="#sec-8-1">8.1 Trade-off</a></li>
</ul>
</li>
<li><a href="#sec-9">9 Example: Search</a>
<ul>
<li><a href="#sec-9-1">9.1 Searching Yelp</a></li>
</ul>
</li>
<li><a href="#sec-10">10 Decision Trees</a>
<ul>
<li><a href="#sec-10-1">10.1 Rules expressed trees</a></li>
</ul>
</li>
<li><a href="#sec-11">11 Build a Tree</a>
<ul>
<li><a href="#sec-11-1">11.1 Directions</a></li>
</ul>
</li>
<li><a href="#sec-12">12 Build a Tree</a>
<ul>
<li><a href="#sec-12-1">12.1 Next challenge</a></li>
<li><a href="#sec-12-2">12.2 Build a Tree</a>
<ul>
<li><a href="#sec-12-2-1">12.2.1 Result</a></li>
</ul></li>
</ul>
</li>
<li><a href="#sec-13">13 Decision Tree Induction</a>
<ul>
<li><a href="#sec-13-1">13.1 Recursive</a></li>
</ul>
</li>
<li><a href="#sec-14">14 Information Gain</a>
<ul>
<li><a href="#sec-14-1">14.1 Information</a></li>
</ul>
</li>
<li><a href="#sec-15">15 Gini Index</a></li>
<li><a href="#sec-16">16 Splitting</a>
<ul>
<li><a href="#sec-16-1">16.1 Different</a></li>
</ul>
</li>
<li><a href="#sec-17">17 Decision Tree Advantages</a>
<ul>
<li><a href="#sec-17-1">17.1 Trees</a></li>
</ul>
</li>
<li><a href="#sec-18">18 <b>Break</b></a></li>
</ul>
</div>
</div>

<div id="outline-container-1" class="outline-2">
<h2 id="sec-1"><span class="section-number-2">1</span> Classification: Decision Trees &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-1">


</div>

</div>

<div id="outline-container-2" class="outline-2">
<h2 id="sec-2"><span class="section-number-2">2</span> Types of Models &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span>&nbsp;<span class="animate">animate</span></span></h2>
<div class="outline-text-2" id="text-2">

<ul>
<li>Classifiers
</li>
<li>Regressions
</li>
<li>Clustering
</li>
<li>Outlier
</li>
</ul>


</div>

<div id="outline-container-2-1" class="outline-3">
<h3 id="sec-2-1"><span class="section-number-3">2.1</span> Details &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-2-1">

<dl>
<dt>Classifiers</dt><dd>describes and distinguishes cases. Yelp may want to find a
    category for a business based on the reviews and business description
</dd>
<dt>Regressions</dt><dd>Predict a continuous value. Eg. predict a home's selling
    price given sq footage, # of bedrooms
</dd>
<dt>Clustering</dt><dd>find "natural" groups of data <b>without labels</b>
</dd>
<dt>Outlier</dt><dd>find anomalous transactions, eg. finding fraud for credit cards
</dd>
</dl>


</div>
</div>

</div>

<div id="outline-container-3" class="outline-2">
<h2 id="sec-3"><span class="section-number-2">3</span> Process &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span>&nbsp;<span class="animate">animate</span></span></h2>
<div class="outline-text-2" id="text-3">

<ul>
<li>Training Set
</li>
<li>Learning
</li>
<li>Model / Classifier
</li>
<li>Testing Set
</li>
<li>Verification / Accuracy
</li>
<li>New Data
</li>
<li>Classification
</li>
</ul>


</div>

<div id="outline-container-3-1" class="outline-3">
<h3 id="sec-3-1"><span class="section-number-3">3.1</span> Steps &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-3-1">

<dl>
<dt>Process</dt><dd>to be able to classify data
</dd>
<dt>Training Set</dt><dd>Cleaned, preprocessed data that has labels. What are
     labels?
</dd>
<dt>Learning</dt><dd>Feed the training set to an algorithm. Algorithm associates
     some of the features with the labels and generates a model.
</dd>
<dt>Model / Classifier</dt><dd>Process or formula used to predict the label (class) given inputs
     (data record)
</dd>
<dt>Testing Set</dt><dd>Data <b>not in training set</b>, with labels.  Run through model
     to see how the model compares with the real labels.
</dd>
<dt>Verification / Accuracy</dt><dd>Given the matches / mismatches in the testing
     set, how can we measure how well the model reflects reality?
</dd>
<dt>Unseen Data</dt><dd>Finally, we're ready to start using our model / classifier to
     label new, real, unknown data! So clean and pre-process it the same way.
</dd>
<dt>Classification</dt><dd>Feed the unknown data and get out results!
</dd>
</dl>


</div>
</div>

</div>

<div id="outline-container-4" class="outline-2">
<h2 id="sec-4"><span class="section-number-2">4</span> Learning &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-4">

<p>  <img src="img/model.png"  alt="img/model.png" />
</p>
</div>

<div id="outline-container-4-1" class="outline-3">
<h3 id="sec-4-1"><span class="section-number-3">4.1</span> Example &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-4-1">

<ul>
<li>We have training data. What are these column types?
</li>
<li>Feed it into a classification algorithm
</li>
<li>In the case it is generating Rules.
</li>
<li>Models can be as simple as this: just a set of rules to follow. We'll see
     how we can extend this idea
</li>
<li>The learning step generates a model: these rules
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-5" class="outline-2">
<h2 id="sec-5"><span class="section-number-2">5</span> Classification &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-5">

<p>  <img src="img/classifying.png"  alt="img/classifying.png" />
</p>
</div>

<div id="outline-container-5-1" class="outline-3">
<h3 id="sec-5-1"><span class="section-number-3">5.1</span> Possibilities &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-5-1">

<ul>
<li>Now that we have the model / classifier, we can do two things
</li>
<li>1: Use testing data <b>different</b> from training data
</li>
<li>compare the classifier guesses with reality
</li>
<li>2: Use the classifier on unknown data
</li>
<li>Why not just jump into classifying unknown data? Why have a test step?
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-6" class="outline-2">
<h2 id="sec-6"><span class="section-number-2">6</span> Machine Learning &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-6">

<dl>
<dt>Supervised</dt><dd>Given data with a label, predict data without a
    label
</dd>
<dt>Unsupervised</dt><dd>Given data without labels, group "similar" items
    together
</dd>
<dt>Semi-supervised</dt><dd>Mix of the above: eg. unsupervised to find groups,
    supervised to label and distinguish borderline cases
</dd>
<dt>Active</dt><dd>Starting with unlabeled data, select the most helpful cases for a
    human to label
</dd>
</dl>


</div>

<div id="outline-container-6-1" class="outline-3">
<h3 id="sec-6-1"><span class="section-number-3">6.1</span> Which is this? &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-6-1">

<ul>
<li>In the example above, what type of learning?
</li>
<li>Supervised: we have labels, we want to guess unlabeled data
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-7" class="outline-2">
<h2 id="sec-7"><span class="section-number-2">7</span> Confusion Matrix &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-7">

<ul>
<li>What are the ways that classification can be wrong?
</li>
</ul>

<table border="2" cellspacing="0" cellpadding="6" rules="groups" frame="hsides">
<caption></caption>
<colgroup><col class="left" /><col class="left" /><col class="left" />
</colgroup>
<tbody>
<tr><td class="left"></td><td class="left">Predict: Positive</td><td class="left">Predict: Negative</td></tr>
<tr><td class="left">Actual: Positive</td><td class="left">True Positive</td><td class="left">False Negative</td></tr>
<tr><td class="left">Actual: Negative</td><td class="left">False Negative</td><td class="left">True Negative</td></tr>
</tbody>
</table>


</div>

<div id="outline-container-7-1" class="outline-3">
<h3 id="sec-7-1"><span class="section-number-3">7.1</span> Basis for Evaluation &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-7-1">

<ul>
<li>Most methods of evaluating results start with the confusion matrix
</li>
<li>Figuring out what different ways you were right or wrong
</li>
<li>Then using different formulas to emphasize the things you care about
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-8" class="outline-2">
<h2 id="sec-8"><span class="section-number-2">8</span> Recall &amp; Precision &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-8">

<ul>
<li>Recall: <code>TP / P</code>
</li>
<li>Precision: <code>TP / (TP + FP)</code>
</li>
<li>Sometimes these are in tension; other measurements balance them
</li>
</ul>


</div>

<div id="outline-container-8-1" class="outline-3">
<h3 id="sec-8-1"><span class="section-number-3">8.1</span> Trade-off &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-8-1">

<ul>
<li>Classic trade-off in search
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-9" class="outline-2">
<h2 id="sec-9"><span class="section-number-2">9</span> Example: Search &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-9">

<p>  <img src="img/burrito-search.png"  alt="img/burrito-search.png" />
</p>
</div>

<div id="outline-container-9-1" class="outline-3">
<h3 id="sec-9-1"><span class="section-number-3">9.1</span> Searching Yelp &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-9-1">

<ul>
<li>Searched yelp for a burrito in the Mission
</li>
<li>How good are these search results?
</li>
<li>Let's say we knew this first result was great, and <b>only</b> returned it
</li>
<li>What would our precision be?
</li>
<li>What would the recall be?
</li>
<li>How could we improve recall?
</li>
<li>How can we guarantee 100% recall?
</li>
<li>What will that do to the precision?
</li>
<li>Understand ways of combining these measurements in the book
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-10" class="outline-2">
<h2 id="sec-10"><span class="section-number-2">10</span> Decision Trees &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-10">

<ul>
<li>Rules formulated as a tree of decisions
</li>
<li>Choose Your Own Adventure for machine learning
</li>
<li>So how do we build the trees?
</li>
</ul>


</div>

<div id="outline-container-10-1" class="outline-3">
<h3 id="sec-10-1"><span class="section-number-3">10.1</span> Rules expressed trees &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-10-1">

<ul>
<li>At each node in the tree, pose a question
</li>
<li>Take a branch depending on your answer
</li>
<li>Leaf nodes are labels
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-11" class="outline-2">
<h2 id="sec-11"><span class="section-number-2">11</span> Build a Tree &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-11">

<p>  <img src="img/model.png"  alt="img/model.png" />
</p>
</div>

<div id="outline-container-11-1" class="outline-3">
<h3 id="sec-11-1"><span class="section-number-3">11.1</span> Directions &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-11-1">

<ul>
<li>First node question: is rank=professor?
</li>
<li>If True, what's the label?
</li>
<li>If False, we go to another node
</li>
<li>Second node question: is years &gt; 6?
</li>
<li>If True what's the label?
</li>
<li>If False, what's the label?
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-12" class="outline-2">
<h2 id="sec-12"><span class="section-number-2">12</span> Build a Tree &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-12">

<p>  <img src="img/tree-dataset.png"  alt="img/tree-dataset.png" />
</p>
</div>

<div id="outline-container-12-1" class="outline-3">
<h3 id="sec-12-1"><span class="section-number-3">12.1</span> Next challenge &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-12-1">

<ul>
<li>How to go from a data set like this
</li>
</ul>


</div>

</div>

<div id="outline-container-12-2" class="outline-3">
<h3 id="sec-12-2"><span class="section-number-3">12.2</span> Build a Tree &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h3>
<div class="outline-text-3" id="text-12-2">

<p>   <img src="img/tree.png"  alt="img/tree.png" />
</p>
</div>

<div id="outline-container-12-2-1" class="outline-4">
<h4 id="sec-12-2-1"><span class="section-number-4">12.2.1</span> Result &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h4>
<div class="outline-text-4" id="text-12-2-1">

<ul>
<li>To a tree like this?
</li>
</ul>


</div>
</div>
</div>

</div>

<div id="outline-container-13" class="outline-2">
<h2 id="sec-13"><span class="section-number-2">13</span> Decision Tree Induction &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-13">

<ul>
<li>Start with all the data
</li>
<li>Choose the "best" way to divide it up based on one attribute
</li>
<li>Make a node that asks a question to split the data
</li>
<li>Choose new "best" way to divide based on remaining attributes
</li>
<li>Stop: no attributes left, all records are the same class
</li>
</ul>


</div>

<div id="outline-container-13-1" class="outline-3">
<h3 id="sec-13-1"><span class="section-number-3">13.1</span> Recursive &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-13-1">

<ul>
<li>Look at all the attributes. What's the best way to split up the data?
</li>
<li>We'll look at way to mathematically evaluate splits
</li>
<li>Now recursively do the same
</li>
<li>If you've split on all the attributes, but still have a mix, use a majority
     rule
</li>
<li>If all the records are the same class, you don't have to keep spitting:
     your answer is right there!
</li>
<li>For continuous data, must bucket it so you can have a discrete number of
     answers
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-14" class="outline-2">
<h2 id="sec-14"><span class="section-number-2">14</span> Information Gain &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-14">

<ul>
<li>Comparison of how mixed results are before and after splitting
</li>
<li>Entropy measurement of "mixed"
</li>
<li>Two pure data sets have less entropy on average than one mixed
</li>
</ul>


</div>

<div id="outline-container-14-1" class="outline-3">
<h3 id="sec-14-1"><span class="section-number-3">14.1</span> Information &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-14-1">

<ul>
<li>Book will go into detail about how to think about entropy
</li>
<li>General idea: how difficult would it be to memorize the data sets?
</li>
<li>Easy if pure: all class A
</li>
<li>Still fairly easy if 2 pure sets: 1 is class A, other is class B
</li>
<li>Now more difficult if they are mixed: first 2 records are A, then one B,
     then another A
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-15" class="outline-2">
<h2 id="sec-15"><span class="section-number-2">15</span> Gini Index &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-15">


<pre class="src src-python">Gini(D) = 1 - <span style="color: #7a378b;">sum</span>(frac**2 <span style="color: #a020f0;">for</span> frac <span style="color: #a020f0;">in</span> classes)
</pre>

<p>
  Sum of the squares of the fraction of items in each class
</p>
</div>

</div>

<div id="outline-container-16" class="outline-2">
<h2 id="sec-16"><span class="section-number-2">16</span> Splitting &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-16">

<ul>
<li>Discrete values can split per value
</li>
<li>Or discrete values binary split into subsets
</li>
<li>Continuous values can split on range (usually 2)
</li>
</ul>


</div>

<div id="outline-container-16-1" class="outline-3">
<h3 id="sec-16-1"><span class="section-number-3">16.1</span> Different &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-16-1">

<ul>
<li>If you'd like a binary tree (useful for some algorithms), can split on
     subsets
</li>
<li>Can't split 400 different ways on continuous values&hellip; what about values
     that haven't been seen before?
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-17" class="outline-2">
<h2 id="sec-17"><span class="section-number-2">17</span> Decision Tree Advantages &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-17">

<ul>
<li>Models easy to understand and visualize
</li>
<li>Can be faster to construct
</li>
<li>Can encode tree in declarative languages (SQL)
</li>
<li>Robust: outliers generally fit in with normal data
</li>
</ul>


</div>

<div id="outline-container-17-1" class="outline-3">
<h3 id="sec-17-1"><span class="section-number-3">17.1</span> Trees &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-17-1">

<ul>
<li>Its a tree! Easy to draw
</li>
<li>Greedy algorithm means you're only go over the data so many times
</li>
<li>Models can translate into database statements
</li>
<li>Outliers don't have a numeric pull on the data (similar to difference
     between median and mean)
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-18" class="outline-2">
<h2 id="sec-18"><span class="section-number-2">18</span> <b>Break</b> &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-18">


<script type="text/javascript" src="production/org-html-slideshow.js"></script>

</div>
</div>
</div>

<div id="postamble">
<p class="date">Date: 2013-02-22 08:41:02 PST</p>
<p class="author">Author: Jim Blomo</p>
<p class="creator">Org version 7.8.02 with Emacs version 23</p>
<a href="http://validator.w3.org/check?uri=referer">Validate XHTML 1.0</a>

</div>
</body>
</html>