From 573fc22fc8d96763241bb149f6290ce819bd0c57 Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Wed, 15 Apr 2015 16:54:30 +0200
Subject: [PATCH 01/64] added gitignore and modified manage.py

---
 .gitignore        | 1 +
 website/manage.py | 2 +-
 2 files changed, 2 insertions(+), 1 deletion(-)

diff --git a/.gitignore b/.gitignore
index 63d5c677..f53ec90f 100644
--- a/.gitignore
+++ b/.gitignore
@@ -1,3 +1,4 @@
+/.idea
 /articles
 
 *~
diff --git a/website/manage.py b/website/manage.py
index 6fd85def..cceb7f2d 100755
--- a/website/manage.py
+++ b/website/manage.py
@@ -11,7 +11,7 @@
 
 if __name__ == "__main__":
     os.environ.setdefault("DJANGO_SETTINGS_MODULE", "website.settings")
-    sys.path.append(os.path.dirname(os.getcwd()))
+    sys.path.append((os.getcwd()))
     from django.core.management import execute_from_command_line
 
     execute_from_command_line(sys.argv)

From a02e0c1317ebb0ff891270343e2e391fc10c0325 Mon Sep 17 00:00:00 2001
From: Robert Piwonski <piwonski.robert+git@gmail.com>
Date: Sun, 26 Apr 2015 20:27:55 +0200
Subject: [PATCH 02/64] First Version of the Zeit Online Parser

---
 parsers/zeit.py | 34 ++++++++++++++++++++++++++++++++++
 1 file changed, 34 insertions(+)
 create mode 100644 parsers/zeit.py

diff --git a/parsers/zeit.py b/parsers/zeit.py
new file mode 100644
index 00000000..1010b7b4
--- /dev/null
+++ b/parsers/zeit.py
@@ -0,0 +1,34 @@
+from baseparser import BaseParser
+from BeautifulSoup import BeautifulSoup, Tag
+
+
+class ZeitParser(BaseParser):
+    SUFFIX = '?print=true'
+    domains = ['www.zeit.de']
+
+    feeder_pat   = '^http://www.zeit.de/news/\d'
+    feeder_pages = ['http://www.zeit.de/news/index/']
+
+    def _parse(self, html):
+        soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
+                             fromEncoding='utf-8')
+
+        self.meta = soup.findAll('meta')
+        elt = soup.find('span', 'title')
+	elTopic = soup.find('span', 'supertitle')
+        if elt is None:
+            self.real_article = False
+            return
+        self.title = elt.getText()
+        self.byline = ''
+        self.date = soup.find('span', 'articlemeta-datetime').getText()
+
+        div = soup.find('div', 'article-body')
+        if div is None:
+            # Hack for video articles
+            div = soup.find('div', 'emp-decription')
+        if div is None:
+            self.real_article = False
+            return
+        self.body = '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
+                                      if isinstance(x, Tag) and x.name == 'p'])

From 7e19cbaf4c89ffae289811d14cbaa0dc909b66bd Mon Sep 17 00:00:00 2001
From: Robert Piwonski <piwonski.robert+git@gmail.com>
Date: Sun, 26 Apr 2015 20:57:15 +0200
Subject: [PATCH 03/64] enhanced Baseparser

---
 parsers/baseparser.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/parsers/baseparser.py b/parsers/baseparser.py
index ef2a9eb5..e746a7be 100644
--- a/parsers/baseparser.py
+++ b/parsers/baseparser.py
@@ -108,6 +108,7 @@ class BaseParser(object):
     # Used when finding articles to parse
     feeder_pat   = None # Look for links matching this regular expression
     feeder_pages = []   # on these pages
+    feeder_div = None
 
     feeder_bs = BeautifulSoup #use this version of beautifulsoup for feed
 
@@ -143,6 +144,8 @@ def feed_urls(cls):
         for feeder_url in cls.feeder_pages:
             html = grab_url(feeder_url)
             soup = cls.feeder_bs(html)
+	    if cls.feeder_div is not None:
+		soup = soup.find('div', cls.feeder_div)
 
             # "or ''" to make None into str
             urls = [a.get('href') or '' for a in soup.findAll('a')]

From d0e77a238d18b436731a121c8382d826d13ff87f Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Sun, 26 Apr 2015 23:17:10 +0200
Subject: [PATCH 04/64] modified frontend for new scrapers

---
 parsers/__init__.py        | 13 ++++++++-----
 parsers/bild.py            | 32 ++++++++++++++++++++++++++++++++
 parsers/focus.py           | 31 +++++++++++++++++++++++++++++++
 parsers/zeit.py            |  2 +-
 website/frontend/models.py |  3 +++
 website/frontend/views.py  |  2 +-
 6 files changed, 76 insertions(+), 7 deletions(-)
 create mode 100644 parsers/bild.py
 create mode 100644 parsers/focus.py

diff --git a/parsers/__init__.py b/parsers/__init__.py
index a6870dcf..7e589ac3 100644
--- a/parsers/__init__.py
+++ b/parsers/__init__.py
@@ -4,15 +4,18 @@
 #  - create a parser class in another file, based off (say) bbc.BBCParser
 #  - add it to parsers (below)
 # Test with test_parser.py
+#nyt.NYTParser
+#cnn.CNNParser
+#politico.PoliticoParser
+#bbc.BBCParser
+#washpo.WashPoParser
 
 # List of parsers to import and use based on parser.domains
 
 parsers = """
-nyt.NYTParser
-cnn.CNNParser
-politico.PoliticoParser
-bbc.BBCParser
-washpo.WashPoParser
+zeit.ZeitParser
+bild.BildParser
+focus.FocusParser
 """.split()
 
 parser_dict = {}
diff --git a/parsers/bild.py b/parsers/bild.py
new file mode 100644
index 00000000..85a3429d
--- /dev/null
+++ b/parsers/bild.py
@@ -0,0 +1,32 @@
+from baseparser import BaseParser
+from BeautifulSoup import BeautifulSoup, Tag
+
+
+class BildParser(BaseParser):
+    SUFFIX = ''
+    domains = ['www.bild.de']
+
+    feeder_pat   = '^http://www.bild.de/(politik|regional|geld)'
+    feeder_pages = ['http://www.bild.de/']
+
+    def _parse(self, html):
+        soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
+                             fromEncoding='utf-8')
+
+        self.meta = soup.findAll('meta')
+        elt = soup.find('span', 'headline')
+        if elt is None:
+            self.real_article = False
+            return
+        self.title = elt.getText()
+        self.byline = ''
+        self.date = soup.find(attrs = {'time' : 'datetime'})
+        self.authorids = soup.find('div', attrs={'itemprop':'author'})
+        self.authorid = self.authorids.getText() if self.authorids else ''
+
+        div = soup.find('div', 'articleBody')
+        if div is None:
+            self.real_article = False
+            return
+        self.body = '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
+                                      if isinstance(x, Tag) and x.name == 'p'])
diff --git a/parsers/focus.py b/parsers/focus.py
new file mode 100644
index 00000000..96d3d892
--- /dev/null
+++ b/parsers/focus.py
@@ -0,0 +1,31 @@
+from baseparser import BaseParser
+from BeautifulSoup import BeautifulSoup, Tag
+
+
+class FocusParser(BaseParser):
+    SUFFIX = ''
+    domains = ['www.focus.de']
+
+    feeder_pat   = '^http://www.focus.de/(politik|finanzen|panorama|gesundheit|wissen)'
+    feeder_pages = ['http://www.focus.de/']
+
+    def _parse(self, html):
+        soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
+                             fromEncoding='utf-8')
+
+        self.meta = soup.findAll('meta')
+        elt = soup.find('h1', 'articleIDentH1')
+        if elt is None:
+            self.real_article = False
+            return
+        self.title = elt.getText()
+        self.byline = ''
+        self.date = soup.find('span', 'created').getText()
+
+
+        div = soup.find('div', 'article-body')
+        if div is None:
+            self.real_article = False
+            return
+        self.body = '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
+                                      if isinstance(x, Tag) and x.name == 'p'])
diff --git a/parsers/zeit.py b/parsers/zeit.py
index 1010b7b4..dd8ca23c 100644
--- a/parsers/zeit.py
+++ b/parsers/zeit.py
@@ -15,7 +15,7 @@ def _parse(self, html):
 
         self.meta = soup.findAll('meta')
         elt = soup.find('span', 'title')
-	elTopic = soup.find('span', 'supertitle')
+        elTopic = soup.find('span', 'supertitle')
         if elt is None:
             self.real_article = False
             return
diff --git a/website/frontend/models.py b/website/frontend/models.py
index 3aa8a7ba..cdd0b548 100644
--- a/website/frontend/models.py
+++ b/website/frontend/models.py
@@ -22,6 +22,9 @@ def strip_prefix(string, prefix):
                    'www.bbc.co.uk': 'BBC',
                    'www.politico.com': 'Politico',
                    'www.washingtonpost.com': 'Washington Post',
+                   'www.zeit.de': 'Zeit Online',
+                   'www.bild.de': 'Bild',
+                   'www.focus.de': 'Focus Online',
                    }
 
 ancient = datetime(1901, 1, 1)
diff --git a/website/frontend/views.py b/website/frontend/views.py
index e439492e..537f8ae3 100644
--- a/website/frontend/views.py
+++ b/website/frontend/views.py
@@ -105,7 +105,7 @@ def get_articles(source=None, distance=0):
 
 
 SOURCES = '''nytimes.com cnn.com politico.com washingtonpost.com
-bbc.co.uk'''.split()
+bbc.co.uk zeit.de bild.de focus.de'''.split()
 
 def is_valid_domain(domain):
     """Cheap method to tell whether a domain is being tracked."""

From aeec6f6337db6c08d429a0c5b052a11824719ef7 Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Mon, 27 Apr 2015 00:20:49 +0200
Subject: [PATCH 05/64] parsing failes if change occures

---
 parsers/__init__.py        |  1 +
 parsers/spiegel.py         | 30 ++++++++++++++++++++++++++++++
 parsers/stern.py           | 30 ++++++++++++++++++++++++++++++
 parsers/welt.py            | 32 ++++++++++++++++++++++++++++++++
 website/frontend/models.py |  1 +
 website/frontend/views.py  |  2 +-
 6 files changed, 95 insertions(+), 1 deletion(-)
 create mode 100644 parsers/spiegel.py
 create mode 100644 parsers/stern.py
 create mode 100644 parsers/welt.py

diff --git a/parsers/__init__.py b/parsers/__init__.py
index 7e589ac3..e19cc49b 100644
--- a/parsers/__init__.py
+++ b/parsers/__init__.py
@@ -16,6 +16,7 @@
 zeit.ZeitParser
 bild.BildParser
 focus.FocusParser
+spiegel.SpiegelParser
 """.split()
 
 parser_dict = {}
diff --git a/parsers/spiegel.py b/parsers/spiegel.py
new file mode 100644
index 00000000..fca50f2a
--- /dev/null
+++ b/parsers/spiegel.py
@@ -0,0 +1,30 @@
+from baseparser import BaseParser
+from BeautifulSoup import BeautifulSoup, Tag
+
+
+class SpiegelParser(BaseParser):
+    SUFFIX = ''
+    domains = ['www.spiegel.de']
+
+    feeder_pat   = '^http://www.spiegel.de/(politik|wirtschaft|panorama|netzwelt|gesundheit)/'
+    feeder_pages = ['http://www.spiegel.de/schlagzeilen/index.html']
+
+    def _parse(self, html):
+        soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
+                             fromEncoding='utf-8')
+
+        self.meta = soup.findAll('meta')
+        elt = soup.find('h2', attrs={'class':'article-title'})
+        if elt is None:
+            self.real_article = False
+            return
+        self.title = elt.getText()
+        self.byline = ''
+        self.date = soup.find(attrs = {'time' : 'datetime'})
+
+        div = soup.find('div', 'article-section')
+        if div is None:
+            self.real_article = False
+            return
+        self.body = '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
+                                      if isinstance(x, Tag) and x.name == 'p'])
diff --git a/parsers/stern.py b/parsers/stern.py
new file mode 100644
index 00000000..ad2b172b
--- /dev/null
+++ b/parsers/stern.py
@@ -0,0 +1,30 @@
+from baseparser import BaseParser
+from BeautifulSoup import BeautifulSoup, Tag
+
+
+class SternParser(BaseParser):
+    SUFFIX = ''
+    domains = ['www.stern.de']
+
+    feeder_pat   = '^http://www.stern.de/(politik|wirtschaft|panorama|lifestyle|wissen|digital)/'
+    feeder_pages = ['http://www.stern.de/news']
+
+    def _parse(self, html):
+        soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
+                             fromEncoding='utf-8')
+
+        self.meta = soup.findAll('meta')
+        elt = soup.find('h2', attrs={'id':'div_article_headline'})
+        if elt is None:
+            self.real_article = False
+            return
+        self.title = elt.getText()
+        self.byline = ''
+        self.date = soup.find('div', attrs = {'class' : 'datePublished'})
+
+        div = soup.find('span', attrs={'itemprop':'articleBody'})
+        if div is None:
+            self.real_article = False
+            return
+        self.body = '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
+                                      if isinstance(x, Tag) and x.name == 'p'])
diff --git a/parsers/welt.py b/parsers/welt.py
new file mode 100644
index 00000000..a9ac0505
--- /dev/null
+++ b/parsers/welt.py
@@ -0,0 +1,32 @@
+from baseparser import BaseParser
+from BeautifulSoup import BeautifulSoup, Tag
+
+
+class WeltParser(BaseParser):
+    SUFFIX = '?config=print'
+    domains = ['www.welt.de']
+
+    feeder_pat   = '^http://www.welt.de/(politik|wirtschaft|panorama|geld|wissen|regional)/'
+    feeder_pages = ['http://www.welt.de/']
+
+    def _parse(self, html):
+        soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
+                             fromEncoding='utf-8')
+
+        self.meta = soup.findAll('meta')
+        elt = soup.find('h1')
+        if elt is None:
+            self.real_article = False
+            return
+        self.title = elt.getText()
+        self.byline = ''
+        self.date = soup.find('div', attrs = {'id' : 'currenttime'})
+        self.authorids = soup.find('span', attrs={'itemprop':'author'})
+        self.authorid = self.authorids.getText() if self.authorids else ''
+
+        div = soup.find('div', 'storyBody')
+        if div is None:
+            self.real_article = False
+            return
+        self.body = '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
+                                      if isinstance(x, Tag) and x.name == 'p'])
diff --git a/website/frontend/models.py b/website/frontend/models.py
index cdd0b548..0d9cc2f0 100644
--- a/website/frontend/models.py
+++ b/website/frontend/models.py
@@ -25,6 +25,7 @@ def strip_prefix(string, prefix):
                    'www.zeit.de': 'Zeit Online',
                    'www.bild.de': 'Bild',
                    'www.focus.de': 'Focus Online',
+                   'www.welt.de': 'Die Welt',
                    }
 
 ancient = datetime(1901, 1, 1)
diff --git a/website/frontend/views.py b/website/frontend/views.py
index 537f8ae3..771f81ab 100644
--- a/website/frontend/views.py
+++ b/website/frontend/views.py
@@ -105,7 +105,7 @@ def get_articles(source=None, distance=0):
 
 
 SOURCES = '''nytimes.com cnn.com politico.com washingtonpost.com
-bbc.co.uk zeit.de bild.de focus.de'''.split()
+bbc.co.uk zeit.de bild.de focus.de spiegel.de welt.de stern.de'''.split()
 
 def is_valid_domain(domain):
     """Cheap method to tell whether a domain is being tracked."""

From 49ee7b64d0ff9adada82601244d10967a39849d6 Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Mon, 27 Apr 2015 10:43:21 +0200
Subject: [PATCH 06/64] displayes just german platforms

---
 parsers/__init__.py        | 6 +-----
 website/frontend/models.py | 8 ++------
 website/frontend/views.py  | 3 +--
 3 files changed, 4 insertions(+), 13 deletions(-)

diff --git a/parsers/__init__.py b/parsers/__init__.py
index e19cc49b..f862a0cc 100644
--- a/parsers/__init__.py
+++ b/parsers/__init__.py
@@ -4,11 +4,6 @@
 #  - create a parser class in another file, based off (say) bbc.BBCParser
 #  - add it to parsers (below)
 # Test with test_parser.py
-#nyt.NYTParser
-#cnn.CNNParser
-#politico.PoliticoParser
-#bbc.BBCParser
-#washpo.WashPoParser
 
 # List of parsers to import and use based on parser.domains
 
@@ -17,6 +12,7 @@
 bild.BildParser
 focus.FocusParser
 spiegel.SpiegelParser
+stern.SternParser
 """.split()
 
 parser_dict = {}
diff --git a/website/frontend/models.py b/website/frontend/models.py
index 0d9cc2f0..e1e5637e 100644
--- a/website/frontend/models.py
+++ b/website/frontend/models.py
@@ -17,15 +17,11 @@ def strip_prefix(string, prefix):
         string = string[len(prefix):]
     return string
 
-PublicationDict = {'www.nytimes.com': 'NYT',
-                   'edition.cnn.com': 'CNN',
-                   'www.bbc.co.uk': 'BBC',
-                   'www.politico.com': 'Politico',
-                   'www.washingtonpost.com': 'Washington Post',
-                   'www.zeit.de': 'Zeit Online',
+PublicationDict = {'www.zeit.de': 'Zeit Online',
                    'www.bild.de': 'Bild',
                    'www.focus.de': 'Focus Online',
                    'www.welt.de': 'Die Welt',
+                   'www.stern.de': 'Stern',
                    }
 
 ancient = datetime(1901, 1, 1)
diff --git a/website/frontend/views.py b/website/frontend/views.py
index 771f81ab..fd4b6c0f 100644
--- a/website/frontend/views.py
+++ b/website/frontend/views.py
@@ -104,8 +104,7 @@ def get_articles(source=None, distance=0):
     return articles
 
 
-SOURCES = '''nytimes.com cnn.com politico.com washingtonpost.com
-bbc.co.uk zeit.de bild.de focus.de spiegel.de welt.de stern.de'''.split()
+SOURCES = '''zeit.de bild.de focus.de spiegel.de welt.de stern.de'''.split()
 
 def is_valid_domain(domain):
     """Cheap method to tell whether a domain is being tracked."""

From 674ef0a8a352a01d873c5f960ad5954324d145a4 Mon Sep 17 00:00:00 2001
From: Relana Streckenbach <Relana@users.noreply.github.com>
Date: Tue, 28 Apr 2015 16:44:03 +0200
Subject: [PATCH 07/64] translated article_history_missing.html

---
 website/frontend/templates/article_history_missing.html | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/website/frontend/templates/article_history_missing.html b/website/frontend/templates/article_history_missing.html
index 16f4216e..8f3cdf1e 100644
--- a/website/frontend/templates/article_history_missing.html
+++ b/website/frontend/templates/article_history_missing.html
@@ -1,13 +1,13 @@
 {% extends 'template.html' %}
 
-{% block title %}Article View{% endblock %}
+{% block title %}Artikelansicht{% endblock %}
 
 {% block content %}
 
 {% include "find_by_uri.html" %}
 
-<h1>Article Change Log</h1>
+<h1>Änderungsübersicht</h1>
 <h3><a href="{{url}}">{{url}}</a></h3>
-<p>Alas! We don't seem to know anything about this article. Sorry! :(</p>
+<p>Huch! Scheint so, als wüssten wir nichts über diesen Artikel. Sorry!</p>
 
 {% endblock %}

From b1d1b7c5529e24e8fac34940ae9807fd9299c1cb Mon Sep 17 00:00:00 2001
From: Relana Streckenbach <Relana@users.noreply.github.com>
Date: Tue, 28 Apr 2015 16:53:39 +0200
Subject: [PATCH 08/64] Update 404.html

---
 website/frontend/templates/404.html | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/website/frontend/templates/404.html b/website/frontend/templates/404.html
index 68336dea..98fd677d 100644
--- a/website/frontend/templates/404.html
+++ b/website/frontend/templates/404.html
@@ -2,12 +2,12 @@
 {% load url from future %}
 
 
-{% block title %}Error{% endblock title%}
+{% block title %}Fehler 404{% endblock title%}
 
 {% block content %}
 
-<h1>Oops, this doesn't look right</h1>
-<p>Hmm. If you are on this page, something went wrong.</p>
-<p>If you want to tell us what, you can <a href="{% url 'contact' %}">contact us</a>.</p>
+<h1>Nanu, das sieht nicht richtig aus.</h1>
+<p>Scheint so, als wurde die Seite nicht gefunden.</p>
+<p>Falls du weißt, was schief gelaufen ist, kannst du uns gerne <a href="{% url 'contact' %}">kontaktieren</a>.</p>
   
 {% endblock content%}

From 5f49eb000f9669e78f83c224921e69ba1f519dd4 Mon Sep 17 00:00:00 2001
From: Relana Streckenbach <Relana@users.noreply.github.com>
Date: Tue, 28 Apr 2015 16:57:47 +0200
Subject: [PATCH 09/64] translated 500.html

---
 website/frontend/templates/500.html | 9 ++++-----
 1 file changed, 4 insertions(+), 5 deletions(-)

diff --git a/website/frontend/templates/500.html b/website/frontend/templates/500.html
index 71b72381..a184b576 100644
--- a/website/frontend/templates/500.html
+++ b/website/frontend/templates/500.html
@@ -2,13 +2,12 @@
 {% load url from future %}
 
 
-{% block title %}Error{% endblock title%}
+{% block title %}Error 500{% endblock title%}
 
 {% block content %}
 
-<h1>Oops, this doesn't look right</h1>
-<p>
-Hm. If you are on this page, something went wrong.
-<p>If you want to tell us what, you can <a href="{% url 'contact' %}">contact us</a>.
+<h1>Nanu, das sieht nicht richtig aus.</h1>
+<p>Wenn du auf dieser Seite bist, scheint etwas schief gelaufen zu sein.</p>
+<p>Falls du mehr darüber weißt, kannst du uns gerne <a href="{% url 'contact' %}">kontaktieren</a>.</p>
   
 {% endblock content%}

From 3919048097f9e8b371ba0c4a654d6aee169c70af Mon Sep 17 00:00:00 2001
From: Robert Piwonski <piwonski.robert+git@gmail.com>
Date: Tue, 28 Apr 2015 17:52:12 +0200
Subject: [PATCH 10/64] added Welt.de-Parser(seems to be working)

---
 parsers/welt.py | 33 +++++++++++++++++++++++++++++++++
 1 file changed, 33 insertions(+)
 create mode 100644 parsers/welt.py

diff --git a/parsers/welt.py b/parsers/welt.py
new file mode 100644
index 00000000..9e3878cf
--- /dev/null
+++ b/parsers/welt.py
@@ -0,0 +1,33 @@
+from baseparser import BaseParser
+from BeautifulSoup import BeautifulSoup, Tag
+
+
+class WeltParser(BaseParser):
+    domains = ['www.welt.de']
+
+    feeder_pat   = 'article\d*'
+    feeder_pages = ['http://www.welt.de/']
+    #feeder_div = 'groupWrapper'
+
+    def _parse(self, html):
+        soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
+                             fromEncoding='utf-8')
+
+        self.meta = soup.findAll('meta')
+        elt = soup.find('h1', 'widget storyContent title    prefix_1 grid_8')
+        if elt is None:
+            self.real_article = False
+            return
+        self.title = elt.getText()
+        self.byline = ''
+        self.date = soup.find('meta', {'name':'last-modified'})['content']
+
+        div = soup.find('div', 'storyBody')
+        if div is None:
+            # Hack for video articles
+            div = soup.find('div', 'emp-decription')
+        if div is None:
+            self.real_article = False
+            return
+        self.body = '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
+                                      if isinstance(x, Tag) and x.name == 'p'])

From 6082ecd92f47954abfcd675de78446be101e8a8d Mon Sep 17 00:00:00 2001
From: Relana Streckenbach <Relana@users.noreply.github.com>
Date: Tue, 28 Apr 2015 18:40:01 +0200
Subject: [PATCH 11/64] translated about.html

---
 website/frontend/templates/about.html | 95 +++++++++++----------------
 1 file changed, 39 insertions(+), 56 deletions(-)

diff --git a/website/frontend/templates/about.html b/website/frontend/templates/about.html
index 4d52d4a4..29313d3f 100644
--- a/website/frontend/templates/about.html
+++ b/website/frontend/templates/about.html
@@ -9,75 +9,58 @@
 href="http://www.newsdiffs.org/diff/192021/192137/www.nytimes.com/2013/03/31/science/space/yvonne-brill-rocket-scientist-dies-at-88.html"><img  
 src="{% url 'static' 'images/brill.png' %}" 
 width="450" align="right" style="padding:15px; margin:15px"/></a>
-      <h1>About NewsDiffs</h1>
+      <h1>Über NewsDiffs</h1>
       <p>
     		
-			<div class="boldhead">Why NewsDiffs Exists</div> 
+			<div class="boldhead">Warum NewsDiffs existiert</div> 
 
-			<p>In the age of rapid reporting and digital news, there is rarely a single "final" version of an article. 	
-<p>NewsDiffs watches different versions of highly-placed articles on online news sites, starting with <a href="http://nytimes.com">nytimes.com</a>. 
+			<p>In einer Zeit, in der es vor Eilmeldungen nur so wimmelt und Nachrichten online abrufbar sind, gibt es kaum noch "endgültige" Versionen von Artikeln. 	
+<p>NewsDiffs beobachtet verschiedene Versionen von Artikeln der Titelseiten von großen Online-Zeitungen, wie z.B. <a href="http://www.zeit.de/index">Zeit Online</a>. 
 
-			<p>For better or worse, readers can now view "the making of the sausage" that historically was discreetly 
-tucked away from view with dead-tree editions. Some of those changes <a 
-href="http://blogs.villagevoice.com/runninscared/2011/10/why_did_the_new_1.php">provoke criticism</a>.
-<p>NewsDiffs was born of the <a 
-href="http://opennews-mit.eventbrite.com/">Knight Mozilla MIT hackathon</a> on June 17, 2012.<p>
+			<p>So können Leser jetzt das "Making-of" eines Artikels, das früher hinter den Kulissen der Nachrichtenagenturen versteckt war, verfolgen. Einige dieser Änderungen <a 
+href="http://blogs.villagevoice.com/runninscared/2011/10/why_did_the_new_1.php">provozieren Kritik</a>.
 		
-<div class="boldhead">What Types of Changes?</div>
-			<p>Updates to articles on major news web sites happen all the time.</p>
-			<p>Often the changes to articles are simply minor, small edits that are tightening up (such as "most" to "many.")</p>
-			<p>Sometimes the changes are the insertion or the deletion of a section.</p>
-			<p>Sometimes the story changes as a result of a rapidly breaking news, such as <a 
-href="http://www.newsdiffs.org/diffview?url=http://www.nytimes.com/2012/06/18/us/rodney-king-whose-beating-led-to-la-riots-dead-at-47.html&v1=4914b33add01e16c34ed2d066bba5c829bcfdf8b&v2=eed0278b77d633f80398660ed97d8490ac84fc27&pagewanted=all">the 
-death of Rodney King</a>. The story grows and deepens over time as more information comes in. To the right is an <a 
-href="http://www.nytimes.com/2012/06/20/world/middleeast/mubarak-is-on-life-support-egypt-security-officials-say.html&v1=e935fb9e8ce50c90971916796fde2c10f0b8b7ad&v2=99c50b4ba9d0d066c485697d90b0fcd0de0b7b3e&pagewanted=all">example 
-of a story that evolved about the health of former Egyptian president
-Hosni Mubarak</a>, first when it was reported that  he was "clinically dead" and then later that he had suffered a stroke.
- 			<p> Another interesting example would have been <a href="https://www.nytimes.com/2011/05/02/world/asia/osama-bin-laden-is-killed.html?_r=1&pagewanted=all">the killing of Osama Bin Laden</a> on May 1, 2011, which broke at 10:40 p.m. with a sparse report from Helene Cooper: 
+<div class="boldhead">Was für Arten von Änderungen?</div>
+			<p>Artikel aus Online-Zeitungen großer Nachrichtenportale werden ständig aktualisiert.</p>
+			<p>Oft sind diese Änderungen geringfügig, da sie nur dazu dienen den Stil des Artikels zu verbessern (z.B. wird aus einem "jene" ein "diese").</p>
+			<p>Manchmal umfassen die Änderungen das Einfügen oder Löschen eines ganzen Abschnitts.</p>
+			<p>Gelegentlich verändert sich der Artikel aufgrund von schnell hintereinander eintreffenden Eilmeldungen, wie z.B. bei <a 
+href="http://www.newsdiffs.org/diffview?url=http://www.nytimes.com/2012/06/18/us/rodney-king-whose-beating-led-to-la-riots-dead-at-47.html&v1=4914b33add01e16c34ed2d066bba5c829bcfdf8b&v2=eed0278b77d633f80398660ed97d8490ac84fc27&pagewanted=all">Rodney 
+Kings Tod</a>. Mit der Zeit wächst und vertieft sich der Bericht sobald mehr Informationen bekannt werden. Ein weiteres Beispiel hierfür ist die Nachrichtenerstattung über den <a 
+href="http://www.nytimes.com/2012/06/20/world/middleeast/mubarak-is-on-life-support-egypt-security-officials-say.html&v1=e935fb9e8ce50c90971916796fde2c10f0b8b7ad&v2=99c50b4ba9d0d066c485697d90b0fcd0de0b7b3e&pagewanted=all">Gesundheitszustand
+des ehemaligen ägyptischen Präsidenten Husni Mubarak</a>. Zunächst wurde berichtet, er wäre "klinisch tot", später dass er einen Schlaganfall erlitten habe.
+ 			<p> Noch ein interessantes Beispiel ist die <a href="https://www.nytimes.com/2011/05/02/world/asia/osama-bin-laden-is-killed.html?_r=1&pagewanted=all">Tötung von Osama Bin Laden</a>, über die am 01. Mai 2011 um 22:40 Uhr EDT die Berichterstattung mit einem dürftigen Bericht von Helene Cooper begann: 
 			<blockquote>WASHINGTON — Osama bin Laden has been killed, a United States official said. President Obama is expected to make an announcement on Sunday night, almost 10 years after the Sept. 11 attacks on the World Trade Center and the Pentagon.</blockquote>
 
 
-			<p>Also interesting are the language changes that reflect subtle differences in connotation. For example, whether <a href="http://www.newsdiffs.org/diffview/?url=http://www.nytimes.com/2012/06/18/world/middleeast/egyptian-presidential-vote-enters-second-day.html&v1=4a202f72ea55330ea84fd3b814996c92b6e54a5b&v2=492777f287e2d052a96c8b0731e3430228cda905">an election was "democratic" vs. "competitive."</a>
-			<p>In some cases, we can see how a story can substantially change as more reporting comes in, such as <a 
-href="http://cityroom.blogs.nytimes.com/2011/10/01/police-arresting-protesters-on-brooklyn-bridge/">in a story that 
-helped inspired this project</a>: the article about the arrests of Occupy Wall Street protestors on October 1, 2011. Two versions, twenty 
-minutes apart, had substantially different first 
-paragraphs about the arrests of Occupy Wall Street protestors on the Brooklyn Bridge in October 2011. 
-The criticism it received was perhaps unfair, but it's hard to determine since the earlier version is 
-no longer publicly available.</p>
+			<p>Außerdem interessant sind Änderungen der Sprache, die subtile Unterschiede der Konnotation nach sich ziehen. Eine Wahl z.B. kann als <a href="http://www.newsdiffs.org/diffview/?url=http://www.nytimes.com/2012/06/18/world/middleeast/egyptian-presidential-vote-enters-second-day.html&v1=4a202f72ea55330ea84fd3b814996c92b6e54a5b&v2=492777f287e2d052a96c8b0731e3430228cda905">"democratic" oder "competitive"</a> bezeichnet werden.
+			<p>In einigen Fällen lässt sich beobachten, wie eine Darstellung sich wesentlich ändert, je weiter die Berichterstattung voranschreitet. So war es bei dem <a 
+href="http://cityroom.blogs.nytimes.com/2011/10/01/police-arresting-protesters-on-brooklyn-bridge/">Bericht, der die Entstehung von NewsDiffs.org ursprünglich inspirierte</a>: der Artikel über die Festnahmen von Occupy Wall Street Demonstranten am 01. Oktober 2011. Zwei Versionen, zwischen denen nur 20 
+Minuten verstrichen, hatten grundsätzlich verschiedene
+Einleitungsparagraphen.
+Die Kritik, die dieser Bericht erfuhr, war eventuell ungerecht, aber das ist schwer zu ermitteln, da die frühere Version nicht mehr öffentlich verfügbar ist.</p>
 			
 			<p>
 			<p>
-			<div class="boldhead">Why the name NewsDiffs?</div>
+			<div class="boldhead">Warum der Name "NewsDiffs"?</div>
 			
-			A <a href="https://en.wikipedia.org/wiki/Diff">diff</a> is a popular tool in computer programming that outputs the differences between two files. It is typically used to show the changes between one version of a file and a former version of the same file. This idea of version control is well known within software engineering, and <a href="http://www.greglinch.com/2010/07/quick-thoughts-on-journalism-and-version-control.html">should be used in journalism</a> as journalism moves toward constantly evolving versions of news stories.
-			We have had many sessions at many newsy <a href="http://newsfoo.org">foo</a> and bar camps on <a href="http://danielbachhuber.com/2011/04/30/bcni-philly-github-for-news/">"Github for news."</a> Well, this time, we literally put the news into git.
+			<p>Das <a href="http://de.wikipedia.org/wiki/Diff">diff</a> ist ein in der Computerprogrammierung viel genutztes Tool, das die Unterschiede (engl.: differences) zwischen zwei Dateien aufzeigt. Es wird normalerweise dazu genutzt die Unterschiede zwischen der jetzigen und einer früheren Version einer Datei sichtbar zu machen. Diese Idee der Versionskontrolle ist in der Softwareentwicklung altbekannt und <a href="http://www.greglinch.com/2010/07/quick-thoughts-on-journalism-and-version-control.html"> sollte auch im Journalismus benutzt werden</a>, da der Journalismus sich auf sich ständig weiterentwickelnde Versionen von Nachrichtenartikeln hinbewegt.
 			<p>
-<div class="boldhead">How NewsDiffs Works</div> 
-			<p>NewsDiffs regularly looks at the stories that are linked to (or have been linked to) 
-from the homepage of major online news publications, starting with <a href="http://nytimes.com">nytimes.com</a> and <a 
-href="http://cnn.com">cnn.com</a>. It parses them and stores them in a <a href="https://en.wikipedia.org/wiki/Git_(software)">git repository</a>. 
-			<p>The records start June 17, 2012. 
-			<p>Not all articles are stored. Only those with changes are displayed. NewsDiffs focuses mostly on ones that 
-are linked from the homepage.
+<div class="boldhead">Wie NewsDiffs funktioniert</div> 
+			<p>NewsDiffs überprüft regelmäßig die Artikel, die auf den Titelseiten von Onlineausgaben einiger großer deutscher Nachrichtenagenturen verlinkt sind (oder einmal verlinkt waren), u.a. 
+<a href="http://www.zeit.de/index">Zeit Online</a> und <a href="http://www.welt.de/">Die Welt</a>. Die Artikel werden von NewsDiffs geparst und in einem <a href="https://en.wikipedia.org/wiki/Git_(software)">git Repository</a> gespeichert. 
+			<p>Diese Speicherung findet seit 2015 statt. 
+			<p>Nicht alle Artikel der Online-Zeitungen werden gespeichert, NewsDiffs konzetriert sich auf die Artikel, die von der Titelseite verlinkt sind. Nur Artikel, an denen Änderungen vorgenommen wurden, werden angezeigt. 
 			<p>
-<div class="boldhead">What Tools Did You Use?</div>
-			<p>The NewsDiffs source code is available on <a href="https://github.com/ecprice/newsdiffs">Github</a>. 
-			<p>The front end used to view the differences is from the open-source <a href="https://code.google.com/p/google-diff-match-patch/">Diff Match Patch</a> library. 
-			<p>The website is built on <a href="https://www.djangoproject.com/">Django</a>.
-			<p>The prettiness is courtesy of <a href="http://twitter.github.com/bootstrap/">Twitter Bootstrap</a>, which 
-has 
-been saving developers from themselves the world 
-over.
+<div class="boldhead">Welche Tools habt ihr eingesetzt?</div>
+			<p>Der Quelltext zu NewsDiffs ist frei verfügbar auf <a href="https://github.com/NewsdiffsDE/newsdiffs">GitHub</a>. 
+			<p>Das Frontend, das zum Einsehen der Unterschiede verwendet wird, ist aus der Open-Source <a href="https://code.google.com/p/google-diff-match-patch/">Diff Match Patch</a> Library. 
+			<p>Die Webseite wurde mit <a href="https://www.djangoproject.com/">Django</a> gebaut.
+			<p>Das schöne Layout haben wir <a href="http://twitter.github.com/bootstrap/">Twitter Bootstrap</a> zu verdanken
 
-<div class="boldhead">Who created NewsDiffs?</div> 
-			<p>NewsDiffs is the product of a weekend of work from the <a href="http://opennews-mit.eventbrite.com/">Knight Mozilla MIT 
-hackathon</a>, 
-by <a href="http://www.mit.edu/~ecprice/">Eric Price</a>, <a href="http://jennifer8lee.com">Jennifer 8. Lee</a> and <a href="http://web.mit.edu/~price/">Greg Price</a>. 
-
-<p>Greg, who works at <a href="http://tddium.com/">Tddium</a>, has his masters in theoretical computer science from MIT and a bachelors in 
-mathematics from Harvard. (He also led the <a href="http://youtomb.mit.edu/">YouTomb</a> project, which tracked videos removed from 
-YouTube). Eric is currently in his fourth year of a PhD in theoretical computer science from MIT. Jenny was a reporter at The New York Times for nine years, wonders what it's like to be a product manager and has been 
-tortured by <a 
-href="https://en.wikipedia.org/wiki/Semicolon">missing semicolons</a>. 		      </p>
+<div class="boldhead">Wer steckt hinter NewsDiffs?</div>
+			<p>NewsDiffs.de ist im Sommersemester 2015 als Projekt einiger IMI-Studenten der <a href="http://www.htw-berlin.de/">HTW Berlin</a> auf der Grundlage von <a href="http://newsdiffs.org/">NewsDiffs.org</a> entstanden.
+			<p>Ziel war das Anpassen der Webseite auf den deutschen Nachrichtenraum und der Ausbau durch neue Features. Dafür wurde zunächst NewsDiffs.org geclont, welches während des <a href="http://opennews-mit.eventbrite.com/">Knight Mozilla MIT 
+hackathons</a> 2012 
+von <a href="http://www.mit.edu/~ecprice/">Eric Price</a>, <a href="http://jennifer8lee.com">Jennifer 8. Lee</a> and <a href="http://web.mit.edu/~price/">Greg Price</a> geschaffen wurde.</p>
 {% endblock %}

From 1ca3ea88964a41067ba05975dc8d969c1c5cac2a Mon Sep 17 00:00:00 2001
From: Relana Streckenbach <Relana@users.noreply.github.com>
Date: Tue, 28 Apr 2015 19:30:27 +0200
Subject: [PATCH 12/64] translated article_history.html

---
 website/frontend/templates/article_history.html | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/website/frontend/templates/article_history.html b/website/frontend/templates/article_history.html
index c8c5ec64..61a48a0d 100644
--- a/website/frontend/templates/article_history.html
+++ b/website/frontend/templates/article_history.html
@@ -1,19 +1,19 @@
 {% extends 'template.html' %}
 
-{% block title %}Article View{% endblock %}
+{% block title %}Artikelansicht{% endblock %}
 
 {% block content %}
 
 {% include "find_by_uri.html" %}
 
-<h1>{{article.latest_version.title}} ({{article.publication}}), Change Log</h1>
+<h1>{{article.latest_version.title}} ({{article.publication}}), Änderungsübersicht</h1>
 <h3><a href="{{article.url}}">{{article.url}}</a></h3> 
-<h3>{{article.latest_version.byline}} | First archived on {{article.initial_date}}</h3> 
+<h3>{{article.latest_version.byline}} | Zuerst archiviert am {{article.initial_date}}</h3> 
 <p>
 <table class="table table-condensed"  style="width:100%">
      <thead><tr>
-	<td>Headline</td>
-	<td>Date/Time EST Archived</td>
+	<td>Schlagzeile</td>
+	<td>Datum/Zeit der Archivierung</td>
 	<td>Diff</td>
     </tr> </thead>
 
@@ -22,7 +22,7 @@ <h3>{{article.latest_version.byline}} | First archived on {{article.initial_date
       <td><a href="{{link}}">{{version.title}}</a></td>
       <td>{{version.date}}</td>
       {% if difflink %}
-      <td><a href="{{difflink}}">(Compare with previous)</a></td>
+      <td><a href="{{difflink}}">(Vergleich mit vorheriger Version)</a></td>
     {% else %}
     <td></td>
     {% endif %}

From 7abf9ca5331f99dbc1b936cf1b226d7fbbb0ac2e Mon Sep 17 00:00:00 2001
From: Relana Streckenbach <Relana@users.noreply.github.com>
Date: Tue, 28 Apr 2015 19:31:56 +0200
Subject: [PATCH 13/64] translated article_history.xml

---
 website/frontend/templates/article_history.xml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/website/frontend/templates/article_history.xml b/website/frontend/templates/article_history.xml
index 13906129..9940454b 100644
--- a/website/frontend/templates/article_history.xml
+++ b/website/frontend/templates/article_history.xml
@@ -1,6 +1,6 @@
 <?xml version="1.0" encoding="utf-8"?>
 <feed xmlns="http://www.w3.org/2005/Atom">
-    <title>{{article.latest_version.title}}, Change Log</title>
+    <title>{{article.latest_version.title}}, Änderungsübersicht</title>
     <id>http://{{request.META.HTTP_HOST}}{% url article_history_feed article.filename %}</id>
     <link rel="self" href="http://{{request.META.HTTP_HOST}}{% url article_history_feed article.filename %}"/>
     <link rel="alternate" href="{{article.filename}}"/>

From 89e4aad3d3ba665f68ed0de5f4522d47ae296897 Mon Sep 17 00:00:00 2001
From: Relana Streckenbach <Relana@users.noreply.github.com>
Date: Tue, 28 Apr 2015 19:33:17 +0200
Subject: [PATCH 14/64] translated browse.html

---
 website/frontend/templates/browse.html | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/website/frontend/templates/browse.html b/website/frontend/templates/browse.html
index 36345f88..b2a96d5b 100644
--- a/website/frontend/templates/browse.html
+++ b/website/frontend/templates/browse.html
@@ -2,6 +2,6 @@
 
 {% block active_browse %}class="active"{% endblock %}
 
-{% block title %}Changes{% endblock %}
+{% block title %}Änderungen{% endblock %}
 
-{% block browse_fromline %}|  {% if source %}<a href="http://{{source}}">{{source}}</a>{% else %}All Sources{% endif %}{% endblock %}
+{% block browse_fromline %}|  {% if source %}<a href="http://{{source}}">{{source}}</a>{% else %}Alle Quellen{% endif %}{% endblock %}

From 416b2e78c7974786acf2374ec2e6e1f8691f152a Mon Sep 17 00:00:00 2001
From: Relana Streckenbach <Relana@users.noreply.github.com>
Date: Tue, 28 Apr 2015 19:48:12 +0200
Subject: [PATCH 15/64] translated browse_base.html

---
 website/frontend/templates/browse_base.html | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/website/frontend/templates/browse_base.html b/website/frontend/templates/browse_base.html
index 77e533c2..2ef856cb 100644
--- a/website/frontend/templates/browse_base.html
+++ b/website/frontend/templates/browse_base.html
@@ -6,7 +6,7 @@
 {% include "find_by_uri.html" %}
 
 	<ul id="myTab" class="nav nav-tabs">
-            <li {% if not source  %} class="active" {% endif %} ><a href="{% url 'browse' %}" data-toggle="tab">All</a></li>
+            <li {% if not source  %} class="active" {% endif %} ><a href="{% url 'browse' %}" data-toggle="tab">Alle</a></li>
             {% for sourceopt in sources %}
             <li {% ifequal source sourceopt %}class="active"{% endifequal %}><a href="{% url 'browse' sourceopt %}" data-toggle="tab">{{sourceopt}}</a></li>
             {% endfor %}
@@ -14,18 +14,18 @@
             </li>
           </ul>
 
-      <h1>Changed Articles {% block browse_fromline %}{% endblock browse_fromline %}</h1>
-      <p>Starting {{first_update|date:"F d, Y"}} (with occasional downtime)</p>
+      <h1>Veränderte Artikel {% block browse_fromline %}{% endblock browse_fromline %}</h1>
+      <p>Erstmals gespeichert {{first_update|date:"F d, Y"}} (mit vereinzelten Ausfallzeiten)</p>
       <p>  
 
     <table class="table table-condensed"  style="width:100%">
-      <thead><tr><th text-align:"left";>Article</th><th>Version</th><th>Diff</th></tr></thead>
+      <thead><tr><th text-align:"left";>Artikel</th><th>Version</th><th>Diff</th></tr></thead>
       {% for article, last_version, versions in articles %}
       <tr><td rowspan="{{versions|length}}" valign="top"><a href="{% url 'article_history' article.filename %}">{{last_version.title}}</a> (<a href="{{article.url}}">{{article.publication}}</a>)<br>{{last_version.byline}}</td>
         {% for difflink, version in versions %}
         <td>{{version.date}}</td>
         {% if difflink %}
-        <td><a href="{{difflink}}">(Compare)</a></td></tr><tr>
+        <td><a href="{{difflink}}">(Vergleichen)</a></td></tr><tr>
         {% else %}
         <td></td></tr>
         {% endif %}

From e600556a08e0c990e18e5d654184d6646bbcb5cf Mon Sep 17 00:00:00 2001
From: Relana Streckenbach <Relana@users.noreply.github.com>
Date: Tue, 28 Apr 2015 20:00:02 +0200
Subject: [PATCH 16/64] translated contact.html

---
 website/frontend/templates/contact.html | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/website/frontend/templates/contact.html b/website/frontend/templates/contact.html
index 55bc0d8b..80e40498 100644
--- a/website/frontend/templates/contact.html
+++ b/website/frontend/templates/contact.html
@@ -2,10 +2,10 @@
 
 {% block active_contact %}class="active"{% endblock %}
 
-{% block title %}Contact{% endblock title%}
+{% block title %}Kontakt{% endblock title%}
 
 {% block content %}
-      	<h1>Comments, Feedback, Criticism?</h1>
+      	<h1>Kommentare, Feedback, Kritik?</h1>
 <div id="wufoo-q7x3s5">
 </div>
 <script type="text/javascript">var q7x3s5;(function(d, t) {

From 9ba5037af22bb5f1998d0848e10ef4258ea960ed Mon Sep 17 00:00:00 2001
From: Relana Streckenbach <Relana@users.noreply.github.com>
Date: Tue, 28 Apr 2015 20:14:09 +0200
Subject: [PATCH 17/64] translated diffview.html

---
 website/frontend/templates/diffview.html | 26 ++++++++++++------------
 1 file changed, 13 insertions(+), 13 deletions(-)

diff --git a/website/frontend/templates/diffview.html b/website/frontend/templates/diffview.html
index bd9e8ced..276843e4 100644
--- a/website/frontend/templates/diffview.html
+++ b/website/frontend/templates/diffview.html
@@ -47,33 +47,33 @@
     </style>
 
 <div class="search-banner">
-<h3>Welcome to <a href="{% url 'root' %}">NewsDiffs</a>!</h3>
+<h3>Willkommen auf <a href="{% url 'root' %}">NewsDiffs</a>!</h3>
 
-NewsDiffs tracks post-publication changes to articles in online news
-media.  Below, you can see edits made to an article after it was
-published.  You can browse through many such edits in our <a href=
-"{% url 'browse' %}" > archive</a>.
+NewsDiffs verfolgt Änderungen an Artikeln von Onlinezeitungen nach
+deren Veröffentlichung.  Unten kannst du die Nachbearbeitungen an einem
+bereits veröffentlichten Artikel sehen. Du kannst in unserem <a href=
+"{% url 'browse' %}" >Archiv</a> nach vielen solchen Änderungen suchen.
 </div>
 {% endif %}
 
-    <h2>Comparing: {{title}}</h2>
+    <h2>Vergleiche: {{title}}</h2>
     <h3><a href="{{article_url}}">{{article_url}}</a></h3>
     <ul>
-      <li><del>Pink: Archived {{date1}}</del></li>
-      <li><ins>Green: Archived {{date2}}</ins></li>
+      <li><del>Pink: Archiviert am {{date1}}</del></li>
+      <li><ins>Grün: Archiviert am {{date2}}</ins></li>
     </ul>
     <p>
       {% if prev %}
-      <a href="{{prev}}"><= Previous revision</a>
+      <a href="{{prev}}"><= Vorherige Version</a>
       {% else %}
-      No previous revision
+      Keine vorherige Version
       {% endif %} |
-      <a href="{% url 'article_history' article_shorturl %}">All changes</a>
+      <a href="{% url 'article_history' article_shorturl %}">Alle Versionen</a>
       |
       {% if next %}
-      <a href="{{next}}">Later revision =></a>
+      <a href="{{next}}">Spätere Version =></a>
       {% else %}
-      No later revision
+      Keine spätere Version
       {% endif %}
     </p>
 

From 336fed6797434367c89bc869d9c819c975e88e68 Mon Sep 17 00:00:00 2001
From: Relana Streckenbach <Relana@users.noreply.github.com>
Date: Tue, 28 Apr 2015 20:21:26 +0200
Subject: [PATCH 18/64] translated part of examples.html

only translated heading and intro, not the actual examples
---
 website/frontend/templates/examples.html | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/website/frontend/templates/examples.html b/website/frontend/templates/examples.html
index dd5764a4..e421d8ca 100644
--- a/website/frontend/templates/examples.html
+++ b/website/frontend/templates/examples.html
@@ -3,10 +3,10 @@
 {% block active_examples %}class="active"{% endblock %}
 
 {% block content %}
-		<h1>Examples</h1>
-		<p>These are some highlights of changes that have been
-curated by hand. Do you see a good
-one? <a href="http://www.newsdiffs.org/contact/">Let us know.</a></p>
+		<h1>Highlights</h1>
+		<p>Hier haben wir ein paar besonders interessante Änderungen 
+zusammengestellt. Hast du eine interessante beim stöbern gefunden, die du uns 
+<a href="http://www.newsdiffs.org/contact/">mitteilen</a> magst?</p>
 		<p>
 		<p>
 <style>

From 518efb0635288582c1ce529aa8c1920987155b8d Mon Sep 17 00:00:00 2001
From: Relana Streckenbach <Relana@users.noreply.github.com>
Date: Tue, 28 Apr 2015 20:24:16 +0200
Subject: [PATCH 19/64] translated feed.xml

---
 website/frontend/templates/feed.xml | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/website/frontend/templates/feed.xml b/website/frontend/templates/feed.xml
index 3381f21f..e25332a2 100644
--- a/website/frontend/templates/feed.xml
+++ b/website/frontend/templates/feed.xml
@@ -15,8 +15,8 @@
 		<id>http://{{request.META.HTTP_HOST}}{% url 'article_history' article.filename%}"</id>
 		<published>{{article.initial_date|date:"r"}}</published>
 		<updated>{{last_version.date|date:"r"}}</updated>
-		<content type="text">This article has been modified {{versions|length}} times.</content>
-		<summary>This article has been modified {{versions|length}} times.</summary>
+		<content type="text">Dieser Artikel wurde {{versions|length}} mal geändert.</content>
+		<summary>Dieser Artikel wurde {{versions|length}} mal geändert.</summary>
 	</entry>
         {% endfor %}
 	{% if page < page_list|length %}

From 7d79ccd07531a17d715145e80536484c0e6ddff2 Mon Sep 17 00:00:00 2001
From: Relana Streckenbach <Relana@users.noreply.github.com>
Date: Tue, 28 Apr 2015 20:25:28 +0200
Subject: [PATCH 20/64] translated find_by_uri.html

---
 website/frontend/templates/find_by_uri.html | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/website/frontend/templates/find_by_uri.html b/website/frontend/templates/find_by_uri.html
index 56960755..30f9e80a 100644
--- a/website/frontend/templates/find_by_uri.html
+++ b/website/frontend/templates/find_by_uri.html
@@ -1,6 +1,6 @@
 {% load url from future %}
 
 <form method="get" action="{% url 'article_history' %}">
-  Find article by full URL: <input type="text" name="url" style="width: 40em"></input>
+  Finde Artikel mittels der URL: <input type="text" name="url" style="width: 40em"></input>
   <input type="submit" value="Go" style="margin-bottom: 9px" />
 </form>

From 6e0bd130b9fe412f043218dabdbaf411089ea670 Mon Sep 17 00:00:00 2001
From: Relana Streckenbach <Relana@users.noreply.github.com>
Date: Tue, 28 Apr 2015 20:52:14 +0200
Subject: [PATCH 21/64] edited front.html

cut examples, press praise etc.
and translated the rest
---
 website/frontend/templates/front.html | 23 +++++++----------------
 1 file changed, 7 insertions(+), 16 deletions(-)

diff --git a/website/frontend/templates/front.html b/website/frontend/templates/front.html
index 12f721cb..b5744437 100644
--- a/website/frontend/templates/front.html
+++ b/website/frontend/templates/front.html
@@ -13,31 +13,22 @@
 		
 <h1>NewsDiffs |  Tracking Online News Over Time</h1><p>
 
-<h2>	NewsDiffs <a href="http://newsdiffs.org/browse">archives changes</a> in  
-articles after publication.<br> Currently, we track
+<h2>	NewsDiffs <a href="http://newsdiffs.org/browse">archiviert Änderungen</a>, die an  
+Artikeln nach ihrer Veröffentlichung vorgenommen werden und macht diese sichtbar.<br> Zur Zeit verfolgen wir die Änderungen auf 
 {% for source in sources|slice:":-1" %}
 <a href="{% url 'browse' source %}">{{source}}</a>,
 {% endfor %}
-and
+und
 <a href="{% url 'browse' sources|last %}">{{sources|last}}</a>.</h2> 
 
 <p>
-<p>NewsDiffs, which was born out of the Knight Mozilla MIT hackathon in June 2012, is trying to solve the problem of archiving news in the constantly evolving world of online journalism.
+<p>NewsDiffs versucht das Problem der Nachrichtenarchivierung in der sich ständig ändernden Welt des Online-Journalismus zu beheben.
 
-<p>It was recently added to the thousand sites <a href="http://www.loc.gov/webarchiving/">archived by the Library of Congress.</a><p>
-		
-<p>The New York Times <a href="https://www.nytimes.com/2012/07/01/opinion/sunday/article-changes-are-shown-in-a-tool-created-by-outsiders.html?_r=1">highlighted NewsDiffs</a> in the public 
-editor's column (which had <a href="http://nyti.ms/N0VvMq">previously discussed the difficulties of revisions</a> in the digital age). The next New York Times public editor even joined us for a <a href="http://panelpicker.sxsw.com/vote/3910">2013 SXSW panel</a> (<a href="http://www.slideshare.net/jenny8lee/newsdiffs">slides available online</a>)
- 
-<p>
-The changes which have drawn the most attention are <a href="http://newsdiffs.org/diff/245566/245668/www.nytimes.com/2013/06/07/opinion/president-obamas-dragnet.html">the addition of "on this issue" to a New York Times editorial</a> about Obama after the PRISM disclosures, and the <a href="http://newsdiffs.org/diff/192021/192137/www.nytimes.com/2013/03/31/science/space/yvonne-brill-rocket-scientist-dies-at-88.html">disappearance of beef stroganoff</a> from the obituary of a rocket scientist.
-
-
-<p>You can <a href="http://newsdiffs.org/browse/">browse</a> our repository of articles. Or you can take a look at <a href="http://newsdiffs.org/examples/">some of the examples</a> of articles that have changed.
-<p>If you are a developer, you can check out the <a href="https://github.com/ecprice/newsdiffs">Github repository</a>.
+<p>Du kannst unser Archiv nach Artikeln <a href="http://newsdiffs.org/browse/">durchsuchen</a>. Außerdem haben wir ein paar <a href="http://newsdiffs.org/examples/">Beispiele</a> für besonders interessante Änderungen an Artikeln zusammengestellt.
+<p>Softwareentwickler können sich gerne unser <a href="https://github.com/NewsdiffsDE/newsdiffs">GitHub Repository</a> angucken.
 
 
-			<p>If you want updates, you can <a href="http://newsdiffs.org/subscribe/">subscribe</a> to our newsletter, or you can follow <a href="http://twitter.com/newsdiffs">NewsDiffs</a> on Twitter.
+			<p>Falls du an Updates interessiert bist kannst du @NewsdiffsDE gerne auf Twitter folgen.
  
 
 <p>	

From 10afc18694d52b03f8a3a64359b94822d84ec3ac Mon Sep 17 00:00:00 2001
From: Relana Streckenbach <Relana@users.noreply.github.com>
Date: Tue, 28 Apr 2015 21:03:34 +0200
Subject: [PATCH 22/64] translated navigation

---
 website/frontend/templates/template.html | 14 +++++++-------
 1 file changed, 7 insertions(+), 7 deletions(-)

diff --git a/website/frontend/templates/template.html b/website/frontend/templates/template.html
index 6e91fba6..c740c15a 100644
--- a/website/frontend/templates/template.html
+++ b/website/frontend/templates/template.html
@@ -69,13 +69,13 @@
           <a class="brand" href="{% url 'root' %}">NewsDiffs</a>
           <!--<div class="nav-collapse">-->
             <ul class="nav">
-              <li {% block active_front %}{% endblock %}><a href="{% url 'root' %}">Home</a></li>
-              <li {% block active_about %}{% endblock %}><a href="{% url 'about' %}">About</a></li>
-              <li {% block active_browse %}{% endblock %}><a href="{% url 'browse' %}">Browse</a></li>
+              <li {% block active_front %}{% endblock %}><a href="{% url 'root' %}">Startseite</a></li>
+              <li {% block active_about %}{% endblock %}><a href="{% url 'about' %}">Über NewsDiffs</a></li>
+              <li {% block active_browse %}{% endblock %}><a href="{% url 'browse' %}">Entdecken</a></li>
               <li {% block active_examples %}{% endblock %}><a href="{% url 'examples' %}">Highlights</a></li>
-              <li {% block active_press %}{% endblock %}><a href="{% url 'press' %}">Press</a></li>
-              <li {% block active_subscribe %}{% endblock %}><a href="{% url 'subscribe' %}">Subscribe</a></li>
-              <li {% block active_contact %}{% endblock %}><a href="{% url 'contact' %}">Contact</a></li>
+              <li {% block active_press %}{% endblock %}><a href="{% url 'press' %}">Pressestimmen</a></li>
+              <li {% block active_subscribe %}{% endblock %}><a href="{% url 'subscribe' %}">Abonnieren</a></li>
+              <li {% block active_contact %}{% endblock %}><a href="{% url 'contact' %}">Kontakt</a></li>
 
             </ul>
           </div><!--/.nav-collapse -->
@@ -88,7 +88,7 @@
 <hr>
  {% block footer %} 
 	<footer>
-        <p>&copy; <a href="{% url 'contact' %}">NewsDiffs</a> 2012 | <a href="http://twitter.com/newsdiffs">@newsdiffs</a> | <a href="{% url 'subscribe' %}">Subscribe</a> </p>
+        <p>&copy; <a href="{% url 'contact' %}">NewsDiffs</a> 2015 | <a href="http://twitter.com/newsdiffsde">@NewsDiffsDE</a> | <a href="{% url 'subscribe' %}">Abonnieren</a> </p>
         </footer>
 {% endblock footer %}
     </div>

From 14f67a4c40df6ace1ddbcfd4931af17708932368 Mon Sep 17 00:00:00 2001
From: Relana Streckenbach <Relana@users.noreply.github.com>
Date: Tue, 28 Apr 2015 21:07:10 +0200
Subject: [PATCH 23/64] translated upvote.html

---
 website/frontend/templates/upvote.html | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/website/frontend/templates/upvote.html b/website/frontend/templates/upvote.html
index 39dfc7c0..2d4d32cf 100644
--- a/website/frontend/templates/upvote.html
+++ b/website/frontend/templates/upvote.html
@@ -1,11 +1,11 @@
 {% extends 'template.html' %}
 {% load url from future %}
 
-{% block title %}Thanks for your Input{% endblock title%}
+{% block title %}Danke für deinen Input!{% endblock title%}
 
 {% block content %}
-<h1>Thanks for input</h1>
+<h1>Danke für deinen Input!</h1>
     
-<p>Thanks! Your vote has been recorded.  Go back <a href="{% url 'browse' %}">to browsing other articles.</a>
+<p>Dankeschön! Deine Stimme wurde registriert.  Wenn du Lust hast, <a href="{% url 'browse' %}">durchsuche</a> NewsDiffs nach noch mehr Artikeln.
 
 {% endblock content%}

From d76b89d05734c55979d4e2e2340bff7e8d22ad42 Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Wed, 29 Apr 2015 16:40:46 +0200
Subject: [PATCH 24/64] optimized grabing

---
 parsers/__init__.py | 11 ++++++-----
 parsers/bild.py     |  4 +++-
 parsers/stern.py    |  1 +
 3 files changed, 10 insertions(+), 6 deletions(-)

diff --git a/parsers/__init__.py b/parsers/__init__.py
index f862a0cc..f8ad9df8 100644
--- a/parsers/__init__.py
+++ b/parsers/__init__.py
@@ -4,15 +4,16 @@
 #  - create a parser class in another file, based off (say) bbc.BBCParser
 #  - add it to parsers (below)
 # Test with test_parser.py
-
+#bild.BildParser
+#focus.FocusParser
+#spiegel.SpiegelParser
+#stern.SternParser
+#zeit.ZeitParser
 # List of parsers to import and use based on parser.domains
 
 parsers = """
-zeit.ZeitParser
 bild.BildParser
-focus.FocusParser
-spiegel.SpiegelParser
-stern.SternParser
+
 """.split()
 
 parser_dict = {}
diff --git a/parsers/bild.py b/parsers/bild.py
index 85a3429d..5a9ee715 100644
--- a/parsers/bild.py
+++ b/parsers/bild.py
@@ -14,17 +14,19 @@ def _parse(self, html):
                              fromEncoding='utf-8')
 
         self.meta = soup.findAll('meta')
-        elt = soup.find('span', 'headline')
+        elt = soup.find(attrs = {'class' : 'headline'})
         if elt is None:
             self.real_article = False
             return
         self.title = elt.getText()
+        print(self.title)
         self.byline = ''
         self.date = soup.find(attrs = {'time' : 'datetime'})
         self.authorids = soup.find('div', attrs={'itemprop':'author'})
         self.authorid = self.authorids.getText() if self.authorids else ''
 
         div = soup.find('div', 'articleBody')
+        print(div)
         if div is None:
             self.real_article = False
             return
diff --git a/parsers/stern.py b/parsers/stern.py
index ad2b172b..75d79fc8 100644
--- a/parsers/stern.py
+++ b/parsers/stern.py
@@ -23,6 +23,7 @@ def _parse(self, html):
         self.date = soup.find('div', attrs = {'class' : 'datePublished'})
 
         div = soup.find('span', attrs={'itemprop':'articleBody'})
+        print(div)
         if div is None:
             self.real_article = False
             return

From f1d9edadab341e8c5ca788dc5419548364ad13ed Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Wed, 29 Apr 2015 17:31:31 +0200
Subject: [PATCH 25/64] working on bild.de

---
 parsers/__init__.py | 3 +--
 parsers/bild.py     | 6 +++---
 2 files changed, 4 insertions(+), 5 deletions(-)

diff --git a/parsers/__init__.py b/parsers/__init__.py
index f8ad9df8..073a7dc7 100644
--- a/parsers/__init__.py
+++ b/parsers/__init__.py
@@ -12,8 +12,7 @@
 # List of parsers to import and use based on parser.domains
 
 parsers = """
-bild.BildParser
-
+focus.FocusParser
 """.split()
 
 parser_dict = {}
diff --git a/parsers/bild.py b/parsers/bild.py
index 5a9ee715..e840f552 100644
--- a/parsers/bild.py
+++ b/parsers/bild.py
@@ -7,7 +7,7 @@ class BildParser(BaseParser):
     domains = ['www.bild.de']
 
     feeder_pat   = '^http://www.bild.de/(politik|regional|geld)'
-    feeder_pages = ['http://www.bild.de/']
+    feeder_pages = ['http://www.bild.de/news']
 
     def _parse(self, html):
         soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
@@ -23,9 +23,9 @@ def _parse(self, html):
         self.byline = ''
         self.date = soup.find(attrs = {'time' : 'datetime'})
         self.authorids = soup.find('div', attrs={'itemprop':'author'})
-        self.authorid = self.authorids.getText() if self.authorids else ''
+        self.byline = self.authorids.getText() if self.authorids else ''
 
-        div = soup.find('div', 'articleBody')
+        div = soup.find('div', 'txt').getText()
         print(div)
         if div is None:
             self.real_article = False

From 9a1c85c70e3d13f97b01bf66be093f80167a18f2 Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Wed, 29 Apr 2015 17:54:25 +0200
Subject: [PATCH 26/64] added more 'content' pages

---
 parsers/__init__.py |  2 +-
 parsers/bild.py     | 10 ++++++----
 2 files changed, 7 insertions(+), 5 deletions(-)

diff --git a/parsers/__init__.py b/parsers/__init__.py
index 073a7dc7..cc6b7f79 100644
--- a/parsers/__init__.py
+++ b/parsers/__init__.py
@@ -12,7 +12,7 @@
 # List of parsers to import and use based on parser.domains
 
 parsers = """
-focus.FocusParser
+bild.BildParser
 """.split()
 
 parser_dict = {}
diff --git a/parsers/bild.py b/parsers/bild.py
index e840f552..f5b6b42b 100644
--- a/parsers/bild.py
+++ b/parsers/bild.py
@@ -6,8 +6,11 @@ class BildParser(BaseParser):
     SUFFIX = ''
     domains = ['www.bild.de']
 
-    feeder_pat   = '^http://www.bild.de/(politik|regional|geld)'
-    feeder_pages = ['http://www.bild.de/news']
+    feeder_pat   = '^http://www.bild.de/(politik|regional|geld|digital)'
+    feeder_pages = ['http://www.bild.de/politik/startseite',
+                    'http://www.bild.de/geld/startseite/',
+                    'http://www.bild.de/regional/startseite/',
+                    'http://www.bild.de/digital/startseite/']
 
     def _parse(self, html):
         soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
@@ -25,8 +28,7 @@ def _parse(self, html):
         self.authorids = soup.find('div', attrs={'itemprop':'author'})
         self.byline = self.authorids.getText() if self.authorids else ''
 
-        div = soup.find('div', 'txt').getText()
-        print(div)
+        div = soup.find('div', 'txt')
         if div is None:
             self.real_article = False
             return

From 410b7cb0beadbdfab526d431dfc2196b5ea22196 Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Wed, 29 Apr 2015 18:24:20 +0200
Subject: [PATCH 27/64] modified bild.py

---
 parsers/bild.py | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

diff --git a/parsers/bild.py b/parsers/bild.py
index f5b6b42b..d1efb528 100644
--- a/parsers/bild.py
+++ b/parsers/bild.py
@@ -23,14 +23,13 @@ def _parse(self, html):
             return
         self.title = elt.getText()
         print(self.title)
-        self.byline = ''
         self.date = soup.find(attrs = {'time' : 'datetime'})
         self.authorids = soup.find('div', attrs={'itemprop':'author'})
         self.byline = self.authorids.getText() if self.authorids else ''
 
         div = soup.find('div', 'txt')
+        print(div)
         if div is None:
             self.real_article = False
             return
-        self.body = '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
-                                      if isinstance(x, Tag) and x.name == 'p'])
+        self.body = str(div)

From 28d69cac1b414f1f806172d2adada4822eb3a4f9 Mon Sep 17 00:00:00 2001
From: Relana Streckenbach <relana@streckenbach.eu>
Date: Wed, 29 Apr 2015 18:34:29 +0200
Subject: [PATCH 28/64] minor changes like href fixes

---
 website/frontend/templates/diffview.html | 2 +-
 website/frontend/templates/front.html    | 8 ++++----
 2 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/website/frontend/templates/diffview.html b/website/frontend/templates/diffview.html
index 276843e4..a0868f22 100644
--- a/website/frontend/templates/diffview.html
+++ b/website/frontend/templates/diffview.html
@@ -92,4 +92,4 @@ <h3><a href="{{article_url}}">{{article_url}}</a></h3>
     </div>
 {% endblock content%}
 
-{% block title %}Diffing: {{title}}{% endblock %}
+{% block title %}Diff von: {{title}}{% endblock %}
diff --git a/website/frontend/templates/front.html b/website/frontend/templates/front.html
index b5744437..ea06444a 100644
--- a/website/frontend/templates/front.html
+++ b/website/frontend/templates/front.html
@@ -13,7 +13,7 @@
 		
 <h1>NewsDiffs |  Tracking Online News Over Time</h1><p>
 
-<h2>	NewsDiffs <a href="http://newsdiffs.org/browse">archiviert Änderungen</a>, die an  
+<h2>	NewsDiffs <a href="/browse/">archiviert Änderungen</a>, die an  
 Artikeln nach ihrer Veröffentlichung vorgenommen werden und macht diese sichtbar.<br> Zur Zeit verfolgen wir die Änderungen auf 
 {% for source in sources|slice:":-1" %}
 <a href="{% url 'browse' source %}">{{source}}</a>,
@@ -24,11 +24,11 @@ <h2>	NewsDiffs <a href="http://newsdiffs.org/browse">archiviert Änderungen</a>,
 <p>
 <p>NewsDiffs versucht das Problem der Nachrichtenarchivierung in der sich ständig ändernden Welt des Online-Journalismus zu beheben.
 
-<p>Du kannst unser Archiv nach Artikeln <a href="http://newsdiffs.org/browse/">durchsuchen</a>. Außerdem haben wir ein paar <a href="http://newsdiffs.org/examples/">Beispiele</a> für besonders interessante Änderungen an Artikeln zusammengestellt.
-<p>Softwareentwickler können sich gerne unser <a href="https://github.com/NewsdiffsDE/newsdiffs">GitHub Repository</a> angucken.
+<p>Du kannst unser Archiv nach Artikeln <a href="/browse/">durchsuchen</a>. Außerdem haben wir ein paar <a href="/examples/">Beispiele</a> für besonders interessante Änderungen an Artikeln zusammengestellt.
+<p>Softwareentwickler können sich unser <a href="https://github.com/NewsdiffsDE/newsdiffs">GitHub Repository</a> angucken.
 
 
-			<p>Falls du an Updates interessiert bist kannst du @NewsdiffsDE gerne auf Twitter folgen.
+			<p>Falls du an Updates interessiert bist kannst du <a href="http://twitter.com/newsdiffsde">@NewsDiffsDE</a> gerne auf Twitter folgen.
  
 
 <p>	

From 1fd2e307b516009597206373c6f41126c8f6adfe Mon Sep 17 00:00:00 2001
From: Relana Streckenbach <relana@streckenbach.eu>
Date: Wed, 29 Apr 2015 20:08:28 +0200
Subject: [PATCH 29/64] corrected Twitterhandle and url

---
 website/frontend/templates/front.html    | 2 +-
 website/frontend/templates/template.html | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/website/frontend/templates/front.html b/website/frontend/templates/front.html
index ea06444a..15a21d0e 100644
--- a/website/frontend/templates/front.html
+++ b/website/frontend/templates/front.html
@@ -28,7 +28,7 @@ <h2>	NewsDiffs <a href="/browse/">archiviert Änderungen</a>, die an
 <p>Softwareentwickler können sich unser <a href="https://github.com/NewsdiffsDE/newsdiffs">GitHub Repository</a> angucken.
 
 
-			<p>Falls du an Updates interessiert bist kannst du <a href="http://twitter.com/newsdiffsde">@NewsDiffsDE</a> gerne auf Twitter folgen.
+			<p>Falls du an Updates interessiert bist kannst du <a href="http://twitter.com/newsdiffs_de">@newsdiffs_de</a> gerne auf Twitter folgen.
  
 
 <p>	
diff --git a/website/frontend/templates/template.html b/website/frontend/templates/template.html
index c740c15a..b37fc915 100644
--- a/website/frontend/templates/template.html
+++ b/website/frontend/templates/template.html
@@ -88,7 +88,7 @@
 <hr>
  {% block footer %} 
 	<footer>
-        <p>&copy; <a href="{% url 'contact' %}">NewsDiffs</a> 2015 | <a href="http://twitter.com/newsdiffsde">@NewsDiffsDE</a> | <a href="{% url 'subscribe' %}">Abonnieren</a> </p>
+        <p>&copy; <a href="{% url 'contact' %}">NewsDiffs</a> 2015 | <a href="http://twitter.com/newsdiffs_de">@newsdiffs_de</a> | <a href="{% url 'subscribe' %}">Abonnieren</a> </p>
         </footer>
 {% endblock footer %}
     </div>

From 5b142d1b2995c7e5512f8bc5c662c4ff3ff6ac52 Mon Sep 17 00:00:00 2001
From: Relana Streckenbach <relana@streckenbach.eu>
Date: Fri, 1 May 2015 13:07:55 +0200
Subject: [PATCH 30/64] deleted images in about and front

---
 website/frontend/templates/about.html | 5 +----
 website/frontend/templates/front.html | 4 ----
 2 files changed, 1 insertion(+), 8 deletions(-)

diff --git a/website/frontend/templates/about.html b/website/frontend/templates/about.html
index 29313d3f..bf94820a 100644
--- a/website/frontend/templates/about.html
+++ b/website/frontend/templates/about.html
@@ -5,10 +5,7 @@
 {% block active_about %}class="active"{% endblock %}
 
 {% block content %}
-<a 
-href="http://www.newsdiffs.org/diff/192021/192137/www.nytimes.com/2013/03/31/science/space/yvonne-brill-rocket-scientist-dies-at-88.html"><img  
-src="{% url 'static' 'images/brill.png' %}" 
-width="450" align="right" style="padding:15px; margin:15px"/></a>
+
       <h1>Über NewsDiffs</h1>
       <p>
     		
diff --git a/website/frontend/templates/front.html b/website/frontend/templates/front.html
index 15a21d0e..caa15336 100644
--- a/website/frontend/templates/front.html
+++ b/website/frontend/templates/front.html
@@ -7,10 +7,6 @@
 
 {% include "find_by_uri.html" %}
 
-<a href="http://newsdiffs.org/browse"><img 
-src="https://phaven-prod.s3.amazonaws.com/files/image_part/asset/802050/slGF-1I5TqAsI_01Z9N8hnAv85o/medium_Screen_shot_2012-06-18_at_5.10.png" 
-style="padding:10px; margin-left:25px; margin-top:10px; float:right" width="400"></a>	
-		
 <h1>NewsDiffs |  Tracking Online News Over Time</h1><p>
 
 <h2>	NewsDiffs <a href="/browse/">archiviert Änderungen</a>, die an  

From 50bb43f13506c79a2ea6ed122a40721101e13371 Mon Sep 17 00:00:00 2001
From: Moreno Gummich <mgummich@users.noreply.github.com>
Date: Mon, 4 May 2015 03:07:51 +0200
Subject: [PATCH 31/64] Create webhook.txt

-This is a test for the automatic webhook
---
 website/webhook.txt | 1 +
 1 file changed, 1 insertion(+)
 create mode 100644 website/webhook.txt

diff --git a/website/webhook.txt b/website/webhook.txt
new file mode 100644
index 00000000..aa892162
--- /dev/null
+++ b/website/webhook.txt
@@ -0,0 +1 @@
+Webhook test

From e7560e6c811a96c6f0a1e8007fec3695ad8ba0e8 Mon Sep 17 00:00:00 2001
From: Moreno Gummich <mgummich@users.noreply.github.com>
Date: Mon, 4 May 2015 03:13:45 +0200
Subject: [PATCH 32/64] Update webhook.txt

Second webhook test
---
 website/webhook.txt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/website/webhook.txt b/website/webhook.txt
index aa892162..1e3edfe1 100644
--- a/website/webhook.txt
+++ b/website/webhook.txt
@@ -1 +1 @@
-Webhook test
+Second Webhook test

From f4dbacbf2b088339605e6df3be1c969a6feb9ce0 Mon Sep 17 00:00:00 2001
From: Moreno Gummich <mgummich@users.noreply.github.com>
Date: Mon, 4 May 2015 04:33:51 +0200
Subject: [PATCH 33/64] Delete webhook.txt

Can be deleted
---
 website/webhook.txt | 1 -
 1 file changed, 1 deletion(-)
 delete mode 100644 website/webhook.txt

diff --git a/website/webhook.txt b/website/webhook.txt
deleted file mode 100644
index 1e3edfe1..00000000
--- a/website/webhook.txt
+++ /dev/null
@@ -1 +0,0 @@
-Second Webhook test

From 0ddf9e0c201586a606e1b51675ca9bed496d5904 Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Mon, 4 May 2015 12:05:04 +0200
Subject: [PATCH 34/64] corrected some links, deleted unused pages/routing

---
 website/frontend/templates/browsetab.html | 257 ----------------------
 website/frontend/templates/examples.html  |   2 +-
 website/frontend/templates/front.html     |   8 +-
 website/frontend/templates/press.html     |  42 ----
 website/frontend/templates/subscribe.html |  17 --
 website/frontend/templates/upvote.html    |  11 -
 website/frontend/urls.py                  |   3 -
 website/frontend/views.py                 |  14 --
 8 files changed, 5 insertions(+), 349 deletions(-)
 delete mode 100644 website/frontend/templates/browsetab.html
 delete mode 100644 website/frontend/templates/press.html
 delete mode 100644 website/frontend/templates/subscribe.html
 delete mode 100644 website/frontend/templates/upvote.html

diff --git a/website/frontend/templates/browsetab.html b/website/frontend/templates/browsetab.html
deleted file mode 100644
index 0b641ed8..00000000
--- a/website/frontend/templates/browsetab.html
+++ /dev/null
@@ -1,257 +0,0 @@
-
-<!DOCTYPE html>
-<html lang="en">
-<head>
-<meta charset="utf-8">
-<title>NewsDiffs | Changes</title>
-<meta name="viewport" content="width=device-width, initial-scale=1.0">
-<meta name="description" content="NewsDiffs tracks changes in online news articles over time">
-<meta name="author" content="Eric Price, Greg Price, Jennifer 8. Lee">
-
-<!-- Le styles -->
-
-
-<link href="/static/styles/bootstrap.css" rel="stylesheet" media ="screen">
-<style>
-body {
-padding-top: 60px; /* 60px to make the container go all the way to the bottom of the topbar */
-}
-</style>
-
-<!-- Le HTML5 shim, for IE6-8 support of HTML5 elements -->
-<!--[if lt IE 9]>
-<script src="http://html5shim.googlecode.com/svn/trunk/html5.js"></script>
-<![endif]-->
-
-<!-- Le fav and touch icons -->
-<link rel="shortcut icon" href="/assets/ico/favicon.ico">
-<link rel="apple-touch-icon-precomposed" sizes="144x144" href="/assets/ico/apple-touch-icon-144-precomposed.png">
-<link rel="apple-touch-icon-precomposed" sizes="114x114" href="/assets/ico/apple-touch-icon-114-precomposed.png">
-<link rel="apple-touch-icon-precomposed" sizes="72x72" href="/assets/ico/apple-touch-icon-72-precomposed.png">
-<link rel="apple-touch-icon-precomposed" href="/assets/ico/apple-touch-icon-57-precomposed.png">
-
-
-
-<!-- google analytics -->
-<script type="text/javascript">
-var _gaq = _gaq || [];
-_gaq.push(['_setAccount', 'UA-32724935-1']);
-_gaq.push(['_trackPageview']);
-(function() {
-var ga = document.createElement('script'); ga.type = 'text/javascript'; ga.async = true;
-ga.src = ('https:' == document.location.protocol ? 'https://ssl' : 'http://www') + '.google-analytics.com/ga.js';
-var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(ga, s);
-})();
-</script>
-
-<!-- <script src="/static/js/jquery.js"></script> -->
-<script src="http://code.jquery.com/jquery-latest.js"></script>
-<script src="/static/js/bootstrap.js"></script>
-
-</head>
-
-<body>
-
-
-
-<div class="navbar navbar-fixed-top">
-<div class="navbar-inner">
-<div class="container">
-<a class="btn btn-navbar" data-toggle="collapse" data-target=".nav-collapse">
-<span class="icon-bar"></span>
-<span class="icon-bar"></span>
-<span class="icon-bar"></span>
-</a>
-<a class="brand" href="/">NewsDiffs</a>
-<div class="nav-collapse">
-<ul class="nav">
-<li ><a href="/">Home</a></li>
-<li ><a href="/about/">About</a></li>
-<li class="active"><a href="/browse/">Browse</a></li>
-<li ><a href="/examples/">Highlights</a></li>
-<li ><a href="/press/">Press</a></li>
-<li ><a href="/subscribe/">Subscribe</a></li>
-<li ><a href="/contact/">Contact</a></li>
-
-</ul>
-</div><!--/.nav-collapse -->
-</div>
-</div>
-</div>
-
-<div class="container">
-
-<form method="get" action="/article-history/">
-Find article by full URL: <input type="text" name="url" style="width: 40em"></input>
-<input type="submit" value="Go" style="margin-bottom: 9px" />
-</form>
-
-
-<ul id="myTab" class="nav nav-tabs">
-<li class="active" ><a href="/browse/" data-toggle="tab">All</a></li>
-<li ><a href="#/browse/nytimes.com" data-toggle="tab">nytimes.com</a></li>
-<li ><a href="#cnn.com" data-toggle="tab">cnn.com</a></li>
-<li ><a href="/browse/politico.com" data-toggle="tab">politico.com</a></li>
-<li ><a href="/browse/bbc.co.uk" data-toggle="tab">bbc.co.uk</a></li>
-</ul>
-</li>
-</ul>
-
-<h1>Changed Articles | All Sources</h1>
-<p>Starting November 24, 2012 (with occasional downtime)</p>
-<p>
-
-<table class="table table-condensed" style="width:100%">
-<thead><tr><th text-align:"left";>Article</th><th>Version</th><th>Diff</th></tr></thead>
-<tr><td rowspan="2" valign="top"><a href="/article-history/?url=http://www.nytimes.com/2012/11/25/sports/ncaafootball/paterno-once-ubiquitous-at-penn-state-is-no-longer-uttered.html">Once Ubiquitous on Campus, â€˜Paternoâ€™ Is No Longer Uttered</a> (<a href="http://www.nytimes.com/2012/11/25/sports/ncaafootball/paterno-once-ubiquitous-at-penn-state-is-no-longer-uttered.html">NYT</a>)<br>By BILL PENNINGTON</td>
-<td>Nov. 25, 2012, 12:15 a.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fwww.nytimes.com%2F2012%2F11%2F25%2Fsports%2Fncaafootball%2Fpaterno-once-ubiquitous-at-penn-state-is-no-longer-uttered.html&amp;v1=7eb09acae06a9c6379c117036d8fcdfdeaaa1133&amp;v2=5c2d9d77c1f77d75ca38340f36d54d060ac750d0">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 5:43 p.m.</td>
-<td></td></tr>
-<tr><td rowspan="2" valign="top"><a href="/article-history/?url=http://www.bbc.co.uk/news/uk-england-london-20481004">Sex attack on schoolgirl, 11, in Enfield park</a> (<a href="http://www.bbc.co.uk/news/uk-england-london-20481004">BBC</a>)<br></td>
-<td>Nov. 25, 2012, 12:13 a.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fwww.bbc.co.uk%2Fnews%2Fuk-england-london-20481004&amp;v1=b493e9804701d5bffec0839cdf89a6a16675423f&amp;v2=5370d92b5782d566a24868e4905cc79f09c84f3c">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 5:42 p.m.</td>
-<td></td></tr>
-<tr><td rowspan="3" valign="top"><a href="/article-history/?url=http://edition.cnn.com/2012/11/24/world/meast/egypt-protests/index.html">Top Egyptian judicial body rips Morsy</a> (<a href="http://edition.cnn.com/2012/11/24/world/meast/egypt-protests/index.html">CNN</a>)<br>Mohamed Fadel Fahmy and Reza Sayah, CNN</td>
-<td>Nov. 25, 2012, 12:12 a.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fedition.cnn.com%2F2012%2F11%2F24%2Fworld%2Fmeast%2Fegypt-protests%2Findex.html&amp;v1=a3db78f46e84bab44c4731e3b5807b2a03e5093f&amp;v2=1b75aaf59d12340a6892d51816618913cb1a1a4f">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 6:44 p.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fedition.cnn.com%2F2012%2F11%2F24%2Fworld%2Fmeast%2Fegypt-protests%2Findex.html&amp;v1=546aebcf55cb1b2880395acd9b19325ea4f98970&amp;v2=a3db78f46e84bab44c4731e3b5807b2a03e5093f">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 5:41 p.m.</td>
-<td></td></tr>
-<tr><td rowspan="2" valign="top"><a href="/article-history/?url=http://www.nytimes.com/2012/11/25/sports/ncaabasketball/college-basketball-roundup.html">Missouri Learns From Costly Turnovers in Loss to Slip Past V.C.U.</a> (<a href="http://www.nytimes.com/2012/11/25/sports/ncaabasketball/college-basketball-roundup.html">NYT</a>)<br>By THE ASSOCIATED PRESS</td>
-<td>Nov. 25, 2012, 12:09 a.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fwww.nytimes.com%2F2012%2F11%2F25%2Fsports%2Fncaabasketball%2Fcollege-basketball-roundup.html&amp;v1=9c0730d28de576277e849c6a302be45eb46b86ca&amp;v2=a87735a8790d471ce9d420d04153be6cc0818647">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 10:17 p.m.</td>
-<td></td></tr>
-<tr><td rowspan="2" valign="top"><a href="/article-history/?url=http://www.nytimes.com/2012/11/25/world/asia/student-killed-in-melee-at-afghan-university.html">Student Killed in Melee at Afghan University</a> (<a href="http://www.nytimes.com/2012/11/25/world/asia/student-killed-in-melee-at-afghan-university.html">NYT</a>)<br>By AZAM AHMED</td>
-<td>Nov. 25, 2012, 12:09 a.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fwww.nytimes.com%2F2012%2F11%2F25%2Fworld%2Fasia%2Fstudent-killed-in-melee-at-afghan-university.html&amp;v1=db1ab48bf27144274f8e560106a0fce3b0adfdaa&amp;v2=bb67d06037a58da3ee0f50ff0a21aa412df1e7af">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 10:16 p.m.</td>
-<td></td></tr>
-<tr><td rowspan="2" valign="top"><a href="/article-history/?url=http://www.nytimes.com/2012/11/25/sports/ncaafootball/with-big-4th-quarter-florida-aids-postseason-credentials.html">Turnovers Cost Florida State Against Gators</a> (<a href="http://www.nytimes.com/2012/11/25/sports/ncaafootball/with-big-4th-quarter-florida-aids-postseason-credentials.html">NYT</a>)<br>By THE ASSOCIATED PRESS</td>
-<td>Nov. 25, 2012, 12:09 a.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fwww.nytimes.com%2F2012%2F11%2F25%2Fsports%2Fncaafootball%2Fwith-big-4th-quarter-florida-aids-postseason-credentials.html&amp;v1=5bba8d5a636965a1356339e969cbeea2426626a5&amp;v2=4da9f5acc968f3f5e5786e913226943c7194903b">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 10:16 p.m.</td>
-<td></td></tr>
-<tr><td rowspan="2" valign="top"><a href="/article-history/?url=http://www.politico.com/news/stories/1112/84183.html">Sunday talk show tip sheet</a> (<a href="http://www.politico.com/news/stories/1112/84183.html">Politico</a>)<br>By Katie Glueck</td>
-<td>Nov. 24, 2012, 10:22 p.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fwww.politico.com%2Fnews%2Fstories%2F1112%2F84183.html&amp;v1=c646670aed7a291f01da11c02f47111071027e42&amp;v2=a68bf8d561b3d1d4ba72c5d9a58fdbee8afcb8ba">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 5:45 p.m.</td>
-<td></td></tr>
-<tr><td rowspan="2" valign="top"><a href="/article-history/?url=http://www.nytimes.com/2012/11/25/world/middleeast/hamas-announcement-further-clouds-truce-talks.html">Hamas Claim Of Progress Complicates Talk of Truce</a> (<a href="http://www.nytimes.com/2012/11/25/world/middleeast/hamas-announcement-further-clouds-truce-talks.html">NYT</a>)<br>By JODI RUDOREN</td>
-<td>Nov. 24, 2012, 10:22 p.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fwww.nytimes.com%2F2012%2F11%2F25%2Fworld%2Fmiddleeast%2Fhamas-announcement-further-clouds-truce-talks.html&amp;v1=bba27f20c63452a2e3f66d1207102751f8ad322e&amp;v2=7b328af394f1d27c36f91e2b25415589003cf7b2">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 5:44 p.m.</td>
-<td></td></tr>
-<tr><td rowspan="2" valign="top"><a href="/article-history/?url=http://www.nytimes.com/2012/11/25/world/middleeast/a-fragile-mideast-cease-fire-achieved-by-leaving-thorny-issues-unresolved.html">A Fragile Cease-Fire Achieved by Leaving Thorny Issues Unresolved</a> (<a href="http://www.nytimes.com/2012/11/25/world/middleeast/a-fragile-mideast-cease-fire-achieved-by-leaving-thorny-issues-unresolved.html">NYT</a>)<br>By MICHAEL R. GORDON</td>
-<td>Nov. 24, 2012, 10:21 p.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fwww.nytimes.com%2F2012%2F11%2F25%2Fworld%2Fmiddleeast%2Fa-fragile-mideast-cease-fire-achieved-by-leaving-thorny-issues-unresolved.html&amp;v1=637d637bfac58e45d128ad70d50f0d7e3feffe6b&amp;v2=ec718e463ca6523a8e75837cd7f9465f20ac7bc6">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 5:43 p.m.</td>
-<td></td></tr>
-<tr><td rowspan="2" valign="top"><a href="/article-history/?url=http://www.nytimes.com/2012/11/25/opinion/sunday/neuroscience-under-attack.html">Neuroscience: Under Attack</a> (<a href="http://www.nytimes.com/2012/11/25/opinion/sunday/neuroscience-under-attack.html">NYT</a>)<br>By ALISSA QUART</td>
-<td>Nov. 24, 2012, 10:20 p.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fwww.nytimes.com%2F2012%2F11%2F25%2Fopinion%2Fsunday%2Fneuroscience-under-attack.html&amp;v1=f44b5e25a876e2792cb8f71973cddcb53ab32b3b&amp;v2=b7a952670fc2a87470c2074c101b2ad46f9874e3">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 5:43 p.m.</td>
-<td></td></tr>
-<tr><td rowspan="2" valign="top"><a href="/article-history/?url=http://www.nytimes.com/2012/11/25/sports/hector-camacho-50-boxer-who-lived-dangerously-dies.html">Hector Camacho, 50, Boxer Known for His Quick Hands</a> (<a href="http://www.nytimes.com/2012/11/25/sports/hector-camacho-50-boxer-who-lived-dangerously-dies.html">NYT</a>)<br>By BRUCE WEBER</td>
-<td>Nov. 24, 2012, 10:19 p.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fwww.nytimes.com%2F2012%2F11%2F25%2Fsports%2Fhector-camacho-50-boxer-who-lived-dangerously-dies.html&amp;v1=fe6e8c090e7d77af3961cc8d02194e46a1872f81&amp;v2=33fd1cd6edc0824fa6f4a692cb4696ee43301823">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 5:41 p.m.</td>
-<td></td></tr>
-<tr><td rowspan="2" valign="top"><a href="/article-history/?url=http://www.politico.com/news/stories/1112/84186.html">Bill Press is keeping it â€˜Currentâ€™</a> (<a href="http://www.politico.com/news/stories/1112/84186.html">Politico</a>)<br>By Mackenzie Weinger</td>
-<td>Nov. 24, 2012, 10:19 p.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fwww.politico.com%2Fnews%2Fstories%2F1112%2F84186.html&amp;v1=594035818ef5a38a404785708d7273013d6e1337&amp;v2=e3dbd09c3baa92ee6cb99c12eb591704396df8a5">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 5:41 p.m.</td>
-<td></td></tr>
-<tr><td rowspan="3" valign="top"><a href="/article-history/?url=http://www.bbc.co.uk/news/uk-20470728">Woman killed by tree amid more storms</a> (<a href="http://www.bbc.co.uk/news/uk-20470728">BBC</a>)<br></td>
-<td>Nov. 24, 2012, 10:19 p.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fwww.bbc.co.uk%2Fnews%2Fuk-20470728&amp;v1=2524d6c4a2dd567f8e96a5bd7fcc85c584f5e68e&amp;v2=afc6adb4746915e04a053713b2cbab9f68053dcc">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 6:44 p.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fwww.bbc.co.uk%2Fnews%2Fuk-20470728&amp;v1=0ce5f695b29bde86617fd10f9b1c1a983be73615&amp;v2=2524d6c4a2dd567f8e96a5bd7fcc85c584f5e68e">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 5:41 p.m.</td>
-<td></td></tr>
-<tr><td rowspan="2" valign="top"><a href="/article-history/?url=http://edition.cnn.com/2012/11/24/sport/football/real-madrid-bayern-football/index.html">Away-day blues continue for Real Madrid</a> (<a href="http://edition.cnn.com/2012/11/24/sport/football/real-madrid-bayern-football/index.html">CNN</a>)<br></td>
-<td>Nov. 24, 2012, 10:19 p.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fedition.cnn.com%2F2012%2F11%2F24%2Fsport%2Ffootball%2Freal-madrid-bayern-football%2Findex.html&amp;v1=fc6e2a402c5d72c02bebee27814f8c051b822968&amp;v2=c2051515151b15381b1cfeb2f4d527a6a043dc61">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 6:43 p.m.</td>
-<td></td></tr>
-<tr><td rowspan="2" valign="top"><a href="/article-history/?url=http://www.nytimes.com/2012/11/25/world/middleeast/morsi-urged-to-retract-edict-to-bypass-judges-in-egypt.html">Egyptian Judges Challenge Morsi Over New Power</a> (<a href="http://www.nytimes.com/2012/11/25/world/middleeast/morsi-urged-to-retract-edict-to-bypass-judges-in-egypt.html">NYT</a>)<br>By DAVID D. KIRKPATRICK</td>
-<td>Nov. 24, 2012, 10:18 p.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fwww.nytimes.com%2F2012%2F11%2F25%2Fworld%2Fmiddleeast%2Fmorsi-urged-to-retract-edict-to-bypass-judges-in-egypt.html&amp;v1=9d39b958644b509743f1b7ae1da52a2e74dccb4d&amp;v2=135dc0c2ae1fb169e5f68d4e43557d9244a047cc">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 5:41 p.m.</td>
-<td></td></tr>
-<tr><td rowspan="2" valign="top"><a href="/article-history/?url=http://www.nytimes.com/2012/11/25/nyregion/path-service-to-resume-into-lower-manhattan.html">PATH Service to Resume Into Lower Manhattan</a> (<a href="http://www.nytimes.com/2012/11/25/nyregion/path-service-to-resume-into-lower-manhattan.html">NYT</a>)<br>By MARC SANTORA</td>
-<td>Nov. 24, 2012, 10:18 p.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fwww.nytimes.com%2F2012%2F11%2F25%2Fnyregion%2Fpath-service-to-resume-into-lower-manhattan.html&amp;v1=4598f4d4b272e8a0cab1235011e27cc6663b3aad&amp;v2=2aed2d7ae54365d06dcfb11897643da4b405f31c">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 5:40 p.m.</td>
-<td></td></tr>
-<tr><td rowspan="3" valign="top"><a href="/article-history/?url=http://www.nytimes.com/2012/11/25/sports/ncaafootball/ohio-states-unbeaten-season-leads-nowhere.html">Beating Their Rival, Buckeyes Finish Unbeaten, Untied and Unfulfilled</a> (<a href="http://www.nytimes.com/2012/11/25/sports/ncaafootball/ohio-states-unbeaten-season-leads-nowhere.html">NYT</a>)<br>By TODD JONES</td>
-<td>Nov. 24, 2012, 10:17 p.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fwww.nytimes.com%2F2012%2F11%2F25%2Fsports%2Fncaafootball%2Fohio-states-unbeaten-season-leads-nowhere.html&amp;v1=4b928d8359049ccbe6de29b88d110a1ec7f2346d&amp;v2=2819e3d0c17bbd275422619d1b49cf1e57db05cc">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 6:44 p.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fwww.nytimes.com%2F2012%2F11%2F25%2Fsports%2Fncaafootball%2Fohio-states-unbeaten-season-leads-nowhere.html&amp;v1=121ac5ed99cb99d8a04a768a2554d51cb6e08ebc&amp;v2=4b928d8359049ccbe6de29b88d110a1ec7f2346d">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 5:40 p.m.</td>
-<td></td></tr>
-<tr><td rowspan="2" valign="top"><a href="/article-history/?url=http://www.nytimes.com/2012/11/25/arts/television/larry-hagman-who-played-jr-ewing-on-dallas-dies-at-81.html">Larry Hagman, â€˜Dallasâ€™ Villain With Sinister Smile, Dies at 81</a> (<a href="http://www.nytimes.com/2012/11/25/arts/television/larry-hagman-who-played-jr-ewing-on-dallas-dies-at-81.html">NYT</a>)<br>By ENID NEMY</td>
-<td>Nov. 24, 2012, 6:46 p.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fwww.nytimes.com%2F2012%2F11%2F25%2Farts%2Ftelevision%2Flarry-hagman-who-played-jr-ewing-on-dallas-dies-at-81.html&amp;v1=3227a140d5fffd35fbf08b24022e9e0df5b5251e&amp;v2=619e84a911a9a1a9939fef31b822c79996881d75">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 5:44 p.m.</td>
-<td></td></tr>
-<tr><td rowspan="2" valign="top"><a href="/article-history/?url=http://www.nytimes.com/2012/11/25/sports/football/49ers-take-odd-spin-on-quarterback-controversy.html">Odd Spin on Quarterback Controversy</a> (<a href="http://www.nytimes.com/2012/11/25/sports/football/49ers-take-odd-spin-on-quarterback-controversy.html">NYT</a>)<br>By JOHN BRANCH</td>
-<td>Nov. 24, 2012, 6:46 p.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fwww.nytimes.com%2F2012%2F11%2F25%2Fsports%2Ffootball%2F49ers-take-odd-spin-on-quarterback-controversy.html&amp;v1=c889617fc96a4c7e4d7db86558cfac37599e78a7&amp;v2=334721347c170890e03fae805bed3a81a16c5edd">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 5:44 p.m.</td>
-<td></td></tr>
-<tr><td rowspan="2" valign="top"><a href="/article-history/?url=http://edition.cnn.com/2012/11/24/us/larry-hagman-obit/index.html">Larry Hagman, the man behind iconic villain J.R. Ewing, dies</a> (<a href="http://edition.cnn.com/2012/11/24/us/larry-hagman-obit/index.html">CNN</a>)<br>Chelsea J. Carter and Greg Botelho, CNN</td>
-<td>Nov. 24, 2012, 6:46 p.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fedition.cnn.com%2F2012%2F11%2F24%2Fus%2Flarry-hagman-obit%2Findex.html&amp;v1=8c383d97a477259176886cc0a097306780be5f03&amp;v2=86ceb18edaf6b97b51e037ac76f3b61b2e81dc0b">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 5:43 p.m.</td>
-<td></td></tr>
-<tr><td rowspan="2" valign="top"><a href="/article-history/?url=http://www.nytimes.com/2012/11/25/magazine/the-hard-life-of-an-nfl-long-shot.html">Goal to Go</a> (<a href="http://www.nytimes.com/2012/11/25/magazine/the-hard-life-of-an-nfl-long-shot.html">NYT</a>)<br>By CHARLES SIEBERT</td>
-<td>Nov. 24, 2012, 6:45 p.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fwww.nytimes.com%2F2012%2F11%2F25%2Fmagazine%2Fthe-hard-life-of-an-nfl-long-shot.html&amp;v1=6917eb36efa56d3d1f1557d1c0b2781823a02fc9&amp;v2=ebbe23ca8fac7d507b22ec31a778ba6a564a1bd5">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 5:41 p.m.</td>
-<td></td></tr>
-<tr><td rowspan="2" valign="top"><a href="/article-history/?url=http://edition.cnn.com/2012/11/23/us/new-york-sandy-recovery/index.html">NJ governor puts Sandy damage at $29.4 billion</a> (<a href="http://edition.cnn.com/2012/11/23/us/new-york-sandy-recovery/index.html">CNN</a>)<br>Julia Talanova and Rande Iaboni, CNN</td>
-<td>Nov. 24, 2012, 6:44 p.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fedition.cnn.com%2F2012%2F11%2F23%2Fus%2Fnew-york-sandy-recovery%2Findex.html&amp;v1=b08e5914b0183d6994d975ff26a978760de17ac4&amp;v2=e0ed4cdc1ad6ea1531d6958d8cdbfe7cffc61849">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 5:41 p.m.</td>
-<td></td></tr>
-<tr><td rowspan="2" valign="top"><a href="/article-history/?url=http://www.nytimes.com/2012/11/25/world/middleeast/israel-and-hamas-are-united-in-seeing-scant-value-in-compromise.html">On This, 2 Sides Agree: Fighting Hardened Positions</a> (<a href="http://www.nytimes.com/2012/11/25/world/middleeast/israel-and-hamas-are-united-in-seeing-scant-value-in-compromise.html">NYT</a>)<br>By JODI RUDOREN and ISABEL KERSHNER</td>
-<td>Nov. 24, 2012, 6:44 p.m.</td>
-<td><a href="/diffview/?url=http%3A%2F%2Fwww.nytimes.com%2F2012%2F11%2F25%2Fworld%2Fmiddleeast%2Fisrael-and-hamas-are-united-in-seeing-scant-value-in-compromise.html&amp;v1=ec902701f2f79a7ec8d0cb46ea0851591b590b79&amp;v2=0b144879dc369cd7e0a97a4f7bb6924780021294">(Compare)</a></td></tr><tr>
-<td>Nov. 24, 2012, 5:41 p.m.</td>
-<td></td></tr>
-</table>
-1
-
-
-<hr>
-<footer>
-<p>&copy; <a href="/contact/">NewsDiffs</a> 2012 | <a href="http://twitter.com/newsdiffs">@newsdiffs</a> | <a href="/subscribe/">Subscribe</a> </p>
-</footer>
-
-</div>
-
-
-</div> <!-- /container -->
-<!-- Bootstrap javascript
-================================================== -->
-<!-- Placed at the end of the document so the pages load faster -->
-<!--
-<script src="/static/lib/bootstrap-alert.js"></script>
-<script src="/static/lib/bootstrap-modal.js"></script>
-<script src="/static/lib/bootstrap-dropdown.js"></script>
-<script src="/static/lib/bootstrap-scrollspy.js"></script>
-<script src="/static/lib/bootstrap-tab.js"></script>
-<script src="/static/lib/bootstrap-tooltip.js"></script>
-<script src="/static/lib/bootstrap-popover.js"></script>
-<script src="/static/lib/bootstrap-button.js"></script>
-<script src="/static/lib/bootstrap-collapse.js"></script>
-<script src="/static/lib/bootstrap-carousel.js"></script>
-<script src="/static/lib/bootstrap-typeahead.js"></script>
--->
-</body>
-</html>
diff --git a/website/frontend/templates/examples.html b/website/frontend/templates/examples.html
index e421d8ca..3e446b47 100644
--- a/website/frontend/templates/examples.html
+++ b/website/frontend/templates/examples.html
@@ -6,7 +6,7 @@
 		<h1>Highlights</h1>
 		<p>Hier haben wir ein paar besonders interessante Änderungen 
 zusammengestellt. Hast du eine interessante beim stöbern gefunden, die du uns 
-<a href="http://www.newsdiffs.org/contact/">mitteilen</a> magst?</p>
+<a href="{% url 'contact' %}">mitteilen</a> magst?</p>
 		<p>
 		<p>
 <style>
diff --git a/website/frontend/templates/front.html b/website/frontend/templates/front.html
index b5744437..f7615e35 100644
--- a/website/frontend/templates/front.html
+++ b/website/frontend/templates/front.html
@@ -7,13 +7,13 @@
 
 {% include "find_by_uri.html" %}
 
-<a href="http://newsdiffs.org/browse"><img 
-src="https://phaven-prod.s3.amazonaws.com/files/image_part/asset/802050/slGF-1I5TqAsI_01Z9N8hnAv85o/medium_Screen_shot_2012-06-18_at_5.10.png" 
+<a href="{% url 'browse' %}"><img
+src="https://phaven-prod.s3.amazonaws.com/files/image_part/asset/802050/slGF-1I5TqAsI_01Z9N8hnAv85o/medium_Screen_shot_2012-06-18_at_5.10.png"
 style="padding:10px; margin-left:25px; margin-top:10px; float:right" width="400"></a>	
 		
 <h1>NewsDiffs |  Tracking Online News Over Time</h1><p>
 
-<h2>	NewsDiffs <a href="http://newsdiffs.org/browse">archiviert Änderungen</a>, die an  
+<h2>	NewsDiffs <a href="{% url 'browse' %}">archiviert Änderungen</a>, die an
 Artikeln nach ihrer Veröffentlichung vorgenommen werden und macht diese sichtbar.<br> Zur Zeit verfolgen wir die Änderungen auf 
 {% for source in sources|slice:":-1" %}
 <a href="{% url 'browse' source %}">{{source}}</a>,
@@ -24,7 +24,7 @@ <h2>	NewsDiffs <a href="http://newsdiffs.org/browse">archiviert Änderungen</a>,
 <p>
 <p>NewsDiffs versucht das Problem der Nachrichtenarchivierung in der sich ständig ändernden Welt des Online-Journalismus zu beheben.
 
-<p>Du kannst unser Archiv nach Artikeln <a href="http://newsdiffs.org/browse/">durchsuchen</a>. Außerdem haben wir ein paar <a href="http://newsdiffs.org/examples/">Beispiele</a> für besonders interessante Änderungen an Artikeln zusammengestellt.
+<p>Du kannst unser Archiv nach Artikeln <a href="{% url 'browse' %}">durchsuchen</a>. Außerdem haben wir ein paar <a href="{% url 'examples' %}">Beispiele</a> für besonders interessante Änderungen an Artikeln zusammengestellt.
 <p>Softwareentwickler können sich gerne unser <a href="https://github.com/NewsdiffsDE/newsdiffs">GitHub Repository</a> angucken.
 
 
diff --git a/website/frontend/templates/press.html b/website/frontend/templates/press.html
deleted file mode 100644
index d9f60277..00000000
--- a/website/frontend/templates/press.html
+++ /dev/null
@@ -1,42 +0,0 @@
-{% extends 'template.html' %}
-
-{% block active_press %}class="active"{% endblock %}
-
-{% block title %}Press{% endblock title%}
-
-{% block content %}
-
-<h1>Press</h1>
-
-<p>We've been very fortunate to get some press around what started as a weekend project! Here are some of the highlights.</p>
-<p>
-<ul>
-<li><strong><a href="https://www.nytimes.com/2012/07/01/opinion/sunday/article-changes-are-shown-in-a-tool-created-by-outsiders.html?_r=1&pagewanted=all">The New York Times</a>, July 1, 2012</strong>  
-<br><strong>"An Insider's View of Changes, From Outside" by Arthur S. Brisbane.</strong>
-<br>The "journalistic sausage-making process on display is fascinating, raises many questions for critics to seize upon and, I believe, puts pressure on The Times to offer its own accounting of its coverage.Why do so many changes appear in continuous news coverage? What justifies a change? Those are questions that need answering, especially now that the changes are so visible to readers."
-</ul>
-<ul>
-<li><strong><a href="http://www.poynter.org/latest-news/regret-the-error/177515/newsdiffs-tracks-changes-to-new-york-times-cnn-content/">Poynter.org</a>, June 18, 2012</strong> 
-<br><strong>"NewsDiffs tracks changes to New York Times, CNN" by Craig Silverman</strong>
-<br>"NewsDiffs follows in the tradition of ProPublica's ChangeTracker, which lets you track changes to pages on the White House website, and the recently announced Politwoops from the Sunlight Foundation, which lets you track the tweets deleted by Twitter accounts belonging to politicians. The common thread that run between these tools is they expose changes or capture deleted content that is otherwise rarely visible or trackable by the public."
-</ul>
-<ul>
-<li><strong><a href="http://betabeat.com/2012/06/newsdiffs-shows-changes-made-to-new-york-times-articles-after-theyre-published/">Betabeat of The New York Observer</a>, June 18, 2012</strong>
-<br>"NewsDiffs Shows Changes Made to New York Times Articles After They're Published"  by Adrianne Jeffries</strong>
-<br>"So far the app has turned up mostly minor but interesting differences." (Well, it was early. First day of running. The better stuff came later)
-</ul>
-<ul>
-<li><strong>VIDEO: <a href="http://pandodaily.com/2012/06/21/fast-chat-news-diffs-tracks-changing-online-news-stories/">PandoDaily/Daily Download</a>, July 21, 2012</strong> 
-<br><strong>"Fast Chat: NewsDiffs Tracks Changing Online News Stories."</strong>
-<br>Lauren Ashburn and Howard Kurtz discuss NewsDiffs. 
-<br>We were honored to be noted by Howard Kurtz, noted media critic!
-</ul>
-<ul>
-<li><strong><a href="http://www.mediabistro.com/10000words/news-diffs-a-new-project-to-track-news-revisions_b13805">MediaBistro 10,000 Words</a>, June 19, 2012</strong>
-
-
-<br><strong>"A New Project To Track News Revisions" by Lauren Rabaino</strong>
-<br>A nice analysis from the perspective of a Seattle Times home page producer.
-</ul>
-
-{% endblock content %}
diff --git a/website/frontend/templates/subscribe.html b/website/frontend/templates/subscribe.html
deleted file mode 100644
index 62b16ea6..00000000
--- a/website/frontend/templates/subscribe.html
+++ /dev/null
@@ -1,17 +0,0 @@
-{% extends 'template.html' %}
-
-{% block active_subscribe %}class="active"{% endblock %}
-
-{% block title %}Subscribe{% endblock title%}
-
-{% block content %}
-      <h1>Subscribe</h1>
-      <p>
-      Enter your email below to get our updates on NewsDiffs. You can also follow us on <a href="http://twitter.com/newsdiffs">Twitter</a>. <p> <form style="border:0px solid #ccc;padding:3px;text-align:left;" 
-action="https://tinyletter.com/newsdiffs" method="post" target="popupwindow" onsubmit="window.open('https://tinyletter.com/newsdiffs', 'popupwindow', 'scrollbars=yes,width=800,height=600');return 
-true"><p></p><p><input type="email" style="width:140px" name="email" id="tlemail" /></p><input type="hidden" value="1" name="embed"/><input type="submit" 
-value="Sign Me Up!" /><p></form>
-    
-
-<!--End mc_embed_signup-->
-{% endblock %}
diff --git a/website/frontend/templates/upvote.html b/website/frontend/templates/upvote.html
deleted file mode 100644
index 2d4d32cf..00000000
--- a/website/frontend/templates/upvote.html
+++ /dev/null
@@ -1,11 +0,0 @@
-{% extends 'template.html' %}
-{% load url from future %}
-
-{% block title %}Danke für deinen Input!{% endblock title%}
-
-{% block content %}
-<h1>Danke für deinen Input!</h1>
-    
-<p>Dankeschön! Deine Stimme wurde registriert.  Wenn du Lust hast, <a href="{% url 'browse' %}">durchsuche</a> NewsDiffs nach noch mehr Artikeln.
-
-{% endblock content%}
diff --git a/website/frontend/urls.py b/website/frontend/urls.py
index 816689d3..6afd5082 100644
--- a/website/frontend/urls.py
+++ b/website/frontend/urls.py
@@ -6,7 +6,6 @@
   url(r'^article-history/$', 'frontend.views.article_history', name='article_history'),
 
   # These are current:
-  url(r'^upvote/$', 'frontend.views.upvote', name='upvote'),
   url(r'^diff/(?P<vid1>\d+)/(?P<vid2>\d+)/(?P<urlarg>.*)$', 'frontend.views.diffview', name='diffview'),
   url(r'^about/$', 'frontend.views.about', name='about'),
   url(r'^browse/$', 'frontend.views.browse', name='browse'),
@@ -14,8 +13,6 @@
   url(r'^feed/browse/(.*)$', 'frontend.views.feed', name='feed'),
   url(r'^contact/$', 'frontend.views.contact', name='contact'),
   url(r'^examples/$', 'frontend.views.examples', name='examples'),
-  url(r'^subscribe/$', 'frontend.views.subscribe', name='subscribe'),
-  url(r'^press/$', 'frontend.views.press', name='press'),
   url(r'^feed/article-history/(.*)$', 'frontend.views.article_history_feed', name='article_history_feed'),
   url(r'^article-history/(?P<urlarg>.*)$', 'frontend.views.article_history', name='article_history'),
   url(r'^json/view/(?P<vid>\d+)/?$', 'frontend.views.json_view'),
diff --git a/website/frontend/views.py b/website/frontend/views.py
index e439492e..d181380a 100644
--- a/website/frontend/views.py
+++ b/website/frontend/views.py
@@ -342,15 +342,6 @@ def json_view(request, vid):
         )
     return HttpResponse(json.dumps(data), mimetype="application/json")
 
-def upvote(request):
-    article_url = request.REQUEST.get('article_url')
-    diff_v1 = request.REQUEST.get('diff_v1')
-    diff_v2 = request.REQUEST.get('diff_v2')
-    remote_ip = request.META.get('REMOTE_ADDR')
-    article_id = Article.objects.get(url=article_url).id
-    models.Upvote(article_id=article_id, diff_v1=diff_v1, diff_v2=diff_v2, creation_time=datetime.datetime.now(), upvoter_ip=remote_ip).save()
-    return render_to_response('upvote.html')
-
 def about(request):
     return render_to_response('about.html', {})
 
@@ -363,9 +354,4 @@ def contact(request):
 def front(request):
     return render_to_response('front.html', {'sources': SOURCES})
 
-def subscribe(request):
-    return render_to_response('subscribe.html', {})
-
-def press(request):
-    return render_to_response('press.html', {})
 

From 0655d2186f72815697e60046eb01946c99814bcc Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Mon, 4 May 2015 12:18:32 +0200
Subject: [PATCH 35/64] deleted contactForm script

---
 website/frontend/templates/contact.html  | 17 +----------------
 website/frontend/templates/examples.html |  2 +-
 2 files changed, 2 insertions(+), 17 deletions(-)

diff --git a/website/frontend/templates/contact.html b/website/frontend/templates/contact.html
index 80e40498..7a989886 100644
--- a/website/frontend/templates/contact.html
+++ b/website/frontend/templates/contact.html
@@ -6,21 +6,6 @@
 
 {% block content %}
       	<h1>Kommentare, Feedback, Kritik?</h1>
-<div id="wufoo-q7x3s5">
-</div>
-<script type="text/javascript">var q7x3s5;(function(d, t) {
-var s = d.createElement(t), options = {
-'userName':'newsdiffs', 
-'formHash':'q7x3s5', 
-'autoResize':true,
-'height':'577',
-'async':true,
-'header':'show'};
-s.src = ('https:' == d.location.protocol ? 'https://' : 'http://') + 'wufoo.com/scripts/embed/form.js';
-s.onload = s.onreadystatechange = function() {
-var rs = this.readyState; if (rs) if (rs != 'complete') if (rs != 'loaded') return;
-try { q7x3s5 = new WufooForm();q7x3s5.initialize(options);q7x3s5.display(); } catch (e) {}};
-var scr = d.getElementsByTagName(t)[0], par = scr.parentNode; par.insertBefore(s, scr);
-})(document, 'script');</script>
+<p>Bald wird hier ein Kontaktformular stehen.</p>
 
 {% endblock %}
diff --git a/website/frontend/templates/examples.html b/website/frontend/templates/examples.html
index 3e446b47..ab9c05cd 100644
--- a/website/frontend/templates/examples.html
+++ b/website/frontend/templates/examples.html
@@ -6,7 +6,7 @@
 		<h1>Highlights</h1>
 		<p>Hier haben wir ein paar besonders interessante Änderungen 
 zusammengestellt. Hast du eine interessante beim stöbern gefunden, die du uns 
-<a href="{% url 'contact' %}">mitteilen</a> magst?</p>
+<a href="/contact">mitteilen</a> magst?</p>
 		<p>
 		<p>
 <style>

From 477147ba859f231d88831bdaef5187ccd9609191 Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Mon, 4 May 2015 21:47:34 +0200
Subject: [PATCH 36/64] modified Bild/Focus Parser

---
 parsers/__init__.py |  2 +-
 parsers/bild.py     |  6 ++++--
 parsers/focus.py    | 22 +++++++++++++---------
 3 files changed, 18 insertions(+), 12 deletions(-)

diff --git a/parsers/__init__.py b/parsers/__init__.py
index cc6b7f79..073a7dc7 100644
--- a/parsers/__init__.py
+++ b/parsers/__init__.py
@@ -12,7 +12,7 @@
 # List of parsers to import and use based on parser.domains
 
 parsers = """
-bild.BildParser
+focus.FocusParser
 """.split()
 
 parser_dict = {}
diff --git a/parsers/bild.py b/parsers/bild.py
index d1efb528..d51817b5 100644
--- a/parsers/bild.py
+++ b/parsers/bild.py
@@ -27,9 +27,11 @@ def _parse(self, html):
         self.authorids = soup.find('div', attrs={'itemprop':'author'})
         self.byline = self.authorids.getText() if self.authorids else ''
 
-        div = soup.find('div', 'txt')
+        div = soup.find('div', attrs={'itemprop':'articleBody'})
         print(div)
         if div is None:
             self.real_article = False
             return
-        self.body = str(div)
+        self.body = '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
+                                      if isinstance(x, Tag) and x.name == 'p'])
+
diff --git a/parsers/focus.py b/parsers/focus.py
index 96d3d892..e26d3207 100644
--- a/parsers/focus.py
+++ b/parsers/focus.py
@@ -3,7 +3,7 @@
 
 
 class FocusParser(BaseParser):
-    SUFFIX = ''
+    SUFFIX = '?drucken=1'
     domains = ['www.focus.de']
 
     feeder_pat   = '^http://www.focus.de/(politik|finanzen|panorama|gesundheit|wissen)'
@@ -14,18 +14,22 @@ def _parse(self, html):
                              fromEncoding='utf-8')
 
         self.meta = soup.findAll('meta')
-        elt = soup.find('h1', 'articleIDentH1')
+        elt = soup.find('h1')
         if elt is None:
             self.real_article = False
             return
         self.title = elt.getText()
-        self.byline = ''
-        self.date = soup.find('span', 'created').getText()
+        #self.byline = soup.find('a', {'rel':'author'})
+        #self.date = soup.find('meta', {'name':'date'})['content']
 
-
-        div = soup.find('div', 'article-body')
-        if div is None:
+        content = soup.find('div', 'articleContent').findAll('div', 'textBlock')
+        if content is None:
             self.real_article = False
             return
-        self.body = '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
-                                      if isinstance(x, Tag) and x.name == 'p'])
+        text = ''
+        for div in content:
+            p = div.findAll('p')
+            for txt in p:
+                text += txt.getText()
+        print(text)
+        self.body = text
\ No newline at end of file

From e5407a202f3efd7bc2ac39165c77be050665b100 Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Mon, 4 May 2015 23:07:07 +0200
Subject: [PATCH 37/64] focus parser workes without errors

---
 parsers/focus.py | 14 +++++++++-----
 1 file changed, 9 insertions(+), 5 deletions(-)

diff --git a/parsers/focus.py b/parsers/focus.py
index e26d3207..5be4948f 100644
--- a/parsers/focus.py
+++ b/parsers/focus.py
@@ -19,9 +19,14 @@ def _parse(self, html):
             self.real_article = False
             return
         self.title = elt.getText()
-        #self.byline = soup.find('a', {'rel':'author'})
-        #self.date = soup.find('meta', {'name':'date'})['content']
-
+        try:
+            author = soup.find('a', {'rel':'author'}).text
+        except:
+            author = ''
+        self.byline = author
+        created_at = soup.find('meta', {'name':'date'})['content']
+        self.date = created_at if created_at else ''
+        self.body = ''
         content = soup.find('div', 'articleContent').findAll('div', 'textBlock')
         if content is None:
             self.real_article = False
@@ -30,6 +35,5 @@ def _parse(self, html):
         for div in content:
             p = div.findAll('p')
             for txt in p:
-                text += txt.getText()
-        print(text)
+                text += txt.getText()+'\n'
         self.body = text
\ No newline at end of file

From 0df0199de87ba53eae7eba0101815092e7b66814 Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Mon, 4 May 2015 23:08:24 +0200
Subject: [PATCH 38/64] added temp db file to gitignore

---
 .gitignore | 1 +
 1 file changed, 1 insertion(+)

diff --git a/.gitignore b/.gitignore
index f53ec90f..db37c9ca 100644
--- a/.gitignore
+++ b/.gitignore
@@ -31,4 +31,5 @@ pip-log.txt
 .mr.developer.cfg
 
 newsdiffs.db
+newsdiffs.db-journal
 database_settings.py

From e9f784b1473a2e36430e700b8f16275bec13a7a0 Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Mon, 4 May 2015 23:16:27 +0200
Subject: [PATCH 39/64] kicked panorama from focus and modified bild.py

---
 parsers/bild.py  | 2 +-
 parsers/focus.py | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/parsers/bild.py b/parsers/bild.py
index d51817b5..487dcc8d 100644
--- a/parsers/bild.py
+++ b/parsers/bild.py
@@ -33,5 +33,5 @@ def _parse(self, html):
             self.real_article = False
             return
         self.body = '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
-                                      if isinstance(x, Tag) and x.name == 'p'])
+                                     if isinstance(x, Tag) and x.name == 'p'])
 
diff --git a/parsers/focus.py b/parsers/focus.py
index 5be4948f..6d70b76a 100644
--- a/parsers/focus.py
+++ b/parsers/focus.py
@@ -6,7 +6,7 @@ class FocusParser(BaseParser):
     SUFFIX = '?drucken=1'
     domains = ['www.focus.de']
 
-    feeder_pat   = '^http://www.focus.de/(politik|finanzen|panorama|gesundheit|wissen)'
+    feeder_pat   = '^http://www.focus.de/(politik|finanzen|gesundheit|wissen)'
     feeder_pages = ['http://www.focus.de/']
 
     def _parse(self, html):

From a0501005b4ddf5dcd60051cb3e85069bc88cd01d Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Tue, 5 May 2015 00:11:44 +0200
Subject: [PATCH 40/64] bildParser workes

---
 parsers/__init__.py |  3 +++
 parsers/bild.py     | 24 +++++++++++++-----------
 2 files changed, 16 insertions(+), 11 deletions(-)

diff --git a/parsers/__init__.py b/parsers/__init__.py
index 073a7dc7..970fdada 100644
--- a/parsers/__init__.py
+++ b/parsers/__init__.py
@@ -12,7 +12,10 @@
 # List of parsers to import and use based on parser.domains
 
 parsers = """
+bild.BildParser
 focus.FocusParser
+welt.WeltParser
+zeit.ZeitParser
 """.split()
 
 parser_dict = {}
diff --git a/parsers/bild.py b/parsers/bild.py
index 487dcc8d..266c9585 100644
--- a/parsers/bild.py
+++ b/parsers/bild.py
@@ -17,21 +17,23 @@ def _parse(self, html):
                              fromEncoding='utf-8')
 
         self.meta = soup.findAll('meta')
-        elt = soup.find(attrs = {'class' : 'headline'})
+        elt = soup.find('meta', {'property': 'og:title'})['content']
         if elt is None:
             self.real_article = False
             return
-        self.title = elt.getText()
-        print(self.title)
-        self.date = soup.find(attrs = {'time' : 'datetime'})
-        self.authorids = soup.find('div', attrs={'itemprop':'author'})
-        self.byline = self.authorids.getText() if self.authorids else ''
-
-        div = soup.find('div', attrs={'itemprop':'articleBody'})
-        print(div)
+        self.title = elt
+        created_at = soup.find('div', {'class': 'date'}).getText()
+        self.date = created_at if created_at else ''
+        author = soup.find('div', {'itemprop':'author'})
+        self.byline = author.getText() if author else ''
+        print(self.byline)
+        div = soup.find('div', {'itemprop':'articleBody isFamilyFriendly'})
         if div is None:
             self.real_article = False
             return
-        self.body = '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
-                                     if isinstance(x, Tag) and x.name == 'p'])
+        text = ''
+        p = div.findAll('p')
+        for txt in p:
+                text += txt.getText()+'\n'
+        self.body = text
 

From c298c41befdb89644a8f96369946472302389f01 Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Tue, 5 May 2015 00:17:57 +0200
Subject: [PATCH 41/64] deleted upvote function use

---
 website/frontend/templates/diffview.html | 8 --------
 1 file changed, 8 deletions(-)

diff --git a/website/frontend/templates/diffview.html b/website/frontend/templates/diffview.html
index a0868f22..ef647b1f 100644
--- a/website/frontend/templates/diffview.html
+++ b/website/frontend/templates/diffview.html
@@ -77,14 +77,6 @@ <h3><a href="{{article_url}}">{{article_url}}</a></h3>
       {% endif %}
     </p>
 
-<!--
-Are these changes interesting?   <form action="{% url 'upvote' %}" method=POST>
-      <input type=hidden name=article_url value={{article_url}}>
-      <input type=hidden name=diff_v1 value={{v1}}>
-      <input type=hidden name=diff_v2 value={{v2}}>
-      <input type=submit name=submit value="Yes">
-    </form>
--->
 <hr>
     <div>
       <div id="compare">

From b10eb8ce75deb4e1aade0305d3021cde62940689 Mon Sep 17 00:00:00 2001
From: Robert Piwonski <piwonski.robert+git@gmail.com>
Date: Wed, 6 May 2015 00:02:16 +0200
Subject: [PATCH 42/64] 5 Parsers complete, tested with test parser and
 Test-URLs. Might still recognize static or sponsored content as newsworthy
 articles.

---
 parsers/RPOnline.py     | 33 +++++++++++++++++++++++++++++++++
 parsers/faz.py          | 31 +++++++++++++++++++++++++++++++
 parsers/n-tv.py         | 31 +++++++++++++++++++++++++++++++
 parsers/sueddeutsche.py | 35 +++++++++++++++++++++++++++++++++++
 4 files changed, 130 insertions(+)
 create mode 100644 parsers/RPOnline.py
 create mode 100644 parsers/faz.py
 create mode 100644 parsers/n-tv.py
 create mode 100644 parsers/sueddeutsche.py

diff --git a/parsers/RPOnline.py b/parsers/RPOnline.py
new file mode 100644
index 00000000..6ad707e5
--- /dev/null
+++ b/parsers/RPOnline.py
@@ -0,0 +1,33 @@
+from baseparser import BaseParser
+from BeautifulSoup import BeautifulSoup, Tag
+
+
+class RPOParser(BaseParser):
+    domains = ['www.rp-online.de/']
+
+    feeder_pat   = '1\.\d*$'
+    feeder_pages = ['http://www.rp-online.de/']
+
+    def _parse(self, html):
+        soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
+                             fromEncoding='utf-8')
+        self.meta = soup.findAll('meta')
+        elt = soup.find('meta', {'property':'og:title'})['content']
+        if elt is None:
+            self.real_article = False
+            return
+        self.title = elt
+        self.byline = ''
+        self.date = soup.find('meta', {'property':'vr:published_time'})['content']
+        div = soup.find('div', {'class':'main-text '})
+	intro = soup.find('div', {'class':'first intro'}).find('strong')
+
+        if div is None:
+            # Hack for video articles
+            div = soup.find('div', 'emp-decription')
+        if div is None:
+            self.real_article = False
+            return
+	self.body = intro.getText()
+        self.body += '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
+                                      if isinstance(x, Tag) and x.name=='p'])
diff --git a/parsers/faz.py b/parsers/faz.py
new file mode 100644
index 00000000..529d304a
--- /dev/null
+++ b/parsers/faz.py
@@ -0,0 +1,31 @@
+from baseparser import BaseParser
+from BeautifulSoup import BeautifulSoup, Tag
+
+
+class FAZParser(BaseParser):
+    domains = ['www.faz.net']
+
+    feeder_pat   = 'aktuell/.*\.html$'
+    feeder_pages = ['http://www.faz.net/']
+
+    def _parse(self, html):
+        soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
+                             fromEncoding='utf-8')
+        self.meta = soup.findAll('meta')
+        elt = soup.find('meta', {'property':'og:title'})['content']
+        if elt is None:
+            self.real_article = False
+            return
+        self.title = elt
+        self.byline = ''
+        self.date = soup.find('meta', {'name':'last-modified'})['content']
+
+        div = soup.find('div', 'FAZArtikelContent').find('div', {'class':''})
+        if div is None:
+            # Hack for video articles
+            div = soup.find('div', 'emp-decription')
+        if div is None:
+            self.real_article = False
+            return
+        self.body = '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
+                                      if isinstance(x, Tag) and x.name == 'p'])
diff --git a/parsers/n-tv.py b/parsers/n-tv.py
new file mode 100644
index 00000000..20648d00
--- /dev/null
+++ b/parsers/n-tv.py
@@ -0,0 +1,31 @@
+from baseparser import BaseParser
+from BeautifulSoup import BeautifulSoup, Tag
+
+
+class NTVParser(BaseParser):
+
+    domains = ['www.n-tv.de']
+
+    feeder_pat   = 'article\d+'
+    feeder_pages = ['http://www.n-tv.de/']
+
+    def _parse(self, html):
+        soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
+                             fromEncoding='utf-8')      
+	self.meta = soup.findAll('meta')
+        elt = soup.find('h1', {'class':'h1'})
+        if elt is None:
+            self.real_article = False
+            return
+        self.title = elt.getText()
+        self.byline = ''
+	self.date = soup.find('meta', {'name':'last-modified'})['content']
+        div = soup.find('div', {'class':'content'})
+        if div is None:
+            # Hack for video articles
+            div = soup.find('div', 'emp-decription')
+        if div is None:
+            self.real_article = False
+            return
+        self.body = '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
+                                      if isinstance(x, Tag) and x.name == 'p'])
diff --git a/parsers/sueddeutsche.py b/parsers/sueddeutsche.py
new file mode 100644
index 00000000..769cf8e8
--- /dev/null
+++ b/parsers/sueddeutsche.py
@@ -0,0 +1,35 @@
+from baseparser import BaseParser
+from BeautifulSoup import BeautifulSoup, Tag
+
+
+class SDParser(BaseParser):
+    domains = ['http://www.sueddeutsche.de/']
+
+    feeder_pat   = '1\.\d*$'
+    feeder_pages = ['http://www.sueddeutsche.de/']
+
+    def _parse(self, html):
+        soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
+                             fromEncoding='utf-8')
+        self.meta = soup.findAll('meta')
+        elt = soup.find('meta', {'property':'og:title'})['content']
+        if elt is None:
+            self.real_article = False
+            return
+        self.title = elt
+        self.byline = ''
+        self.date = soup.find('time', {'class':'timeformat'})['datetime']
+
+        div = soup.find('div', {'id':'wrapper'})
+	intro = soup.find('section', {'class':'body'})
+
+        if div is None:
+            # Hack for video articles
+            div = soup.find('div', 'emp-decription')
+        if div is None:
+            self.real_article = False
+            return
+	self.body = '\n'+'\n\n'.join([x.getText() for x in intro.childGenerator()
+                                      if isinstance(x, Tag) and x.name=='ul'])
+        self.body += '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
+                                      if isinstance(x, Tag) and x.name=='p'])

From 8c0a6598c73ba4e9a63fd66a698be58af6b9a7f6 Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Wed, 6 May 2015 00:21:04 +0200
Subject: [PATCH 43/64] modified baseparser, new method-> remove_non_content

---
 parsers/__init__.py   |  3 ---
 parsers/baseparser.py | 12 ++++++++++++
 parsers/bild.py       | 17 +++++++++--------
 parsers/focus.py      | 12 ++++++------
 parsers/spiegel.py    | 27 ++++++++++++++++++---------
 5 files changed, 45 insertions(+), 26 deletions(-)

diff --git a/parsers/__init__.py b/parsers/__init__.py
index 970fdada..cc6b7f79 100644
--- a/parsers/__init__.py
+++ b/parsers/__init__.py
@@ -13,9 +13,6 @@
 
 parsers = """
 bild.BildParser
-focus.FocusParser
-welt.WeltParser
-zeit.ZeitParser
 """.split()
 
 parser_dict = {}
diff --git a/parsers/baseparser.py b/parsers/baseparser.py
index e746a7be..a5038071 100644
--- a/parsers/baseparser.py
+++ b/parsers/baseparser.py
@@ -5,6 +5,7 @@
 import sys
 import time
 import urllib2
+from BeautifulSoup import BeautifulSoup, Comment
 
 # Define a logger
 
@@ -157,3 +158,14 @@ def feed_urls(cls):
             all_urls = all_urls + [url for url in urls if
                                    re.search(cls.feeder_pat, url)]
         return all_urls
+
+        #removes all non-content
+    def remove_non_content(self, html):
+        map(lambda x: x.extract(), html.findAll('div', {'class':'adition'})) #focus
+        map(lambda x: x.extract(), html.findAll('div', {'class':'infoEl center edge'})) # bild
+        map(lambda x: x.extract(), html.findAll('script'))
+        map(lambda x: x.extract(), html.findAll('style'))
+        map(lambda x: x.extract(), html.findAll('embed'))
+        comments = html.findAll(text=lambda text:isinstance(text, Comment))
+        [comment.extract() for comment in comments]
+        return html
diff --git a/parsers/bild.py b/parsers/bild.py
index 266c9585..0b923fc3 100644
--- a/parsers/bild.py
+++ b/parsers/bild.py
@@ -1,12 +1,12 @@
 from baseparser import BaseParser
-from BeautifulSoup import BeautifulSoup, Tag
+from BeautifulSoup import BeautifulSoup
 
 
 class BildParser(BaseParser):
     SUFFIX = ''
     domains = ['www.bild.de']
 
-    feeder_pat   = '^http://www.bild.de/(politik|regional|geld|digital)'
+    feeder_pat   = '^http://www.bild.de/(politik|regional|geld|digital/[a-z])'
     feeder_pages = ['http://www.bild.de/politik/startseite',
                     'http://www.bild.de/geld/startseite/',
                     'http://www.bild.de/regional/startseite/',
@@ -17,20 +17,21 @@ def _parse(self, html):
                              fromEncoding='utf-8')
 
         self.meta = soup.findAll('meta')
-        elt = soup.find('meta', {'property': 'og:title'})['content']
-        if elt is None:
+        try:
+            elt = soup.find('meta', {'property': 'og:title'})['content']
+            self.title = elt
+        except:
             self.real_article = False
             return
-        self.title = elt
-        created_at = soup.find('div', {'class': 'date'}).getText()
-        self.date = created_at if created_at else ''
+        created_at = soup.find('div', {'class': 'date'})
+        self.date = created_at.getText() if created_at else ''
         author = soup.find('div', {'itemprop':'author'})
         self.byline = author.getText() if author else ''
-        print(self.byline)
         div = soup.find('div', {'itemprop':'articleBody isFamilyFriendly'})
         if div is None:
             self.real_article = False
             return
+        div = self.remove_non_content(div)
         text = ''
         p = div.findAll('p')
         for txt in p:
diff --git a/parsers/focus.py b/parsers/focus.py
index 6d70b76a..f4370f25 100644
--- a/parsers/focus.py
+++ b/parsers/focus.py
@@ -1,5 +1,5 @@
 from baseparser import BaseParser
-from BeautifulSoup import BeautifulSoup, Tag
+from BeautifulSoup import BeautifulSoup
 
 
 class FocusParser(BaseParser):
@@ -27,13 +27,13 @@ def _parse(self, html):
         created_at = soup.find('meta', {'name':'date'})['content']
         self.date = created_at if created_at else ''
         self.body = ''
-        content = soup.find('div', 'articleContent').findAll('div', 'textBlock')
-        if content is None:
+        div = soup.find('div', 'articleContent')
+        if div is None:
             self.real_article = False
             return
+        div = self.remove_non_content(div)
         text = ''
-        for div in content:
-            p = div.findAll('p')
-            for txt in p:
+        p = div.findAll('p')
+        for txt in p:
                 text += txt.getText()+'\n'
         self.body = text
\ No newline at end of file
diff --git a/parsers/spiegel.py b/parsers/spiegel.py
index fca50f2a..640f9fed 100644
--- a/parsers/spiegel.py
+++ b/parsers/spiegel.py
@@ -1,12 +1,11 @@
 from baseparser import BaseParser
-from BeautifulSoup import BeautifulSoup, Tag
-
+from BeautifulSoup import BeautifulSoup
 
 class SpiegelParser(BaseParser):
     SUFFIX = ''
     domains = ['www.spiegel.de']
 
-    feeder_pat   = '^http://www.spiegel.de/(politik|wirtschaft|panorama|netzwelt|gesundheit)/'
+    feeder_pat   = '^http://www.spiegel.de/(politik|wirtschaft|panorama|netzwelt|gesundheit)/[a-z]'
     feeder_pages = ['http://www.spiegel.de/schlagzeilen/index.html']
 
     def _parse(self, html):
@@ -14,17 +13,27 @@ def _parse(self, html):
                              fromEncoding='utf-8')
 
         self.meta = soup.findAll('meta')
-        elt = soup.find('h2', attrs={'class':'article-title'})
+        elt = soup.find('h2',{'class':'article-title'})
         if elt is None:
             self.real_article = False
             return
         self.title = elt.getText()
-        self.byline = ''
-        self.date = soup.find(attrs = {'time' : 'datetime'})
+        try:
+            author = soup.find('a', {'rel':'author'}).text
+        except:
+            author = ''
+        self.byline = author
+        created_at = soup.find('meta', {'name':'last-modified'})['content']
+        self.date = created_at if created_at else ''
 
-        div = soup.find('div', 'article-section')
+        div = soup.find('div', 'article-section clearfix')
         if div is None:
             self.real_article = False
             return
-        self.body = '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
-                                      if isinstance(x, Tag) and x.name == 'p'])
+
+        div = self.remove_non_content(div)
+        text = ''
+        p = div.findAll('p')
+        for txt in p:
+            text += txt.getText()+'\n'
+        self.body = text

From fc432073b3021190705bcb51cd58dc4eb8e86c80 Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Wed, 6 May 2015 00:57:40 +0200
Subject: [PATCH 44/64] stern parser do not get article text

---
 parsers/__init__.py | 10 +++++-----
 parsers/stern.py    | 22 +++++++++++++++-------
 2 files changed, 20 insertions(+), 12 deletions(-)

diff --git a/parsers/__init__.py b/parsers/__init__.py
index cc6b7f79..97473dcf 100644
--- a/parsers/__init__.py
+++ b/parsers/__init__.py
@@ -4,15 +4,15 @@
 #  - create a parser class in another file, based off (say) bbc.BBCParser
 #  - add it to parsers (below)
 # Test with test_parser.py
-#bild.BildParser
-#focus.FocusParser
-#spiegel.SpiegelParser
-#stern.SternParser
-#zeit.ZeitParser
 # List of parsers to import and use based on parser.domains
 
 parsers = """
+stern.SternParser
 bild.BildParser
+focus.FocusParser
+spiegel.SpiegelParser
+welt.WeltParser
+zeit.ZeitParser
 """.split()
 
 parser_dict = {}
diff --git a/parsers/stern.py b/parsers/stern.py
index 75d79fc8..e44b0d62 100644
--- a/parsers/stern.py
+++ b/parsers/stern.py
@@ -7,25 +7,33 @@ class SternParser(BaseParser):
     domains = ['www.stern.de']
 
     feeder_pat   = '^http://www.stern.de/(politik|wirtschaft|panorama|lifestyle|wissen|digital)/'
-    feeder_pages = ['http://www.stern.de/news']
+    feeder_pages = ['http://www.stern.de/news',
+                    'http://www.stern.de/news/2',
+                    'http://www.stern.de/news/3',
+                    'http://www.stern.de/news/4'
+                    ]
 
     def _parse(self, html):
         soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
                              fromEncoding='utf-8')
 
         self.meta = soup.findAll('meta')
-        elt = soup.find('h2', attrs={'id':'div_article_headline'})
+        elt = soup.find('h2', {'id':'div_article_headline'})
         if elt is None:
             self.real_article = False
             return
         self.title = elt.getText()
         self.byline = ''
-        self.date = soup.find('div', attrs = {'class' : 'datePublished'})
+        created_at = soup.find('meta', {'name':'last-modified'})
+        self.date = created_at['content'] if created_at else ''
 
-        div = soup.find('span', attrs={'itemprop':'articleBody'})
-        print(div)
+        div = soup.find('span', {'itemprop':'articleBody'})
         if div is None:
             self.real_article = False
             return
-        self.body = '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
-                                      if isinstance(x, Tag) and x.name == 'p'])
+        div = self.remove_non_content(div)
+        text = ''
+        p = div.findAll('p')
+        for txt in p:
+                text += txt.getText()+'\n'
+        self.body = text
\ No newline at end of file

From 809303766b0832d3042e99e28b19d8ce97d1ab7f Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Wed, 6 May 2015 12:31:42 +0200
Subject: [PATCH 45/64] stern parser workes

---
 parsers/stern.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/parsers/stern.py b/parsers/stern.py
index e44b0d62..6ea18bca 100644
--- a/parsers/stern.py
+++ b/parsers/stern.py
@@ -1,5 +1,5 @@
 from baseparser import BaseParser
-from BeautifulSoup import BeautifulSoup, Tag
+from BeautifulSoup import BeautifulSoup
 
 
 class SternParser(BaseParser):
@@ -23,11 +23,11 @@ def _parse(self, html):
             self.real_article = False
             return
         self.title = elt.getText()
-        self.byline = ''
+        self.byline = ''        # no author on stern.de
         created_at = soup.find('meta', {'name':'last-modified'})
         self.date = created_at['content'] if created_at else ''
 
-        div = soup.find('span', {'itemprop':'articleBody'})
+        div = soup.find('div', {'itemprop':'mainContentOfPage'})
         if div is None:
             self.real_article = False
             return

From cce1e22f0b1a20e415e33ec8f36fe6fddb4531c2 Mon Sep 17 00:00:00 2001
From: Robert Piwonski <piwonski.robert+git@gmail.com>
Date: Wed, 6 May 2015 12:39:38 +0200
Subject: [PATCH 46/64] Added byline-attribute for parsers

---
 parsers/RPOnline.py     | 2 +-
 parsers/faz.py          | 2 +-
 parsers/n-tv.py         | 2 +-
 parsers/sueddeutsche.py | 7 ++++++-
 parsers/zeit.py         | 9 +++++++--
 5 files changed, 16 insertions(+), 6 deletions(-)

diff --git a/parsers/RPOnline.py b/parsers/RPOnline.py
index 6ad707e5..f4655526 100644
--- a/parsers/RPOnline.py
+++ b/parsers/RPOnline.py
@@ -17,7 +17,7 @@ def _parse(self, html):
             self.real_article = False
             return
         self.title = elt
-        self.byline = ''
+        self.byline = soup.find('meta', {'itemprop':'author'})['content']
         self.date = soup.find('meta', {'property':'vr:published_time'})['content']
         div = soup.find('div', {'class':'main-text '})
 	intro = soup.find('div', {'class':'first intro'}).find('strong')
diff --git a/parsers/faz.py b/parsers/faz.py
index 529d304a..fc659f34 100644
--- a/parsers/faz.py
+++ b/parsers/faz.py
@@ -17,7 +17,7 @@ def _parse(self, html):
             self.real_article = False
             return
         self.title = elt
-        self.byline = ''
+        self.byline = soup.find('meta', {'name':'author'})['content']
         self.date = soup.find('meta', {'name':'last-modified'})['content']
 
         div = soup.find('div', 'FAZArtikelContent').find('div', {'class':''})
diff --git a/parsers/n-tv.py b/parsers/n-tv.py
index 20648d00..f0d65236 100644
--- a/parsers/n-tv.py
+++ b/parsers/n-tv.py
@@ -18,7 +18,7 @@ def _parse(self, html):
             self.real_article = False
             return
         self.title = elt.getText()
-        self.byline = ''
+        self.byline = soup.find('meta', {'name':'author'})['content']
 	self.date = soup.find('meta', {'name':'last-modified'})['content']
         div = soup.find('div', {'class':'content'})
         if div is None:
diff --git a/parsers/sueddeutsche.py b/parsers/sueddeutsche.py
index 769cf8e8..867a46ce 100644
--- a/parsers/sueddeutsche.py
+++ b/parsers/sueddeutsche.py
@@ -17,7 +17,12 @@ def _parse(self, html):
             self.real_article = False
             return
         self.title = elt
-        self.byline = ''
+        elbyline = soup.find('div', {'class':'authorProfileContainer'})
+	if elbyline is None:
+        	elbyline = ''
+	else:
+		elbyline = elbyline.getText()
+	self.byline = elbyline
         self.date = soup.find('time', {'class':'timeformat'})['datetime']
 
         div = soup.find('div', {'id':'wrapper'})
diff --git a/parsers/zeit.py b/parsers/zeit.py
index 1010b7b4..36bbae00 100644
--- a/parsers/zeit.py
+++ b/parsers/zeit.py
@@ -20,8 +20,13 @@ def _parse(self, html):
             self.real_article = False
             return
         self.title = elt.getText()
-        self.byline = ''
-        self.date = soup.find('span', 'articlemeta-datetime').getText()
+	elbyline = soup.find('span', {'class':'header_author'})
+	if elbyline is None:
+        	elbyline = ''
+	else:
+		elbyline = elbyline.getText()
+	self.byline = elbyline
+	self.date = soup.find('span', 'articlemeta-datetime').getText()
 
         div = soup.find('div', 'article-body')
         if div is None:

From b6e9d24514918097778f131d68f822dc2a9e648d Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Fri, 8 May 2015 23:57:20 +0200
Subject: [PATCH 47/64] completed stern.de parser

---
 parsers/stern.py | 14 +++++++++-----
 1 file changed, 9 insertions(+), 5 deletions(-)

diff --git a/parsers/stern.py b/parsers/stern.py
index 6ea18bca..e7fc13c6 100644
--- a/parsers/stern.py
+++ b/parsers/stern.py
@@ -18,16 +18,20 @@ def _parse(self, html):
                              fromEncoding='utf-8')
 
         self.meta = soup.findAll('meta')
-        elt = soup.find('h2', {'id':'div_article_headline'})
+        #article headline
+        elt = soup.find('h2', {'id': 'div_article_headline'})
         if elt is None:
             self.real_article = False
             return
         self.title = elt.getText()
-        self.byline = ''        # no author on stern.de
-        created_at = soup.find('meta', {'name':'last-modified'})
+        # byline / author
+        author = soup.find('p', {'id': 'div_article_intro'}).find('span')
+        self.byline = author.getText() if author else ''
+        # article date
+        created_at = soup.find('meta', {'name': 'date'})
         self.date = created_at['content'] if created_at else ''
-
-        div = soup.find('div', {'itemprop':'mainContentOfPage'})
+        #article content
+        div = soup.find('div', {'itemprop': 'mainContentOfPage'})
         if div is None:
             self.real_article = False
             return

From 6b521e79ccbb7e5f12ac39bf24de8c5f9c3b6abf Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Sat, 9 May 2015 00:20:08 +0200
Subject: [PATCH 48/64] completed spiegel.de parser

---
 parsers/spiegel.py | 12 +++++++-----
 1 file changed, 7 insertions(+), 5 deletions(-)

diff --git a/parsers/spiegel.py b/parsers/spiegel.py
index 640f9fed..ee0ff7dd 100644
--- a/parsers/spiegel.py
+++ b/parsers/spiegel.py
@@ -13,24 +13,26 @@ def _parse(self, html):
                              fromEncoding='utf-8')
 
         self.meta = soup.findAll('meta')
-        elt = soup.find('h2',{'class':'article-title'})
+        #article headline
+        elt = soup.find('h2', {'class': 'article-title'})
         if elt is None:
             self.real_article = False
             return
         self.title = elt.getText()
+        # byline / author
         try:
-            author = soup.find('a', {'rel':'author'}).text
+            author = soup.find('a', {'rel': 'author'}).text
         except:
             author = ''
         self.byline = author
-        created_at = soup.find('meta', {'name':'last-modified'})['content']
+        # article date
+        created_at = soup.find('meta', {'name': 'date'})['content']
         self.date = created_at if created_at else ''
-
+        #article content
         div = soup.find('div', 'article-section clearfix')
         if div is None:
             self.real_article = False
             return
-
         div = self.remove_non_content(div)
         text = ''
         p = div.findAll('p')

From 75320114e26a296de2fbfab1bf2b1335e6c8d893 Mon Sep 17 00:00:00 2001
From: Robert Piwonski <piwonski.robert+git@gmail.com>
Date: Tue, 12 May 2015 03:02:55 +0200
Subject: [PATCH 49/64] Fixed parsers crashing with false articles

---
 parsers/RPOnline.py     |  9 ++++++---
 parsers/faz.py          | 23 +++++++++++++++++------
 parsers/n-tv.py         | 11 +++++++++--
 parsers/sueddeutsche.py | 17 +++++++++++------
 parsers/welt.py         |  6 +++++-
 parsers/zeit.py         |  7 +++++--
 6 files changed, 53 insertions(+), 20 deletions(-)

diff --git a/parsers/RPOnline.py b/parsers/RPOnline.py
index f4655526..fc181400 100644
--- a/parsers/RPOnline.py
+++ b/parsers/RPOnline.py
@@ -3,7 +3,7 @@
 
 
 class RPOParser(BaseParser):
-    domains = ['www.rp-online.de/']
+    domains = ['www.rp-online.de']
 
     feeder_pat   = '1\.\d*$'
     feeder_pages = ['http://www.rp-online.de/']
@@ -20,7 +20,10 @@ def _parse(self, html):
         self.byline = soup.find('meta', {'itemprop':'author'})['content']
         self.date = soup.find('meta', {'property':'vr:published_time'})['content']
         div = soup.find('div', {'class':'main-text '})
-	intro = soup.find('div', {'class':'first intro'}).find('strong')
+	intro = soup.find('div', {'class':'first intro'})
+	if intro is None:
+            intro = ''
+	else: intro = intro.find('strong').getText()
 
         if div is None:
             # Hack for video articles
@@ -28,6 +31,6 @@ def _parse(self, html):
         if div is None:
             self.real_article = False
             return
-	self.body = intro.getText()
+	self.body = intro
         self.body += '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
                                       if isinstance(x, Tag) and x.name=='p'])
diff --git a/parsers/faz.py b/parsers/faz.py
index fc659f34..43a319c0 100644
--- a/parsers/faz.py
+++ b/parsers/faz.py
@@ -12,20 +12,31 @@ def _parse(self, html):
         soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
                              fromEncoding='utf-8')
         self.meta = soup.findAll('meta')
-        elt = soup.find('meta', {'property':'og:title'})['content']
+        elt = soup.find('meta', {'property':'og:title'})
         if elt is None:
             self.real_article = False
             return
+	else: elt = elt['content']
         self.title = elt
-        self.byline = soup.find('meta', {'name':'author'})['content']
-        self.date = soup.find('meta', {'name':'last-modified'})['content']
+        ebyline = soup.find('meta', {'name':'author'})
+	if ebyline is None:
+		self.byline = ''
+	else: self.byline = ebyline['content']
 
-        div = soup.find('div', 'FAZArtikelContent').find('div', {'class':''})
+        edate = soup.find('meta', {'name':'last-modified'})
+	if edate is None:
+            self.real_article = False
+            return
+	self.date= edate['content']
+        div = soup.find('div', 'FAZArtikelContent')
         if div is None:
             # Hack for video articles
             div = soup.find('div', 'emp-decription')
         if div is None:
             self.real_article = False
             return
-        self.body = '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
-                                      if isinstance(x, Tag) and x.name == 'p'])
+	div = div.find('div', {'class':''})
+	if hasattr(div,"childGenerator"):
+		self.body = '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
+                             	 	if isinstance(x, Tag) and x.name == 'p'])
+	else: self.real_article = False
diff --git a/parsers/n-tv.py b/parsers/n-tv.py
index f0d65236..9fe8b3ae 100644
--- a/parsers/n-tv.py
+++ b/parsers/n-tv.py
@@ -18,8 +18,15 @@ def _parse(self, html):
             self.real_article = False
             return
         self.title = elt.getText()
-        self.byline = soup.find('meta', {'name':'author'})['content']
-	self.date = soup.find('meta', {'name':'last-modified'})['content']
+        ebyline = soup.find('meta', {'name':'author'})
+	if ebyline is None:
+            self.byline = ''
+	else: self.byline = ebyline['content']
+	edate = soup.find('meta', {'name':'last-modified'})
+	if edate is None:
+            self.real_article = False
+            return
+	self.date= edate['content']
         div = soup.find('div', {'class':'content'})
         if div is None:
             # Hack for video articles
diff --git a/parsers/sueddeutsche.py b/parsers/sueddeutsche.py
index 867a46ce..0ff2bc49 100644
--- a/parsers/sueddeutsche.py
+++ b/parsers/sueddeutsche.py
@@ -3,7 +3,7 @@
 
 
 class SDParser(BaseParser):
-    domains = ['http://www.sueddeutsche.de/']
+    domains = ['www.sueddeutsche.de']
 
     feeder_pat   = '1\.\d*$'
     feeder_pages = ['http://www.sueddeutsche.de/']
@@ -12,10 +12,11 @@ def _parse(self, html):
         soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
                              fromEncoding='utf-8')
         self.meta = soup.findAll('meta')
-        elt = soup.find('meta', {'property':'og:title'})['content']
+        elt = soup.find('meta', {'property':'og:title'})
         if elt is None:
             self.real_article = False
             return
+	else: elt = elt['content']
         self.title = elt
         elbyline = soup.find('div', {'class':'authorProfileContainer'})
 	if elbyline is None:
@@ -23,18 +24,22 @@ def _parse(self, html):
 	else:
 		elbyline = elbyline.getText()
 	self.byline = elbyline
-        self.date = soup.find('time', {'class':'timeformat'})['datetime']
+        edate = soup.find('time', {'class':'timeformat'})
+	if edate is None:
+            self.real_article = False
+            return
+	self.date= edate['datetime']
 
         div = soup.find('div', {'id':'wrapper'})
 	intro = soup.find('section', {'class':'body'})
-
         if div is None:
             # Hack for video articles
             div = soup.find('div', 'emp-decription')
         if div is None:
             self.real_article = False
             return
-	self.body = '\n'+'\n\n'.join([x.getText() for x in intro.childGenerator()
-                                      if isinstance(x, Tag) and x.name=='ul'])
+	if intro is not None:
+            self.body = '\n'+'\n\n'.join([x.getText() for x in intro.childGenerator()
+                                      if isinstance(x, Tag) and x.name=='ul'])	
         self.body += '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
                                       if isinstance(x, Tag) and x.name=='p'])
diff --git a/parsers/welt.py b/parsers/welt.py
index 9e3878cf..a10acbba 100644
--- a/parsers/welt.py
+++ b/parsers/welt.py
@@ -20,7 +20,11 @@ def _parse(self, html):
             return
         self.title = elt.getText()
         self.byline = ''
-        self.date = soup.find('meta', {'name':'last-modified'})['content']
+        edate = soup.find('meta', {'name':'last-modified'})
+	if edate is None:
+            self.real_article = False
+            return
+	self.date= edate['content']
 
         div = soup.find('div', 'storyBody')
         if div is None:
diff --git a/parsers/zeit.py b/parsers/zeit.py
index 36bbae00..44c0d44b 100644
--- a/parsers/zeit.py
+++ b/parsers/zeit.py
@@ -26,8 +26,11 @@ def _parse(self, html):
 	else:
 		elbyline = elbyline.getText()
 	self.byline = elbyline
-	self.date = soup.find('span', 'articlemeta-datetime').getText()
-
+	edate = soup.find('span', 'articlemeta-datetime')
+	if edate is None: 
+            self.real_article = False
+            return
+	else: self.date = edate.getText()
         div = soup.find('div', 'article-body')
         if div is None:
             # Hack for video articles

From 9ad0dcd652f5ea836bf587fbba37dba22a2f213d Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Tue, 12 May 2015 18:59:47 +0200
Subject: [PATCH 50/64] finished CodeReview, zeit.de was testes

---
 parsers/RPOnline.py     | 34 ++++++++++++++++++--------------
 parsers/__init__.py     |  5 -----
 parsers/faz.py          | 40 +++++++++++++++++---------------------
 parsers/n-tv.py         | 36 +++++++++++++++-------------------
 parsers/sueddeutsche.py | 43 +++++++++++++++++++----------------------
 parsers/welt.py         | 10 ++++++----
 parsers/zeit.py         | 30 ++++++++++++----------------
 7 files changed, 91 insertions(+), 107 deletions(-)

diff --git a/parsers/RPOnline.py b/parsers/RPOnline.py
index fc181400..b9311414 100644
--- a/parsers/RPOnline.py
+++ b/parsers/RPOnline.py
@@ -5,32 +5,36 @@
 class RPOParser(BaseParser):
     domains = ['www.rp-online.de']
 
-    feeder_pat   = '1\.\d*$'
+    feeder_pat = '1\.\d*$'
     feeder_pages = ['http://www.rp-online.de/']
 
     def _parse(self, html):
         soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
                              fromEncoding='utf-8')
         self.meta = soup.findAll('meta')
-        elt = soup.find('meta', {'property':'og:title'})['content']
+        #article headline
+        elt = soup.find('meta', {'property': 'og:title'})['content']
         if elt is None:
             self.real_article = False
             return
         self.title = elt
-        self.byline = soup.find('meta', {'itemprop':'author'})['content']
-        self.date = soup.find('meta', {'property':'vr:published_time'})['content']
-        div = soup.find('div', {'class':'main-text '})
-	intro = soup.find('div', {'class':'first intro'})
-	if intro is None:
+        # byline / author
+        author = soup.find('meta', {'itemprop': 'author'})['content']
+        self.byline = author if author else ''
+        # article date
+        created_at = soup.find('meta', {'property': 'vr:published_time'})['content']
+        self.date = created_at if created_at else ''
+        #article content
+        div = soup.find('div', {'class': 'main-text '})
+        div = self.remove_non_content(div)
+        intro = soup.find('div', {'class': 'first intro'})
+        if intro is None:
             intro = ''
-	else: intro = intro.find('strong').getText()
-
-        if div is None:
-            # Hack for video articles
-            div = soup.find('div', 'emp-decription')
+        else:
+            intro = intro.find('strong').getText()
         if div is None:
             self.real_article = False
             return
-	self.body = intro
-        self.body += '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
-                                      if isinstance(x, Tag) and x.name=='p'])
+        self.body = intro
+        self.body += '\n' + '\n\n'.join([x.getText() for x in div.childGenerator()
+                                         if isinstance(x, Tag) and x.name == 'p'])
diff --git a/parsers/__init__.py b/parsers/__init__.py
index 97473dcf..6376f5b7 100644
--- a/parsers/__init__.py
+++ b/parsers/__init__.py
@@ -7,12 +7,7 @@
 # List of parsers to import and use based on parser.domains
 
 parsers = """
-stern.SternParser
-bild.BildParser
-focus.FocusParser
-spiegel.SpiegelParser
 welt.WeltParser
-zeit.ZeitParser
 """.split()
 
 parser_dict = {}
diff --git a/parsers/faz.py b/parsers/faz.py
index 43a319c0..8fd5e2fb 100644
--- a/parsers/faz.py
+++ b/parsers/faz.py
@@ -5,38 +5,34 @@
 class FAZParser(BaseParser):
     domains = ['www.faz.net']
 
-    feeder_pat   = 'aktuell/.*\.html$'
+    feeder_pat = 'aktuell/.*\.html$'
     feeder_pages = ['http://www.faz.net/']
 
     def _parse(self, html):
         soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
                              fromEncoding='utf-8')
         self.meta = soup.findAll('meta')
-        elt = soup.find('meta', {'property':'og:title'})
+        #article headline
+        elt = soup.find('meta', {'property': 'og:title'})
         if elt is None:
             self.real_article = False
             return
-	else: elt = elt['content']
-        self.title = elt
-        ebyline = soup.find('meta', {'name':'author'})
-	if ebyline is None:
-		self.byline = ''
-	else: self.byline = ebyline['content']
-
-        edate = soup.find('meta', {'name':'last-modified'})
-	if edate is None:
-            self.real_article = False
-            return
-	self.date= edate['content']
+        self.title = elt['content']
+        # byline / author
+        author = soup.find('meta', {'name': 'author'})['content']
+        self.byline = author if author else ''
+        # article date
+        created_at = soup.find('meta', {'name': 'DC.date.issued'})['content']
+        self.date = created_at if created_at else ''
+        #article content
         div = soup.find('div', 'FAZArtikelContent')
-        if div is None:
-            # Hack for video articles
-            div = soup.find('div', 'emp-decription')
+        div = self.remove_non_content(div)
         if div is None:
             self.real_article = False
             return
-	div = div.find('div', {'class':''})
-	if hasattr(div,"childGenerator"):
-		self.body = '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
-                             	 	if isinstance(x, Tag) and x.name == 'p'])
-	else: self.real_article = False
+        div = div.find('div', {'class': ''})
+        if hasattr(div, "childGenerator"):
+            self.body = '\n' + '\n\n'.join([x.getText() for x in div.childGenerator()
+                                            if isinstance(x, Tag) and x.name == 'p'])
+        else:
+            self.real_article = False
diff --git a/parsers/n-tv.py b/parsers/n-tv.py
index 9fe8b3ae..8da90ccf 100644
--- a/parsers/n-tv.py
+++ b/parsers/n-tv.py
@@ -3,36 +3,32 @@
 
 
 class NTVParser(BaseParser):
-
     domains = ['www.n-tv.de']
 
-    feeder_pat   = 'article\d+'
+    feeder_pat = 'article\d+'
     feeder_pages = ['http://www.n-tv.de/']
 
     def _parse(self, html):
         soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
-                             fromEncoding='utf-8')      
-	self.meta = soup.findAll('meta')
-        elt = soup.find('h1', {'class':'h1'})
+                             fromEncoding='utf-8')
+        self.meta = soup.findAll('meta')
+        #article headline
+        elt = soup.find('h1', {'class': 'h1'})
         if elt is None:
             self.real_article = False
             return
         self.title = elt.getText()
-        ebyline = soup.find('meta', {'name':'author'})
-	if ebyline is None:
-            self.byline = ''
-	else: self.byline = ebyline['content']
-	edate = soup.find('meta', {'name':'last-modified'})
-	if edate is None:
-            self.real_article = False
-            return
-	self.date= edate['content']
-        div = soup.find('div', {'class':'content'})
-        if div is None:
-            # Hack for video articles
-            div = soup.find('div', 'emp-decription')
+        # byline / author
+        author = soup.find('meta', {'name': 'author'})['content']
+        self.byline = author if author else ''
+        # article date
+        created_at = soup.find('div', {'itemprop': 'date-published'})['content']
+        self.date = created_at if created_at else ''
+        #article content
+        div = soup.find('div', {'class': 'content'})
+        div = self.remove_non_content(div)
         if div is None:
             self.real_article = False
             return
-        self.body = '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
-                                      if isinstance(x, Tag) and x.name == 'p'])
+        self.body = '\n' + '\n\n'.join([x.getText() for x in div.childGenerator()
+                                        if isinstance(x, Tag) and x.name == 'p'])
diff --git a/parsers/sueddeutsche.py b/parsers/sueddeutsche.py
index 0ff2bc49..6479f969 100644
--- a/parsers/sueddeutsche.py
+++ b/parsers/sueddeutsche.py
@@ -12,34 +12,31 @@ def _parse(self, html):
         soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
                              fromEncoding='utf-8')
         self.meta = soup.findAll('meta')
-        elt = soup.find('meta', {'property':'og:title'})
+        #article headline
+        elt = soup.find('meta', {'property': 'og:title'})
         if elt is None:
             self.real_article = False
             return
-	else: elt = elt['content']
-        self.title = elt
-        elbyline = soup.find('div', {'class':'authorProfileContainer'})
-	if elbyline is None:
-        	elbyline = ''
-	else:
-		elbyline = elbyline.getText()
-	self.byline = elbyline
-        edate = soup.find('time', {'class':'timeformat'})
-	if edate is None:
+        else:
+            self.title = elt['content']
+        # byline / author
+        author = soup.find('div', {'class': 'authorProfileContainer'})
+        self.byline = author.getText() if author else ''
+        # article date
+        created_at = soup.find('time', {'class': 'timeformat'})
+        if created_at is None:
             self.real_article = False
             return
-	self.date= edate['datetime']
-
-        div = soup.find('div', {'id':'wrapper'})
-	intro = soup.find('section', {'class':'body'})
-        if div is None:
-            # Hack for video articles
-            div = soup.find('div', 'emp-decription')
+        self.date = created_at['datetime']
+        #article content
+        div = soup.find('div', {'id': 'wrapper'})
+        div = self.remove_non_content(div)
+        intro = soup.find('section', {'class': 'body'})
         if div is None:
             self.real_article = False
             return
-	if intro is not None:
-            self.body = '\n'+'\n\n'.join([x.getText() for x in intro.childGenerator()
-                                      if isinstance(x, Tag) and x.name=='ul'])	
-        self.body += '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
-                                      if isinstance(x, Tag) and x.name=='p'])
+        if intro is not None:
+            self.body = '\n' + '\n\n'.join([x.getText() for x in intro.childGenerator()
+                                            if isinstance(x, Tag) and x.name == 'ul'])
+        self.body += '\n' + '\n\n'.join([x.getText() for x in div.childGenerator()
+                                         if isinstance(x, Tag) and x.name == 'p'])
diff --git a/parsers/welt.py b/parsers/welt.py
index 50d2ebfa..8125741e 100644
--- a/parsers/welt.py
+++ b/parsers/welt.py
@@ -12,19 +12,21 @@ class WeltParser(BaseParser):
     def _parse(self, html):
         soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
                              fromEncoding='utf-8')
-
         self.meta = soup.findAll('meta')
+        #article headline
         elt = soup.find('h1', 'widget storyContent title prefix_1 grid_8')
         if elt is None:
             self.real_article = False
             return
         self.title = elt.getText()
-
-        authorids = soup.find('span', attrs={'itemprop': 'author'})
+        # byline / author
+        authorids = soup.find('span', {'itemprop': 'author'})
         self.byline = authorids.getText() if authorids else ''
+        # article date
         self.date = soup.find('meta', {'name': 'date'})['content']
-
+        #article content
         div = soup.find('div', 'storyBody')
+        div = self.remove_non_content(div)
         if div is None:
             self.real_article = False
             return
diff --git a/parsers/zeit.py b/parsers/zeit.py
index 4a9367b3..d0020452 100644
--- a/parsers/zeit.py
+++ b/parsers/zeit.py
@@ -6,7 +6,7 @@ class ZeitParser(BaseParser):
     SUFFIX = '?print=true'
     domains = ['www.zeit.de']
 
-    feeder_pat   = '^http://www.zeit.de/news/\d'
+    feeder_pat = '^http://www.zeit.de/news/\d'
     feeder_pages = ['http://www.zeit.de/news/index/']
 
     def _parse(self, html):
@@ -14,29 +14,23 @@ def _parse(self, html):
                              fromEncoding='utf-8')
 
         self.meta = soup.findAll('meta')
+        #article headline
         elt = soup.find('span', 'title')
-        elTopic = soup.find('span', 'supertitle')
         if elt is None:
             self.real_article = False
             return
         self.title = elt.getText()
-	elbyline = soup.find('span', {'class':'header_author'})
-	if elbyline is None:
-        	elbyline = ''
-	else:
-		elbyline = elbyline.getText()
-	self.byline = elbyline
-	edate = soup.find('span', 'articlemeta-datetime')
-	if edate is None: 
-            self.real_article = False
-            return
-	else: self.date = edate.getText()
+        # byline / author
+        author = soup.find('span', {'class': 'header_author'})
+        self.byline = author.getText() if author else ''
+        # article date
+        created_at = soup.find('span', 'articlemeta-datetime')
+        self.date = created_at.getText() if created_at else ''
+        #article content
         div = soup.find('div', 'article-body')
-        if div is None:
-            # Hack for video articles
-            div = soup.find('div', 'emp-decription')
+        div = self.remove_non_content(div)
         if div is None:
             self.real_article = False
             return
-        self.body = '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
-                                      if isinstance(x, Tag) and x.name == 'p'])
+        self.body = '\n' + '\n\n'.join([x.getText() for x in div.childGenerator()
+                                        if isinstance(x, Tag) and x.name == 'p'])

From f9b37a82eebe3b2a96e9f2b2a7836a992c8af35f Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Tue, 12 May 2015 22:09:57 +0200
Subject: [PATCH 51/64] FAZ completed, baseparser refactoring

---
 parsers/__init__.py   | 2 +-
 parsers/baseparser.py | 5 -----
 parsers/bild.py       | 1 +
 parsers/faz.py        | 6 +++++-
 parsers/focus.py      | 1 +
 parsers/welt.py       | 3 ++-
 6 files changed, 10 insertions(+), 8 deletions(-)

diff --git a/parsers/__init__.py b/parsers/__init__.py
index 6376f5b7..c6ce9091 100644
--- a/parsers/__init__.py
+++ b/parsers/__init__.py
@@ -7,7 +7,7 @@
 # List of parsers to import and use based on parser.domains
 
 parsers = """
-welt.WeltParser
+faz.FAZParser
 """.split()
 
 parser_dict = {}
diff --git a/parsers/baseparser.py b/parsers/baseparser.py
index a5038071..2b76d42e 100644
--- a/parsers/baseparser.py
+++ b/parsers/baseparser.py
@@ -109,7 +109,6 @@ class BaseParser(object):
     # Used when finding articles to parse
     feeder_pat   = None # Look for links matching this regular expression
     feeder_pages = []   # on these pages
-    feeder_div = None
 
     feeder_bs = BeautifulSoup #use this version of beautifulsoup for feed
 
@@ -145,8 +144,6 @@ def feed_urls(cls):
         for feeder_url in cls.feeder_pages:
             html = grab_url(feeder_url)
             soup = cls.feeder_bs(html)
-	    if cls.feeder_div is not None:
-		soup = soup.find('div', cls.feeder_div)
 
             # "or ''" to make None into str
             urls = [a.get('href') or '' for a in soup.findAll('a')]
@@ -161,8 +158,6 @@ def feed_urls(cls):
 
         #removes all non-content
     def remove_non_content(self, html):
-        map(lambda x: x.extract(), html.findAll('div', {'class':'adition'})) #focus
-        map(lambda x: x.extract(), html.findAll('div', {'class':'infoEl center edge'})) # bild
         map(lambda x: x.extract(), html.findAll('script'))
         map(lambda x: x.extract(), html.findAll('style'))
         map(lambda x: x.extract(), html.findAll('embed'))
diff --git a/parsers/bild.py b/parsers/bild.py
index 0b923fc3..45358864 100644
--- a/parsers/bild.py
+++ b/parsers/bild.py
@@ -32,6 +32,7 @@ def _parse(self, html):
             self.real_article = False
             return
         div = self.remove_non_content(div)
+        map(lambda x: x.extract(), div.findAll('div', {'class':'infoEl center edge'})) # commercials
         text = ''
         p = div.findAll('p')
         for txt in p:
diff --git a/parsers/faz.py b/parsers/faz.py
index 8fd5e2fb..ec5cfcc4 100644
--- a/parsers/faz.py
+++ b/parsers/faz.py
@@ -26,10 +26,14 @@ def _parse(self, html):
         self.date = created_at if created_at else ''
         #article content
         div = soup.find('div', 'FAZArtikelContent')
-        div = self.remove_non_content(div)
         if div is None:
             self.real_article = False
             return
+        div = self.remove_non_content(div)
+        map(lambda x: x.extract(), div.findAll('span', {'class':'autorBox clearfix'})) # Author description
+        map(lambda x: x.extract(), div.findAll('p', {'class':'WeitereBeitraege'})) # more articles like that one
+        map(lambda x: x.extract(), div.findAll('ul', {'class':'WBListe'}))# other articles from this author
+
         div = div.find('div', {'class': ''})
         if hasattr(div, "childGenerator"):
             self.body = '\n' + '\n\n'.join([x.getText() for x in div.childGenerator()
diff --git a/parsers/focus.py b/parsers/focus.py
index f4370f25..52d3eadc 100644
--- a/parsers/focus.py
+++ b/parsers/focus.py
@@ -32,6 +32,7 @@ def _parse(self, html):
             self.real_article = False
             return
         div = self.remove_non_content(div)
+        map(lambda x: x.extract(), div.findAll('div', {'class':'adition'})) #focus
         text = ''
         p = div.findAll('p')
         for txt in p:
diff --git a/parsers/welt.py b/parsers/welt.py
index 8125741e..b09de3a9 100644
--- a/parsers/welt.py
+++ b/parsers/welt.py
@@ -26,7 +26,8 @@ def _parse(self, html):
         self.date = soup.find('meta', {'name': 'date'})['content']
         #article content
         div = soup.find('div', 'storyBody')
-        div = self.remove_non_content(div)
+        #div = self.remove_non_content(div)
+        print(div)
         if div is None:
             self.real_article = False
             return

From 504a0636215401940def78f1ac8a27caa02b27f2 Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Tue, 12 May 2015 22:45:59 +0200
Subject: [PATCH 52/64] CodeReview completed, welt and ntv do not run

---
 parsers/RPOnline.py     |  2 +-
 parsers/__init__.py     |  2 +-
 parsers/n-tv.py         | 22 +++++++++++++++-------
 parsers/sueddeutsche.py |  2 +-
 4 files changed, 18 insertions(+), 10 deletions(-)

diff --git a/parsers/RPOnline.py b/parsers/RPOnline.py
index b9311414..d730eaf8 100644
--- a/parsers/RPOnline.py
+++ b/parsers/RPOnline.py
@@ -26,7 +26,6 @@ def _parse(self, html):
         self.date = created_at if created_at else ''
         #article content
         div = soup.find('div', {'class': 'main-text '})
-        div = self.remove_non_content(div)
         intro = soup.find('div', {'class': 'first intro'})
         if intro is None:
             intro = ''
@@ -35,6 +34,7 @@ def _parse(self, html):
         if div is None:
             self.real_article = False
             return
+        div = self.remove_non_content(div)
         self.body = intro
         self.body += '\n' + '\n\n'.join([x.getText() for x in div.childGenerator()
                                          if isinstance(x, Tag) and x.name == 'p'])
diff --git a/parsers/__init__.py b/parsers/__init__.py
index c6ce9091..5b1c4b10 100644
--- a/parsers/__init__.py
+++ b/parsers/__init__.py
@@ -7,7 +7,7 @@
 # List of parsers to import and use based on parser.domains
 
 parsers = """
-faz.FAZParser
+sueddeutsche.SDParser
 """.split()
 
 parser_dict = {}
diff --git a/parsers/n-tv.py b/parsers/n-tv.py
index 8da90ccf..5b4d38ec 100644
--- a/parsers/n-tv.py
+++ b/parsers/n-tv.py
@@ -5,13 +5,21 @@
 class NTVParser(BaseParser):
     domains = ['www.n-tv.de']
 
-    feeder_pat = 'article\d+'
-    feeder_pages = ['http://www.n-tv.de/']
+    feeder_pat = '^http://www.n-tv.de/(politik|wirtschaft|panorama|technik|wissen)/[a-z]'
+    feeder_pages = ['http://www.n-tv.de/politik',
+                    'http://www.n-tv.de/wirtschaft',
+                    'http://www.n-tv.de/panorama',
+                    'http://www.n-tv.de/technik',
+                    'http://www.n-tv.de/wissen',
+                    ]
 
     def _parse(self, html):
         soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
                              fromEncoding='utf-8')
         self.meta = soup.findAll('meta')
+        if soup.find('strong', {'class': 'category'})=='mediathek':
+            self.real_article = False
+            return
         #article headline
         elt = soup.find('h1', {'class': 'h1'})
         if elt is None:
@@ -19,16 +27,16 @@ def _parse(self, html):
             return
         self.title = elt.getText()
         # byline / author
-        author = soup.find('meta', {'name': 'author'})['content']
-        self.byline = author if author else ''
+        author = soup.find('meta', {'name': 'author'})
+        self.byline = author['content'] if author else ''
         # article date
-        created_at = soup.find('div', {'itemprop': 'date-published'})['content']
-        self.date = created_at if created_at else ''
+        created_at = soup.find('div', {'itemprop': 'date-published'})
+        self.date = created_at['content'] if created_at else ''
         #article content
         div = soup.find('div', {'class': 'content'})
-        div = self.remove_non_content(div)
         if div is None:
             self.real_article = False
             return
+        div = self.remove_non_content(div)
         self.body = '\n' + '\n\n'.join([x.getText() for x in div.childGenerator()
                                         if isinstance(x, Tag) and x.name == 'p'])
diff --git a/parsers/sueddeutsche.py b/parsers/sueddeutsche.py
index 6479f969..eda8ca8c 100644
--- a/parsers/sueddeutsche.py
+++ b/parsers/sueddeutsche.py
@@ -30,11 +30,11 @@ def _parse(self, html):
         self.date = created_at['datetime']
         #article content
         div = soup.find('div', {'id': 'wrapper'})
-        div = self.remove_non_content(div)
         intro = soup.find('section', {'class': 'body'})
         if div is None:
             self.real_article = False
             return
+        div = self.remove_non_content(div)
         if intro is not None:
             self.body = '\n' + '\n\n'.join([x.getText() for x in intro.childGenerator()
                                             if isinstance(x, Tag) and x.name == 'ul'])

From 8830c2c76f0e1d0f614365f02cf430ff02e9fa17 Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Tue, 12 May 2015 22:53:02 +0200
Subject: [PATCH 53/64] modified view for all Parsers

---
 parsers/__init__.py        |  7 ++++
 parsers/bbc.py             | 33 ---------------
 parsers/cnn.py             | 38 -----------------
 parsers/nyt.py             | 84 --------------------------------------
 parsers/politico.py        | 43 -------------------
 parsers/tagesschau.py      | 64 -----------------------------
 parsers/washpo.py          | 44 --------------------
 website/frontend/models.py |  7 +++-
 website/frontend/views.py  |  2 +-
 9 files changed, 13 insertions(+), 309 deletions(-)
 delete mode 100644 parsers/bbc.py
 delete mode 100644 parsers/cnn.py
 delete mode 100644 parsers/nyt.py
 delete mode 100644 parsers/politico.py
 delete mode 100644 parsers/tagesschau.py
 delete mode 100644 parsers/washpo.py

diff --git a/parsers/__init__.py b/parsers/__init__.py
index 5b1c4b10..92e4aba1 100644
--- a/parsers/__init__.py
+++ b/parsers/__init__.py
@@ -8,6 +8,13 @@
 
 parsers = """
 sueddeutsche.SDParser
+stern.SternParser
+bild.BildParser
+focus.FocusParser
+spiegel.SpiegelParser
+zeit.ZeitParser
+RPOnline.RPOParser
+faz.FAZParser
 """.split()
 
 parser_dict = {}
diff --git a/parsers/bbc.py b/parsers/bbc.py
deleted file mode 100644
index c409e11e..00000000
--- a/parsers/bbc.py
+++ /dev/null
@@ -1,33 +0,0 @@
-from baseparser import BaseParser
-from BeautifulSoup import BeautifulSoup, Tag
-
-
-class BBCParser(BaseParser):
-    SUFFIX = '?print=true'
-    domains = ['www.bbc.co.uk']
-
-    feeder_pat   = '^http://www.bbc.co.uk/news/'
-    feeder_pages = ['http://www.bbc.co.uk/news/']
-
-    def _parse(self, html):
-        soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
-                             fromEncoding='utf-8')
-
-        self.meta = soup.findAll('meta')
-        elt = soup.find('h1', 'story-header')
-        if elt is None:
-            self.real_article = False
-            return
-        self.title = elt.getText()
-        self.byline = ''
-        self.date = soup.find('span', 'date').getText()
-
-        div = soup.find('div', 'story-body')
-        if div is None:
-            # Hack for video articles
-            div = soup.find('div', 'emp-decription')
-        if div is None:
-            self.real_article = False
-            return
-        self.body = '\n'+'\n\n'.join([x.getText() for x in div.childGenerator()
-                                      if isinstance(x, Tag) and x.name == 'p'])
diff --git a/parsers/cnn.py b/parsers/cnn.py
deleted file mode 100644
index 1f4afdaa..00000000
--- a/parsers/cnn.py
+++ /dev/null
@@ -1,38 +0,0 @@
-from baseparser import BaseParser
-import re
-from BeautifulSoup import BeautifulSoup
-from datetime import datetime, timedelta
-
-DATE_FORMAT = '%B %d, %Y at %l:%M%P EDT'
-
-class CNNParser(BaseParser):
-    domains = ['edition.cnn.com']
-
-    feeder_pat   = '^http://edition.cnn.com/201'
-    feeder_pages = ['http://edition.cnn.com/']
-
-    def _parse(self, html):
-        soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
-                             fromEncoding='utf-8')
-        p_tags = soup.findAll('p', attrs={'class':re.compile(r'\bcnn_storypgraphtxt\b')})
-        if not p_tags:
-            self.real_article = False
-            return
-
-        self.meta = soup.findAll('meta')
-        self.title = soup.find('meta', attrs={'itemprop':'headline'}).get('content')
-        datestr = soup.find('meta', attrs={'itemprop':'dateModified'}).get('content')
-        if datestr:
-            datet = datetime.strptime(datestr, '%Y-%m-%dT%H:%M:%SZ') - timedelta(hours=4)
-            self.date = datet.strftime(DATE_FORMAT)
-        else:
-            self.date = ''
-
-        self.byline = soup.find('meta', attrs={'itemprop':'author'}).get('content')
-        lede = p_tags[0].previousSibling.previousSibling
-
-        editornotes = soup.findAll('p', attrs={'class':'cnnEditorialNote'})
-        contributors = soup.findAll('p', attrs={'class':'cnn_strycbftrtxt'})
-
-        self.body = '\n'+'\n\n'.join([p.getText() for p in
-                                      editornotes + [lede] + p_tags + contributors])
diff --git a/parsers/nyt.py b/parsers/nyt.py
deleted file mode 100644
index b9142959..00000000
--- a/parsers/nyt.py
+++ /dev/null
@@ -1,84 +0,0 @@
-from baseparser import BaseParser
-from BeautifulSoup import BeautifulSoup
-
-class NYTParser(BaseParser):
-    SUFFIX = '?pagewanted=all'
-    domains = ['www.nytimes.com']
-
-    feeder_pat   = '^http://www.nytimes.com/201'
-    feeder_pages = ['http://www.nytimes.com/',
-                    'http://www.nytimes.com/pages/world/',
-                    'http://www.nytimes.com/pages/national/',
-                    'http://www.nytimes.com/pages/politics/',
-                    'http://www.nytimes.com/pages/nyregion/',
-                    'http://www.nytimes.com/pages/business/',
-                    'http://www.nytimes.com/pages/technology/',
-                    'http://www.nytimes.com/pages/sports/',
-                    'http://dealbook.nytimes.com/',
-                    'http://www.nytimes.com/pages/science/',
-                    'http://www.nytimes.com/pages/health/',
-                    'http://www.nytimes.com/pages/arts/',
-                    'http://www.nytimes.com/pages/style/',
-                    'http://www.nytimes.com/pages/opinion/',
-                    'http://www.nytimes.com/pages/automobiles/',
-                    'http://www.nytimes.com/pages/books/',
-                    'http://www.nytimes.com/crosswords/',
-                    'http://www.nytimes.com/pages/dining/',
-                    'http://www.nytimes.com/pages/education/',
-                    'http://www.nytimes.com/pages/fashion/',
-                    'http://www.nytimes.com/pages/garden/',
-                    'http://www.nytimes.com/pages/magazine/',
-                    'http://www.nytimes.com/pages/business/media/',
-                    'http://www.nytimes.com/pages/movies/',
-                    'http://www.nytimes.com/pages/arts/music/',
-                    'http://www.nytimes.com/pages/obituaries/',
-                    'http://www.nytimes.com/pages/realestate/',
-                    'http://www.nytimes.com/pages/t-magazine/',
-                    'http://www.nytimes.com/pages/arts/television/',
-                    'http://www.nytimes.com/pages/theater/',
-                    'http://www.nytimes.com/pages/travel/',
-                    'http://www.nytimes.com/pages/fashion/weddings/',
-                    'http://www.nytimes.com/pages/todayspaper/',
-                    'http://topics.nytimes.com/top/opinion/thepubliceditor/']
-
-
-    def _parse(self, html):
-        soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES)
-        self.meta = soup.findAll('meta')
-        try:
-            seo_title = soup.find('meta', attrs={'name':'hdl'}).get('content')
-        except AttributeError:
-            self.real_article = False
-            return
-        tmp = soup.find('meta', attrs={'name':'hdl_p'})
-        if tmp and tmp.get('content'):
-            self.title = tmp.get('content')
-        else:
-            self.title = seo_title
-        try:
-            self.date = soup.find('meta', attrs={'name':'dat'}).get('content')
-            self.byline = soup.find('meta', attrs={'name':'byl'}).get('content')
-        except AttributeError:
-            self.real_article = False
-            return
-        p_tags = sum([list(soup.findAll('p', attrs={'itemprop':x}))
-                      for x in ['articleBody', 'reviewBody']], [])
-        div = soup.find('div', attrs={'class': 'story-addendum story-content theme-correction'})
-        if div:
-            p_tags += [div]
-        footer = soup.find('footer', attrs={'class':'story-footer story-content'})
-        if footer:
-            p_tags += list(footer.findAll(lambda x: x.get('class') != 'story-print-citation' and x.name == 'p'))
-
-        main_body = '\n\n'.join([p.getText() for p in p_tags])
-        authorids = soup.find('div', attrs={'class':'authorIdentification'})
-        authorid = authorids.getText() if authorids else ''
-
-        top_correction = '\n'.join(x.getText() for x in
-                                   soup.findAll('nyt_correction_top')) or '\n'
-        bottom_correction = '\n'.join(x.getText() for x in
-                                   soup.findAll('nyt_correction_bottom')) or '\n'
-        self.body = '\n'.join([top_correction,
-                               main_body,
-                               authorid,
-                               bottom_correction,])
diff --git a/parsers/politico.py b/parsers/politico.py
deleted file mode 100644
index 11d70445..00000000
--- a/parsers/politico.py
+++ /dev/null
@@ -1,43 +0,0 @@
-from baseparser import BaseParser, grab_url, logger
-
-# Different versions of BeautifulSoup have different properties.
-# Some work with one site, some with another.
-# This is BeautifulSoup 3.2.
-from BeautifulSoup import BeautifulSoup
-# This is BeautifulSoup 4
-import bs4
-import re
-
-class PoliticoParser(BaseParser):
-    domains = ['www.politico.com']
-
-    feeder_pat   = '^http://www.politico.com/(news/stories|story)/'
-    feeder_pages = ['http://www.politico.com/']
-
-    feeder_bs = bs4.BeautifulSoup
-
-    def _parse(self, html):
-        soup = bs4.BeautifulSoup(html)
-        print_link = soup.findAll('a', href=re.compile('http://dyn.politico.com/printstory.cfm.*'))[0].get('href')
-        html2 = grab_url(print_link)
-        logger.debug('got html 2')
-        # Now we have to switch back to bs3.  Hilarious.
-        # and the labeled encoding is wrong, so force utf-8.
-        soup = BeautifulSoup(html2, convertEntities=BeautifulSoup.HTML_ENTITIES,
-                             fromEncoding='utf-8')
-
-        self.meta = soup.findAll('meta')
-        p_tags = soup.findAll('p')[1:]
-        real_p_tags = [p for p in p_tags if
-                       not p.findAll(attrs={'class':"twitter-follow-button"})]
-
-        self.title = soup.find('strong').getText()
-        entity = soup.find('span', attrs={'class':'author'})
-        children = list(entity.childGenerator())
-        try:
-            self.byline = 'By ' + children[1].getText()
-        except IndexError:
-            self.byline = ''
-        self.date = children[-1].strip()
-
-        self.body = '\n'+'\n\n'.join([p.getText() for p in real_p_tags])
diff --git a/parsers/tagesschau.py b/parsers/tagesschau.py
deleted file mode 100644
index 535bc625..00000000
--- a/parsers/tagesschau.py
+++ /dev/null
@@ -1,64 +0,0 @@
-from baseparser import BaseParser
-import bs4
-
-class TagesschauParser(BaseParser):
-    SUFFIX = ''
-    domains = ['www.tagesschau.de']
-
-    def _parse(self, html):
-        soup = bs4.BeautifulSoup(html)
-
-        # extract the important text of the article into self.document #
-        # select the one article
-        article = soup.select('div.article')[0]
-        # removing comments
-        for x in self.descendants(article):
-            if isinstance(x, bs4.Comment):
-                x.extract()
-        # removing elements which don't provide content
-        for selector in ('.inv .teaserImg #seitenanfang .spacer .clearMe '+
-            '.boxMoreLinks .metaBlock .weltatlas .fPlayer .zitatBox .flashaudio').split(' '):
-            for x in article.select(selector):
-                x.extract()
-        # put hrefs into text form cause hrefs are important content
-        for x in article.select('a'):
-            x.append(" ["+x.get('href','')+"]")
-        # ensure proper formating for later use of get_text()
-        for x in article.select('li'):
-            x.append("\n")
-        for tag in 'p h1 h2 h3 h4 h5 ul div'.split(' '):
-            for x in article.select(tag):
-                x.append("\n\n")
-        # strip multiple newlines away
-        import re
-        article = re.subn('\n\n+', '\n\n', article.get_text())[0]
-        # important text is now extracted into self.document
-        self.document = article
-
-        self.title = soup.find('h1').get_text()
-
-        # a by-line is not always there, but when it is, it is em-tag and
-        # begins with the word 'Von'
-        byline = soup.find('em')
-        if byline:
-            byline = byline.get_text()
-            if 'Von ' not in byline: byline = None
-        if not byline: byline = "nicht genannt"
-        self.byline = byline
-
-        # TODO self.date is unused, isn't it? but i still fill it here
-        date = soup.select("div.standDatum")
-        self.date = date and date[0].get_text() or ''
-
-    # XXX a bug in bs4 that tag.descendants isnt working when .extract is called??
-    # TODO investigate and report
-    @staticmethod
-    def descendants(tag):
-        x = tag.next_element
-        while x:
-            next = x.next_element or x.parent and x.parent != tag and x.parent.next_sibling
-            yield x
-            x = next
-
-    def __unicode__(self):
-        return self.document
diff --git a/parsers/washpo.py b/parsers/washpo.py
deleted file mode 100644
index 06c7bfa8..00000000
--- a/parsers/washpo.py
+++ /dev/null
@@ -1,44 +0,0 @@
-from baseparser import BaseParser
-from bs4 import BeautifulSoup
-import re
-import datetime
-
-DATE_FORMAT = '%A, %B %e %Y, %l:%M %p'
-
-class WashPoParser(BaseParser):
-    SUFFIX = '?print=true'
-    domains = ['www.washingtonpost.com']
-
-    feeder_pat   = '^http://www.washingtonpost.com/.*_story.html'
-    feeder_pages = ['http://www.washingtonpost.com/']
-
-    def _printableurl(self):
-        return re.sub('_story.html.*', '_print.html', self.url)
-
-    def _parse(self, html):
-        soup = BeautifulSoup(html)
-
-        self.meta = soup.findAll('meta')
-        elt = soup.find('h1', property="dc.title")
-        if elt is None:
-            self.real_article = False
-            return
-        self.title = elt.getText().strip()
-        elt = soup.find('h3', property="dc.creator")
-        if elt is None:
-            self.byline = ''
-        else:
-            self.byline = elt.getText().strip()
-
-        elt = soup.find('span', datetitle="published")
-        if elt is None:
-            self.date = ''
-        else:
-            date = datetime.datetime.fromtimestamp(float(elt['epochtime'])/1000)
-            self.date = date.strftime(DATE_FORMAT)
-
-        div = soup.find('div', id='content')
-        if div is None:
-            self.real_article = False
-            return
-        self.body = '\n'+'\n\n'.join([x.getText().strip() for x in div.findAll('p')])
diff --git a/website/frontend/models.py b/website/frontend/models.py
index e1e5637e..d87ea8d4 100644
--- a/website/frontend/models.py
+++ b/website/frontend/models.py
@@ -20,8 +20,11 @@ def strip_prefix(string, prefix):
 PublicationDict = {'www.zeit.de': 'Zeit Online',
                    'www.bild.de': 'Bild',
                    'www.focus.de': 'Focus Online',
-                   'www.welt.de': 'Die Welt',
-                   'www.stern.de': 'Stern',
+                   'www.stern.de': 'Der Stern',
+                   'www.zeit.de': 'Die Zeit',
+                   'www.sueddeutsche.de': 'Süddeutsche Zeitung',
+                   'www.spiegel.de': 'Der Spiegel',
+                   'www.faz.de': 'FAZ',
                    }
 
 ancient = datetime(1901, 1, 1)
diff --git a/website/frontend/views.py b/website/frontend/views.py
index 95f2e03a..d7a83e84 100644
--- a/website/frontend/views.py
+++ b/website/frontend/views.py
@@ -104,7 +104,7 @@ def get_articles(source=None, distance=0):
     return articles
 
 
-SOURCES = '''zeit.de bild.de focus.de spiegel.de welt.de stern.de'''.split()
+SOURCES = '''zeit.de bild.de focus.de spiegel.de stern.de faz.de rponline.de sueddeutsche.de'''.split()
 
 def is_valid_domain(domain):
     """Cheap method to tell whether a domain is being tracked."""

From 69a66c25ee5cc03182deeef84e9a2f435946135a Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Tue, 12 May 2015 22:56:52 +0200
Subject: [PATCH 54/64] =?UTF-8?q?removed=20'=C3=BC'=20in=20S=C3=BCddeutsch?=
 =?UTF-8?q?e?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 website/frontend/models.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/website/frontend/models.py b/website/frontend/models.py
index d87ea8d4..09bf14f5 100644
--- a/website/frontend/models.py
+++ b/website/frontend/models.py
@@ -22,7 +22,7 @@ def strip_prefix(string, prefix):
                    'www.focus.de': 'Focus Online',
                    'www.stern.de': 'Der Stern',
                    'www.zeit.de': 'Die Zeit',
-                   'www.sueddeutsche.de': 'Süddeutsche Zeitung',
+                   'www.sueddeutsche.de': 'Sueddeutsche Zeitung',
                    'www.spiegel.de': 'Der Spiegel',
                    'www.faz.de': 'FAZ',
                    }

From 8054c76f58fbc9b7f7c5702aa83b567a184105cb Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Tue, 12 May 2015 23:57:40 +0200
Subject: [PATCH 55/64] refactored all parsers

---
 parsers/bild.py    | 9 +++++++--
 parsers/focus.py   | 8 ++++++--
 parsers/spiegel.py | 4 ++--
 3 files changed, 15 insertions(+), 6 deletions(-)

diff --git a/parsers/bild.py b/parsers/bild.py
index 45358864..ea6aa601 100644
--- a/parsers/bild.py
+++ b/parsers/bild.py
@@ -17,16 +17,21 @@ def _parse(self, html):
                              fromEncoding='utf-8')
 
         self.meta = soup.findAll('meta')
+        #article headline
         try:
             elt = soup.find('meta', {'property': 'og:title'})['content']
             self.title = elt
         except:
             self.real_article = False
             return
-        created_at = soup.find('div', {'class': 'date'})
-        self.date = created_at.getText() if created_at else ''
+
+        # byline / author
         author = soup.find('div', {'itemprop':'author'})
         self.byline = author.getText() if author else ''
+        # article date
+        created_at = soup.find('div', {'class': 'date'})
+        self.date = created_at.getText() if created_at else ''
+        #article content
         div = soup.find('div', {'itemprop':'articleBody isFamilyFriendly'})
         if div is None:
             self.real_article = False
diff --git a/parsers/focus.py b/parsers/focus.py
index 52d3eadc..2d103360 100644
--- a/parsers/focus.py
+++ b/parsers/focus.py
@@ -14,18 +14,22 @@ def _parse(self, html):
                              fromEncoding='utf-8')
 
         self.meta = soup.findAll('meta')
+        #article headline
         elt = soup.find('h1')
         if elt is None:
             self.real_article = False
             return
         self.title = elt.getText()
+        # byline / author
         try:
             author = soup.find('a', {'rel':'author'}).text
         except:
             author = ''
         self.byline = author
-        created_at = soup.find('meta', {'name':'date'})['content']
-        self.date = created_at if created_at else ''
+        # article date
+        created_at = soup.find('meta', {'name':'date'})
+        self.date = created_at['content'] if created_at else ''
+        #article content
         self.body = ''
         div = soup.find('div', 'articleContent')
         if div is None:
diff --git a/parsers/spiegel.py b/parsers/spiegel.py
index ee0ff7dd..92e47b99 100644
--- a/parsers/spiegel.py
+++ b/parsers/spiegel.py
@@ -26,8 +26,8 @@ def _parse(self, html):
             author = ''
         self.byline = author
         # article date
-        created_at = soup.find('meta', {'name': 'date'})['content']
-        self.date = created_at if created_at else ''
+        created_at = soup.find('meta', {'name': 'date'})
+        self.date = created_at['content'] if created_at else ''
         #article content
         div = soup.find('div', 'article-section clearfix')
         if div is None:

From d04361d661f0c56fb38a880217798b8c6beafe56 Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Wed, 13 May 2015 00:07:33 +0200
Subject: [PATCH 56/64] reduced faz paths

---
 parsers/faz.py | 8 +++++++-
 1 file changed, 7 insertions(+), 1 deletion(-)

diff --git a/parsers/faz.py b/parsers/faz.py
index ec5cfcc4..18add31f 100644
--- a/parsers/faz.py
+++ b/parsers/faz.py
@@ -6,7 +6,13 @@ class FAZParser(BaseParser):
     domains = ['www.faz.net']
 
     feeder_pat = 'aktuell/.*\.html$'
-    feeder_pages = ['http://www.faz.net/']
+    feeder_pages = ['http://www.faz.net/aktuell/finanzen',
+                    'http://www.faz.net/aktuell/gesellschaft',
+                    'http://www.faz.net/aktuell/politik',
+                    'http://www.faz.net/aktuell/wirtschaft',
+                    'http://www.faz.net/aktuell/wissen',
+                    'http://www.faz.net/aktuell/feuilleton',
+                    ]
 
     def _parse(self, html):
         soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,

From b145298f41bd4a085139c9ab8a22b45993ae3608 Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Wed, 13 May 2015 00:09:46 +0200
Subject: [PATCH 57/64] refactored faz

---
 parsers/faz.py | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/parsers/faz.py b/parsers/faz.py
index 18add31f..1ce12032 100644
--- a/parsers/faz.py
+++ b/parsers/faz.py
@@ -25,11 +25,11 @@ def _parse(self, html):
             return
         self.title = elt['content']
         # byline / author
-        author = soup.find('meta', {'name': 'author'})['content']
-        self.byline = author if author else ''
+        author = soup.find('meta', {'name': 'author'})
+        self.byline = author['content'] if author else ''
         # article date
-        created_at = soup.find('meta', {'name': 'DC.date.issued'})['content']
-        self.date = created_at if created_at else ''
+        created_at = soup.find('meta', {'name': 'DC.date.issued'})
+        self.date = created_at['content'] if created_at else ''
         #article content
         div = soup.find('div', 'FAZArtikelContent')
         if div is None:

From a9f1fc37f4b9e477f9bd61494b38d2e43786eda2 Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Tue, 19 May 2015 14:30:56 +0200
Subject: [PATCH 58/64] modified welt.py, author infos cannot be stripped

---
 parsers/__init__.py | 6 +++++-
 parsers/welt.py     | 9 ++++++---
 2 files changed, 11 insertions(+), 4 deletions(-)

diff --git a/parsers/__init__.py b/parsers/__init__.py
index 92e4aba1..7688a945 100644
--- a/parsers/__init__.py
+++ b/parsers/__init__.py
@@ -6,7 +6,7 @@
 # Test with test_parser.py
 # List of parsers to import and use based on parser.domains
 
-parsers = """
+"""
 sueddeutsche.SDParser
 stern.SternParser
 bild.BildParser
@@ -15,6 +15,10 @@
 zeit.ZeitParser
 RPOnline.RPOParser
 faz.FAZParser
+"""
+
+parsers = """
+welt.WeltParser
 """.split()
 
 parser_dict = {}
diff --git a/parsers/welt.py b/parsers/welt.py
index b09de3a9..80140322 100644
--- a/parsers/welt.py
+++ b/parsers/welt.py
@@ -14,7 +14,7 @@ def _parse(self, html):
                              fromEncoding='utf-8')
         self.meta = soup.findAll('meta')
         #article headline
-        elt = soup.find('h1', 'widget storyContent title prefix_1 grid_8')
+        elt = soup.find('h1', 'widget storyContent title    prefix_1 grid_8')
         if elt is None:
             self.real_article = False
             return
@@ -26,8 +26,11 @@ def _parse(self, html):
         self.date = soup.find('meta', {'name': 'date'})['content']
         #article content
         div = soup.find('div', 'storyBody')
-        #div = self.remove_non_content(div)
-        print(div)
+        div = self.remove_non_content(div)
+         #Social Media Infobox & Author meta-data
+        map(lambda x: x.extract(), div.findAll('div', {'class': 'artAuthor'}))
+        map(lambda x: x.extract(), div.findAll('div', {'class': 'widget socialMedia socMedArtHead    grid_6 prefix_1'}))
+        map(lambda x: x.extract(), div.findAll('div', {'class': 'citation-social-wrapper'}))
         if div is None:
             self.real_article = False
             return

From 53c0c9dfcc8a32316a99cf7e9e19ba21aad1a1f1 Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Tue, 19 May 2015 15:07:26 +0200
Subject: [PATCH 59/64] optimized n-tv parser

---
 parsers/__init__.py |  3 ++-
 parsers/n-tv.py     | 14 +++++---------
 2 files changed, 7 insertions(+), 10 deletions(-)

diff --git a/parsers/__init__.py b/parsers/__init__.py
index 7688a945..e48d74dc 100644
--- a/parsers/__init__.py
+++ b/parsers/__init__.py
@@ -15,10 +15,11 @@
 zeit.ZeitParser
 RPOnline.RPOParser
 faz.FAZParser
+welt.WeltParser
 """
 
 parsers = """
-welt.WeltParser
+n-tv.NTVParser
 """.split()
 
 parser_dict = {}
diff --git a/parsers/n-tv.py b/parsers/n-tv.py
index 5b4d38ec..d9650e9a 100644
--- a/parsers/n-tv.py
+++ b/parsers/n-tv.py
@@ -6,18 +6,13 @@ class NTVParser(BaseParser):
     domains = ['www.n-tv.de']
 
     feeder_pat = '^http://www.n-tv.de/(politik|wirtschaft|panorama|technik|wissen)/[a-z]'
-    feeder_pages = ['http://www.n-tv.de/politik',
-                    'http://www.n-tv.de/wirtschaft',
-                    'http://www.n-tv.de/panorama',
-                    'http://www.n-tv.de/technik',
-                    'http://www.n-tv.de/wissen',
-                    ]
+    feeder_pages = ['http://www.n-tv.de']
 
     def _parse(self, html):
         soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
                              fromEncoding='utf-8')
         self.meta = soup.findAll('meta')
-        if soup.find('strong', {'class': 'category'})=='mediathek':
+        if soup.find('title').getText().find('Mediathek'):
             self.real_article = False
             return
         #article headline
@@ -27,8 +22,8 @@ def _parse(self, html):
             return
         self.title = elt.getText()
         # byline / author
-        author = soup.find('meta', {'name': 'author'})
-        self.byline = author['content'] if author else ''
+        author = soup.find('p', {'class': 'author'})
+        self.byline = author.getText() if author else ''
         # article date
         created_at = soup.find('div', {'itemprop': 'date-published'})
         self.date = created_at['content'] if created_at else ''
@@ -38,5 +33,6 @@ def _parse(self, html):
             self.real_article = False
             return
         div = self.remove_non_content(div)
+        map(lambda x: x.extract(), div.findAll('p', {'class': 'author'}))
         self.body = '\n' + '\n\n'.join([x.getText() for x in div.childGenerator()
                                         if isinstance(x, Tag) and x.name == 'p'])

From 11283be47d6e37c854e1eb81db1e734d61a97be5 Mon Sep 17 00:00:00 2001
From: Anja Kammer <post@anjakammer.de>
Date: Tue, 19 May 2015 15:09:49 +0200
Subject: [PATCH 60/64] scraper have all parsers

---
 parsers/__init__.py | 10 ++++++++++
 1 file changed, 10 insertions(+)

diff --git a/parsers/__init__.py b/parsers/__init__.py
index e48d74dc..71ec7bb3 100644
--- a/parsers/__init__.py
+++ b/parsers/__init__.py
@@ -15,11 +15,21 @@
 zeit.ZeitParser
 RPOnline.RPOParser
 faz.FAZParser
+n-tv.NTVParser
 welt.WeltParser
 """
 
 parsers = """
+sueddeutsche.SDParser
+stern.SternParser
+bild.BildParser
+focus.FocusParser
+spiegel.SpiegelParser
+zeit.ZeitParser
+RPOnline.RPOParser
+faz.FAZParser
 n-tv.NTVParser
+welt.WeltParser
 """.split()
 
 parser_dict = {}

From 5014f71b1d40d8d40569bd668d6019c8f9652a44 Mon Sep 17 00:00:00 2001
From: Robert Piwonski <piwonski.robert+git@gmail.com>
Date: Mon, 8 Jun 2015 12:07:48 +0200
Subject: [PATCH 61/64] N-TV-Parsers URL-RegEx-Pattern only recognized articles
 with the requested topic AND with a sub-category, now it fetches all URLs
 with the desired topic.

---
 parsers/n-tv.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/parsers/n-tv.py b/parsers/n-tv.py
index d9650e9a..81afb296 100644
--- a/parsers/n-tv.py
+++ b/parsers/n-tv.py
@@ -5,7 +5,7 @@
 class NTVParser(BaseParser):
     domains = ['www.n-tv.de']
 
-    feeder_pat = '^http://www.n-tv.de/(politik|wirtschaft|panorama|technik|wissen)/[a-z]'
+    feeder_pat = '^http://www.n-tv.de/(politik|wirtschaft|panorama|technik|wissen)/.*article\d*'
     feeder_pages = ['http://www.n-tv.de']
 
     def _parse(self, html):

From 8904776abce9d11ee16fac4f2913e2d9e75e388a Mon Sep 17 00:00:00 2001
From: Robert Piwonski <piwonski.robert+git@gmail.com>
Date: Mon, 8 Jun 2015 13:03:26 +0200
Subject: [PATCH 62/64] Mediathek recognition improved, date parsing corrected

---
 parsers/n-tv.py | 12 ++++++++----
 1 file changed, 8 insertions(+), 4 deletions(-)

diff --git a/parsers/n-tv.py b/parsers/n-tv.py
index 81afb296..baf393e6 100644
--- a/parsers/n-tv.py
+++ b/parsers/n-tv.py
@@ -12,9 +12,13 @@ def _parse(self, html):
         soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,
                              fromEncoding='utf-8')
         self.meta = soup.findAll('meta')
-        if soup.find('title').getText().find('Mediathek'):
-            self.real_article = False
-            return
+	# Remove any potential "rogue" video articles, that bypass the URL check
+        try: 
+		if 'Mediathek' in soup.find('title').getText():
+	            	self.real_article = False
+	            	return
+	except:
+		pass
         #article headline
         elt = soup.find('h1', {'class': 'h1'})
         if elt is None:
@@ -25,7 +29,7 @@ def _parse(self, html):
         author = soup.find('p', {'class': 'author'})
         self.byline = author.getText() if author else ''
         # article date
-        created_at = soup.find('div', {'itemprop': 'date-published'})
+        created_at = soup.find('div', {'itemprop': 'datePublished'})
         self.date = created_at['content'] if created_at else ''
         #article content
         div = soup.find('div', {'class': 'content'})

From 7e7e5763e588441d27fbe852c21ec15e0860e679 Mon Sep 17 00:00:00 2001
From: Robert Piwonski <piwonski.robert+git@gmail.com>
Date: Mon, 8 Jun 2015 14:10:24 +0200
Subject: [PATCH 63/64] URL list is now a set, so redundant links are dropped.

---
 parsers/baseparser.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/parsers/baseparser.py b/parsers/baseparser.py
index 2b76d42e..00e84521 100644
--- a/parsers/baseparser.py
+++ b/parsers/baseparser.py
@@ -154,7 +154,7 @@ def feed_urls(cls):
 
             all_urls = all_urls + [url for url in urls if
                                    re.search(cls.feeder_pat, url)]
-        return all_urls
+        return set(all_urls)
 
         #removes all non-content
     def remove_non_content(self, html):

From 5b64531bc480e643904a251dc060d9bae2a4a4a5 Mon Sep 17 00:00:00 2001
From: Robert Piwonski <piwonski.robert+git@gmail.com>
Date: Wed, 10 Jun 2015 16:38:07 +0200
Subject: [PATCH 64/64] N-TV fixed

---
 parsers/welt.py | 15 +++++++++++++--
 1 file changed, 13 insertions(+), 2 deletions(-)

diff --git a/parsers/welt.py b/parsers/welt.py
index 80140322..a0145c82 100644
--- a/parsers/welt.py
+++ b/parsers/welt.py
@@ -6,8 +6,19 @@ class WeltParser(BaseParser):
 
     domains = ['www.welt.de']
 
-    feeder_pat   = 'article\d*'
-    feeder_pages = ['http://www.welt.de/']
+    feeder_pat   = '^http://www.welt.de/(politik|wirtschaft|regionales|vermischtes|kultur|debatte|finanzen|gesundheit|satire|wissenschaft)/article\d*.*\.html$'
+    feeder_pages = ['http://www.welt.de/politik/',
+                    'http://www.welt.de/wirtschaft/',
+                    'http://www.welt.de/politik/',
+		    'http://www.welt.de/regionales/',
+                    'http://www.welt.de/vermischtes/',
+		    'http://www.welt.de/kultur/',
+                    'http://www.welt.de/debatte/',
+		    'http://www.welt.de/finanzen/',
+                    'http://www.welt.de/gesundheit/',
+                    'http://www.welt.de/satire/',
+                    'http://www.welt.de/wissenschaft/'
+                    ]
 
     def _parse(self, html):
         soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES,