<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Introduction and Data Scraping on Dr Mahamadou KANTE</title>
    <link>/resources/workshop/module1-introduction/</link>
    <description>Recent content in Introduction and Data Scraping on Dr Mahamadou KANTE</description>
    <generator>Hugo -- 0.147.7</generator>
    <language>en-US</language>
    <atom:link href="/resources/workshop/module1-introduction/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Data Collection via API</title>
      <link>/resources/workshop/module1-introduction/collecte-de-donn%C3%A9es-via-api/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>/resources/workshop/module1-introduction/collecte-de-donn%C3%A9es-via-api/</guid>
      <description>&lt;h1 id=&#34;scraping-avec-les-apis&#34;&gt;Scraping avec les APIs&lt;/h1&gt;
&lt;h2 id=&#34;introduction-aux-apis&#34;&gt;Introduction aux APIs&lt;/h2&gt;
&lt;h3 id=&#34;quest-ce-quune-api&#34;&gt;Qu&amp;rsquo;est-ce qu&amp;rsquo;une API&lt;/h3&gt;
&lt;p&gt;Une &lt;strong&gt;API&lt;/strong&gt; (Interface de Programmation d&amp;rsquo;Applications) est un ensemble de définitions et de protocoles qui permet à différents logiciels de communiquer entre eux. Elle sert d&amp;rsquo;intermédiaire pour échanger des informations de manière structurée.&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;Exemple&lt;/strong&gt; : une API est comme un serveur dans un restaurant. Vous (le client) passez votre commande au serveur (API), qui va la chercher en cuisine (le serveur de données) et vous apporte le plat (les données).&lt;/p&gt;</description>
    </item>
    <item>
      <title>HTTrack</title>
      <link>/resources/workshop/module1-introduction/httrack/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>/resources/workshop/module1-introduction/httrack/</guid>
      <description>&lt;h2 id=&#34;1-httrack&#34;&gt;1. &lt;strong&gt;HTTrack&lt;/strong&gt;&lt;/h2&gt;
&lt;h3 id=&#34;quest-ce-que-httrack&#34;&gt;Qu&amp;rsquo;est-ce que HTTrack&lt;/h3&gt;
&lt;p&gt;HTTrack est un logiciel libre et open-source qui vous permet de télécharger et copier des sites web pour les consulter hors ligne. Il est particulièrement utile pour le scraping de sites web statiques ou semi-dynamiques.&lt;/p&gt;
&lt;h3 id=&#34;installation-de-httrack&#34;&gt;Installation de HTTrack&lt;/h3&gt;
&lt;p&gt;Pour installer HTTrack :&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;Téléchargez HTTrack&lt;/strong&gt; depuis &lt;a href=&#34;https://www.httrack.com/page/2/en/index/&#34; target=&#34;_blank&#34;&gt;ce lien&lt;/a&gt;.&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;img alt=&#34;Téléchargez HTTrack&#34; loading=&#34;lazy&#34; src=&#34;../../assets/images/workshop/httrack1.png&#34;&gt;
2. Installez le logiciel en suivant les instructions sur votre système d’exploitation (Windows, &lt;a href=&#34;https://lucidgen.com/en/how-to-use-httrack-on-mac/#:~:text=like%20a%20coder%E2%80%9D.-,Install%20HTTrack%20on%20Mac,can%20install%20HTTrack%20for%20Macbook.&#34; target=&#34;_blank&#34;&gt;macOS&lt;/a&gt;, Linux).&lt;/p&gt;
&lt;h3 id=&#34;utilisation-de-httrack&#34;&gt;Utilisation de HTTrack&lt;/h3&gt;
&lt;iframe width=&#34;560&#34; height=&#34;315&#34; src=&#34;https://www.youtube.com/embed/uEJgmOK0QbAsi=sFGFXgT_1sw1kr1w&#34; title=&#34;YouTube video player&#34; frameborder=&#34;0&#34; allow=&#34;accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share&#34; referrerpolicy=&#34;strict-origin-when-cross-origin&#34; allowfullscreen&gt;&lt;/iframe&gt;
&lt;p&gt;Une fois installé, voici comment utiliser HTTrack pour copier un site web :&lt;/p&gt;</description>
    </item>
    <item>
      <title>Lobstr</title>
      <link>/resources/workshop/module1-introduction/lobstr/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>/resources/workshop/module1-introduction/lobstr/</guid>
      <description>&lt;h1 id=&#34;lobstr&#34;&gt;Lobstr&lt;/h1&gt;
&lt;p&gt;&lt;strong&gt;Lobstr&lt;/strong&gt; est un outil en ligne qui facilite l&amp;rsquo;extraction de données comme Octoparse sans nécessiter de compétences en programmation. Il est particulièrement utile pour les chercheurs, les analystes et toute personne souhaitant collecter des &lt;strong&gt;tweets&lt;/strong&gt; sur des sujets spécifiques, des hashtags ou des comptes utilisateurs. En effet, même en mode gratuit, Lobstr nous permet d&amp;rsquo;extraire des données de X, bien que de manière limitée, évidemment !&lt;/p&gt;
&lt;h2 id=&#34;description-de-lobstr&#34;&gt;Description de Lobstr&lt;/h2&gt;
&lt;h3 id=&#34;1-facilité-d&#34;&gt;1. &lt;strong&gt;Facilité d&amp;rsquo;utilisation&lt;/strong&gt;&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Interface intuitive&lt;/strong&gt; : Lobstr propose une interface conviviale qui permet de configurer des requêtes de recherche Twitter sans effort.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Pas de codage requis&lt;/strong&gt; : aucune compétence en programmation n&amp;rsquo;est nécessaire pour utiliser cet outil.&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;2-collecte-de-données-depuis-twitter&#34;&gt;2. &lt;strong&gt;Collecte de données depuis Twitter&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;En commençant par les modules de scraping pour X (Twitter), Lobstr propose 3 scrapers pour extraire des données des &lt;strong&gt;profils Twitter&lt;/strong&gt;, des &lt;strong&gt;tweets des utilisateurs&lt;/strong&gt; et même des &lt;strong&gt;tendances Twitter et des résultats de recherche d&amp;rsquo;un hashtag par exemple&lt;/strong&gt;.&lt;/p&gt;</description>
    </item>
    <item>
      <title>No-Code Tools</title>
      <link>/resources/workshop/module1-introduction/outils-sans-codage/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>/resources/workshop/module1-introduction/outils-sans-codage/</guid>
      <description>&lt;h1 id=&#34;no-code-scraping-tools&#34;&gt;No-Code Scraping Tools&lt;/h1&gt;
&lt;p&gt;In this first section, we explore different graphical tools that let you scrape data without writing a single line of code. These tools are designed to extract information from websites and online platforms.&lt;/p&gt;
&lt;h2 id=&#34;tools-presented-in-this-section&#34;&gt;Tools Presented in This Section&lt;/h2&gt;
&lt;h3 id=&#34;1-httrack&#34;&gt;1. &lt;strong&gt;HTTrack&lt;/strong&gt;&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Description&lt;/strong&gt;: HTTrack is a free and open-source tool that lets you copy websites for offline browsing. It is often used to extract the content of web pages.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Use&lt;/strong&gt;: we look at how to use HTTrack to clone websites and extract specific information without touching a line of code.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Strengths&lt;/strong&gt;:
&lt;ul&gt;
&lt;li&gt;easy to use;&lt;/li&gt;
&lt;li&gt;intuitive graphical interface;&lt;/li&gt;
&lt;li&gt;available in French.&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;2-web-scraper-chrome-extension&#34;&gt;2. &lt;strong&gt;Web Scraper (Chrome Extension)&lt;/strong&gt;&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Description&lt;/strong&gt;: Web Scraper is a browser extension that lets you scrape data directly from web pages through a simple interface.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Use&lt;/strong&gt;: you will learn how to configure and use Web Scraper to extract structured data such as tables or lists from websites.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Strengths&lt;/strong&gt;:
&lt;ul&gt;
&lt;li&gt;easy to install;&lt;/li&gt;
&lt;li&gt;direct integration with Chrome;&lt;/li&gt;
&lt;li&gt;easy export to CSV or JSON.&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;3-octoparse&#34;&gt;3. &lt;strong&gt;Octoparse&lt;/strong&gt;&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Description&lt;/strong&gt;: Octoparse is a no-code data scraping tool that extracts information from websites through a graphical interface. It is well suited to non-technical users and can scrape both static and dynamic data, including content loaded with JavaScript.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Strengths&lt;/strong&gt;:
&lt;ul&gt;
&lt;li&gt;no-code interface;&lt;/li&gt;
&lt;li&gt;support for dynamic websites;&lt;/li&gt;
&lt;li&gt;multilingual interface;&lt;/li&gt;
&lt;li&gt;free plan with basic features;&lt;/li&gt;
&lt;li&gt;easy export to CSV, JSON, and Excel.&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;4-lobstr&#34;&gt;4. &lt;strong&gt;Lobstr&lt;/strong&gt;&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Description&lt;/strong&gt;: an online tool that simplifies data extraction, much like &lt;a href=&#34;#3-octoparse&#34;&gt;Octoparse&lt;/a&gt;, without requiring programming skills. It is especially useful for researchers, analysts, and anyone wanting to collect tweets about specific topics, hashtags, or user accounts.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Strengths&lt;/strong&gt;:
&lt;ul&gt;
&lt;li&gt;no-code interface;&lt;/li&gt;
&lt;li&gt;support for dynamic websites;&lt;/li&gt;
&lt;li&gt;free plan with basic features;&lt;/li&gt;
&lt;li&gt;export to CSV, JSON, and Excel.&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;5-scrapy-gui&#34;&gt;5. &lt;strong&gt;Scrapy-GUI&lt;/strong&gt;&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Description&lt;/strong&gt;: Scrapy-GUI is a graphical interface for the Scrapy framework, making it possible to scrape data without writing code. It simplifies the creation of spiders and the extraction of data from websites for non-technical users.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Strengths&lt;/strong&gt;:
&lt;ul&gt;
&lt;li&gt;intuitive interface;&lt;/li&gt;
&lt;li&gt;uses the power of &lt;strong&gt;Scrapy&lt;/strong&gt; for more complex sites;&lt;/li&gt;
&lt;li&gt;open source and customizable.&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;concepts-covered&#34;&gt;Concepts Covered&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Scraping ethics&lt;/strong&gt;: it is important to respect website terms of use and privacy policies when scraping. We discuss recommended practices and legal limits.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Limits of no-code scraping&lt;/strong&gt;: although these tools are powerful, they also have limits, especially in terms of flexibility and handling dynamic websites.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;For anyone who wants to go further, this space also includes a module on &lt;a href=&#34;../../../resources/programming/&#34;&gt;learning programming&lt;/a&gt; and discovering programming languages, designed to remain accessible to non-specialists and beginners.&lt;/strong&gt;&lt;/p&gt;</description>
    </item>
    <item>
      <title>Octoparse</title>
      <link>/resources/workshop/module1-introduction/octoparse/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>/resources/workshop/module1-introduction/octoparse/</guid>
      <description>&lt;h1 id=&#34;octoparse&#34;&gt;Octoparse&lt;/h1&gt;
&lt;p&gt;&lt;strong&gt;Octoparse&lt;/strong&gt; est une solution puissante et sans code pour le scraping de données. Il permet de configurer des projets de scraping de manière visuelle, sans avoir à coder. Octoparse est disponible en plusieurs langues, dont le français, et offre des fonctionnalités avancées telles que le scraping de sites dynamiques, la gestion de la pagination, et l&amp;rsquo;exportation de données au format CSV ou JSON.&lt;/p&gt;
&lt;h2 id=&#34;installation-et-inscription&#34;&gt;Installation et inscription&lt;/h2&gt;
&lt;h3 id=&#34;étapes-dinstallation-&#34;&gt;Étapes d&amp;rsquo;installation :&lt;/h3&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;Inscription&lt;/strong&gt; :
&lt;ul&gt;
&lt;li&gt;Rendez-vous sur le site &lt;a href=&#34;https://www.octoparse.fr&#34; target=&#34;_blank&#34;&gt;Octoparse&lt;/a&gt; et créez un compte gratuit.&lt;/li&gt;
&lt;li&gt;L&amp;rsquo;interface est disponible en français, facilitant la prise en main.&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;img alt=&#34;Octoparse&#34; loading=&#34;lazy&#34; src=&#34;../../assets/images/workshop/octoparse1.png&#34;&gt;&lt;/p&gt;</description>
    </item>
    <item>
      <title>Scrapy-GUI</title>
      <link>/resources/workshop/module1-introduction/scrapy-gui/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>/resources/workshop/module1-introduction/scrapy-gui/</guid>
      <description>&lt;h1 id=&#34;scrapy-gui&#34;&gt;Scrapy-GUI&lt;/h1&gt;
&lt;p&gt;&lt;strong&gt;Scrapy-GUI&lt;/strong&gt; est une interface graphique pour le célèbre framework Scrapy, permettant de créer des spiders et de scraper des données sans écrire de code. Il rend l&amp;rsquo;utilisation de Scrapy accessible aux utilisateurs non techniques via une interface visuelle.&lt;/p&gt;
&lt;h2 id=&#34;installation-de-scrapy-gui&#34;&gt;Installation de Scrapy-GUI&lt;/h2&gt;
&lt;h3 id=&#34;étapes-dinstallation-&#34;&gt;Étapes d&amp;rsquo;installation :&lt;/h3&gt;
&lt;ol&gt;
&lt;li&gt;Assurez-vous d&amp;rsquo;avoir &lt;a href=&#34;https://etudestech.com/decryptage/comment-installer-python/&#34; target=&#34;_blank&#34;&gt;&lt;strong&gt;Python&lt;/strong&gt;&lt;/a&gt; installé sur votre machine. &lt;a href=&#34;https://www.python.org/downloads/&#34; target=&#34;_blank&#34;&gt;Download ici&lt;/a&gt;.&lt;/li&gt;
&lt;li&gt;Installez &lt;strong&gt;Scrapy-GUI&lt;/strong&gt; via pip en exécutant la commande suivante :&lt;/li&gt;
&lt;/ol&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;background-color:#fff;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    pip install scrapy-GUI
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;img alt=&#34;Web scraper&#34; loading=&#34;lazy&#34; src=&#34;../../assets/images/workshop/sgui1.png&#34;&gt;&lt;/p&gt;
&lt;ol start=&#34;3&#34;&gt;
&lt;li&gt;Une fois installé, lancez l&amp;rsquo;application avec la commande suivante :&lt;/li&gt;
&lt;/ol&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;background-color:#fff;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    scrapy-gui 
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    ou 
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    scrapy_gui.open_browser()
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;img alt=&#34;Web scraper&#34; loading=&#34;lazy&#34; src=&#34;../../assets/images/workshop/sgui2.png&#34;&gt;
Cela ouvrira l&amp;rsquo;interface graphique de Scrapy où vous pourrez configurer vos projets de scraping.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Twitter API V2</title>
      <link>/resources/workshop/module1-introduction/api-x/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>/resources/workshop/module1-introduction/api-x/</guid>
      <description>&lt;h1 id=&#34;collecting-data-with-the-twitter-api-v2&#34;&gt;Collecting Data with the Twitter API V2&lt;/h1&gt;
&lt;p&gt;In this section, we explore how to use the Twitter API V2 to collect data from Twitter. This includes the full process, from creating a Twitter developer account to setting up a Google Colab environment for running API queries and retrieving data in real time.&lt;/p&gt;
&lt;h2 id=&#34;step-1-create-a-twitter-developer-account&#34;&gt;Step 1: Create a Twitter Developer Account&lt;/h2&gt;
&lt;p&gt;To use the Twitter API, you first need a Twitter developer account:&lt;/p&gt;</description>
    </item>
    <item>
      <title>Web Scraper (Chrome Extension)</title>
      <link>/resources/workshop/module1-introduction/web-scraper/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>/resources/workshop/module1-introduction/web-scraper/</guid>
      <description>&lt;h1 id=&#34;web-scraper-extension-chrome&#34;&gt;Web Scraper (Extension Chrome)&lt;/h1&gt;
&lt;p&gt;&lt;strong&gt;Web Scraper&lt;/strong&gt; est une extension gratuite pour le navigateur Chrome qui vous permet de scraper des données depuis des pages web. Il est idéal pour les utilisateurs sans compétences en programmation qui souhaitent collecter des informations structurées telles que des tableaux, des listes ou des articles.&lt;/p&gt;
&lt;h2 id=&#34;introduction-à-web-scraper&#34;&gt;Introduction à Web Scraper&lt;/h2&gt;
&lt;h3 id=&#34;quest-ce-que-web-scraper&#34;&gt;Qu&amp;rsquo;est-ce que Web Scraper&lt;/h3&gt;
&lt;p&gt;Web Scraper est un outil très intuitif permettant de créer des plans de scraping (appelés &lt;strong&gt;sitemaps&lt;/strong&gt;) pour extraire des données de manière automatique. Vous pouvez configurer l&amp;rsquo;extension pour capturer différents types de données (texte, images, URLs) en fonction de la structure des pages web.&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
