Accueil Nos offres Faculté des Sciences et Ingénierie INTELLIGENCE ARTIFICIELLE : APPRENTISSAGE PAR RENFORCEMENT – CONCEPTS ET MISE EN PRATIQUE

Dernière mise à jour le 16/06/2026

Retourner au catalogue

Domaine : Intelligence Artificielle - Thématique(s) : IA, data calcul

Stages courts

INTELLIGENCE ARTIFICIELLE : APPRENTISSAGE PAR RENFORCEMENT – CONCEPTS ET MISE EN PRATIQUE

AlphaZero qui bat les meilleurs joueurs du monde au Go, le robot d’OpenAI qui manipule un cube sous toutes ses faces ou qui résout le Rubik’s cube, un groupe d’agents qui bat des joueurs professionnels à StartCraft ou Dota2, un algorithme qui diminue de 40 % la facture de refroidissement des centres de calcul de Google, autant de succès très médiatisés de l’apprentissage par renforcement qui en ont fait une composante majeure de l’intelligence artificielle. Cette formation vous donnera les bases pour comprendre l’apprentissage par renforcement et vous guidera vers la mise en œuvre des algorithmes les plus utilisés dans le domaine.

Durée de la formation : 42 heures ou six fois 7 heures Dates : Lieu : Campus Pierre et Marie Curie – Paris (Jussieu) Tarif : Voir la grille

Modalité : Présentiel

Tarif pour les 6 journées : 3500 €
Tarifs à la journée : 600€
Journées 1 et 2 obligatoires.
Combinaisons possibles :
J1 J2
J1 J2 J3
J1 J2 J3 J4
J1 J2 J3 J4 J5
J1 J2 J3 J4 J5 J6

OBJECTIFS et COMPÉTENCES VISÉES

A l’issue de la formation, les participants auront acquis les bases théoriques et les savoir-faire leur permettant :

d’identifier dans quelle mesure une problématique professionnelle se prête à une modélisation sous la forme d’un problème d’apprentissage par renforcement ;
de choisir les bons algorithmes et une infra-structure de calcul adaptée face à un problème d’apprentissage par renforcement donné ;
de mettre en œuvre ces algorithmes, en régler les hyper-paramètres et s’assurer de l’obtention d’une solution satisfaisante ;
de suivre les progrès de la recherche en apprentissage par renforcement grâce à une bonne vue d’ensemble de ce domaine.

PUBLIC VISÉ ET PRÉ-REQUIS

Public :

Ingénieurs ou équivalent possédant une expérience en apprentissage automatique et en programmation Python, qui souhaitent comprendre en profondeur les principes de l’apprentissage par renforcement et en développer une maîtrise pratique.

Pré-requis :

Connaissances en informatique: algorithme et syntaxe Python. Bon niveau en mathématiques: algèbre, statistiques et optimisation numérique, Une première expérience avec une librairie de différentiation automatique (tensorflow, pytorch, keras…) est requise.

PROGRAMME

Jour 1 : introduction générale, cadre de l’apprentissage par renforcement, algorithmes d’apprentissage par renforcement tabulaires (états et actions discrets). Travaux pratiques sur la programmation dynamique, Q-learning et Sarsa.

Jour 2 : algorithmes d’apprentissage par renforcement profond avec espace d’état de grande taille et politiques déterministes : DQN, Rainbow, AlphaZero, DDPG, TD3. Travaux pratiques sur DQN et DDPG.

Jour 3 : méthodes de gradient sur les politiques stochastiques, vue d’ensemble des algorithmes de deep RL. Travaux pratiques sur REINFORCE, A2C et algorithmes proches.

Jour 4 : algorithmes d’apprentissage par renforcement profond avec actions continues et politiques stochastiques de l’état de l’art : PPO, SAC, TQC. Travaux pratiques sur ces algorithmes. Remise d’un sujet de mini-projet didactique à réaliser en autonomie : challenge de recherche de performance sur un benchmark classique.

Jour 5 : méthodes avancées pour résoudre des problèmes concrets : apprentissage multitâche, apprentissage par imitation, apprentissage par renforcement hiérarchique.

Jour 6 : comparaison et combinaison des méthodes évolutionnaires et des méthodes d’apprentissage par renforcement. Evaluation des projets réalisés en autonomie. Evaluation générale de la formation, discussion générale.

Méthodes

Chaque journée sera rythmée par :

un cours (2h30 environ),
des travaux pratiques encadrés fondés sur le cours et évalués d’une semaine à l’autre,
en fin de journée, de courtes évaluations des notions acquises (QCM),
une séance de débreifing,
des éléments d’ouverture à la demande.

Chaque participant dispose d’un poste de travail dédié à l’apprentissage automatique. La formation sera appuyée sur tensorflow ou pytorch (à déterminer en fonction de la demande).

Un mini-projet didactique sera réalisé en autonomie la dernière semaine. Des contenus plus ambitieux pourront être mis en place en fonction de la disponibilité et la motivation des participants.

Documents : Supports de cours PDF, vidéos

Modalités d’évaluation

Attestations de fin de formation et de compétences

Débouchés

Cette formation permet aux individus de sécuriser leur parcours professionnel en leur donnant les compétences nécessaires pour accompagner les entreprises dans les enjeux liés à leur secteur d’activité et s’adapter aux évolutions technologiques associées.

OBJECTIFS et COMPÉTENCES VISÉES

A l’issue de la formation, les participants auront acquis les bases théoriques et les savoir-faire leur permettant :

d’identifier dans quelle mesure une problématique professionnelle se prête à une modélisation sous la forme d’un problème d’apprentissage par renforcement ;
de choisir les bons algorithmes et une infra-structure de calcul adaptée face à un problème d’apprentissage par renforcement donné ;
de mettre en œuvre ces algorithmes, en régler les hyper-paramètres et s’assurer de l’obtention d’une solution satisfaisante ;
de suivre les progrès de la recherche en apprentissage par renforcement grâce à une bonne vue d’ensemble de ce domaine.

PUBLIC VISÉ ET PRÉ-REQUIS

Public :

Pré-requis :

PROGRAMME

Jour 3 : méthodes de gradient sur les politiques stochastiques, vue d’ensemble des algorithmes de deep RL. Travaux pratiques sur REINFORCE, A2C et algorithmes proches.

Jour 5 : méthodes avancées pour résoudre des problèmes concrets : apprentissage multitâche, apprentissage par imitation, apprentissage par renforcement hiérarchique.

Méthodes

Chaque journée sera rythmée par :

un cours (2h30 environ),
des travaux pratiques encadrés fondés sur le cours et évalués d’une semaine à l’autre,
en fin de journée, de courtes évaluations des notions acquises (QCM),
une séance de débreifing,
des éléments d’ouverture à la demande.

Chaque participant dispose d’un poste de travail dédié à l’apprentissage automatique. La formation sera appuyée sur tensorflow ou pytorch (à déterminer en fonction de la demande).

Un mini-projet didactique sera réalisé en autonomie la dernière semaine. Des contenus plus ambitieux pourront être mis en place en fonction de la disponibilité et la motivation des participants.

Documents : Supports de cours PDF, vidéos

Modalités d’évaluation

Attestations de fin de formation et de compétences

Débouchés

Les + de la formation

Des enseignants experts de l’apprentissage par renforcement, alliant couverture large et profonde du domaine, et bonne connaissance de la pratique.
Une formation qui fournit les bases, les méthodes, et une expérience pratique de l’apprentissage par renforcement pour donner aux participants les moyens de progresser au-delà de la formation.
Une pédagogie active qui s’adapte aux questions et attentes des participants au fil des séances.

Pour candidater

Vous êtes une entreprise et souhaitez un accompagnement pour la construction de votre projet sur-mesure ou une proposition intra pour cette formation ?

Contactez-nous

Informations

Catégorie de l’action de développement des compétences:
(Article L6313-1 du Code du Travail)

Action de formation

Effectifs : 3 à 12 participants

A noter : Journées 1 et 2 obligatoires, les autres journées peuvent être ajoutées selon les combinaisons ci-dessous (nous consulter) :
J1 J2 –
J1 J2 J3 –
J1 J2 J3 J4 –
J1 J2 J3 J4 J5-
J1 J2 J3 J4 J5 J6.

Possibilité de sessions sur-mesure

Prochaine session au second semestre 2027

Contact

ingenierie-fc@sorbonne-universite.fr

à voir aussi dans le même domaine...

DU, DIU

EXECUTIVE PROGRAM en INGÉNIERIE FINANCIÈRE – Modélisation, simulation et analyse de données

06/11/2026 au 25/06/2027

19 semaines de cours et 1j de soutenance

Stages courts

De ChatGPT, Mistral à DeepSeek : les IA génératives démystifiées

4 heures

0.5 jours

DU, DIU

MACHINE LEARNING ET INTELLIGENCE ARTIFICIELLE

98h

2 jours /mois

Stages courts

Les mains dans l’IA : DEEP LEARNING PAR LA PRATIQUE

21 heures

3 jours

Cookie	Durée	Description
cookielawinfo-checbox-analytics	11 months	Ces cookies sont définis par le plug-in WordPress de consentement aux cookies GDPR. Le cookie est utilisé pour mémoriser le consentement de l'utilisateur pour les cookies dans la catégorie "Analytics".
cookielawinfo-checbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-necessary	11 months	Ce cookie est défini par le plugin GDPR Cookie Consent. Les cookies sont utilisés pour stocker le consentement de l'utilisateur pour les cookies dans la catégorie "Nécessaire".
cookielawinfo-checkbox-performance	11 months	Ce cookie est utilisé pour garder une trace des cookies que l'utilisateur a approuvés pour ce site.
viewed_cookie_policy	11 months	Le cookie est défini par le plugin GDPR Cookie Consent et est utilisé pour stocker si l’utilisateur a ou non consenti à l’utilisation de cookies. Il ne stocke aucune donnée personnelle.

Cookie	Durée	Description
_pk_id.8.214f	13 months
_pk_ses.8.214f	30 minutes

INTELLIGENCE ARTIFICIELLE : APPRENTISSAGE PAR RENFORCEMENT – CONCEPTS ET MISE EN PRATIQUE

OBJECTIFS et COMPÉTENCES VISÉES

PUBLIC VISÉ ET PRÉ-REQUIS

PROGRAMME

Méthodes

Modalités d’évaluation

Débouchés

Objectifs / Compétences

OBJECTIFS et COMPÉTENCES VISÉES

Public visé & Pré-requis

PUBLIC VISÉ ET PRÉ-REQUIS

Programme

PROGRAMME

Méthodes / Moyens pédagogiques

Méthodes

Modalités d’évaluation

Et après ?

Débouchés

Les + de la formation

Pour candidater

Informations

Contact

à voir aussi dans le même domaine...

EXECUTIVE PROGRAM en INGÉNIERIE FINANCIÈRE – Modélisation, simulation et analyse de données

De ChatGPT, Mistral à DeepSeek : les IA génératives démystifiées

MACHINE LEARNING ET INTELLIGENCE ARTIFICIELLE

Les mains dans l’IA : DEEP LEARNING PAR LA PRATIQUE