intro,glossaries

2020-08-05 23:09:56 +02:00 · 2020-08-05 23:09:56 +02:00 · bb619d2e6e
commit bb619d2e6e
parent dee89347e0
2 changed files with 88 additions and 4 deletions
--- a/cnam/travaux/probatoire/document/glossaries.tex
+++ b/cnam/travaux/probatoire/document/glossaries.tex
@ -1,5 +1,7 @@
 \printglossary[title=Abréviations,type=\acronymtype]

+\newacronym{hbos}{HBOS}{Histogram Based Outlier Score}
+\newacronym{sgbd}{SGBD}{Systèmes de Gestion de Bases de Données}
 \newacronym{si}{SI}{Systèmes d’Information}
 \newacronym{svm}{SVM}{Support Vector Machine}
 \newacronym{tic}{TIC}{Technologies d’Information et de Communication}
@ -12,6 +14,10 @@
 name={big data},
 description={données massives}
 }
+\newglossaryentry{clustering}{
+name={clustering},
+description={regroupement d’éléments en sous-ensembles caractéristiques}
+}
 \newglossaryentry{dataset}{
 name={dataset},
 plural={datasets},
--- a/cnam/travaux/probatoire/document/introduction.tex
+++ b/cnam/travaux/probatoire/document/introduction.tex
@ -1,9 +1,87 @@
 \section{Introduction}

-La prédominance des \gls{datasets} de très grande taille
-a fait émerger de nouvelles méthodes d’analyse de ces données.
+Les \gls{tic} ont fait émerger des \gls{si} de grande envergure, qui génèrent
+continuellement une quantité globale toujours plus importante de données,
+communément appelée \gls{bd}.

-Faisant suite aux méthodes de clustering, les \gls{svm}
-permettent de classifier automatiquement les grands jeux de données.
+Les volumes démesurés de données manipulés par ces \gls{si} sont clairement
+incompatibles avec les principes classiques des \gls{sgbd}.
+De nouvelles méthodologies ont donc dû être créées afin de pouvoir
+analyser puis exploiter ces \gls{bd}.
+
+\subsection{Le \gls{ml}}
+
+Ce concept regroupe les différentes nouvelles approches méthodologiques
+permettant de faire ressortir une compréhension des \gls{bd}, en extraire
+des \glspl{dataset} exploitables puis, à partir de cet apprentissage,
+être en mesure de comprendre de nouvelles données.
+
+Les 2 défis à relever pour être pertinents dans cette démarche :
+\begin{itmz}
+\item{ne pas surentraîner (spécialiser) l’apprentisseur automatique\\
+pour conserver une capacité de généralisation}
+\item{pour chaque type de problèmes à résoudre,\\
+choisir les algorithmes les plus pertinents}
+\end{itmz}
+
+\subsection{Méthodes non supervisées}
+
+Ces premières méthodes permettent de travailler avec un ensemble d’éléments
+ne disposant pas d’étiquetage préalable, elles mettent ainsi en place
+des mécanismes permettant de faire du \gls{clustering} de ces éléments.
+
+Exemples d’algorithmes :
+\begin{itmz}
+\item{k-means}
+\item{réduction de dimensionnalité}
+\item{réseaux de neurones}
+\item{analyse des composants principaux ou indépendants}
+\item{modèles de distribution}
+\item{classification hiérarchique}
+\item{\gls{clustering} par décalage moyen}
+\item{Apriori}
+\end{itmz}
+
+\subsection{Méthodes semi-supervisées}
+
+Ces méthodes autorisent l’utilisation d’un ensemble d’éléments hétérogène,
+certains étant ayant déjà été étiquetés au préalable, alors que d’autres non.
+Un mélange de différentes techniques s’avère donc être nécessaire.
+
+Exemples d’algorithmes :
+\begin{itmz}
+\item{\gls{hbos}}
+\item{forêts isolées}
+\item{autoencodeurs}
+\end{itmz}
+
+\subsection{Méthodes supervisées}
+
+Ces dernières méthodes utilisent un ensemble d’éléments intégralement étiquetés,
+ayant une valeur de sortie pour plusieurs valeurs de variables en entrée.
+Ces données d’apprentissage permettent après entraînement de pouvoir
+prévoir des valeurs de sortie correctes à partir de nouvelles valeurs en entrée.
+
+Ces prédictions sont de 2 types :
+\begin{itmz}
+\item{régression → la valeur sortante est un nombre}
+\item{classification → la valeur sortante est une catégorie}
+\end{itmz}
+
+Exemples d’algorithmes :
+\begin{itmz}
+\item{régressions linéaire, logistique ou vectorielle}
+\item{arbres de régression, classification}
+\item{K-NN}
+\item{classificateur Naïve Bayes}
+\item{réseaux de neurones}
+\item{\gls{svm}}
+\end{itmz}
+
+Ce sont ces \gls{svm} qui feront l’objet d’étude du présent document.
+Après en avoir abordé les différents principes sous-jacents,
+une analyse critique sera proposée en se basant sur les avantages,
+inconvénients et limitations de ce type d’algorithmes
+dans le cadre d’un exemple d’application.

 \pagebreak