intro,glossaries
This commit is contained in:
parent
dee89347e0
commit
bb619d2e6e
2 changed files with 88 additions and 4 deletions
|
@ -1,5 +1,7 @@
|
||||||
\printglossary[title=Abréviations,type=\acronymtype]
|
\printglossary[title=Abréviations,type=\acronymtype]
|
||||||
|
|
||||||
|
\newacronym{hbos}{HBOS}{Histogram Based Outlier Score}
|
||||||
|
\newacronym{sgbd}{SGBD}{Systèmes de Gestion de Bases de Données}
|
||||||
\newacronym{si}{SI}{Systèmes d’Information}
|
\newacronym{si}{SI}{Systèmes d’Information}
|
||||||
\newacronym{svm}{SVM}{Support Vector Machine}
|
\newacronym{svm}{SVM}{Support Vector Machine}
|
||||||
\newacronym{tic}{TIC}{Technologies d’Information et de Communication}
|
\newacronym{tic}{TIC}{Technologies d’Information et de Communication}
|
||||||
|
@ -12,6 +14,10 @@
|
||||||
name={big data},
|
name={big data},
|
||||||
description={données massives}
|
description={données massives}
|
||||||
}
|
}
|
||||||
|
\newglossaryentry{clustering}{
|
||||||
|
name={clustering},
|
||||||
|
description={regroupement d’éléments en sous-ensembles caractéristiques}
|
||||||
|
}
|
||||||
\newglossaryentry{dataset}{
|
\newglossaryentry{dataset}{
|
||||||
name={dataset},
|
name={dataset},
|
||||||
plural={datasets},
|
plural={datasets},
|
||||||
|
|
|
@ -1,9 +1,87 @@
|
||||||
\section{Introduction}
|
\section{Introduction}
|
||||||
|
|
||||||
La prédominance des \gls{datasets} de très grande taille
|
Les \gls{tic} ont fait émerger des \gls{si} de grande envergure, qui génèrent
|
||||||
a fait émerger de nouvelles méthodes d’analyse de ces données.
|
continuellement une quantité globale toujours plus importante de données,
|
||||||
|
communément appelée \gls{bd}.
|
||||||
|
|
||||||
Faisant suite aux méthodes de clustering, les \gls{svm}
|
Les volumes démesurés de données manipulés par ces \gls{si} sont clairement
|
||||||
permettent de classifier automatiquement les grands jeux de données.
|
incompatibles avec les principes classiques des \gls{sgbd}.
|
||||||
|
De nouvelles méthodologies ont donc dû être créées afin de pouvoir
|
||||||
|
analyser puis exploiter ces \gls{bd}.
|
||||||
|
|
||||||
|
\subsection{Le \gls{ml}}
|
||||||
|
|
||||||
|
Ce concept regroupe les différentes nouvelles approches méthodologiques
|
||||||
|
permettant de faire ressortir une compréhension des \gls{bd}, en extraire
|
||||||
|
des \glspl{dataset} exploitables puis, à partir de cet apprentissage,
|
||||||
|
être en mesure de comprendre de nouvelles données.
|
||||||
|
|
||||||
|
Les 2 défis à relever pour être pertinents dans cette démarche :
|
||||||
|
\begin{itmz}
|
||||||
|
\item{ne pas surentraîner (spécialiser) l’apprentisseur automatique\\
|
||||||
|
pour conserver une capacité de généralisation}
|
||||||
|
\item{pour chaque type de problèmes à résoudre,\\
|
||||||
|
choisir les algorithmes les plus pertinents}
|
||||||
|
\end{itmz}
|
||||||
|
|
||||||
|
\subsection{Méthodes non supervisées}
|
||||||
|
|
||||||
|
Ces premières méthodes permettent de travailler avec un ensemble d’éléments
|
||||||
|
ne disposant pas d’étiquetage préalable, elles mettent ainsi en place
|
||||||
|
des mécanismes permettant de faire du \gls{clustering} de ces éléments.
|
||||||
|
|
||||||
|
Exemples d’algorithmes :
|
||||||
|
\begin{itmz}
|
||||||
|
\item{k-means}
|
||||||
|
\item{réduction de dimensionnalité}
|
||||||
|
\item{réseaux de neurones}
|
||||||
|
\item{analyse des composants principaux ou indépendants}
|
||||||
|
\item{modèles de distribution}
|
||||||
|
\item{classification hiérarchique}
|
||||||
|
\item{\gls{clustering} par décalage moyen}
|
||||||
|
\item{Apriori}
|
||||||
|
\end{itmz}
|
||||||
|
|
||||||
|
\subsection{Méthodes semi-supervisées}
|
||||||
|
|
||||||
|
Ces méthodes autorisent l’utilisation d’un ensemble d’éléments hétérogène,
|
||||||
|
certains étant ayant déjà été étiquetés au préalable, alors que d’autres non.
|
||||||
|
Un mélange de différentes techniques s’avère donc être nécessaire.
|
||||||
|
|
||||||
|
Exemples d’algorithmes :
|
||||||
|
\begin{itmz}
|
||||||
|
\item{\gls{hbos}}
|
||||||
|
\item{forêts isolées}
|
||||||
|
\item{autoencodeurs}
|
||||||
|
\end{itmz}
|
||||||
|
|
||||||
|
\subsection{Méthodes supervisées}
|
||||||
|
|
||||||
|
Ces dernières méthodes utilisent un ensemble d’éléments intégralement étiquetés,
|
||||||
|
ayant une valeur de sortie pour plusieurs valeurs de variables en entrée.
|
||||||
|
Ces données d’apprentissage permettent après entraînement de pouvoir
|
||||||
|
prévoir des valeurs de sortie correctes à partir de nouvelles valeurs en entrée.
|
||||||
|
|
||||||
|
Ces prédictions sont de 2 types :
|
||||||
|
\begin{itmz}
|
||||||
|
\item{régression → la valeur sortante est un nombre}
|
||||||
|
\item{classification → la valeur sortante est une catégorie}
|
||||||
|
\end{itmz}
|
||||||
|
|
||||||
|
Exemples d’algorithmes :
|
||||||
|
\begin{itmz}
|
||||||
|
\item{régressions linéaire, logistique ou vectorielle}
|
||||||
|
\item{arbres de régression, classification}
|
||||||
|
\item{K-NN}
|
||||||
|
\item{classificateur Naïve Bayes}
|
||||||
|
\item{réseaux de neurones}
|
||||||
|
\item{\gls{svm}}
|
||||||
|
\end{itmz}
|
||||||
|
|
||||||
|
Ce sont ces \gls{svm} qui feront l’objet d’étude du présent document.
|
||||||
|
Après en avoir abordé les différents principes sous-jacents,
|
||||||
|
une analyse critique sera proposée en se basant sur les avantages,
|
||||||
|
inconvénients et limitations de ce type d’algorithmes
|
||||||
|
dans le cadre d’un exemple d’application.
|
||||||
|
|
||||||
\pagebreak
|
\pagebreak
|
||||||
|
|
Loading…
Add table
Add a link
Reference in a new issue