\section{Introduction} Les \gls{tic} ont fait émerger des \gls{si} de grande envergure, qui génèrent continuellement une quantité globale toujours plus importante de données, communément appelée \gls{bd}. Les volumes démesurés de données manipulés par ces \gls{si} sont clairement incompatibles avec les principes classiques des \gls{sgbd}. De nouvelles méthodologies ont donc dû être créées afin de pouvoir analyser puis exploiter ces \gls{bd}. \subsection{Le \gls{ml}} Ce concept regroupe les différentes nouvelles approches méthodologiques permettant de faire ressortir une compréhension des \gls{bd}, en extraire des \glspl{dataset} exploitables puis, à partir de cet apprentissage, être en mesure de comprendre de nouvelles données. Les 2 défis à relever pour être pertinents dans cette démarche : \begin{itmz} \item{ne pas surentraîner (spécialiser) l’apprentisseur automatique\\ pour conserver une capacité de généralisation} \item{pour chaque type de problèmes à résoudre,\\ choisir les algorithmes les plus pertinents} \end{itmz} \subsection{Méthodes non supervisées} Ces premières méthodes permettent de travailler avec un ensemble d’éléments ne disposant pas d’étiquetage préalable, elles mettent ainsi en place des mécanismes permettant de faire du \gls{clustering} de ces éléments. Exemples d’algorithmes : \begin{itmz} \item{k-means (moyennes)} \item{réduction de dimensionnalité} \item{réseaux de neurones} \item{analyse des composants principaux ou indépendants} \item{modèles de distribution} \item{classification hiérarchique} \item{\gls{clustering} par décalage moyen} \item{Apriori} \end{itmz} \subsection{Méthodes semi-supervisées} Ces méthodes autorisent l’utilisation d’un ensemble d’éléments hétérogène, certains étant ayant déjà été étiquetés au préalable, alors que d’autres non. Un mélange de différentes techniques s’avère donc être nécessaire. Exemples d’algorithmes : \begin{itmz} \item{\gls{hbos}} \item{forêts isolées} \item{autoencodeurs} \end{itmz} \subsection{Méthodes supervisées} Ces dernières méthodes utilisent un ensemble d’éléments intégralement étiquetés, ayant une valeur de sortie pour plusieurs valeurs de variables en entrée. Ces données d’apprentissage permettent après entraînement de pouvoir prévoir des valeurs de sortie correctes à partir de nouvelles valeurs en entrée. Ces prédictions sont de 2 types : \begin{itmz} \item{régression → la valeur sortante est un nombre} \item{classification → la valeur sortante est une catégorie} \end{itmz} Exemples d’algorithmes : \begin{itmz} \item{régressions linéaire, logistique ou vectorielle} \item{arbres de régression, classification} \item{k-\gls{nn} (plus proches voisins)} \item{classificateur Naïve Bayes} \item{réseaux de neurones} \item{\gls{svm}} \end{itmz} Ce sont ces \gls{svm} qui feront l’objet d’étude du présent document. Après en avoir abordé les différents principes sous-jacents, une analyse critique sera proposée en se basant sur les avantages, inconvénients et limitations de ce type d’algorithmes dans le cadre d’un exemple d’application. \pagebreak