Ce pilier vous propose des données utilisées en chimiométrie :
Nous en avons aussi sur le dataverse INRAE chemometrics.
Les jeux de données ci-dessous sont classés en fonction de leur utilisation dans les grains du mooc.
En bonus, un jeu non utilisé dans les grains du mooc est proposé.
Jeux de données de CheMoocs
Actuellement tous les jeux de données ci-dessous sont publiés sur ChemFlow et sur la plateforme FUN dans nos MOOCs de chimiométrie.
Grains 2 et 6 : Farines de blé
Les données ont été obtenues à l'INRA et mises à disposition par D.Bertrand. Elles consistent en 140 spectres de farines de blé, mesurés entre 400 et 2496 nm par pas de 4 nm. Le fichier des données est donc de dimensions (140 x 525). L'origine tendre ou dure du blé ayant donné chaque farine est donnée par le deuxième caractère du nom de chaque échantillon: un T ou un D respectivement.
Le jeu de données est : x_140farines.csv (0.5MB) , y_140farines.csv (1.8kB)
Grain 3 : Résultats du décathlon des Jeux Olympiques d'Athènes 2004
La première colonne donne le nom des sportifs, la première ligne celle des épreuves: decathlon_athenes_2004.csv (2.1kB)
Grain 4 : Huiles d'olives (1)
Les données ont été produites par l'Université d'Aix-Marseille, équipe de N.Dupuy. Des analyses proche infrarouge et des analyses chimiques ont été réalisées sur 187 huiles d'olives dont l'origine géographique était connue. Les données se composent de :
- un jeu de 187 spectres comprenant 2853 longueurs d'onde, 1000 à 2222 nm : pir0.zip ;
- un jeu de 187 spectres comprenant 612 longueurs d'onde, 1000 à 2222 nm par pas de 2nm, extraites du jeu précédent : pir.csv (1.0MB) ;
- un jeu d'analyses de 14 acides gras et du squalène sur les 187 échantillons : ags.csv (15.2kB) ;
- un jeu d'analyses de 19 triglycérides sur les 187 échantillons : tri.csv (20.2kB) ;
- un codage disjonctif des 187 échantillons selon les 6 origines géographiques : AP=Aix en Provence, HP=Haute Provence, NI=Nice, NM=Nimes, NY=Nyons, VB=Vallée des Baux de Provence: ori.csv (3.5kB) .
Dans le fichier ags.csv, les principaux acides gras sont: l'acide linolénique C18-3Ï?3, l'acide linoléique C18-2Ï?6, l'acide oléique C18-1Ï?9 et l'acide palmitique, C16-0 correspondant aux colonnes respectives 10, 9, 7 et 1.
Grains 5, 10 et 16 (cours) : Farines de maïs
Les données ont été acquises par l'entreprise Cargill, leur diffusion aimablement autorisée par Mike Blackburn.
Le jeu complet est disponible sur le site de Eigenvector Research Incorporated (août 2016).
Nous avons sélectionné les données utilisées dans le mooc, présentées au format de notre logiciel ChemFlow.
Des spectres ont été acquis sur 80 échantillons de maïs, entre 1100 et 2498 nm par pas de 2 nm, et ce sur trois spectromètres différents notés m5, mp5 et mp6.
Les 80 spectres sont numérotés de 1 à 80, le même ordre est respecté dans les quatre fichiers.
Les données comprennent :
- les 80 spectres acquis sur le spectromètre m5 : x_m5.csv (0.5MB) ;
- les 80 spectres acquis sur le spectromètre mp5: x_mp5.csv (0.5MB) ;
- les 80 spectres acquis sur le spectromètre mp6: x_mp6.csv (0.5MB) ;
- les valeurs d'humidité, matières grasses, protéines et amidon mesurées pour les 80 échantillons : y.csv (2.3kB) .
Le grain 10 utilise les données du spectromètre m5.
Dans le grain 16 (données du cours PDF ou vidéo), les 9 spectres utilisés pour construire les modèles de transfert d'étalonnage sont les numéros ou lignes: 1 , 5 , 7 , 10 , 12 , 13 , 28 , 33 , 36 .
Grains 4 et 5 : Tavelure sur feuilles de pommier.
Quarante deux spectres proche infrarouge ont été acquis par IRSTEA-Montpellier sur des feuilles de pommier:
- 21 spectres sur des feuilles saines;
- 21 spectres sur des feuilles atteintes de tavelure.
L'objectif est de séparer les feuilles saines des feuilles malades.
Les données sont:
- un jeu de 42 spectres acquis sur 256 longueurs d'onde balayant l'intervalle 964-2494nm: x_tavelure.csv (0.1MB) ;
- un jeu de codage des spectres, 1 = feuille saine, 2 = feuille atteinte de tavelure: code_tavelure.csv (0.4kB) .
Grain 7 : Terephthalate
L'objectif est de prédire la densité de polymère de terephthalate en utilisant la spectroscopie.
Les données, produites par Erik Swierenga, sont disponibles depuis le package pls du logiciel R (licence GPL) .
Le fichier initial a été divisé en :
- un jeu de 21 spectres d'étalonage , 268 variables spectrales : x.csv (42.3kB) ;
- les valeurs de densité pour les 21 échantillons du jeu d'étalonnage : y.csv (0.2kB) ;
- un jeu de 7 spectres de test , 268 variables spectrales : xtest.csv (15.5kB) ;
- les valeurs de densité pour les 7 échantillons du jeu de test : ytest.csv (0.1kB) .
Grain 9 : Huiles d'olive (2)
Le jeu d'huiles d'olive (2) a été extrait du jeu d'huiles d'olives présentés ci-dessus pour le grain 4. Il est composé de 106 spectres d'huiles mesurés entre 1000 et 1240 nm. Les données ont été utilisées pour illustrer le document pdf attaché au grain 9, pas la vidéo du grain 9 qui est basée sur un autre jeu. Elles comprennent:
- les spectres, une matrice ( 106 x 1000) : x_olive2.csv (0.9MB) ;
- les teneurs en acide oléique, un vecteur (106 x 1) : y_olive2.csv (1.2kB) .
Grains 12 et 13 : Mayonnaises
L'objectif est de classer des mayonnaises selon l'origine de l'huile qui a été utilisée pour les faire.
Les données sont disponibles depuis le package pls du logiciel R (licence GPL) . Elles comprennent:
- les spectres de 162 échantillons de mayonnaise acquis entre 1100 et 2500 nm (pas = 4nm) soient 351 variables spectrales : xmayo.csv (0.5MB) .
- l'origine de l'huile ayant servi à faire la mayonnaise, sous forme d'un fichier conjonctif: classes.csv (1.2kB) .
- 1 = soja ; 2 = tournesol ; 3 = canola ; 4 = olive ; 5 = maïs ; 6 = pépins de raisin .
Les 21 longueurs d'onde sélectionnées dans le grain 12 sont les variables n° 2, 13, 37, 41, 49, 60, 80, 96, 107, 115, 128, 136, 140, 194, 211, 217, 225, 232, 237, 278 et 303.
Grain 15 : Abricots
Les acquisitions ont été réalisées par l'INRA, UMR408, les résultats sont mis à disposition par Sylvie Bureau. Des spectres proche infrarouge (800-2770nm) et moyen infrarouge (4000-650cm-1) ont été acquis sur les mêmes 750 abricots , pour lesquels 9 analyses de référence ont été réalisées: indice de réfraction exprimé en degré Brix, acidité totale en meq pour 100 g de matière fraiche (MF), glucose, fructose, saccharose et somme des sucres en g pour 100g de MF, acides malique et citrique, somme des acides, en meq pour 100 g de MF. Huit variétés ont été suivies, à trois stades de maturité: très vert, mûr, sur-mûr. Le label des observations est construit comme suit: (1) la variété: Ravilong (A03759), Ravicille (A03844), Blanc (A04034), Badami (A01267), Bergeron (A00660), Goldrich (A02210), Iranien (A02862) et Moniqui (A00500); (2) l'année de mesure (05 ->2005); (3) la date de mesure (ex: 2206=2 juin); (4) le lieu où se situe le verger; (5) le stade de maturité: vv=très vert, ma = mature, sm=sur-mûr; (6) la couleur de l'abricot perçue par l'observateur: R=rouge, O=orange, B=blanc; (7) le numéro de fruit (ex: F001). Les prélèvements se sont échelonnés du stade vert au stade sur-mûr. Seule une variable spectrale sur trois a été conservée dans les spectres PIR et MIR, afin d'alléger les calculs. Les données ont été ordonnées: le même abricot est représenté à la même ligne dans les quatre fichiers suivants qui contiennent :
- les spectres proche infrarouge, un fichier (750 x 769) : x2_pir05.csv (4.4MB) ;
- les spectres moyen infrarouge, un fichier (750 x 579) : x2_mir05.csv (3.3MB) ;
- les analyses de référence, un fichier (750 x 9) : y2.csv (56.3kB) ;
- un codage disjonctif des variétés, un fichier (750 x 8): code_disj.csv (33.7kB) ;
- un codage conjonctif des variétés, un fichier (750 x 1): code_conj.csv (23.5kB) .
Grain 18 : Données simulées
Ces données ont été produites à AgroParisTech par Douglas Rutledge. Six signaux différents de 800 variables chacun ont été mixés entre eux avec des coefficients différents, et en ajoutant en plus du bruit Gaussien. Un total de 100 spectres simulés ont été obtenus.
Les données forment une matrice (100 x 800) : donnees_simulees.csv (0.6MB) .
Grain 19 : Beurres et maargarines
Les données ont été obtenues à l'INRA Nantes par Benoit Jaillais. Des spectres moyen infrarouge (MIR), proche infrarouge (PIR) et visible (VIS) ont été acquis sur 21 échantillons de beurres ou margarines. Les données sont :
- les spectres VIS des 21 échantillons, 400-798 nm (pas=2nm) soient 200 variables spectrales : VIS21.csv (37.9kB) ;
- les spectres NIR des 21 échantillons, 800-2498 (pas = 2nm) soient 850 variables spectrales : NIR21.csv (0.2MB) ;
- les spectres MIR des 21 échantillons, 3616-916 cm-1 soient 1401 variables spectrales : MIR21.csv (0.3MB) .
Bonus : Fromages
Les données ont été fournies par Gérard Mazerolles. 60 fromages ont été produits à l'INRA Poligny à raison de 4 fromages par jour pendant 15 jours. Ces fromages sont identifiés ainsi:
- une lettre: D (analyses avant salage) ou A (analyses après salage + maturation de 30 jours);
- deux chiffres, de 01 à 15, représentent les 15 jours de production des fromages qui se répartissent en 5 groupes:
- * jours 01 à 03: pâtes pressées cuites;
- * jours 04 à 06: pâtes pressées mi-cuites;
- * jours 07 à 09: pâtes pressées;
- * jours 10 à 12: pâtes molles;
- * jours 13 à 15: pâtes molles stabilisées.
- un chiffre, de 1 à 4, représente le numéro du fromage (4 fromages produits par jour); les 4 fromages faits un même jour l'ont été avec des laits de compositions chimiques différentes;
- une lettre, a, b ou c représente l'une des trois répétitions des analyses spectrales, chimiques ou rhéologiques.
Au total, nous disposons de 60 fromages x 2 dates (D et A) par 3 répétitions (a, b et c), soient 360 observations. Les données sont les suivantes:
- la partie du spectre moyen infrarouge centrée sur les matières grasses: MIR_FAT.csv (0.3MB) ; 360 observations, 104 variables de 2998 à 2800 cm-1;
- la partie du spectre moyen infrarouge centrée sur les protéines: MIR_PROT.csv (0.4MB) ; 360 observations, 112 variables de 1700 à 1486 cm-1;
- la partie du spectre moyen infrarouge contenant de l'information sur les matières grasses et les protéines: MIR_MIX.csv (1.1MB) ; 360 observations, 304 variables de 1485 à 900 cm-1;
- le spectre de fluorescence de la vitamine A, excitation 270-350nm, émission 410nm: FLUO_VITA.csv (0.2MB) ; 360 observations, 81 variables;
- le spectre de fluorescence du tryptophane, excitation 290nm, émission 305 à 400 nm: FLUO_TRYPT.csv (0.6MB) ; 360 observations, 191 variables;
- la chimie des fromages: pH, humidité, matières grasses, protéines, calcium: CHEMISTRY.csv (12.1kB) ; 360 observations, 5 variables;
- la rhéologie des fromages: déformabilité, déformation à la rupture, contrainte à la rupture, énergie à la rupture: RHEO.csv (11.3kB) ; 360 observations, 4 variables.
A noter: les analyses qui n'ont pas été faites en triple ont été dupliquées de manière à ce que les nombres de lignes soient les mêmes entre tous les tableaux et qu'un numéro de ligne corresponde au même échantillon dans tous les tableaux.
BONUS : Baies de raisin
Les données ont été acquises à l'UE Pech-Rouge de Gruissan par l'UMR ITAP et l'UMR SPO respectivement par Jean-Michel Roger et Jean-Claude Boulet et mises à disposition. Des spectres UV-visible-proche infrarouge ont été acquis en transmittance sur 250 grains de raisin entre 310 et 1150nm, avec un pas de 3,3nm approximativement, ayant donné 256 longueurs d'onde. Le degré Brix a été mesuré sur chacune de ces 250 baies.
Les données comprennent :
- fichier des spectres : x_raisin.csv (0.3MB) ;
- fichier des degrés Brix : y_raisin.csv (2.5kB) .
A noter: les données sur les maïs aussi présentées dans le grain 10 ont été décrites précédemment pour le grain 5.
Retrouvez également nos données d'intérêts et publiable sur dataverse https://data.inra.fr ou DataInBrief.
Conversions de formats de données
Pour pouvoir traiter vos spectres avec des logiciels de chimiométrie, il est nécessaire de les exporter sous un format lisible par ces logiciels.
Par exemple, le format des données utilisé dans ChemFlow est un .csv avec:
- séparateur de champ= tabulation
- séparateur décimal = point
Les données déjà au format .csv mais avec un séparateur de champ autre que la tabulation peuvent être chargées dans ChemFlow, un outil permet la conversion vers la tabulation.
Mais ce n'est pas souvent le cas. A l'origine, les données sont produites par un logiciel propriétaire. Pour devenir lisibles par d'autres logiciels, il faut les exporter dans un format d'échange standard.
Un format standard très courant est JCAMP (extension jdx ou dx) : http://www.jcamp-dx.org.
L'exportation de vos données (spectres) se fait à l'aide du logiciel spécifique à votre appareil :
Appareil = Logiciel
BRUKER = OPUS
BUCHI = NIRCAL
UNITY = Calibration Workshop (Sensologic Gmbh) â?? Ucal
PERTEN = Unscrambler (Grams)
NICOLET = Unscrambler (Grams)
Q-Interline = Grams
FOSS = Winisi
Depuis NIRCAL avec Buchi
- 1. Ouvrir un nouveau projet
- 2. Aller chercher les spectres acquis dans la base de données : File -> Database -> Search and Import Spectra
- 3. Une nouvelle fenêtre s'ouvre vous permettant de sélectionner les spectres suivant certains critères : date, nom d'échantillons, etc.
- 4. Sélectionner vos spectres puis importer les.
- 5. Pour exporter vos spectres il est nécessaire d'exporter le projet : File -> Export -> Project (Non) -> nomduprojet.nir à l'emplacement souhaité.
- 6. Pour exporter les spectres au format JCAMP : File -> Export -> Spectra, cliquer sur Non afin d'exporter tous les spectres du projet courant. -> NomProjet_spectre.jdx.
Depuis Winisi avec FOSS
- 1. Une fois votre fichier enregistré au format .cal sélectionner le,
- 2. Choisir l'onglet Files puis Convert dans le logiciel Winisi 4
- 3. Dans une nouvelle fenêtre, sélectionner le format de sortie : JCAMP
- 4. Sélectionner dans "Directory Files" le fichier à convertir, il s'introduit alors dans le champ "Input Filename(s)"
- 5. Cliquer dans "Output directory" pour sélectionner le dossier qui accueillera le fichier converti, ici .jcamp.
- 6. Puis Cliquer sur "Set Output Directory" (le "directory" associé à jcamp doit être identique à celui de l'ouput directory)
- 7. Lancer la conversion en cliquant sur le bouton "Begin Conversion"
- 8. Sans rien inscrire, cliquer su OK 2 fois de suite quand on vous demande l'origine et le propriétaire du fichier JCAMP.
- 9. Un message vous annonce alors si la conversion a réussi ou non, cliquer sur Ok puis sur le bouton "Exit Program"
- 10. Pour voir ou manipuler votre fichier JCAMP, vous rendre avec une fenêtre windows (ou Linux) dans le répertoire où vous vouliez l'enregistrez (Output directory).
Depuis TQ avec Thermofisher