Quel IA a faim de nourriture?

Mots-clés: détection de la nutrition, reconnaissance d'image alimentaire, intelligence artificielle, apprentissage en profondeur, apprentissage automatique, étiquetage alimentaire, applications alimentaires

Objectif

Le but de cette étude est de comparer quatre services de reconnaissance d’image: Amazon Rekognition, Google Vision, Clarifai et Instagaze et de déterminer quel service de reconnaissance d’image en profondeur est celui qui détecte le mieux les étiquettes alimentaires en fonction d’images.

Contexte

La reconnaissance automatique de l'image des aliments génère beaucoup de vapeur, car la traçabilité des aliments peut résoudre des problèmes allant du bien-être aux carences nutritionnelles, en passant par les applications de soins de santé et la gestion de l'alimentation. L'intelligence artificielle dans la détection d'images d'aliments peut également aider les épicuriens et les snackers à prendre des décisions plus éclairées et plus conscientes en matière de nutrition. Chaque jour, nous prenons d'innombrables photos d'aliments sans regarder les informations nutritionnelles ni nous rendre compte de l'impact de ces aliments sur notre santé.

Lors de la dernière étude, nous avions collecté des images provenant de sources Internet et les avait analysées à l'aide des principaux services de reconnaissance d'images: Google Vision, Amazon Rekognition, Microsoft Computer Vision et Instagaze. Nous avons conclu qu'Instagaze offrait la précision d'image et de marquage la plus élevée, suivie par Google Vision par rapport aux autres services de reconnaissance d'images.

Compte tenu des conclusions de notre étude précédente, nous avons testé l’API de Google Vision avec une image de pizza au fromage prise sur un smartphone. De manière surprenante, Google Vision n'a pas pu détecter avec précision une image de pizza au fromage prise sur un smartphone si elle avait correctement reconnu une image extrêmement similaire provenant d'une source Internet.

Figure 1: l'image à gauche provient d'Internet et l'image à droite est capturée à partir d'un smartphone affichant les étiquettes correspondantes générées à partir de Google Vision pour une part de pizza.

La reconnaissance de l'image des aliments est difficile en raison de la nature des aliments. Les progrès dans la détection des étiquettes d’images d’aliments ont été rares. Les aliments sont généralement des objets déformables, ce qui rend difficile la définition de leur structure. De plus, il n’ya que peu d’informations pouvant être tirées d’images de nourriture; comme la couleur des aliments, les aliments sont bien éclairés et leur densité. Malgré ces obstacles, les réseaux de neurones profonds ont surperformé les approches traditionnelles, mais peuvent devenir biaisés et peu fiables dans le monde réel s'ils sont formés à des images professionnellement organisées.

Pour obtenir des informations plus détaillées, nous avons testé 100 images de produits alimentaires provenant de smartphones et analysés: Amazon Rekognition, Google Vision, Clarifai et Instagaze. Clarifai et Instagaze disposent tous deux d’un modèle d’apprentissage approfondi «Alimentation» qui reconnaît les aliments en images.

Expérience et procédure

Nous avons choisi des images de différentes cuisines pour éviter les biais dans notre étude. Les images ont d'abord été redimensionnées à 640x480 pixels et converties au format JPEG afin de garantir leur traitement par tous les services dans le même format.

Figure 2: Images personnelles collectées à l'aide d'un smartphone. Petit gâteau aux fraises (coin supérieur gauche), toast à l'avocat (à droite), pâtes de légumes garnies de fromage (coin inférieur gauche).

Pour chaque image, les services d'apprentissage automatique ont renvoyé un ensemble d'étiquettes avec leurs scores de confiance, leur URL d'origine et leur étiquette correcte, qui ont été stockés dans des ensembles de données distincts. Les jeux de données avec le code source peuvent être trouvés ici.

L'analyse des données

Nous avons analysé les données en fonction de trois critères:

  • Catégorisation d'étiquettes acceptable
  • Précision d'étiquette
  • Précision d'image

Catégorisation d'étiquettes acceptable

La classification des étiquettes acceptables était un défi, car Amazon Rekognition, Google Vision, Clarifai et Instagaze généraient plusieurs étiquettes. Pour résoudre le problème du tri des étiquettes acceptables et non acceptables, nos analystes de données qualifiés ont manuellement sélectionné toutes les étiquettes pour des images d'aliments. Par exemple, dans la Figure 3, «Pho», un nom générique pour Poulet Pho est acceptable, tandis que «Dish», terme générique désignant un aliment préparé, n’est pas acceptable.

Figure 3: Étiquettes acceptables et non acceptables pour le poulet pho

Précision d'étiquette

Après avoir examiné toutes les étiquettes générées à partir d'Amazon Rekognition, Google Vision, Clarifai et Instagaze, nous avons constaté que chaque service d'apprentissage automatique générait une quantité différente d'étiquettes pour chaque image. Clarifai a généré le plus grand nombre d'étiquettes pour toutes les images, tandis qu'Amazon Rekognition en a généré le moins.

Figure 4: Étiquettes acceptables et étiquettes non acceptables pour tous les services

La précision des étiquettes a été calculée comme suit:

Précision totale des étiquettes = Nombre total d'étiquettes acceptables par image / Nombre total d'étiquettes générées

Figure 5: Précision des étiquettes pour tous les services

Nous avons constaté qu'Instagaze avait la plus haute précision de libellé de 14,30% et Amazon Rekognition avait la plus faible précision d'image de 5,75%. Instagaze a généré le nombre maximal d'étiquettes correctes, suivies de Google Vision, Clarifai et Amazon Rekognition. La génération correcte d'étiquettes est très importante pour les informations nutritionnelles et la gestion de l'alimentation.

Précision d'image

La précision des images est un aspect important de cette étude. Une précision plus élevée des images peut en définitive nous aider à estimer la taille des portions, la valeur nutritionnelle et le nombre total de calories consommées au cours d’un repas. Compte tenu de cette importance, nous avons examiné la précision des images, définie comme le nombre d'images correctement détectées avec au moins une étiquette acceptable.

Précision de l'image = Nombre total d'images détectées avec une étiquette acceptable / Nombre total d'images

Figure 6: Images avec étiquettes acceptables et non acceptables pour tous les services. * Remarque: Google Vision et Instagaze n'ont pas pu détecter une image.Figure 7: Précision d'image sur tous les services

Parmi les quatre technologies de reconnaissance d'image référencées, Instagaze présentait la plus haute précision d'image, soit 85%, et Amazon Rekognition, la plus faible précision d'image, soit 39%. La reconnaissance précise des images est extrêmement utile pour créer des plans d'entraînement, en encourageant une alimentation saine et des calculs de nutrition alimentaire.

Conclusion

Instagaze s'est mieux comporté en termes de précision des étiquettes et d'images qu'avec Google Vision, Amazon Rekognition et Clarifai. Google Vision et Amazon Rekognition fournissent des API de reconnaissance d'image avec CNN agnostiques et ces deux CNN se concentrent sur la classification des images, avec ce qui est présent dans l'image (par exemple, nourriture, assiette). Contrairement à Amazon Rekognition, Google Vision n’a pas obtenu les résultats attendus sur les images prises à partir de téléphones intelligents par rapport aux images prises sur Internet. Instagaze a surpassé tous les autres services avec une précision d'image de 85% et a maintenu ses normes de résultats plus élevées en matière de précision d'étiquette et de volume d'étiquette. La précision d’image d’Instagaze pour les images du monde réel et d’Internet est restée la même, ce qui suggère que les couches supplémentaires d’apprentissage automatique d’Instagaze au-dessus d’un CNN spécialisé favorisent fortement la reconnaissance de l’image des aliments. L'intelligence artificielle, à l'aide de réseaux de neurones profonds, peut fournir une meilleure technologie de reconnaissance des aliments dans un avenir proche et nous aider à adopter un mode de vie plus sain. Instagaze est sur le point de concrétiser cette réalité.