taxonomies

Le cerveau humain est prédisposé à détecter des modèles et à organiser les expériences en taxonomies. En fait, l'intelligence humaine repose sur notre capacité à regrouper les expériences en catégories et en conceptsLorsque nous découvrons quelque chose de nouveau, nous sommes en mesure de réagir de manière intelligente et appropriée en identifiant instantanément comment la nouvelle expérience s'inscrit dans les catégories que nous avons déjà apprises.

C'est peut-être parce que notre cerveau fonctionne naturellement de cette manière qu'il est instinctif d'appliquer des structures taxonomiques à des concepts complexes du monde extérieur afin de les rendre plus faciles à comprendre. Carolus Linnaeusscientifique suédois du XVIIIe siècle, a inventé le système de classification de Linnaen du monde naturel que nous utilisons encore aujourd'hui (bien que sous une forme actualisée).

En 1869, le scientifique russe Dmitri Mendeleïev a inventé le tableau périodique pour simplifier les conversations sur les éléments constitutifs de notre existence. Les sites web, les épiceries, les bibliothèques et de nombreux autres espaces numériques et réels bien organisés utilisent des structures de taxonomie pour organiser le contenu et les objets de manière logique et facile à trouver.

Organiser une épicerie est une chose. Organiser une collection sans cesse croissante de données brutes en est une autre. Bien que la classification soit essentielle pour donner un sens aux données et les manipuler, peu d'entreprises d'analyse de données sont en mesure d'appliquer des taxonomies cohérentes et utiles aux données volumineuses de manière à produire des informations transformatrices.

Pourquoi avons-nous besoin de taxonomies de données ?

La création de données numériques croît à un rythme exponentiel. Chaque jour, les utilisateurs de Facebook publient plus de 250 millions de photos sur la plateforme. Chaque seconde, les utilisateurs d'Instagram téléchargent 1 000 photos. Environ 10 % des consommateurs rédigent des commentaires en ligne sur les produits qu'ils achètent, et plus de 30 000 nouveaux produits de consommation courante sont lancés chaque année.

La plupart de nos expériences - en tant que personnes et organisations - se sont déplacées en ligne, et nous avons laissé des empreintes numériques partout. Les marques qui parviennent à exploiter le sens de toutes ces données peuvent obtenir des informations précieuses sur leurs consommateurs, leurs concurrents et le marché dans son ensemble. Ces informations permettent d'optimiser le marketing, la messagerie, le développement de produits, etc. Mais ce n'est pas chose facile, et ce pour trois raisons :

  1. 80-90% des données ne sont pas structurées. Les données étant générées et stockées dans des formats et à des endroits différents, il n'y a pas de "propriétaire" unique ni de moyen simple de les rechercher ou de les formater. Le problème est d'autant plus difficile à résoudre que les données augmentent chaque jour de façon exponentielle.
  2. Les communications humaines sont rarement simples. Nous sommes habiles en matière de langage. Les hyperboles, les blagues, les sarcasmes et les doubles sens sont fréquents dans toute une série de types de données, en particulier dans les messages des médias sociaux et les commentaires sur les produits. Même lorsque ces sources de données sont structurées et consultables, il est difficile d'extraire correctement les nuances inhérentes à notre langage.
  3. Peu de types de données non structurées parlent la même langue. Alors que les types de données structurées utilisent souvent des identifiants uniques pour se connecter à d'autres types (tels qu'une UGS), les types de données non structurées n'ont pas de tels points communs. Par exemple, les consommateurs peuvent mal orthographier le mot "avocat" ou l'appeler "avo" dans les commentaires sur les produits, alors que les scientifiques et les chercheurs préfèrent le nom scientifique "persea americana". La complexité s'accroît lorsque les termes acquièrent une double signification qui rend difficile l'extraction du contexte. Si une marque de produits de soin de la peau cherchait à connaître l'opinion des consommateurs sur les critiques de "masques pour le visage à l'avocat", combien de résultats aujourd'hui concerneraient en fait des masques pour le visage en tissu sur le thème de l'avocat - un produit sans aucun rapport avec le sujet, mais portant le même nom ?

La clé d'une taxonomie efficace

Toutes les entreprises d'analyse de données peuvent structurer les données externes en taxonomies. Mais une efficaces efficaces - celles qui peuvent fournir des informations spécifiques et transformatrices - ont un élément essentiel : des valeurs de taxonomie super granulaires et super pertinentes qui sont cohérentes dans tous les domaines. toutes sources et points de données. Si chaque point de données peut être étiqueté à l'aide des mêmes paramètres importants pour l'entreprise, alors chaque point de données peut être connecté à tous les autres.

La classification des données dans des taxonomies efficaces change la donne pour les marques qui souhaitent prendre des décisions fondées sur des données. Les taxonomies connectent et organisent toutes les données d'une organisation, ce qui permet aux plateformes logicielles de données de rechercher rapidement et facilement des informations, d'extraire des sentiments et de générer des visuels significatifs. Plus intéressant encore, les taxonomies permettent aux marques de relier les conversations du marché et la voix du consommateur à leurs produits, révélant ainsi les forces, les lacunes et les opportunités d'une marque. 

Comment les taxonomies efficaces organisent les données

Imaginez les points de données comme des livres individuels. Les données non structurées s'apparentent à des piles de livres désordonnées et omniprésentes, sans catalogue pour vous guider vers les informations souhaitées. Une taxonomie médiocre pourrait organiser la grande pile de livres en quelques piles différentes basées sur le genre. Si vous souhaitez trier vos livres en fonction du nom de famille de l'auteur ou de la date de publication, vous n'avez pas de chance. 

Une taxonomie efficace ressemble à une bibliothèque géante, avec des livres organisés sur des étagères et étiquetés avec des milliers d'identifiants d'attributs spécifiques tels que le genre, le nombre de pages, l'année de publication, le nom de l'auteur et toute autre étiquette importante pour votre librairie. Les livres peuvent être facilement réorganisés par identifiant, car tous les livres, des bandes dessinées aux revues scientifiques, utilisent les mêmes valeurs de taxonomie, ou paramètres clés d'intelligence (KIP).

La connexion de deux ou plusieurs KIP permet de générer des prévisions de tendances. Par exemple, pour voir si les romans d'amour deviennent plus populaires au fil du temps, vous pouvez représenter les chiffres de vente des livres de la catégorie "romans d'amour". Si vos identificateurs sont suffisamment spécifiques, vous pouvez même en regrouper certains dans des classifications plus larges pour obtenir une vue plus détaillée d'une catégorie. Vous savez peut-être qu'un segment de votre public apprécie à la fois les biographies et les textes académiques ; en combinant les deux dans une catégorie "non-fiction", vous pouvez inclure davantage d'ensembles de données pour obtenir des résultats analytiques plus précis.

taxonomies

Les taxonomies ont brisé le moule

Une plateforme qui configure les taxonomies les plus efficaces possibles utilise trois techniques :

  1. Utiliser des KIP très granulaires. Chaque caractéristique, avantage, ingrédient, tendance, UGS, concurrent et détail important pour une marque est inclus dans ses KIP. Une fois qu'ils sont définis, il est facile de regrouper plusieurs KIP sous des thèmes plus vastes afin d'examiner différents aspects d'une tendance ou d'un attribut.
  2. Créer un langage commun pour tous les types de données. Il est courant que les entreprises d'analyse de données structurent tous les types de données non structurées qu'elles analysent. Mais beaucoup s'arrêtent là, et la structuration seule ne suffit pas. Au contraire, toutes les données devraient être à la fois structurées et Cette deuxième étape est rare mais essentielle pour tirer le meilleur parti de vos données. La normalisation de tous les types de données à l'aide d'un moteur de traitement du langage naturel (NLP) utilisant les mêmes valeurs de taxonomie les traduit tous dans le même langage, ce qui permet de voir comment chaque KIP affecte naturellement les autres ou interagit avec eux dans tous les coins du monde réel.
  3. Adopter une approche flexible. Chaque source de données présente différents niveaux de spécificité linguistique. Les brevets et les documents de recherche scientifique sont souvent les plus spécifiques dans leur langage. En revanche, les consommateurs entameront rarement une discussion sur les médias sociaux en utilisant l'UGS du produit dont il est question ; ces conversations ont plutôt tendance à être menées au niveau du type de produit. La plateforme Skai possède la flexibilité nécessaire pour s'assurer que tous les cas d'utilisation sont représentés dans les données de sortie. Le regroupement de plusieurs valeurs de taxonomie sous un même parapluie permet de capturer à la fois les mentions les plus spécifiques d'un terme et les conversations plus larges sur le même sujet. Ainsi, une marque de produits de grande consommation qui souhaite suivre les tendances des produits biologiques peut combiner des termes tels que " biologique ", " 100 % naturel " et " sans conservateurs " sous le même parapluie " biologique " afin de saisir toutes les façons dont les consommateurs parlent des produits biologiques et de ceux qui s'y apparentent.

Il existe également un autre type de flexibilité : la possibilité d'ajouter de nouvelles valeurs taxonomiques rapidement, facilement et à la demande, afin d'obtenir une vision précoce des tendances ou des événements dans le monde. Les nouveaux termes - comme "biodivers", dans le monde de l'alimentation biologique - et les nouveaux développements dans le monde en général - comme la pandémie de COVID-19 - sont faciles à ajouter aux valeurs de taxonomie existantes, puisque toutes nos données sont normalisées.

Comment Skai configure les taxonomies de données

Lorsque nous créons des valeurs de taxonomie pour une catégorie nouvelle pour la Skai, nous suivons deux voies différentes pour assurer une couverture totale. La première est une approche descendante. Chaque secteur vertical possède déjà des valeurs de taxonomie couramment utilisées, comme les filtres de produits, les attributs qui apparaissent dans les descriptions de produits, et les catégories et sous-catégories dans les différents canaux de commerce électronique. Nous commençons par ces taxonomies familières. Nous ajoutons ensuite une approche ascendante, en faisant passer d'énormes ensembles de données par un moteur NLP pour faire apparaître des mots-clés significatifs ayant une forte récurrence. Cela nous aide à identifier les mots-clés qui sont plus difficiles à repérer à grande échelle avec la méthode descendante.

Une fois les valeurs de la taxonomie identifiées, créez des combinaisons personnalisées de valeurs pour refléter les méga et micro-tendances. La combinaison de valeurs de cette manière permet d'obtenir de nouveaux points de vue sur les grandes tendances du marché qui affectent plusieurs catégories, ainsi que des liens très spécifiques entre, par exemple, les attributs d'un produit et les avantages perçus pour une ligne de produits particulière.

PepsiCo, par exemple, a utilisé la plateforme Skai pour suivre les méga et micro-tendances dans l'ensemble de son portefeuille de produits et révéler de nouvelles opportunités de développement de produits qu'ils n'avaient jamais vues auparavant.

Des marques comme PepsiCo se tournent vers la Skai parce que personne d'autre ne peut fournir des informations aussi détaillées que nous. Et tout cela grâce à nos taxonomies ! Lire l'étude de cas complète.

Pour savoir comment Skai peut aider votre marque à en faire plus avec les données, contactez-nous pour une démonstration.