Dades no estructurades

Les dades no estructurades (o informació no estructurada) són informació que no té un model de dades predefinit o no està organitzada d'una manera predefinida. La informació no estructurada sol tenir una gran quantitat de text, però també pot contenir dades com ara dates, números i fets. Això es tradueix en irregularitats i ambigüitats que dificulten la comprensió de l'ús de programes tradicionals en comparació amb les dades emmagatzemades en camps a les bases de dades o anotades (etiquetats semànticament) en documents.

El 1998, Merrill Lynch va dir que "les dades no estructurades comprenen la gran majoria de les dades que es troben en una organització, algunes estimacions arriben fins al 80%".^[1] No està clar quina és la font d'aquest nombre, però, tanmateix, alguns l'acceptan.^[2] Altres fonts han informat de percentatges similars o més alts de dades no estructurades.^[3]^[4]

Un projecte del 2012, IDC i Dell EMC que les dades creixeran fins a 40 zettabytes el 2020, donant lloc a un creixement de 50 vegades des de principis del 2010. Més recentment, IDC i Seagate prediuen que l'esfera de dades global augmentarà fins a 163 zettabytes el 2025 i la majoria estarà desestructurada. La revista Computer World afirma que la informació no estructurada podria representar més del 70-80% de totes les dades de les organitzacions.

Rerefons

Les primeres investigacions sobre intel·ligència empresarial es van centrar en dades textuals no estructurades, més que en dades numèriques.^[5] Ja l'any 1958, els investigadors en informàtica com HP Luhn estaven especialment preocupats per l'extracció i classificació de textos no estructurats.^[5] Tanmateix, només des del tombant de segle la tecnologia ha agafat l'interès de la recerca. El 2004, el SAS Institute va desenvolupar el SAS Text Miner, que utilitza la descomposició de valors singulars (SVD) per reduir un espai textual hiperdimensional a dimensions més petites per a una anàlisi de màquines significativament més eficient.^[6] Els avenços matemàtics i tecnològics provocats per l'anàlisi textual de les màquines van impulsar diverses empreses a investigar aplicacions, donant lloc al desenvolupament de camps com l'anàlisi de sentiments, la mineria de veu del client i l'optimització del centre de trucades.^[7] L'aparició del Big Data a finals de la dècada del 2000 va provocar un major interès per les aplicacions de l'anàlisi de dades no estructurades en camps contemporanis com l'anàlisi predictiva i l'anàlisi de causes arrels.^[8]

Problemes de terminologia

El terme és imprecís per diversos motius:

L'estructura, encara que no està definida formalment, encara es pot implicar.
Les dades amb alguna forma d'estructura encara es poden caracteritzar com a no estructurades si la seva estructura no és útil per a la tasca de processament en qüestió.
La informació no estructurada pot tenir alguna estructura (semiestructurada) o fins i tot estar altament estructurada, però de maneres no previstes o no anunciades.

Referències

↑ Shilakes, Christopher C. «Enterprise Information Portals» (en anglès). Merrill Lynch, 16-11-1998. Arxivat de l'original el 24 July 2011.
↑ Grimes, Seth. «Unstructured Data and the 80 Percent Rule» (en anglès). Breakthrough Analysis - Bridgepoints. Clarabridge, 01-08-2008.
↑ Gandomi, Amir; Haider, Murtaza International Journal of Information Management, 35, 2, 4-2015, pàg. 137–144. DOI: 10.1016/j.ijinfomgt.2014.10.007. ISSN: 0268-4012 [Consulta: lliure].
↑ «Structured vs. Unstructured Data» (en anglès). www.datamation.com. [Consulta: 2 octubre 2018].
↑ ^5,0 ^5,1 Grimes, Seth. «A Brief History of Text Analytics» (en anglès). B Eye Network. [Consulta: 24 juny 2016].
↑ Albright, Russ. «Taming Text with the SVD» (en anglès). SAS. Arxivat de l'original el 2016-09-30. [Consulta: 24 juny 2016].
↑ Desai, Manish. «Applications of Text Analytics» (en anglès). My Business Analytics @ Blogspot, 09-08-2009. [Consulta: 24 juny 2016].
↑ Chakraborty, Goutam. «Analysis of Unstructured Data: Applications of Text Analytics and Sentiment Mining» (en anglès). SAS. [Consulta: 24 juny 2016].

[1] Shilakes, Christopher C. «Enterprise Information Portals» (en anglès). Merrill Lynch, 16-11-1998. Arxivat de l'original el 24 July 2011.

[Clarabridge-2] Grimes, Seth. «Unstructured Data and the 80 Percent Rule» (en anglès). Breakthrough Analysis - Bridgepoints. Clarabridge, 01-08-2008.

[3] Gandomi, Amir; Haider, Murtaza International Journal of Information Management, 35, 2, 4-2015, pàg. 137–144. DOI: 10.1016/j.ijinfomgt.2014.10.007. ISSN: 0268-4012 [Consulta: lliure].

[4] «Structured vs. Unstructured Data» (en anglès). www.datamation.com. [Consulta: 2 octubre 2018].

[History-5] 5,0 ^5,1 Grimes, Seth. «A Brief History of Text Analytics» (en anglès). B Eye Network. [Consulta: 24 juny 2016].

[SVD-6] Albright, Russ. «Taming Text with the SVD» (en anglès). SAS. Arxivat de l'original el 2016-09-30. [Consulta: 24 juny 2016].

[Applications-7] Desai, Manish. «Applications of Text Analytics» (en anglès). My Business Analytics @ Blogspot, 09-08-2009. [Consulta: 24 juny 2016].

[8] Chakraborty, Goutam. «Analysis of Unstructured Data: Applications of Text Analytics and Sentiment Mining» (en anglès). SAS. [Consulta: 24 juny 2016].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]