接下来,我们了解一下BI对数据的要求,结合上面脏数据的种类,中间的规避手段就是数据*理。1 结构化:数据必须是结构化的。这可能是句废话,如果数据是大段的文本,比如微博,那就不能用BI做量化的分析,而是用分词技术做语义的分析,比如常说的舆情分析。语义分析不像BI的量化分析一样***计算准确,而是有概率的,人的语言千变万化,人自己都不能****理解到位,系统就更不可能了,只能尽可能提高准确率。
2 规范性:数据足够规范。这么说比较含糊,简单来讲就是解决了上述各类脏数据的问题,把所有脏数据洗成“干净数据”。
3 可关联:如果想将两个维度/指标做关联分析,这两个维度/指标必须能关联上,要么在同一张表里,要么在两张有可关联字段的表里。