达观数据干货分享深度解析文本分类与标签的

如何识别白癜风症状 http://pf.39.net/bdfyy/zjft/160311/4785533.html

信息过载时代,文本分类和文本标签是我们整合阅读文本信息的常用手段。本文系统介绍文本分类和文本标签的技术原理和应用价值,并结合项目案例谈谈两者的使用技巧。

一、分类和标签的共性与差异

图书管理员在给图书分类时,会根据书的内容、形式、体裁等信息,按照《中国图书馆图书分类法》进行分类。比如《射雕英雄传》,会分到文学当代作品(--)武侠小说。如果在豆瓣上收藏这本书时,豆瓣会推荐一些常用标签,“武侠小说”,“金庸”,“香港”,用户也可以自己创建标签,比如“郭靖黄蓉”“华山论剑”。

图书管理员对图书进行分类,属于专业的分类。豆瓣推荐的标签,是基于某种策略从用户打的标签库中选出。可以看出,分类一般是有标准体系的,而且在制定这种标准时,往往会考虑层次性和互斥性。逛图书馆时如果在A1类(马克思、恩格斯著作)的书架上,看到一本《射雕英雄传》,会觉得很突兀。标签是相对灵活和扁平的,豆瓣推荐的标签,“文学”、“中国文学”、“小说”、“武侠”、“武侠小说”,相互间有重叠交叉,用户也能接受。但不管是分类还是标签,其实都是人们用来对凌乱信息进行整合管理的手段。

二、文本分类和标签的意义与原理

在实际工程中,很多场景因为数据量大、时效性高,人为分析几乎不可能,比如客服对话文本、消费者发表的口碑评价、每时每刻产生的海量金融资讯等,这就需要借助计算机对文本进行自动分类和标签。下图就是通过达观自然语言处理引擎,自动对一篇红旗H7的车评文章(样本


转载请注明:http://www.aierlanlan.com/grrz/4355.html