译者 | 李睿
审校 | 孙淑娟
什么是文本分类?
文本分类是将文本分类为一个或多个不同类别以组织、构造和过滤成任何参数的过程。例如,文本分类用于法律文件、医学研究和文件中,或者简单地用于产品评论。数据比以往任何时候都更重要;很多企业花费巨资试图获取尽可能多的洞察力。
随着文本/文档数据比其他数据类型丰富得多,使用新方法势在必行。由于数据本质上是非结构化的,并且极其丰富,因此以易于理解的方式组织数据以理解它可以显著地提高其价值。使用文本分类和机器学习可以更快、更经济高效地自动构造相关文本。
以下将定义文本分类、其工作原理、一些最知名的算法,并提供可能有助于开始文本分类之旅的数据集。
为什么使用机器学习文本分类?
- 规模:人工数据输入、分析和组织既乏味又缓慢。机器学习允许进行自动分析,无论数据集的规模有多大。
- 一致性:人为错误是由于人员疲劳和对数据集中的材料不敏感而发生的。由于算法的无偏性和一致性,机器学习提高了可扩展性并显著提高了准确性。
- 速度:有时可能需要快速访问和组织数据。机器学习算法可以解析数据,以易于理解的方式传递信息。
6个通用步骤
一些基本方法可以在一定程度上对不同的文本文档进行分类,但最常用的方法采用机器学习。文本分类模型在部署之前需要经历六个基本步骤。
1.提供高质量的数据集
数据集是原始数据块,用作模型的数据源。在文本分类的情况下,使用监督机器学习算法,为机器学习模型提供标记数据。标记数据是为算法预定义的数据,并附有信息标签。
2.过滤和处理数据
由于机器学习模型只能理解数值,因此需要对提供的文本进行标记化和文字嵌入,以使模型能够正确识别数据。
标记化是将文本文档拆分成更小的部分(称为标记)的过程。标记可以表示为整个单词、子单词或单个字符。例如,可以这样更智能地标记工作:
- 标记词:Smarter
- 标记子词:Smart-er
- 标记字符:S-m-a-r-t-e-r
为什么标记化很重要?因为文本分类模型只能在基于标记的级别上处理数据,不能理解和处理完整的句子。模型需要对给定的原始数据集进行进一步处理才能轻松消化给定的数据。删除不必要的功能,过滤掉空值和无限值等等。重组整个数据集将有助于防止在训练阶段出现任何偏差。
3.将数据集拆分为训练和测试数据集
希望在保留20%的数据集的同时,在80%的数据集上训练数据,以测试算法的准确性。
4.训练算法
通过使用训练数据集运行模型,该算法可以通过识别隐藏的模式和见解将提供的文本分类为不同类别。
5.测试和检查模型的性能
接下来,使用步骤3中提到的测试数据集测试模型的完整性。测试数据集将被取消标记,以根据实际结果测试模型的准确性。为了准确测试模型,测试数据集必须包含新的测试用例(与以前的训练数据集不同的数据),以避免过度拟合模型。
6.调整模型
通过调整模型的不同超参数来调整机器学习模型,而不会过度拟合或产生高方差。超参数是一个参数,其值控制模型的学习过程。现在可以部署了。
文本分类是如何工作的?
单词嵌入
在以上提到的过滤过程中,机器和深度学习算法只能理解数值,迫使开发人员对数据集执行一些单词嵌入技术。单词嵌入是将单词表示为实值向量的过程,实值向量可以对给定单词的含义进行编码。
- Word2Vec:这是谷歌公司开发的一种无监督单词嵌入方法。它利用神经网络从大型文本数据集中学习。顾名思义,Word2Vec方法将每个单词转换为给定的向量。
- GloVe:也称为全局向量,是一种无监督机器学习模型,用于获取单词的向量表示。与Word2Vec方法类似,GloVe算法将单词映射到有意义的空间中,其中单词之间的距离与语义相似度有关。
- TF-IDF:TF-IDF是词频-逆文本频率的缩写,它是一种单词嵌入算法,用于评估单词在给定文档中的重要性。TF-IDF为每个单词分配一个给定的分数,以表示其在一组文档中的重要性。
文本分类算法
以下是三种最著名和最有效的文本分类算法。需要记住,每种方法中都嵌入了进一步的定义算法。
1.线性支持向量机
线性支持向量机算法被认为是目前最好的文本分类算法之一,它根据给定的特征绘制给定的数据点,然后绘制一条最佳拟合线,将数据拆分并分类为不同的类别。
2.逻辑回归
逻辑回归是回归的一个子类,主要关注分类问题。它使用决策边界、回归和距离来评估和分类数据集。
3.朴素贝叶斯
朴素贝叶斯算法根据对象提供的特征对不同的对象进行分类。然后绘制组边界以推断这些组分类以进一步解决和分类。
设置文本分类时,应避免什么问题
1.过度拥挤的训练数据
为算法提供低质量数据将导致糟糕的未来预测。对于机器学习从业者来说,一个常见的问题是,向训练模型提供的数据集过多,并且包括不必要的特征。过多地使用不相关的数据会导致模型性能的下降。而在选择和组织数据集时,越少越好。
错误的训练与测试数据的比率会极大地影响模型的性能,并影响数据的洗牌和过滤。精确的数据点不会被其他不需要的因素所干扰,训练模型将更有效地执行。
在训练模型时,选择符合模型要求的数据集,过滤不必要的值,洗牌数据集,并测试最终模型的准确性。更简单的算法需要更少的计算时间和资源,而最好的模型是可以解决复杂问题的最简单的模型。
2.过拟合和欠拟合
在训练达到峰值时,模型的准确性随着训练的继续逐渐降低。这称为过拟合;由于训练持续时间过长,模型开始学习意想不到的模式。在训练集上实现高精度时要小心,因为主要目标是开发其准确性植根于测试集的模型(模型以前没有见过的数据)。
另一方面,欠拟合是指训练模型仍有改进的空间,尚未达到其最大潜力。训练不佳的模型源于训练的时间长度或对数据集过度正则化。这体现了拥有简洁和精确数据的意义。
在训练模型时找到最佳位置至关重要。将数据集拆分为80/20是一个很好的开始,但调整参数可能是特定模型需要以最佳方式执行的操作。
3.文本格式不正确
尽管在本文中没有详细提及,但针对文本分类问题使用正确的文本格式将获得更好的结果。一些表示文本数据的方法包括GloVe、Word2Vec和嵌入模型。
使用正确的文本格式将改善模型读取和解释数据集的方式,进而帮助它理解模式。
文本分类应用程序
- 过滤垃圾邮件:通过搜索某些关键字,可以将电子邮件分类为有用邮件或垃圾邮件。
- 文本分类:通过使用文本分类,应用程序可以通过对相关文本(如项目名称和描述等)进行分类,将不同的项目(文章和书籍等)分类为不同的类别。使用这些技术可以改善体验,因为它使用户更容易在数据库中导航。
- 识别仇恨言论:某些社交媒体公司使用文本分类来检测和禁止带有冒犯行为的评论或帖子。
- 营销和广告:企业可以通过了解用户对某些产品的反应来做出特定的改变来满足他们的客户。它还可以根据用户对类似产品的评论推荐某些产品。文本分类算法可以与推荐系统结合使用,这是许多在线网站用来获得重复业务的另一种深度学习算法。
流行的文本分类数据集
拥有大量标记和即用型数据集,可以随时搜索符合模型要求的完美数据集。
虽然在决定使用哪一个时可能会遇到一些问题,但以下将推荐一些可供公众使用的最知名的数据集。
- IMDB Dataset
- Amazon Reviews Dataset
- Yelp Reviews Dataset
- SMS Spam Collection
- Opin Rank Review Dataset
- Twitter US Airline Sentiment Dataset
- Hate Speech and Offensive Language Dataset
- Clickbait Dataset
Kaggle等网站包含涵盖所有主题的各种数据集。可以尝试在上述几个数据集上运行模型进行练习。
机器学习中的文本分类
随着机器学习在过去十年中产生了巨大的影响,企业正在尝试一切可能的方法来利用机器学习实现流程自动化。评论、帖子、文章、期刊和文档在文本中都具有无价的价值。而通过以多种创造性方式使用文本分类来提取用户见解和模式,企业可以做出有数据支持的决策;专业人士可以比以往更快地获取和学习有价值的信息。
原文标题:What Is Text Classification?,作者:Kevin Vu
文章版权声明
1 原创文章作者:陈洋,如若转载,请注明出处: https://www.52hwl.com/45871.html
2 温馨提示:软件侵权请联系469472785#qq.com(三天内删除相关链接)资源失效请留言反馈
3 下载提示:如遇蓝奏云无法访问,请修改lanzous(把s修改成x)
4 免责声明:本站为个人博客,所有软件信息均来自网络 修改版软件,加群广告提示为修改者自留,非本站信息,注意鉴别