文本摘要和主题建模
树图思维导图提供 文本摘要和主题建模 在线思维导图免费制作,点击“编辑”按钮,可对 文本摘要和主题建模 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:baea4eead24e8521645335c5f38e0658
文本摘要和主题建模思维导图模板大纲
主要技术
关键短语提取
主题建模
自动文档摘要
部分应用领域
语义网
基于查询的搜索引擎和爬虫
推荐系统
标注系统
文档相似度
翻译
提取方式
搭配提取
n-gram分组
基于权重标签的短语提取
使用浅层解析(shallow parsing)提取所 有的名词短语语块
计算每个语块的TF-IDF 权重,并返回权重最大 的短语
基本概念
主题建模是一种无监督机器学习方法,即在没有标签的情况下学习文本的主题。主题模型 应用范围广泛,可用于搜索引擎、情感分析、新闻聚类和文本摘要等。
潜在语义模型(LSI)
奇异值分解
缺点
高纬度的奇异值分解非常耗时
主题值的选取对结果的影响非常大,很难选择合适的主题数K值
LSI得到的不是一个概率模型,缺乏统计基础,结果难以直观的解释
潜在狄利克雷分布( LDA )
建模思路
词袋模型
加入潜在变量
通过潜在变量的引入, 参数由之前的50W减 少到1.5W, 此方法称之为潜在狄利克雷分布
从词袋模型到LDA模型
基本原理
LDA模型的目标就是,将词袋模型表示的“文档-词矩阵”分解为“文档-主题矩阵” 和“主题-词矩阵”。
选择文档的主题
选择主题下的词项(主题-词项分布)
联合“文档-主题分布”和“主题-词项分布”
把上述过程重复多次,就得到一个LDA生成的语料,将生成的语料和原文本比较。反向传播更新狄 利克雷分布设置,重复同样的步骤,生成不同的语料库。其本质就是找到最优的狄利克雷分布,使 得P(W,Z)最大。
树图思维导图提供 Linux命令 在线思维导图免费制作,点击“编辑”按钮,可对 Linux命令 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:379b8fef9da53d8b3f2d80837cccbd58
树图思维导图提供 【悠纯认养】营销活动工作事项安排粉:夏 蓝:郭 在线思维导图免费制作,点击“编辑”按钮,可对 【悠纯认养】营销活动工作事项安排粉:夏 蓝:郭 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:ddcafeef56dfcf51b7fd072a4b5732ff