【华盛顿大学-机器学习】1、A Case Study 1.3、clustering：文献数据检索

Peggy ·

更新时间:2024-09-21

· 580 次阅读

clustering 对文献进行数据分析

要求如下
在这里插入图片描述

用文献中的单词书面来进行展现

在这里插入图片描述

上述方法会受到倍数的影响，因此我们要将其标准化

Prioritizing important words with tf-idf 有的单词是在所有文献中都很常见的，因此会导致这些单词的频率过高，从而影响我们的实际结果，因此我们要考虑这样常见单词（the，and，I)的影响 TF-IDF
在这里插入图片描述

聚类算法实现 Nearest neighbor search（最近邻搜索） 将其他的文献与目标文献进行上面的矩阵相乘，找到最近的那个
在这里插入图片描述

K-Nearest neighbor（KNN） 找出k个最相近的文章
在这里插入图片描述

clustering

在这里插入图片描述
聚类属于一种无监督学习，输入的资料没有标签

k近邻算法就是将输入空间分成k个部分 1 选取集群中心 2 将离集群中心最近的点聚类 3 重新选取集群中心直到其它点到集群中心的距离最小

在这里插入图片描述

代码及作业部分 课堂笔记 Load text data

import graphlab
people = graphlab.SFrame('people_wiki.sframe')

Get the word counts for Obama article

obama['word_count'] = graphlab.text_analytics.count_words(obama['text']

Sort the word counts for the obama article

obama_word_count_table = obama[['word_count']].stack('word_count', new_column_name=['word','count'])

Compute TF-IDF for the corpus

people['word_count'] = graphlab.text_analytics.count_words(people['text'])#先将文进行分析
tfidf = graphlab.text_analytics.tf_idf(people['word_count'])#使用tf_idf直接求得我们的目标

Examine the TF-IDF for the Obama article

obama = people[people['name']=='Barack Obama']#先选出obama的数据
obama[['tfidf']].stack('tfidf',new_column_name=['word','tfidf']).sort('tfidf',ascending=False)#再进行tfidf计算及排序

Is Obama closer to clinton or beckham

graphlab.distances.cosine(obama['tfidf'][0],clinton['tfidf'][0])# 计算余弦距离
graphlab.distances.cosine(obama['tfidf'][0],beckham['tfidf'][0])

Build a nearest neighbor model for ducument retrival

knn_model = graphlab.nearest_neighbors.create(people,features=['tfidf'],label='name')#knn模型创建

直接用query方法直接调用knn_model

knn_model.query(beckham)

作者：weixin_45052363

文献 case 数据学习大学数据检索机器学习

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

Kotlin Android 环境搭建

Quirita 2021-04-07

999

有关HTML5页面在iPhoneX适配问题

Damara 2021-05-03

694

Button的四种Click响应方法汇总

Vanna 2021-01-09

562

Shell中去除字符串前后空格的方法

Iris 2021-08-03

567

详解css栅格系统在项目中的灵活运用

Ursula 2020-04-01

908

ASP.Net分页的分页导航实例

Letitia 2021-02-12

876

建立基于虚拟用户的VSftpd服务

Ailis 2020-05-08

907

sessionStorage多Tab标签页数据共享问题分析

Gella 2023-07-20

C++前缀树字典树的学习与模拟实现代码示例

Kirima 2023-07-20

1789

数据结构之带头结点的单链表

Grizelda 2023-07-20

1827

C++各种输出数据类型详解

Janna 2023-07-20

623

Linux signal()函数的使用学习

Fawn 2023-07-21

785

Golang基于Vault实现敏感数据加解密

Ophelia 2023-07-21

1848

用Python进行数据清洗以及值处理

Crystal 2023-07-21

283

Python常用的数据清洗方法详解

Laila 2023-07-21

1301

Python multiprocessing.value实现多进程数据共享的示例

Aine 2023-07-21

1131

深入探究python中Pandas库处理缺失数据和数据聚合

Bliss 2023-07-21

191

Python中Pandas库的数据处理与分析

Lillian 2023-07-21

155

pandas删除重复数据简单方法

Tertia 2023-07-21

311

详解C#如何将枚举以下拉数据源的形式返回给前端

Olive 2023-07-21

797

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座