您当前位置:资讯中心 >AI人工智能 >浏览文章

基于大型语言模型和向量数据库开发新闻推荐系统

来源: 51CTO 日期:2024/3/1 8:00:00 阅读量:(0)

译者 | 朱先忠

审校 | 重楼

来,随着诸如ChatGPT、Bard等生成人工智能工具发布大型语言模型(LLM)在机器学习社区引起了全球热议。这些解决方案背后的核心思想之一是计算非结构化数据(如文本和图像)的数字表示,并找出这些表示之间的相似之处。

然而,将所有这些概念应用到生产环境中存在其自身的一系列机器学习工程挑战:

  • 如何快速生成这些表示?
  • 如何将它们存储在适当的数据库中?
  • 如何快速计算生产环境的相似性?在这篇文章中,我介绍两种开源解决方案,目的是解决下面这些问题:
  • 句子变换器(https://www.sbert.net/;参考引文1:一种基于文本信息的嵌入生成技术;
  • Qdrant(https://qdrant.tech/):一能够存储嵌入并提供简单的查询接口向量数据库。两个工具都将应用于开发本文中的新闻门户推荐系统(参考引文2)。NPR(News Portal Recommendation),新闻门户推荐数据集(在Kaggle网络公开免费使用:https://www.kaggle.com/datasets/joelpl/news-portal-recommendations-npr-by-globo),旨在支持学术界开发推荐算法。在本文的最后,您将学会
  • 使用句转换器生成新闻嵌入
  • 使用Qdrant数据库存储嵌入
  • 查询嵌入以推荐新闻文章需要说明的是,本文的所有代码都可以在Github网上获得。

1.使用句子转换器生成嵌入

首先,我们需要找到一种将输入数据转换为向量的方法,我们称之为嵌入(如果你想深入了解嵌入概念,我推荐您阅读一下Boykis的文章《什么是嵌入?》,参考引文3:https://vickiboykis.com/what_are_embeddings/about.html)。

因此,首先让我们来看看我们可以使用NPR数据集处理什么样的数据:

import pandas as pd
df = pd.read_parquet("articles.parquet")
df.tail()
关键字:
声明:我公司网站部分信息和资讯来自于网络,若涉及版权相关问题请致电(63937922)或在线提交留言告知,我们会第一时间屏蔽删除。
有价值
0% (0)
无价值
0% (10)

分享转发:

发表评论请先登录后发表评论。愿您的每句评论,都能给大家的生活添色彩,带来共鸣,带来思索,带来快乐。