合作机构:阿里云 / 腾讯云 / 亚马逊云 / DreamHost / NameSilo / INWX / GODADDY / 百度统计
译者 | 朱先忠
审校 | 重楼
近年来,随着诸如ChatGPT、Bard等生成式人工智能工具的发布,大型语言模型(LLM)在机器学习社区引起了全球热议。这些解决方案背后的核心思想之一是计算非结构化数据(如文本和图像)的数字表示,并找出这些表示之间的相似之处。
然而,将所有这些概念应用到生产环境中存在其自身的一系列机器学习工程挑战:
首先,我们需要找到一种将输入数据转换为向量的方法,我们称之为嵌入(如果你想深入了解嵌入概念,我推荐您阅读一下Boykis的文章《什么是嵌入?》,参考引文3:https://vickiboykis.com/what_are_embeddings/about.html)。
因此,首先让我们来看看我们可以使用NPR数据集处理什么样的数据:
import pandas as pd
df = pd.read_parquet("articles.parquet")
df.tail()
TOP