The Text Clustering repository contains tools to easily embed and cluster texts as well as label clusters semantically
example
我们的目标是在随机的网络样本中找到主题和他们的教育分数。这些主题用于创建合成数据生成的提示,并帮助我们理解所涵盖的领域范围。最初,我们对100,000个样本进行了聚类,得到145个聚类。然后使用文本聚类的推理模式将1500万个样本分配到这些聚类中;然而,其中一半不适合任何集群,并被排除在提示创建之外。
下面的例子是来自同一集群的网络样本,确定它们有共同的主题,例如:哲学,生活方式,线性代数,生物化学,经济学
另外,确定示例中的主题是否
大致适合作为大学/学校教材,同时要注意排除任何敏感/不适当/无关的内容,
包括但不限于性,露骨暴力,广告和诈骗,以及其他非学术主题。考虑广泛的内容,包括科学,
教育,历史,文化和实际应用,并对这些主题的教育程度进行评分,从1到10,1表示非常不教育
而且不适合在教育环境中,也不适合教育程度高的环境。输出格式应该是这样的:Topic: the_topic, Educational value rating: score。
“使用三个单词(逗号分隔)
描述上述文本中的一般主题。在任何情况下都不要使用枚举。\
示例格式:树,猫,消防员”
模型下载
https://blog.csdn.net/m0_65609016/article/details/134020029
https://public.ukp.informatik.tu-darmstadt.de/reimers/sentence-transformers/v0.2/
sentence-transformers
https://zhuanlan.zhihu.com/p/457876366