Python: 检查某自然语言字符串是否以中文(Unicode)开头

刘也钠

已于 2024-08-15 17:18:42 修改

阅读量338

点赞数 6

文章标签： python 开发语言语言模型机器学习人工智能深度学习

于 2024-08-15 12:30:45 首次发布

本文链接：https://blog.csdn.net/weixin_73189486/article/details/141219123

版权

Background

在预处理大模型数据集时，有时需要区分prompt是中文还是英文。考虑到目前我们运用的大多数双语言数据集都是中英双语，所以判定非中文即英文。

中文prompt往往用unicode表示，\u转义+4位数字，即类似"\u9492"。

What Does Not Work

尝试问AI，几个Available的AI都不能给出可行方案。错误如下：

直接用startwith('\u')报错，因为\u后必须跟着4个数字。

startwith(r'\u')则无效，因为'\u9492'已经转义为汉字“钒”，不包含字符串r'\u'。

My Method

取Unicode串第一位，如

text = '\u8fd9\u5bb6\u5e97\u7684\u540d\u5b57\u662f\u4ec0\u4e48?'
print(text[0]) # "这"

只要检查text[0]是否在英语字母之中即可。制作字母表，用in函数判定。

alphabet = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"
if not text[0] in alphabet:
    print("Chinese")
else:
    print("English")

能够起作用。

方法不好，只能做中英双语判定，但也许对需要者有帮助。目前还不会更好的方法，求路过大佬不吝指教，谢谢！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

刘也钠

关注关注

6
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

浅谈python中str字符串和unicode对象字符串的拼接问题

01-20

str字符串 ...unicode是一种编码标准，具体的实现可能是utf-8，utf-16，gbk等等，这就是中文字符串和unicode有密切关系的原因。 python内部使用两个字节存储一个unicode对象（unicode对象并不只能是

nim-strunicode：类似Swift的unicode字符串处理

02-04

1. **Grapheme Cluster**：在自然语言中，人们通常认为一个字符就是一个可打印的单元，但Unicode定义了一个更复杂的概念——图形单元（Grapheme Cluster）。一个图形单元可能由一个或多个Unicode码点组成，它们在...

1 条评论您还未登录，请先登录后发表或查看评论

python：输出中文的开头编码

04-19

在Python 3中，所有的字符串字面量都是Unicode字符串，存储在内存中以Unicode编码。但在Python 2中，字符串字面量默认是ASCII编码，当需要包含中文或其他非ASCII字符时，必须使用u前缀来声明Unicode字符串（如u"中文...

浅谈python下含中文字符串正则表达式的编码问题

10-17

因此，在需要处理中文字符串的Python脚本中，通常需要在文件顶部声明所使用的编码方式，以确保Python解释器可以正确地读取和处理包含中文的字符串。当涉及到正则表达式时，编码问题变得尤为重要。因为正则表达式...

python 将list转成字符串,中间用符号分隔的方法

09-20

在Python编程语言中，常常需要将列表（list）转换为字符串，并且在列表元素之间加入特定的分隔符，以满足输出格式化的需求。本文将详细介绍如何使用Python将list转换成字符串，并在元素之间插入自定义分隔符的方法。...

Tcl lnit error: Can’t find a usable init.tcl in the following directories 问题解决

梦想闹钟

09-15

445

实际研究后发现，其实py2exe已经把打包需要的lib放在dist文件夹下了，但是打包后的程序运行后却没有去lib下找，而是去找系统自带的环境变量里找，所以找不到。这个问题出现在我用py2exe打包了一个包含tkinter的图形化界面，在当前电脑上运行无问题，在移动到新电脑上后提示报错、getcwd用于获取当前工作目录绝对路径，在设置环境的变量的时候它用的是绝对路径-所以也导致了在当前电脑上能用而移动后不能用。解决方法是在你的程序里重新设置下环境变量，而且是用相对路径的形式。

Python世界：力扣29题两数相除算法实践

来知晓的博客

09-13

420

除法运算本质是减法，从理解原理到真正实现还是有距离，建议初步理解后，不参考任何代码，完全自己复现一遍，体会更深。注意提示：目的就是提醒越界问题：-2^31/-1=2&31，超过了整数表达范围。本问题来自于力扣29题，在做完大数相乘后，顺带也看下两数相除。将两数相除，要求不使用乘法、除法和 mod 运算符。给定两个整数，被除数。

Python办公自动化案例（二）：对比两个Excel数据内容并标出不同

衍生星球的博客

09-14

474

在数据处理和分析的日常工作中，我们经常需要比较两个Excel文件的差异。这可能是为了验证数据的一致性、检查数据的准确性，或者在版本控制中追踪更改。手动比较这些文件不仅耗时，而且容易出错。幸运的是，Python的openpyxl库提供了一种自动化这一过程的方法。

JUC从实战到源码：中断机制与API实现

qq_43843951的博客

09-12

1160

在Java中，线程中断是一种机制，用于通知线程应该停止当前正在执行的任务。中断通常用于协同线程之间的合作，以便让线程在适当的时候终止其工作，尤其是在长时间运行的任务或阻塞操作中。通过学了多线程以及synchronized的相关知识，接下来就到了学习线程中断知识。

车辆检测与分类系统源码分享

xuehaikj的博客

09-13

1430

数据集信息展示在本研究中，我们采用了名为“comexit”的数据集，以支持对YOLOv8模型在车辆检测与分类任务中的改进。该数据集专注于交通工具的识别，特别是公共交通和货运车辆，具有明确的应用背景和实用价值。数据集的类别数量为三，具体包括“bus”（公交车）、“car”（小汽车）和“truck”（卡车）。这三类车辆在城市交通和物流系统中扮演着重要角色，因此，准确的检测与分类对于交通管理、智能交通系统以及自动驾驶技术的发展具有重要意义。

opencv学习：calcHist 函数绘制图像直方图及代码实现

mohanyelong的博客

09-13

1482

opencv学习：calcHist 函数绘制图像直方图及代码实现

面试真题 | web自动化关闭浏览器，quit()和close()的区别

NHB234567的博客

09-13

379

关闭所有的浏览器窗口，销毁driver操作，则需要使用的是quit方法；当打开了多个窗口，只想要关闭非最后一个窗口的时候，使用的是close方法。这些资料，对于【软件测试】的朋友来说应该是最全面最完整的备战仓库，这个仓库也陪伴上万个测试工程师们走过最艰难的路程，希望也能帮助到你！close():只关闭当前的浏览器标签页，如果当前浏览器标签页剩下最后一个，则所有标签页面退出。是否编写过对应浏览器退出的测试用例。quit():所有的浏览器窗口退出。关闭当前的标签页，其他窗口不退出。退出当前所有的窗口；

Python——俄罗斯方块

2302_81225694的博客

09-14

1331

这段代码使用了Pygame库来实现游戏的图形界面，通过键盘控制方块的移动和旋转。游戏循环不断更新方块的位置和网格状态，并绘制在屏幕上。在方块达到底部或无法继续移动时，判断是否有满行，并清除满行的方块。游戏会根据方块的状态和移动情况不断更新，直到无法继续下落为止，游戏结束。俄罗斯方块游戏是一款经典的益智游戏，通常使用编程语言Python来实现。请注意，这只是一个简单的示例，可能还有一些功能和优化方面的改进。您可以根据自己的需求进行修改和扩展。

2024.9.16 day 1 pytorch安装及环境配置

m0_58285219的博客

09-16

398

pytorch安装及环境配置

【Go】-Context库的使用

knoci的博客

09-13

823

当截止日过期时，当调用返回的cancel函数时，或者当父上下文的Done通道关闭时，返回上下文的Done通道将被关闭，以最先发生的情况为准。取消此上下文将释放与其相关的资源，因此代码应该在此上下文中运行的操作完成后立即调用cancel，通常用于数据库或者网络连接的超时控制。用来处理一个请求的 goroutine 通常需要访问一些与请求特定的数据，比如终端用户的身份认证信息、验证相关的token、请求的截止时间。取消此上下文将释放与其关联的资源，因此代码应该在此上下文中运行的操作完成后立即调用cancel。

python tkinter