中醫藥古文獻語料庫詞語標識標準探討

http://www.aptcm.com/APTCM/21.nsf/d40ea8b6f1d3e5644825697a00307e66/78445bd94643482448256bb90033e158?OpenDocument

劉 耀 周 揚
(山東中醫藥大學 濟南250014)


  據不完全統計,我國現存的古代中醫藥典籍1萬多種,不同時期的版本37000餘種。這些文獻中蘊藏著數千年來中醫藥在防治疾病、養生保健、延年益壽等方面積累的豐富經驗,是世界上僅存的巨大人類信息資源庫。開發利用這些世界上獨一無二的信息資源使其數字化、網絡化,徹底改變中醫藥知識信息的傳播、使用的方式和速度,必將為21世紀中醫藥現代化的實現,為中醫藥的持續發展奠定基礎。

  隨著現代科學技術的不斷進步,人工智能與數據庫研究有了長足的發展。人工智能引入中醫藥古文獻的整理研究是大勢所趨,對中醫古籍實質內容的深入研究已成為可能。能否方便且正確地運用和管理知識,將人工智能,特別是自然語言理解、自然語言檢索、數據挖掘、專家系統、智能決策支持系統等高新技術和方法引入中醫藥古文獻的整理研究領域中,對古文獻語料庫詞語標識標準的探討與制定,則成為中醫界當前所必須首要解決的問題。

  在此思想指導下,筆者參考《信息分類與編碼國家標準‧中醫藥卷》(GB/T15657一1995)(簡稱《國標》)中病和證分類代碼的編寫方式,對《中醫古籍信息詞典》的標識標準進行了探討,為計算機自動分詞與標注提供依據,從而形成以現存中醫古文獻為原始材料的語料庫,最終實現中醫古籍的自然語言理解與自然語言檢索。現將所有可能出現的中醫古籍詞匯分為病名、證候、症狀、中藥、方劑、基礎理論、治則治法、醫家人物、古籍書名等9大類,逐一進行標注。

  標注原則以中醫特點為依據,以代碼的唯一性為目標。 在每一大類之下,設類目、分類目、細類目等6項。各類採用漢語拼音字母和阿拉伯數字符混合編碼方式。編碼方法採取每類的第一個字的第一個漢語拼音作編碼,在同一類類目(或分類目)代碼中,當分類代碼出現重複時,依序將第一個類目(或分類目)名稱中的第一個漢字漢語拼音的首字母定為該類目(或分類目)的代碼;將第二個類目(或分類目)召稱中的第一個漢字漢語拼音的第二個字母定為該類目(或分類目)的代碼,餘類推。同一級別中有並立多項者,用括號括起,如方劑中的"藥物組成"項。另外,標音字母"I""Q"分別用"M""v"代替。具體編制如下:

l‧病名分類與編碼
  採取《國標》的原則進行劃分,以該病所屬的臨床科別和專科系統進行類目和分類目的分類。病的科別包括內科、外科、婦科、兒科、眼科、耳鼻喉科、骨傷科,計7個類目。病名的專科系統分類目以病名科屬中的二級專科劃分,如內科科別下的專科包括五臟系(心肝脾肺腎)、外感熱病系、蟲類、腫瘤類、癌類等;婦科科別下的專科包括經、帶、妊娠、產後、腫瘤、癌等。病客分類編碼採用漢語拼音字母和阿拉伯數字符混合編碼方式,編碼結構如下:

  病名標識位 科別位 專科位 病名序號位 1 病名序號位2 病名尾碼位

  病名標識位以漢字"病"的拼音字母"B"作為病名標識符;科別類目位以各科科別客稱的第一個漢字的拼音首字母為科別類目標識符;病名序號位設為病召序號位 1、病名序號位 2,是為在同一個科別類目和專科系統分類目中的多種病名序號位,以保證每一病皂有重複的獨立編碼;病名尾碼位是當一個病名需要進一步細分時,在這一尾碼位實行標識,其標識符為阿拉伯數字。

  如"咳嗽病"的編碼應為:
  病名標識位 科別位 專科位 病名序號位 序號位 尾碼位
   B   內科(N) 肺(P) 0       1    0
  外感咳嗽標識為:BNFO11;內傷咳嗽標識為,BNF012。

2‧證候分類與編碼
  採取《國標》的原則進行劃分,以中醫學辨證系統歸劃類目,以各類目中的證候屬性為分類目、細類目進行證候分類。其中類目包括病因、陰陽、氣血津液、臟腑經絡、六經、衛氣營血及其他證候共7大類。分類目以該證候的第一個內涵屬性為劃分標準。細類目以該證候的第二個內涵屬性為劃分標準,編碼採用漢語拼音和阿拉伯數字符混合編碼方式,結構如下:

  證候標識位 類目位 分類目位 細類目位 證候序號位 證侯尾碼位
  如"風寒證"的編碼應為:

  證侯標識位 類目位 分類目位 細類目住 證侯序號位 證候尾碼位
  證侯(Z) 病因(B) 風(F) 寒(H) 0 0

  風熱證標識為ZBFROO;風毒證標識為ZBFDOO。

3‧症狀分類與編碼
  根據古籍中對症狀的描述復雜的特點,分別以症狀的第一內涵為類目。如"面色青紫""發熱"以病變部位為主描述,類目為"部位,"脈弦細"以脈為主描述,類目為"脈象";"舌淡苔白"以舌為主描述,類目為"舌象;而"怔仲""短氣"等,則描述的是中醫基礎理論中的"臟腑經絡""氣血津液"等發生的病變,故其類目為"臟象""氣血津液"等;另外,如"產後惡露不絕"等以婦女特異性病變為主進行描述的,其類目則定為"婦科"。而分類目則以症狀的第二內涵進行劃分,如"部位"下包括:全身性、頭面、四肢等;第三內涵為細類目1,第四內涵為細類目2,如症狀有第五或更多內涵,則以角碼形式編在細類目2右下角。以上完全重複者,則以尾碼進行區別。具體結構為:

  症狀夫標識位 類目位 分類目位 細類目位1 細類目位2 尾碼位
  如"面色青紫"可編碼成:
  
  症狀標識位 類目位 分類目位 細類目位1 細類目位2 尾碼位
   H    部位(B) 頭面部(T) 青(V) 紫(Z) 0
  又如"脈弦細"可編碼成:
   N   脈(M)    弦(X)   細(X)    0  0

4‧治則治法分類與編碼
  此部分以治則為類目包括治病求本、調和陰陽、調整臟腑、調整氣血、扶正桂邪、三因等。以治法為分類目治法中又分解表法、湧吐法、瀉下法、和解法、溫里法、清熱法、升降法、理氣法、理血法、袪濕法、袪痰法、固澀法、潤燥法、補益法15大類,以每一類下的各分類為細類目。解表法分為辛涼解表、辛溫解表、扶正解表:瀉下法分寒下、溫下、潤下、攻補兼施;和解法分調和表里、和解少陽、調和營衛、調和肝脾(膽胃);溫里法分溫肺散寒、溫中健脾、溫肝散寒、回陽救逆、溫經散寒;清熱法分清熱解毒、清熱瀉火、清營洩熱、涼血救陰、清洩肺熱、清胃瀉火、清瀉肝火、清心瀉火、清瀉腎熱、清瀉虛熱;升降法分宣降肺氣、納氣歸根、交通心腎、升陽舉陷、調中降逆、升降三焦;理氣法分通陽宣痺、行氣導滯、調氣疏肝;理血法分補血、活血、止血;袪濕法分秩風勝濕、開源導流、運脾除濕、清熱除濕、實脾利水、瀉下逐水、溫陽化氣、瀉火通淋;袪痰法分燥濕化痰、潤燥化痰、溫化寒痰、清熱化痰、宣肺化痰、熄風化痰、滌痰開竅、通絡滌痰;固澀法分斂肺止咳、實衛固表、溫中固澀、補腎固堤、收澀止帶、固崩止漏、補腎澀精;潤燥法分輕宣潤燥、益胃生津、補益心陰、滋水涵木、滋陰補腎;補法分補氣、補血、補陰、補陽等。編碼結構如下:

  治則治法標識位 類目位  分類目位 細類目位 具體治法位 治法尾碼位
  如"發表散寒"可編成:
  M 扶正袪邪腎(F) 解表(J) 辛溫解表(X) 發表散寒(F)0

5‧中藥分類與編碼
  中藥分類以中藥主要功效分類為類目,包括解表藥、清熱藥、瀉下藥、袪風濕藥、芳香化濕藥、利水滲濕藥、溫里藥、理氣藥、消食藥、驅蟲藥、止血藥、活血袪瘀藥、化痰止咳平喘藥、安神藥、平肝熄風藥、開竅藥、補虛藥、收澀藥、湧吐藥、外用藥及其他共21類。分類目則根據藥物的要功效來進一步劃分,如解表藥分為辛溫解表、辛涼解表;清熱藥分為清熱瀉火、清熱燥濕、清熱涼血、清熱解毒、清虛熱;瀉下藥分為攻下、潤下、峻下逐水;化痰止咳平喘藥分為化痰、止咳平喘;補虛藥分為補氣、補陽、補陰、補血等。細類目位則以藥性位來取代,其中包括"寒性""熱性"和"平性"。具體編碼為:

  中藥標識位 類目位 分類目位 藥性位 藥龍標識位 尾碼位
  如"大黃"可編碼成:
  藥(Y) 瀉下藥(X) 寒下藥(H) 寒(H) 大黃名稱(D) 0

6‧方劑分類與編碼
  方劑的類目包括解表劑、瀉下劑、和解劑、清熱劑、溫里劑、補益劑、固澀劑、安神劑、開竅劑、理氣劑、理血劑、治風劑、治燥劑、袪濕劑、袪痰劑、消導劑、癰瘍劑、外用方共18類。其下,根據主要功用劃分不同的分類目。如解表劑分為辛溫解泰、辛涼解表、扶正解表3類;瀉下劑分為寒下、溫下、潤下、逐水、攻補兼施;和解劑分為和解少陽、調和肝脾、調和腸胃;清熱劑分為清氣分熱、清營涼血、清熱解毒、氣血兩清、清臟腑熱、清退虛熱、清熱袪暑;溫里劑分為溫裡袪寒、回陽救逆、溫經散寒;補益劑分為補氣、補血、氣血雙補、補陰、補陽;固澀劑分為固表止汗、澀精止遺、澀腸固脫、固崩止帶;安神劑分為重鎮安神、滋養安神劑;開竅劑分為涼開、溫開;理氣劑分為行氣、降氣;理血劑分為活血袪瘀、止血;治風劑分為疏散外風、平熄內風;治燥劑分為輕宣外燥、滋陰潤燥;袪濕劑分為燥濕和胃、清熱袪濕、利水滲濕、溫化水濕、袪風勝濕;袪痰劑分為燥濕化痰、清熱化痰、潤燥化痰、溫化寒痰、治風化痰;消導劑分為消食導滯、消痞化積。另劃分方劑的名稱、功能主治、藥物組成。具體編碼為:

  方劑標識位 類目位 分類目位 方劑名稱位 方藥組成位 尾碼位
  如"麻黃湯"可編成:
  方劑(F) 解表劑(J) 辛溫解表(X) 麻黃湯(M) 麻黃桂枝乾姜杏仁O 0
  其中方藥組成位用"()",各味藥的編碼與中藥編碼同。

7‧中醫基礎理論分類與編碼
  此部分以生理、病理為類目。分類目包括臟腑、經絡、陰陽、五行、氣血津液等。細類目是在分類目的基礎之上的具體劃分,如臟腑之下分心、肝、脾、肺、腎、胃十大小腸等;經絡之下分十二經脈、奇經八脈、經別、別絡、經筋、皮部、腧穴、針法;陰陽之下又分性質、物質的陰陽屬性、對立、互根互用、消長平衡、相互轉化;五行之下分性質、物質的五行屬性、生克乘侮;氣血津液之下分概念、功能、生成、運行等。編碼結構如下:

  理論標識位 類目位 分類目位 細類目位 詞語位 尾碼位
  如"小腸主液"可編成:
  理論標識位(L) 生理(S) 臟腑(2 小腸(X) 主液(Z) 0

8‧醫家分類與編碼
  類目指醫家所在朝代,分類目指姓氏,細類目指名、字、籍貫。其中籍貫位,以古文獻中出現的具體地方名為主,其現在所歸屬的行政區域,則編成阿拉伯數字,以角碼形式附於籍貫位右下方。編碼結構位如下:

  醫家標識位 朝代位 姓氏位 名位 字位 籍貫位
  如"張仲遠"可編成:
  醫家標識位(Y) 清(V) 張(Z) 曜孫(Y) 仲運(Z) 陽湖(江蘇)(Y20)

9‧中醫著作分類與編碼
  類目指所屬醫學類別,包括基礎理論、中藥、方劑、臨床各科、醫史、其他類。分類目包括成書朝代,細類目指作者。編碼結構如下:

  著作標識位 醫學類別位 成書朝代位 作者名位 書名位 著作尾碼位
  如《千金要方》一書的編碼應為:
  著作標識位 醫學類別位 成書朝代位 作者名位 書名位 尾碼位
  U方劑類位(F) 唐(T)孫思邈(同醫家編碼) 千金要方(V) 0

  前五項完全重復者,則用尾碼加以區別。
  另外,中醫古籍中某些詞語既是"病召"又是"證候""症狀"召者,則進行並列編目,由它的病名分類代碼和它的證候分類代碼或症狀分類代碼組成。其結構為:

  病證分類代碼=病名代碼+證候代碼或症狀分類代碼

  總之,本文的編碼原則是以中醫詞語的內涵為依據,以編碼的唯一性為目標進行編注。因此,在每一大類的具體分類目下,內涵較多者,則以角碼形式附於同級編碼右下方,而尾碼位則先以0一9數字符順編,可繼以A一7字母符續編,如仍不能區分者,則以角碼形式,同順序無限制循環標識。(本文在撰寫過程中得到了史蘭華教授的指導和幫助,特此感謝!)(收稿日期:2001-11-26)
摘錄自《中國中醫藥信息雜誌2002年03月 第9卷 第3期》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值