已修改密碼,請重新登入
關閉
說明提示
  • 複製連結
  • 更多功能
於文件中快速查找預設名單之系統及方法TB001727709
 1 / 1 
書目
公告號 I816141 公開202301145
公告日 2023/09/21
公報卷期 50-27
證書號 I816141
申請號 110122165 E
申請日 2021/06/17
公報IPC G06F 16/20(2019.01); G06F 16/9035(2019.01); G06F 40/10(2020.01); G06Q 10/10(2012.01)
當前IPC G06F 16/20(2019.01); G06F 16/9035(2019.01); G06F 40/10(2020.01); G06Q 10/10(2012.01)
申請人 大鐸資訊股份有限公司 臺北市信義區基隆路2段149之16號3樓 (中華民國) (TW)
當前專利權人 大鐸資訊股份有限公司
發明人 王振安 (中華民國) (TW);
鐘令淑 (中華民國) (TW);
林芊華 (中華民國) (TW)
代理人 閻啓泰; 林景郁
當前代理人 閻啓泰; 林景郁
審查委員 林文琦
一案兩請 相同的創作係於同日申請新型第110206995號專利案,其取得之新型專利權,自發明專利公告之日消滅
摘要 本發明的於文件中快速查找預設名單之系統用於在一具有多數連續的待查找文字的待查找文件中找到可能包含在其中的黑名單資料庫名字資料;處理模組先將黑名單資料庫中的所有名字資料的單字建為黑名單單字列表;再讀取待查找文件中連續的複數待查找單字,比對找出黑名單單字列表所有與其中一待查找文字相符的單字並建為目標單字列表,再計算目標單字列表中屬於同一名字資料的單字數量為命中字數,比對該命中字數與該名字資料的單字數量,若差值在一命中範圍內則判斷命中該名字資料,達到在待查找文件中找出不特定名字資料之目的。
參考文獻
引用專利 TWM592561U; US2020/0250139A1 E
引用非專利 網路文獻 臺灣集中保管結算所 洗錢防制查詢系統 2017年10月 https://smart.tdcc.com.tw/attach/etraining/T_299.pdf
專利範圍   0:936 原始格式
專利範圍 1.一種於文件中快速查找預設名單之方法,包含以下步驟: 讀取一黑名單資料庫,該黑名單資料庫包含複數紀錄編號、以及依照各該紀錄編號排序的複數名字資料及複數字數資料,其中各該名字資料包含複數單字且各該字數資料紀錄各該名字資料的單字的數量; 根據該黑名單資料庫建立一黑名單單字列表,該黑名單單字列表包含各該名字資料中的每一單字、以及單字所屬的名字資料對應的紀錄編號; 接收一待查找文件,讀取該待查找文件中的一組連續的複數個待查找單字; 根據該組連續的複數個待查找單字比對該黑名單單字列表,將與任一待查找單字相同的至少一單字及該至少一單字對應的至少一紀錄編號建立為一目標單字列表; 計算該目標單字列表中對應相同紀錄編號的單字的數量,並將該數量紀錄為對應該至少一紀錄編號的至少一命中字數; 比較該至少一命中字數與對應的該至少一紀錄編號對應的字數資料,判斷該至少一命中字數與該至少一字數資料的差值是否在一命中範圍內; 若其中一命中字數與對應的該字數資料的差值在該命中範圍內,該名字資料為一命中名字資料; 若否,該紀錄編號對應的名字資料非命中名字資料; 完成該組待查找單字的比對。

2.如請求項1所述於文件中快速查找預設名單之方法,其中, 該黑名單單字列表中的單字係依照單字的值排序,並將相同的單字排列在一起。

3.如請求項1所述於文件中快速查找預設名單之方法,其中,當接收到該待查找文件時,係先建立一待查找列表,該待查找列表包含複數組該待查找文件中的連續的複數待查找單字,且當完成一組待查找單字的比對時,係移至該待查找列表中的下一組待查找單字,再次進行比對,直到完成該待查找列表中各組待查找單字的比對。

4.如請求項3所述於文件中快速查找預設名單之方法,其中,該待查找列表係根據以下子步驟建立: 由該待查找文件中起始的一待查找單字開始,讀取連續的單次比對數量個待查找單字,並儲存至該待查找列表; 由上一步驟中讀取的複數個待查找單字中的第二個待查找單字開始,讀取連續的單次比對數量個待查找單字,並儲存至該待查找列表; 重複上一步驟,直到讀取的複數個待查找單字的一末單字為該待查找文件中的最末端的待查找單字。

5.如請求項4所述於文件中快速查找預設名單之方法,其中,當讀取連續的單次比對數量個待查找單字時,還判斷該複數個待查找單字中是否包含有連續且相同的二個待查找單字; 若有,則忽略該連續且相同的其中一待查找單字,並更新讀取該待查找文件中該連續的複數個待查找單字的下一待查找單字,將該下一待查找單字更新至該待查找列表的該組待查找單字。

6.如請求項1所述於文件中快速查找預設名單之方法,其中,建立該黑名單單字列表的步驟包含以下子步驟: 依據各該紀錄編號依序讀取各該名字資料中的每一單字,暫存為一全單字列表; 將該全單字列表中的各該單字依照單字的值重新排列,儲存為該黑名單單字列表。

7.如請求項6所述於文件中快速查找預設名單之方法,其中,當建立該黑名單單字列表時,係先根據一包含有複數筆常用字彙的一常用字彙列表比對各該名字資料,移除各該名字資料中包含的常用字彙,才根據不包含有常用字彙的該名字資料建立該黑名單資料庫。

8.一種於文件中快速查找預設名單之系統,連接一黑名單資料庫,該黑名單資料庫包含有依照複數紀錄編號排序的複數名字資料,及對應各該名字資料的複數字數資料,各該名字資料包含有複數單字,且各該字數資料係紀錄各該名字資料包含的單字數;該於文件中快速查找預設名單之系統包含有: 一處理模組,連接該黑名單資料庫; 一儲存模組,連接該處理模組;其中,該處理模組根據該黑名單資料庫建立一黑名單單字列表,並將該黑名單單字列表儲存於該儲存模組;該黑名單單字列表包含各該名字資料中的每一單字,以及各該單字所屬的名字資料對應的紀錄編號; 該處理模組接收一待查找文件,將該待查找文件儲存於該儲存模組,並讀取該待查找文件中的一組連續的複數個待查找單字; 該處理模組根據該組連續的複數個待查找單字比對該黑名單單字列表,將與任一待查找單字相同的至少一單字及該至少一單字對應的至少一紀錄編號建立為一目標單字列表,並將該目標單字列表儲存於該儲存模組; 該處理模組計算該目標單字列表中對應相同紀錄編號的單字的數量,並將該數量紀錄為對應該至少一紀錄編號的至少一命中字數; 該處理模組比較該至少一命中字數與對應的該至少一紀錄編號對應的字數資料,判斷該至少一命中字數與該至少一字數資料的差值是否在一命中範圍內; 若其中一命中字數與對應的該字數資料的差值在該命中範圍內,該處理模組判斷該名字資料為一命中名字資料; 若否,該處理模組判斷該紀錄編號對應的名字資料非命中名字資料; 完成該組待查找單字的比對。

9.如請求項8所述於文件中快速查找預設名單之系統,其中,該黑名單單字列表中的各該單字係依照各該單字的值排序,並將相同的單字排列在一起。

10.如請求項8所述於文件中快速查找預設名單之系統,其中,當該處理模組接收到該待查找文件時,係先建立一待查找列表,該待查找列表包含複數組該待查找文件中的連續的複數待查找單字,且當完成一組待查找單字的比對時,係移至該待查找列表中的下一組待查找單字,再次進行比對,直到完成該待查找列表中各組待查找單字的比對。

11.如請求項10所述於文件中快速查找預設名單之系統,其中,當該處理模組建立該待查找列表時,係先由該待查找文件中起始的一待查找單字開始,讀取連續的單次比對數量個待查找單字,並儲存至該待查找列表; 由上一步驟中讀取的複數個待查找單字中的第二個待查找單字開始,讀取連續的單次比對數量個待查找單字,並儲存至該待查找列表; 重複上一步驟,直到讀取的複數個待查找單字的一末單字為該待查找文件中的最末端的待查找單字。

12.如請求項11所述於文件中快速查找預設名單之系統,其中,當讀取連續的單次比對數量個待查找單字時,該處理模組還判斷該複數個待查找單字中是否包含有連續且相同的二個待查找單字; 若有,該處理模組則忽略該連續且相同的其中一待查找單字,並更新讀取該待查找文件中該連續的複數個待查找單字的下一待查找單字,將該下一待查找單字更新至該待查找列表的該組待查找單字。

13.如請求項8所述於文件中快速查找預設名單之系統,其中,當該處理模組建立該黑名單單字列表時,該處理模組係先依據各該紀錄編號依序讀取各該名字資料中的單字,暫存至該儲存模組為一全單字列表;再將該全單字列表中的各該單字依照單字值重新排列,儲存至該儲存模組為該黑名單單字列表。

14.如請求項8所述於文件中快速查找預設名單之系統,其中,當建立該黑名單單字列表時,該處理模組係先根據一包含有複數筆常用字彙的一常用字彙列表比對各該名字資料,移除各該名字資料中包含的常用字彙,才根據不包含有常用字彙的各該名字資料建立該黑名單資料庫。
詳細說明
詳細說明 【技術領域】

【0001】 一種查找系統及方法,尤指一種於文件中快速查找預設名單之系統及方法。

【先前技術】

【0002】 在全球化的今日,世界各地的金融機構之間往往都有一定程度的往來。為了便於進行溝通,電文系統是金融機構之間傳遞資訊的重要方式。一封電文除了標準規格化的封包形式,其中的主文則無特殊限制,其敘述方式、字數長短等各異,而其中的一主要關鍵,是該主文中可能出現具有不良信用紀錄,或曾出現於不良新聞消息中的人名、公司行號或機關單位之名字。

【0003】 金融機構一般來說會使用全球性的黑名單資料庫進行檢核,建立檢索系統以在需要時通過該檢索系統搜尋黑名單資料庫的人物資訊。該黑名單資料庫一般來說是關聯式資料庫,當使用者在檢索系統輸入欲搜尋的目標姓名字串後,檢索系統將該目標姓名字串與該黑名單資料庫中的名單列表進行精確比對,並尋找完全符合該目標姓名字串的姓名欄位內容,並在找到相符合的欄位內容後,讀取並輸出該欄位的相關資訊以供使用者瀏覽。

【0004】 然而,該檢索系統必須由使用者輸入一待檢索名字並實施精確比對,只能檢索出完全符合輸入的待檢索名字的內容。由於檢索系統是將輸入文字依序比對黑名單資料庫中的資訊以進行檢索,當可能為黑名單的名字存在於一整段的不特定文字中,輸入整段文字於檢索系統中進行比對是無意義的,因為檢索系統無法在全篇文字中偵測或提取可能為目標名字的部分文字。當金融機構接收到一封電文時,因為該電文中的主文是連續的且內容無特定格式的連續文句,難以直接判斷主文中何處出現人名、公司行號或機關單位之名字,因此無法利用一般的檢索系統進行黑名單名字的查找。

【0005】 此外,該等檢索系統不僅無法自動提取隱藏在整段文字中的名字,同一個人、公司行號或機關單位的名字可能有多種形式,例如姓、名的前後置換、稱謂等。例如姓名「王曉明」在一封電文中可能以「曉明,王」、「王先生曉明」等不同形式出現,更增加了從一篇隨機的電文中找到可能為名字的多個單字並再進一步進行黑名單資料庫檢索的難度。因此,現有的檢索系統尚有改善的空間。

【發明內容】

【0006】 有鑑於現有的黑名單資料庫檢索系統無法有效率的對整封文件進行名單檢索以找出目標名字,本發明提供一種於文件中快速查找預設名單之方法及系統,該方法包含以下步驟: 讀取一黑名單資料庫,該黑名單資料庫包含複數紀錄編號、依照各該紀錄編號排序的複數名字資料、複數字數資料,其中各該名字資料包含複數單字,各該字數資料紀錄各該名字資料的單字的數量; 根據該黑名單資料庫建立一黑名單單字列表,該黑名單單字列表包含各該名字資料中的每一單字,以及各該單字所屬的名字資料對應的紀錄編號; 接收一待查找文件,讀取該待查找文件中的一組連續的複數個待查找單字; 根據該組連續的複數個待查找單字比對該黑名單單字列表,將與任一待查找單字相同的至少一單字及該至少一單字對應的至少一紀錄編號建立為一目標單字列表; 計算該目標單字列表中對應相同紀錄編號的單字的數量,並將該數量紀錄為對應該至少一紀錄編號的至少一命中字數; 比較該至少一命中字數與對應的該至少一紀錄編號對應的字數資料,判斷該至少一命中字數與該至少一字數資料的差值是否在一命中範圍內; 若其中一命中字數與對應的該字數資料的差值在該命中範圍內,該名字資料為一命中名字資料; 若否,該紀錄編號對應的名字資料非命中名字資料; 完成該組待查找單字的比對。

【0007】 此外,本發明還提供一種於文件中快速查找預設名單之系統,包含有: 一處理模組,連接該黑名單資料庫; 一儲存模組,連接該處理模組;其中,該處理模組根據該黑名單資料庫建立一黑名單單字列表,並將該黑名單單字列表儲存於該儲存模組;該黑名單單字列表包含各該名字資料中的每一單字,以及各該單字所屬的名字資料對應的紀錄編號; 該處理模組接收一待查找文件,將該待查找文件儲存於該儲存模組,並讀取該待查找文件中的一組連續的複數個待查找單字; 該處理模組根據該組連續的複數個待查找單字比對該黑名單單字列表,將與任一待查找單字相同的至少一單字及該至少一單字對應的至少一紀錄編號建立為一目標單字列表,並將該目標單字列表儲存於該儲存模組; 該處理模組計算該目標單字列表中對應相同紀錄編號的單字的數量,並將該數量紀錄為對應該至少一紀錄編號的至少一命中字數; 該處理模組比較該至少一命中字數與對應的該至少一紀錄編號對應的字數資料,判斷該至少一命中字數與該至少一字數資料的差值是否在一命中範圍內; 若其中一命中字數與對應的該字數資料的差值在該命中範圍內,該處理模組判斷該名字資料為一命中名字資料; 若否,該處理模組判斷該紀錄編號對應的名字資料非命中名字資料; 完成該組待查找單字的比對。

【0008】 本發明的查找預設名單方法係先將黑名單資料庫中的所有名字資料的所有單字另建為該黑名單單字列表,並對應每一單字紀錄所屬名字資料包含的字數。當收到待查找文件時,讀取其中一組連續的複數的待查找文字,同樣分別根據該等待查找文字對該黑名單單字列表進行查找,將相同的單字,包含黑名單單字列表中重複但對應不同紀錄編號的所有單字,建立為目標單字列表,然後計算該目標單字列表中對應同一紀錄編號,即屬於同一筆名字資料的單字的數量,並將該等命中字數對應每一筆紀錄編號紀錄於該目標單字列表中。最後,比對該目標單字列表中每一筆紀錄編號的命中字數及在黑名單資料庫中的字數資料,若兩者的差在一命中範圍內,表示該複數待查找文字中有多個單字與一名字資料的單字相同,該複數待查找文字中有很高機率包含了該筆名字資料,因此判斷該名字資料為命中名字資料。

【0009】 舉例而言,黑名單資料庫中的名字為「王曉明」,字數為3,其對應的字數資料為「3」;由待查找文件中讀取的該複數待查找單字為「王先生曉明」,經過上述查找方式會判斷該複數待查找單字中的命中字數為3,命中字數與字數資料差值為0,因此判斷該名字資料「王曉明」為命中名字資料。

【0010】 本發明的方法及系統藉由將黑名單資料庫中的所有名字資料拆解為黑名單單字列表,並將待查找文字中的複數待查找單字分別比對,並且以命中字數的方式判斷該複數待查找文字中是否可能包含有一筆名字資料。由於此一查找方法不限制該複數待查找單字或黑名單資料庫中名字資料的單字的順序,因此無論該名字資料的單字順序與該複數待查找單字中包含的名字單字順序是否相同,或其中是否插入冗字,其中包含的名字皆能夠被找出來,解決習知黑名單資料庫檢索系統無法於整篇文件中找出預設名單中的名字資料的問題。

【實施方式】

【0011】 以下配合圖式及本發明的實施例,進一步闡述本發明為達成預定發明目的所採取的技術手段。

【0012】 請參閱圖1及圖2所示,本發明的於文件中快速查找預設名單之系統包含一處理模組10及一儲存模組20,該處理模組10連接一黑名單資料庫30,該處理模組10接收一待查找文件,並執行本發明的於文件中快速查找預設名單之方法。該儲存模組20連接該處理模組10,用於儲存或暫存該待查找文件、黑名單單字列表及目標單字列表。該處理模組10例如是一伺服器、一個人電腦等電子計算機裝置之主要處理元件;該儲存模組20是一儲存裝置,例如一傳統硬碟(HDD)、一固態硬碟(SSD)等,且較佳的,對該處理模組10而言是一近端儲存裝置;該黑名單資料庫30例如是建立於一雲端伺服器,以供管理單位隨時進行更新,而該處理模組10通過網際網路連接並讀取該黑名單資料庫30,並據以建立該黑名單單字列表,儲存於本地的儲存模組20中。

【0013】 該待查找文件例如是一銀行單位或金管單位透過網際網路接收到的由其他相關單位發出的一封電文,其中包含了不定長度及無特定規格的內容文字。當該處理模組10接收到該待查找文件時,暫存於該儲存模組20中。

【0014】 本發明的於文件中快速查找預設名單之方法包含以下步驟: 處理模組10讀取一黑名單資料庫30,該黑名單資料庫30包含複數紀錄編號、依照各該紀錄編號排序的複數名字資料及複數字數資料(S101);其中,各該名字資料包含複數單字,各該字數資料紀錄各該名字資料的單字的數量; 處理模組10根據該黑名單資料庫30建立一黑名單單字列表(S102);該黑名單單字列表包含各該名字資料中的每一單字,以及單字所屬的名字資料對應的紀錄編號; 處理模組10接收一待查找文件,讀取該待查找文件中的一組連續的複數個待查找單字(S103);換言之,該待查找文件包含連續的複數個原始單字,該組連續的複數個待查找單字是一字集,其為該待查找文件中之部分連續原始單字,本發明的實施例中,該處理模組10根據一單次比對字數從該待查找文件讀取出該組連續的複數個待查找單字,也就是說,該組連續的複數個待查找單字的字數等於該單次比對字數,該單次比對字數為一預設值; 處理模組10根據各該待查找單字比對該黑名單單字列表,將與任一待查找單字相同的至少一單字及該至少一單字對應的至少一紀錄編號建立為一目標單字列表(S104);該目標單字列表儲存於該儲存模組20中; 處理模組10計算該目標單字列表中對應相同紀錄編號的單字的數量,並將該數量紀錄為對應該至少一紀錄編號的至少一命中字數(S105); 處理模組10比較該至少一命中字數與對應的該至少一紀錄編號對應的字數資料,判斷該至少一命中字數與該至少一字數資料的差值是否在一命中範圍內(S106);該命中範圍為一使用者預設值,命中字數與字數資料之差值在命中範圍內是指該差值小於該命中範圍之數值; 若其中一命中字數與對應的該字數資料的差值在該命中範圍內,處理模組10判斷該名字資料為一命中名字資料(S107); 若否,處理模組10判斷該紀錄編號對應的名字資料非命中名字資料; 完成該組待查找單字的比對(S108)。

【0015】 請參閱圖3所示,在本發明的一實施例中,該黑名單單字列表中的單字是依照各單字的值排序,使得相同的單字排列在一起。其中,在建立該黑名單單字列表的步驟(S102)中,可根據以下子步驟進行: 處理模組10依據該黑名單資料庫30中的各紀錄編號,依序讀取各名字資料中的每一單字,暫存為一全單字列表(S1021);該全單字列表中的各單字依照各紀錄編號及名字資料中的單字順序加以排列; 處理模組10將該全單字列表中的各單字依照單字的值重新排列,儲存為該黑名單單字列表(S1022)。

【0016】 由於本發明的黑名單單字列表已儲存於儲存模組20,當處理模組10進行待查找單字與黑名單單字列表中的單字進行比對時,可直接由近端的儲存模組20進行讀取,不須再通過網際網路存取遠端的黑名單資料庫30,因而提高處理模組10進行查找比對的速度;此外,處理模組10係以待查找單字對黑名單單字列表中的單字進行一對一比對,且黑名單單字列表已依照各該單字的值排列,當處理模組10找到相符的單字時,便能在儲存模組20中相近的儲存位址找到其他相符的單字,進一步提高查找比對之效率;因此,相較以輸入姓名字串對黑名單資料庫中的名字資料字串進行複雜的交叉比對,本發明在整篇待查找文件中查找出可能的目標姓名將更有明顯的處理速度優勢。

【0017】 在本發明的一實施例中,當處理模組10接收到待查找文件時,係先建立一待查找列表並儲存於儲存模組20中,該待查找列表中包含該待查找文件中的連續的複數組待查找單字,且該複數組待查找單字包含該待查找文件中的所有待查找單字。該處理模組10在建立該待查找列表後,先由第一組待查找單字進行步驟S104至S107的比對,比對完成後,再移至該待查找列表中的下一組待查找單字進行比對,直到完成該待查找列表中各組待查找單字的比對。

【0018】 請參閱圖4所示,較佳的,該待查找列表根據以下子步驟建立: 處理模組10由該待查找文件中起始的一待查找單字開始,讀取連續的一單次比對數量個待查找單字,並儲存至該待查找列表(S401); 處理模組10由上一步驟中讀取的複數個待查找單字中的第二個待查找單字開始,讀取連續的該單次比對數量的待查找單字,並儲存至該待查找列表(S402); 處理模組10重複執行上一步驟,直到讀取的複數個待查找單字的一末單字為該待查找文件中的最末端的待查找單字(S403); 完成建立該待查找列表。

【0019】 也就是說,該待查找列表的建立方式是由起始單字開始,讀取並儲存單次比對數量個待查找單字後,平移一個單字,由文件中的第二個待查找單字開始再讀取並儲存單次比對數量個待查找單字,並再次平移讀取並儲存,直到讀取並儲存整個待查找文件中的最末端的結束單字。如此一來,該待查找列表中包含有該待查找文件中從起始單字至結束單字中的所有連續的複數個待查找單字。該單次比對數量則決定了該處理模組10在進行一次命中比對中所要比對的待查找單字數量,其可根據黑名單資料庫30中的名字資料的字數平均值、最高值或根據經驗法則訂定。舉例而言,若該單次比對數量為5,即代表每一組待查找單字中包含連續的5個待查找單字。

【0020】 其中,當讀取連續的單次比對數量個待查找單字時,該處理模組10還進一步判斷該等待查找單字中是否包含有連續且相同的二個待查找單字;若有,則忽略該連續且相同的其中一個待查找單字,並將下一待查找單字更新至該組待查找單字中。

【0021】 也就是說,在建立該待查找列表時,當其中一組待查找單字中包含有連續且重複的待查找單字時,則忽略連續且重複的其中一待查找單字,並進一步讀取下一個待查找單字,避免同一組待查找單字中出現重複的待查找單字而導致重複比對。

【0022】 在本發明的另一實施例中,在建立該黑名單單字列表之前,係先根據包含有複數筆常用字彙的一常用字彙列表比對各該名字資料,移除各該名字資料中包含的常用字彙,才根據已移除常用字彙的各該名字資料建立該黑名單單字列表。

【0023】 在本實施例中,該等常用字彙例如為中文的「公司」、「有限公司」、「財團法人」;英文的「COMPANY LIMITED」、「COMPANY」、「LIMITED」、「IMPORT EXPORT CORP」、「IMPORT EXPORT CORPORATION」、「IMPORT AND EXPORT CORPORATION」等。由於該等常用字彙在黑名單資料庫30屬於不具有名字代表性意義的雜訊文字,因此當判斷該名字資料中包含有該等常用字彙時,會先移除該等常用字彙,使黑名單單字列表中的單字數量更為精簡,提高比對效率。

【0024】 以下將以範例說明本發明的於文件中快速查找預設名單之方法。

【0025】 在本範例中,黑名單資料庫30中所包含的紀錄編號、名字資料及字數資料如下方的表一所示。
紀錄編號
名字資料
字數資料
R1
Doosan Heavy Industries Construction Company Limited
C6
R2
Korea Heavy Industries Construction Company Limited
C6
R3
Giad Heavy Industries Complex
C4
R4
Esfahan Chemical Industries
C3
R5
Canadian Spooner Industries Corporation
C4
R6
Khartoum Industrial Complex Giad
C4
R7
Hadid Industrial Complex
C3
R8
Shohadayeh Hadid Industries
C3
R9
Nuclear Fuel Complex
C3
R10
Kim Chaek Iron And Steel Complex
C6
R11
Namhung Chemical Union Complex
C4
R12
Giad Cars Heavy Trucks Company
C5
R13
Heavy Electrical Complex Private Limited
C5
R14
Danbel Industries Incorporated
C3
R15
Pakistan Aeronautical Complex
C3
R16
Heavy Mechanical Complex
C3
R17
Giad Metal Industries
C3
R18
Power Construction Complex of Unified Energy System of Russia Joint Stock Company
C12
R19
Heavy Water Board
C3
R20
Bharat Heavy Electricals Limited
C4
R21
Heavy Vehicles Design and Engeeniring Private Joint Stock Company
C9
R22
Iran Shipbuilding and Offshore Industries Complex Company
C7
R23
Oil Industries Management Services Private Joint Stock Company
C8
R24
Moscow Design Industrial Complex Universal Federal State Unitary Enterprise
C9
R25
Oil Industries Engineering Construction Public Joint Stock Company
C8
R26
Farasakht Industries
C2
R27
Iran Aircraft Manufacturing Industries
C4
R28
Sairan Telecommuncation Industries Private Joint Stock Company
C7
R29
Shiraz Electronics Industries
C3
R30
Thong Guan Industries Berhad
C4
表一

【0026】 其中,C1表示計數值為1,C2表示計數值為2,以此類推,Cn表示計數值為n。因此,字數資料為C1表示該筆名字資料包含1個單字,C2表示該筆名字資料包含2個單字,以此類推,Cn即代表名字資料包含有n個單字。

【0027】 根據步驟S102及其子步驟所建立的該黑名單單字列表如下方的表二所示:
單字
紀錄編號
AERONAUTICAL
R15
AIRCRAFT
R27
AND
R10
AND
R21
AND
R22
BERHAD
R30
BHARAT
R20
BOARD
R19
CANADIAN
R5
CARS
R12
CHAEK
R10
CHEMICAL
R4
CHEMICAL
R11
COMPANY
R1
COMPANY
R2
COMPANY
R12
COMPANY
R18
COMPANY
R21
COMPANY
R22
COMPANY
R23
COMPANY
R25
COMPANY
R28
COMPLEX
R3
COMPLEX
R6
COMPLEX
R7
COMPLEX
R9
COMPLEX
R10
COMPLEX
R11
COMPLEX
R13
COMPLEX
R15
COMPLEX
R16
COMPLEX
R18
COMPLEX
R22
COMPLEX
R24
CONSTRUCTION
R1
CONSTRUCTION
R2
CONSTRUCTION
R18
CONSTRUCTION
R25
CORPORATION
R5
DANBEL
R14
DESIGN
R21
DESIGN
R24
DOOSAN
R1
ELECTRICAL
R13
ELECTRICALS
R20
ELECTRONICS
R29
ENERGY
R18
ENGEENIRING
R21
ENGINEERING
R25
ENTERPRISE
R24
ESFAHAN
R4
FARASAKHT
R26
FEDERAL
R24
FUEL
R9
GIAD
R3
GIAD
R6
GIAD
R12
GIAD
R17
GUAN
R30
HADID
R7
HADID
R8
HEAVY
R1
HEAVY
R2
HEAVY
R3
HEAVY
R12
HEAVY
R13
HEAVY
R16
HEAVY
R19
HEAVY
R20
HEAVY
R21
INCORPORATED
R14
INDUSTRIAL
R6
INDUSTRIAL
R7
INDUSTRIAL
R24
INDUSTRIES
R1
INDUSTRIES
R2
INDUSTRIES
R3
INDUSTRIES
R4
INDUSTRIES
R5
INDUSTRIES
R8
INDUSTRIES
R14
INDUSTRIES
R17
INDUSTRIES
R22
INDUSTRIES
R23
INDUSTRIES
R25
INDUSTRIES
R26
INDUSTRIES
R27
INDUSTRIES
R28
INDUSTRIES
R29
INDUSTRIES
R30
IRAN
R22
IRAN
R27
IRON
R10
JOINT
R18
JOINT
R21
JOINT
R23
JOINT
R25
JOINT
R28
KHARTOUM
R6
KIM
R10
KOREA
R2
LIMITED
R1
LIMITED
R2
LIMITED
R13
LIMITED
R20
MANAGEMENT
R23
MANUFACTURING
R27
MECHANICAL
R16
METAL
R17
MOSCOW
R24
NAMHUNG
R11
NUCLEAR
R9
OF
R18
OF
R18
OFFSHORE
R22
OIL
R23
OIL
R25
PAKISTAN
R15
POWER
R18
PRIVATE
R13
PRIVATE
R21
PRIVATE
R23
PRIVATE
R28
PUBLIC
R25
RUSSIA
R18
SAIRAN
R28
SERVICES
R23
SHIPBUILDING
R22
SHIRAZ
R29
SHOHADAYEH
R8
SPOONER
R5
STATE
R24
STEEL
R10
STOCK
R18
STOCK
R21
STOCK
R23
STOCK
R25
STOCK
R28
SYSTEM
R18
TELECOMMUNCATION
R28
THONG
R30
TRUCKS
R12
UNIFIED
R18
UNION
R11
UNITARY
R24
UNIVERSAL
R24
VEHICLES
R21
WATER
R19
表二

【0028】 在本範例中,待查找文件的內容如下: 「REGARDING OUR ACKNOWLEDGEMENT CONCERNING GIAD HEAVY INDUSTRIES COMPLEX DATED DD 20200929 WE HAVE TODAY SENT A SECOND REMINDER ON YOUR BEHALF. FOR ANY FUTURE CORRESPONDENCE RELATED TO THIS CASE PLEASE QUOTE OUR ENQUIRY REFERENCE USP200928-000830. REGARDS CLIENT SERVICES」

【0029】 根據步驟S401所建立的待查找列表如下方的表三所示。其中,示例性地設定該單次比對字數為5,因此每一組待查找單字中包含5個連續的待查找單字,表三中總共列出了32組待查單字(WL1~WL32):

待查找列表
WL1
REGARDING,OUR,ACKNOWLEDGEMENT,CONCERNING,GIAD
WL2
OUR,ACKNOWLEDGEMENT,CONCERNING,GIAD,HEAVY
WL3
ACKNOWLEDGEMENT,CONCERNING,GIAD,HEAVY,INDUSTRIES
WL4
CONCERNING,GIAD,HEAVY,INDUSTRIES,COMPLEX
WL5
GIAD,HEAVY,INDUSTRIES,COMPLEX,DATED
WL6
HEAVY,INDUSTRIES,COMPLEX,DATED,DD
WL7
INDUSTRIES,COMPLEX,DATED,DD,WE
WL8
COMPLEX,DATED,DD,WE,HAVE
WL9
DATED,DD,WE,HAVE,TODAY
WL10
DD,WE,HAVE,TODAY,SENT
WL11
WE,HAVE,TODAY,SENT,SECOND
WL12
HAVE,TODAY,SENT,SECOND,REMINDER
WL13
TODAY,SENT,SECOND,REMINDER,ON
WL14
SENT,SECOND,REMINDER,ON,YOUR
WL15
SECOND,REMINDER,ON,YOUR,BEHALF
WL16
REMINDER,ON,YOUR,BEHALF,FOR
WL17
ON,YOUR,BEHALF,FOR,ANY
WL18
YOUR,BEHALF,FOR,ANY,FUTURE
WL19
BEHALF,FOR,ANY,FUTURE,CORRESPONDENCE
WL20
FOR,ANY,FUTURE,CORRESPONDENCE,RELATED
WL21
ANY,FUTURE,CORRESPONDENCE,RELATED,TO
WL22
FUTURE,CORRESPONDENCE,RELATED,TO,THIS
WL23
CORRESPONDENCE,RELATED,TO,THIS,CASE
WL24
RELATED,TO,THIS,CASE,PLEASE
WL25
TO,THIS,CASE,PLEASE,QUOTE
WL26
THIS,CASE,PLEASE,QUOTE,OUR
WL27
CASE,PLEASE,QUOTE,OUR,ENQUIRY
WL28
PLEASE,QUOTE,OUR,ENQUIRY,REFERENCE
WL29
QUOTE,OUR,ENQUIRY,REFERENCE,USP
WL30
OUR,ENQUIRY,REFERENCE,USP,REGARDS
WL31
ENQUIRY,REFERENCE,USP,REGARDS,CLIENT
WL32
REFERENCE,USP,REGARDS,CLIENT,SERVICES
表三

【0030】 在步驟S104中,該處理模組10將各組待查找單字中的待查找單字與黑名單單字列表(表二)互相比對,將與黑名單單字列表中的單字相同的任一個待查找單字以及該黑名單單字列表中的單字對應的紀錄編號建立為目標單字列表。例如由第一組待查找單字(WL1)進行比對後建立的目標單字列表如下方的表四所示:
紀錄編號

REGARDING

OUR

ACKNOWLEDGEMENT

CONCERNING
R3
GIAD
R6
GIAD
R12
GIAD
R17
GIAD
表四

【0031】 在步驟S105中,計算該目標單字列表中對應相同紀錄編號的單字的數量,並將該數量紀錄為對應該紀錄編號的命中字數。舉例而言,該目標單字列表中,對應紀錄編號「R3」的單字為「GIAD」,即對應該紀錄編號「R3」的單字只有1個,因此命中字數紀錄為C1。此一步驟中可將沒有比對到黑名單單字列表中單字的待查找單字移除,例如移除“REGARDING”、“OUR”、“ACKNOWLEDGEMENT”、“CONCERNING”等單字。進一步在該目標單字列表中記錄該命中字數,如下方的表五所示:
紀錄編號
命中單字
命中字數
R3
GIAD
C1
R6
GIAD
C1
R12
GIAD
C1
R17
GIAD
C1
表五

【0032】 接著,在步驟S106至S107中,判斷該組待查找單字中是否包含有一組命中名字資料,其中,示例性地設定該命中範圍為「1」。在上一步驟(S105)判斷完每一紀錄編號對應的命中單字的數量後,進一步根據表一查詢每一紀錄編號對應的字數資料;接著,判斷對應各紀錄編號的「命中字數」與「字數資料」的差值是否小於該命中範圍;若是,表示該紀錄編號對應的名字資料為命中名字資料,該組待查找單字中包含黑名單資料庫中的該筆名字資料。比對結果如下方的表六所示:
紀錄編號
命中字數
字數資料
比對差值
是否命中
R3
C1
C4
3

R6
C1
C4
3

R12
C1
C5
4

R17
C1
C3
2

表六

【0033】 根據表六的「是否命中」欄位可知,由本發明的方法可判斷該待查找文件中的第一組待查找單字(WL1)中不包含有該黑名單資料庫30中的任一筆名字資料,因此第一組待查找單字(WL1)中沒有包含命中名字資料。

【0034】 當比對完成該第一組待查找單字(WL1)後,該處理模組10依序對該待查找列表中的第二組、第三組….待查找單字(WL2、WL3、…)進行比對,直到完成每一組待查找單字的比對。

【0035】 以下再以第四組待查找單字(WL4)為例說明比對方式,其中,第四組待查找單字(WL4)的內容為「CONCERNING,GIAD,HEAVY,INDUSTRIES,COMPLEX」。在步驟S104中,根據該第四組待查找單字(WL4)建立的目標單字列表如下:
紀錄編號


CONCERNING
R3
GIAD
R6
GIAD
R12
GIAD
R17
GIAD
R1
HEAVY
R2
HEAVY
R3
HEAVY
R12
HEAVY
R13
HEAVY
R16
HEAVY
R19
HEAVY
R20
HEAVY
R21
HEAVY
R1
INDUSTRIES
R2
INDUSTRIES
R3
INDUSTRIES
R4
INDUSTRIES
R5
INDUSTRIES
R8
INDUSTRIES
R14
INDUSTRIES
R17
INDUSTRIES
R22
INDUSTRIES
R23
INDUSTRIES
R25
INDUSTRIES
R26
INDUSTRIES
R27
INDUSTRIES
R28
INDUSTRIES
R29
INDUSTRIES
R30
INDUSTRIES
R3
COMPLEX
R6
COMPLEX
R7
COMPLEX
R9
COMPLEX
R10
COMPLEX
R11
COMPLEX
R13
COMPLEX
R15
COMPLEX
R16
COMPLEX
R18
COMPLEX
R22
COMPLEX
R24
COMPLEX


【0036】 根據步驟S105,計算該目標單字列表中對應相同紀錄編號的單字的數量。舉例而言,該目標單字列表中,對應紀錄編號「R2」的單字為“HEAVY”及“INDUSTRIES”,即對應該紀錄編號「R2」的單字有2個,因此命中字數紀錄為C2;對應紀錄編號「R3」的單字為“GIAD”、“HEAVY”及“INDUSTRIES”及“COMPLEX”,即對應該記錄編號「R3」的單字有4個,因此命中字數紀錄為C4。紀錄該命中字數資料的目標單字列表如下:
紀錄編號
命中單字
命中字數
R1
HEAVY,INDUSTRIES
C2
R2
HEAVY,INDUSTRIES
C2
R3
GIAD,HEAVY,INDUSTRIES, COMPLEX
C4
R4
INDUSTRIES
C1
R5
INDUSTRIES
C1
R6
GIAD, COMPLEX
C2
R7
COMPLEX
C1
R8
INDUSTRIES
C1
R9
COMPLEX
C1
R10
COMPLEX
C1
R11
COMPLEX
C1
R12
GIAD,HEAVY
C2
R13
HEAVY,COMPLEX
C2
R14
INDUSTRIES
C1
R15
COMPLEX
C1
R16
HEAVY, COMPLEX
C2
R17
GIAD,INDUSTRIES
C2
R18
COMPLEX
C1
R19
HEAVY
C1
R20
HEAVY
C1
R21
HEAVY
C1
R22
INDUSTRIES,COMPLEX
C2
R23
INDUSTRIES
C1
R24
COMPLEX
C1
R25
INDUSTRIES
C1
R26
INDUSTRIES
C1
R27
INDUSTRIES
C1
R28
INDUSTRIES
C1
R29
INDUSTRIES
C1
R30
INDUSTRIES
C1


【0037】 在步驟S106至S107中,判斷該組待查找單字中是否包含有一組命中名字資料。同樣的,查詢目標單字列表中對應每一紀錄編號的字數資料,以判斷對應各紀錄編號的「命中字數」與「字數資料」的差值是否小於該命中範圍「1」,若是,則判斷該紀錄編號對應的名字資料為命中名字資料。完整比對結果列表如下表所示:
紀錄編號
命中字數
字數資料
比對差值
是否命中
R1
C2
C6
4

R2
C2
C6
4

R3
C4
C4
0

R4
C1
C3
2

R5
C1
C4
3

R6
C2
C4
2

R7
C1
C3
2

R8
C1
C3
2

R9
C1
C3
2

R10
C1
C6
5

R11
C1
C4
3

R12
C2
C5
3

R13
C2
C5
3

R14
C1
C3
2

R15
C1
C3
2

R16
C2
C3
1

R17
C2
C3
1

R18
C1
C12
11

R19
C1
C3
2

R20
C1
C4
3

R21
C1
C9
8

R22
C1
C7
6

R23
C1
C8
7

R24
C1
C9
8

R25
C1
C8
7

R26
C1
C2
1

R27
C1
C4
3

R28
C1
C7
6

R29
C1
C3
2

R30
C1
C4
3



【0038】 該第四組待查找單字(WL4)的內容為「CONCERNING,GIAD,HEAVY,INDUSTRIES,COMPLEX」,即由該待查找文件中的第4個開始的連續5個待查找單字中,共包含了4個與紀錄編號為R3的名字資料「GIAD HEAVY INDUSTRIES COMPLEX」相同的待查找單字,且其命中字數C4與R3對應的字數資料C4差值為0,小於命中範圍1,因此判斷該R3對應的該筆名字資料為命中名字資料。

【0039】 綜上所述,本發明的於文件中快速查找預設名單之方法及系統能夠在一待查找文件中,由文件起始單字開始每次抓取特定長度的連續複數待查找單字,依序掃描全篇文件,依各待查找單字與事先建立好的黑名單單字列表依序比對單字,比對完成後計算對應相同紀錄編號的命中字數,再將命中字數與該筆名字資料的字數資料比對,而得到是否命中之結果。方法過程中是藉由先建立好依名字資料中的單字值排列的該黑名單單字列表,在真正進行比對判斷是否為命中名字資料時,僅須比對單字是否相同,以及簡單比較命中字數與字數資料,執行運算負擔低且速度快。且由於比對待查找單字及黑名單單字列表時是單字分別之比對,無論各組待查找單字中包含的命中名字的單字排列與原始黑名單資料庫中的名字資料中的單字順序是否相同,皆能夠找出與名字資料差異在一定範圍內的所有待查找單字,解決由整篇文件中連續多個不特定文字無法模糊比對黑名單資料庫中的名字資料之問題。

【0040】 以上所述僅是本發明的實施例而已,並非對本發明做任何形式上的限制,雖然本發明已以實施例揭露如上,然而並非用以限定本發明,任何熟悉本專業的技術人員,在不脫離本發明技術方案的範圍內,當可利用上述揭示的技術內容做出些許更動或修飾為等同變化的等效實施例,但凡是未脫離本發明技術方案的內容,依據本發明的技術實質對以上實施例所作的任何簡單修改、等同變化與修飾,均仍屬於本發明技術方案的範圍內。

【圖式簡單說明】

【0041】 圖1係本發明於文件中快速查找預設名單之方法的一判斷流程圖。 圖2係本發明於文件中快速查找預設名單之系統的一方塊示意圖。 圖3係本發明於文件中快速查找預設名單之方法的一實施例的部分的判斷流程圖。 圖4係本發明於文件中快速查找預設名單之方法的一實施例的部分的判斷流程圖。
符號說明
符號說明 10:處理模組 20:儲存模組 30:黑名單資料庫