詳細說明 |
【技術領域】
【0001】 一種查找系統及方法,尤指一種於文件中快速查找預設名單之系統及方法。
【先前技術】
【0002】 在全球化的今日,世界各地的金融機構之間往往都有一定程度的往來。為了便於進行溝通,電文系統是金融機構之間傳遞資訊的重要方式。一封電文除了標準規格化的封包形式,其中的主文則無特殊限制,其敘述方式、字數長短等各異,而其中的一主要關鍵,是該主文中可能出現具有不良信用紀錄,或曾出現於不良新聞消息中的人名、公司行號或機關單位之名字。
【0003】 金融機構一般來說會使用全球性的黑名單資料庫進行檢核,建立檢索系統以在需要時通過該檢索系統搜尋黑名單資料庫的人物資訊。該黑名單資料庫一般來說是關聯式資料庫,當使用者在檢索系統輸入欲搜尋的目標姓名字串後,檢索系統將該目標姓名字串與該黑名單資料庫中的名單列表進行精確比對,並尋找完全符合該目標姓名字串的姓名欄位內容,並在找到相符合的欄位內容後,讀取並輸出該欄位的相關資訊以供使用者瀏覽。
【0004】 然而,該檢索系統必須由使用者輸入一待檢索名字並實施精確比對,只能檢索出完全符合輸入的待檢索名字的內容。由於檢索系統是將輸入文字依序比對黑名單資料庫中的資訊以進行檢索,當可能為黑名單的名字存在於一整段的不特定文字中,輸入整段文字於檢索系統中進行比對是無意義的,因為檢索系統無法在全篇文字中偵測或提取可能為目標名字的部分文字。當金融機構接收到一封電文時,因為該電文中的主文是連續的且內容無特定格式的連續文句,難以直接判斷主文中何處出現人名、公司行號或機關單位之名字,因此無法利用一般的檢索系統進行黑名單名字的查找。
【0005】 此外,該等檢索系統不僅無法自動提取隱藏在整段文字中的名字,同一個人、公司行號或機關單位的名字可能有多種形式,例如姓、名的前後置換、稱謂等。例如姓名「王曉明」在一封電文中可能以「曉明,王」、「王先生曉明」等不同形式出現,更增加了從一篇隨機的電文中找到可能為名字的多個單字並再進一步進行黑名單資料庫檢索的難度。因此,現有的檢索系統尚有改善的空間。
【發明內容】
【0006】 有鑑於現有的黑名單資料庫檢索系統無法有效率的對整封文件進行名單檢索以找出目標名字,本發明提供一種於文件中快速查找預設名單之方法及系統,該方法包含以下步驟: 讀取一黑名單資料庫,該黑名單資料庫包含複數紀錄編號、依照各該紀錄編號排序的複數名字資料、複數字數資料,其中各該名字資料包含複數單字,各該字數資料紀錄各該名字資料的單字的數量; 根據該黑名單資料庫建立一黑名單單字列表,該黑名單單字列表包含各該名字資料中的每一單字,以及各該單字所屬的名字資料對應的紀錄編號; 接收一待查找文件,讀取該待查找文件中的一組連續的複數個待查找單字; 根據該組連續的複數個待查找單字比對該黑名單單字列表,將與任一待查找單字相同的至少一單字及該至少一單字對應的至少一紀錄編號建立為一目標單字列表; 計算該目標單字列表中對應相同紀錄編號的單字的數量,並將該數量紀錄為對應該至少一紀錄編號的至少一命中字數; 比較該至少一命中字數與對應的該至少一紀錄編號對應的字數資料,判斷該至少一命中字數與該至少一字數資料的差值是否在一命中範圍內; 若其中一命中字數與對應的該字數資料的差值在該命中範圍內,該名字資料為一命中名字資料; 若否,該紀錄編號對應的名字資料非命中名字資料; 完成該組待查找單字的比對。
【0007】 此外,本發明還提供一種於文件中快速查找預設名單之系統,包含有: 一處理模組,連接該黑名單資料庫; 一儲存模組,連接該處理模組;其中,該處理模組根據該黑名單資料庫建立一黑名單單字列表,並將該黑名單單字列表儲存於該儲存模組;該黑名單單字列表包含各該名字資料中的每一單字,以及各該單字所屬的名字資料對應的紀錄編號; 該處理模組接收一待查找文件,將該待查找文件儲存於該儲存模組,並讀取該待查找文件中的一組連續的複數個待查找單字; 該處理模組根據該組連續的複數個待查找單字比對該黑名單單字列表,將與任一待查找單字相同的至少一單字及該至少一單字對應的至少一紀錄編號建立為一目標單字列表,並將該目標單字列表儲存於該儲存模組; 該處理模組計算該目標單字列表中對應相同紀錄編號的單字的數量,並將該數量紀錄為對應該至少一紀錄編號的至少一命中字數; 該處理模組比較該至少一命中字數與對應的該至少一紀錄編號對應的字數資料,判斷該至少一命中字數與該至少一字數資料的差值是否在一命中範圍內; 若其中一命中字數與對應的該字數資料的差值在該命中範圍內,該處理模組判斷該名字資料為一命中名字資料; 若否,該處理模組判斷該紀錄編號對應的名字資料非命中名字資料; 完成該組待查找單字的比對。
【0008】 本發明的查找預設名單方法係先將黑名單資料庫中的所有名字資料的所有單字另建為該黑名單單字列表,並對應每一單字紀錄所屬名字資料包含的字數。當收到待查找文件時,讀取其中一組連續的複數的待查找文字,同樣分別根據該等待查找文字對該黑名單單字列表進行查找,將相同的單字,包含黑名單單字列表中重複但對應不同紀錄編號的所有單字,建立為目標單字列表,然後計算該目標單字列表中對應同一紀錄編號,即屬於同一筆名字資料的單字的數量,並將該等命中字數對應每一筆紀錄編號紀錄於該目標單字列表中。最後,比對該目標單字列表中每一筆紀錄編號的命中字數及在黑名單資料庫中的字數資料,若兩者的差在一命中範圍內,表示該複數待查找文字中有多個單字與一名字資料的單字相同,該複數待查找文字中有很高機率包含了該筆名字資料,因此判斷該名字資料為命中名字資料。
【0009】 舉例而言,黑名單資料庫中的名字為「王曉明」,字數為3,其對應的字數資料為「3」;由待查找文件中讀取的該複數待查找單字為「王先生曉明」,經過上述查找方式會判斷該複數待查找單字中的命中字數為3,命中字數與字數資料差值為0,因此判斷該名字資料「王曉明」為命中名字資料。
【0010】 本發明的方法及系統藉由將黑名單資料庫中的所有名字資料拆解為黑名單單字列表,並將待查找文字中的複數待查找單字分別比對,並且以命中字數的方式判斷該複數待查找文字中是否可能包含有一筆名字資料。由於此一查找方法不限制該複數待查找單字或黑名單資料庫中名字資料的單字的順序,因此無論該名字資料的單字順序與該複數待查找單字中包含的名字單字順序是否相同,或其中是否插入冗字,其中包含的名字皆能夠被找出來,解決習知黑名單資料庫檢索系統無法於整篇文件中找出預設名單中的名字資料的問題。
【實施方式】
【0011】 以下配合圖式及本發明的實施例,進一步闡述本發明為達成預定發明目的所採取的技術手段。
【0012】 請參閱圖1及圖2所示,本發明的於文件中快速查找預設名單之系統包含一處理模組10及一儲存模組20,該處理模組10連接一黑名單資料庫30,該處理模組10接收一待查找文件,並執行本發明的於文件中快速查找預設名單之方法。該儲存模組20連接該處理模組10,用於儲存或暫存該待查找文件、黑名單單字列表及目標單字列表。該處理模組10例如是一伺服器、一個人電腦等電子計算機裝置之主要處理元件;該儲存模組20是一儲存裝置,例如一傳統硬碟(HDD)、一固態硬碟(SSD)等,且較佳的,對該處理模組10而言是一近端儲存裝置;該黑名單資料庫30例如是建立於一雲端伺服器,以供管理單位隨時進行更新,而該處理模組10通過網際網路連接並讀取該黑名單資料庫30,並據以建立該黑名單單字列表,儲存於本地的儲存模組20中。
【0013】 該待查找文件例如是一銀行單位或金管單位透過網際網路接收到的由其他相關單位發出的一封電文,其中包含了不定長度及無特定規格的內容文字。當該處理模組10接收到該待查找文件時,暫存於該儲存模組20中。
【0014】 本發明的於文件中快速查找預設名單之方法包含以下步驟: 處理模組10讀取一黑名單資料庫30,該黑名單資料庫30包含複數紀錄編號、依照各該紀錄編號排序的複數名字資料及複數字數資料(S101);其中,各該名字資料包含複數單字,各該字數資料紀錄各該名字資料的單字的數量; 處理模組10根據該黑名單資料庫30建立一黑名單單字列表(S102);該黑名單單字列表包含各該名字資料中的每一單字,以及單字所屬的名字資料對應的紀錄編號; 處理模組10接收一待查找文件,讀取該待查找文件中的一組連續的複數個待查找單字(S103);換言之,該待查找文件包含連續的複數個原始單字,該組連續的複數個待查找單字是一字集,其為該待查找文件中之部分連續原始單字,本發明的實施例中,該處理模組10根據一單次比對字數從該待查找文件讀取出該組連續的複數個待查找單字,也就是說,該組連續的複數個待查找單字的字數等於該單次比對字數,該單次比對字數為一預設值; 處理模組10根據各該待查找單字比對該黑名單單字列表,將與任一待查找單字相同的至少一單字及該至少一單字對應的至少一紀錄編號建立為一目標單字列表(S104);該目標單字列表儲存於該儲存模組20中; 處理模組10計算該目標單字列表中對應相同紀錄編號的單字的數量,並將該數量紀錄為對應該至少一紀錄編號的至少一命中字數(S105); 處理模組10比較該至少一命中字數與對應的該至少一紀錄編號對應的字數資料,判斷該至少一命中字數與該至少一字數資料的差值是否在一命中範圍內(S106);該命中範圍為一使用者預設值,命中字數與字數資料之差值在命中範圍內是指該差值小於該命中範圍之數值; 若其中一命中字數與對應的該字數資料的差值在該命中範圍內,處理模組10判斷該名字資料為一命中名字資料(S107); 若否,處理模組10判斷該紀錄編號對應的名字資料非命中名字資料; 完成該組待查找單字的比對(S108)。
【0015】 請參閱圖3所示,在本發明的一實施例中,該黑名單單字列表中的單字是依照各單字的值排序,使得相同的單字排列在一起。其中,在建立該黑名單單字列表的步驟(S102)中,可根據以下子步驟進行: 處理模組10依據該黑名單資料庫30中的各紀錄編號,依序讀取各名字資料中的每一單字,暫存為一全單字列表(S1021);該全單字列表中的各單字依照各紀錄編號及名字資料中的單字順序加以排列; 處理模組10將該全單字列表中的各單字依照單字的值重新排列,儲存為該黑名單單字列表(S1022)。
【0016】 由於本發明的黑名單單字列表已儲存於儲存模組20,當處理模組10進行待查找單字與黑名單單字列表中的單字進行比對時,可直接由近端的儲存模組20進行讀取,不須再通過網際網路存取遠端的黑名單資料庫30,因而提高處理模組10進行查找比對的速度;此外,處理模組10係以待查找單字對黑名單單字列表中的單字進行一對一比對,且黑名單單字列表已依照各該單字的值排列,當處理模組10找到相符的單字時,便能在儲存模組20中相近的儲存位址找到其他相符的單字,進一步提高查找比對之效率;因此,相較以輸入姓名字串對黑名單資料庫中的名字資料字串進行複雜的交叉比對,本發明在整篇待查找文件中查找出可能的目標姓名將更有明顯的處理速度優勢。
【0017】 在本發明的一實施例中,當處理模組10接收到待查找文件時,係先建立一待查找列表並儲存於儲存模組20中,該待查找列表中包含該待查找文件中的連續的複數組待查找單字,且該複數組待查找單字包含該待查找文件中的所有待查找單字。該處理模組10在建立該待查找列表後,先由第一組待查找單字進行步驟S104至S107的比對,比對完成後,再移至該待查找列表中的下一組待查找單字進行比對,直到完成該待查找列表中各組待查找單字的比對。
【0018】 請參閱圖4所示,較佳的,該待查找列表根據以下子步驟建立: 處理模組10由該待查找文件中起始的一待查找單字開始,讀取連續的一單次比對數量個待查找單字,並儲存至該待查找列表(S401); 處理模組10由上一步驟中讀取的複數個待查找單字中的第二個待查找單字開始,讀取連續的該單次比對數量的待查找單字,並儲存至該待查找列表(S402); 處理模組10重複執行上一步驟,直到讀取的複數個待查找單字的一末單字為該待查找文件中的最末端的待查找單字(S403); 完成建立該待查找列表。
【0019】 也就是說,該待查找列表的建立方式是由起始單字開始,讀取並儲存單次比對數量個待查找單字後,平移一個單字,由文件中的第二個待查找單字開始再讀取並儲存單次比對數量個待查找單字,並再次平移讀取並儲存,直到讀取並儲存整個待查找文件中的最末端的結束單字。如此一來,該待查找列表中包含有該待查找文件中從起始單字至結束單字中的所有連續的複數個待查找單字。該單次比對數量則決定了該處理模組10在進行一次命中比對中所要比對的待查找單字數量,其可根據黑名單資料庫30中的名字資料的字數平均值、最高值或根據經驗法則訂定。舉例而言,若該單次比對數量為5,即代表每一組待查找單字中包含連續的5個待查找單字。
【0020】 其中,當讀取連續的單次比對數量個待查找單字時,該處理模組10還進一步判斷該等待查找單字中是否包含有連續且相同的二個待查找單字;若有,則忽略該連續且相同的其中一個待查找單字,並將下一待查找單字更新至該組待查找單字中。
【0021】 也就是說,在建立該待查找列表時,當其中一組待查找單字中包含有連續且重複的待查找單字時,則忽略連續且重複的其中一待查找單字,並進一步讀取下一個待查找單字,避免同一組待查找單字中出現重複的待查找單字而導致重複比對。
【0022】 在本發明的另一實施例中,在建立該黑名單單字列表之前,係先根據包含有複數筆常用字彙的一常用字彙列表比對各該名字資料,移除各該名字資料中包含的常用字彙,才根據已移除常用字彙的各該名字資料建立該黑名單單字列表。
【0023】 在本實施例中,該等常用字彙例如為中文的「公司」、「有限公司」、「財團法人」;英文的「COMPANY LIMITED」、「COMPANY」、「LIMITED」、「IMPORT EXPORT CORP」、「IMPORT EXPORT CORPORATION」、「IMPORT AND EXPORT CORPORATION」等。由於該等常用字彙在黑名單資料庫30屬於不具有名字代表性意義的雜訊文字,因此當判斷該名字資料中包含有該等常用字彙時,會先移除該等常用字彙,使黑名單單字列表中的單字數量更為精簡,提高比對效率。
【0024】 以下將以範例說明本發明的於文件中快速查找預設名單之方法。
【0025】 在本範例中,黑名單資料庫30中所包含的紀錄編號、名字資料及字數資料如下方的表一所示。 紀錄編號
| 名字資料
| 字數資料
| R1
| Doosan Heavy Industries Construction Company Limited
| C6
| R2
| Korea Heavy Industries Construction Company Limited
| C6
| R3
| Giad Heavy Industries Complex
| C4
| R4
| Esfahan Chemical Industries
| C3
| R5
| Canadian Spooner Industries Corporation
| C4
| R6
| Khartoum Industrial Complex Giad
| C4
| R7
| Hadid Industrial Complex
| C3
| R8
| Shohadayeh Hadid Industries
| C3
| R9
| Nuclear Fuel Complex
| C3
| R10
| Kim Chaek Iron And Steel Complex
| C6
| R11
| Namhung Chemical Union Complex
| C4
| R12
| Giad Cars Heavy Trucks Company
| C5
| R13
| Heavy Electrical Complex Private Limited
| C5
| R14
| Danbel Industries Incorporated
| C3
| R15
| Pakistan Aeronautical Complex
| C3
| R16
| Heavy Mechanical Complex
| C3
| R17
| Giad Metal Industries
| C3
| R18
| Power Construction Complex of Unified Energy System of Russia Joint Stock Company
| C12
| R19
| Heavy Water Board
| C3
| R20
| Bharat Heavy Electricals Limited
| C4
| R21
| Heavy Vehicles Design and Engeeniring Private Joint Stock Company
| C9
| R22
| Iran Shipbuilding and Offshore Industries Complex Company
| C7
| R23
| Oil Industries Management Services Private Joint Stock Company
| C8
| R24
| Moscow Design Industrial Complex Universal Federal State Unitary Enterprise
| C9
| R25
| Oil Industries Engineering Construction Public Joint Stock Company
| C8
| R26
| Farasakht Industries
| C2
| R27
| Iran Aircraft Manufacturing Industries
| C4
| R28
| Sairan Telecommuncation Industries Private Joint Stock Company
| C7
| R29
| Shiraz Electronics Industries
| C3
| R30
| Thong Guan Industries Berhad
| C4
| 表一
【0026】 其中,C1表示計數值為1,C2表示計數值為2,以此類推,Cn表示計數值為n。因此,字數資料為C1表示該筆名字資料包含1個單字,C2表示該筆名字資料包含2個單字,以此類推,Cn即代表名字資料包含有n個單字。
【0027】 根據步驟S102及其子步驟所建立的該黑名單單字列表如下方的表二所示: 單字
| 紀錄編號
| AERONAUTICAL
| R15
| AIRCRAFT
| R27
| AND
| R10
| AND
| R21
| AND
| R22
| BERHAD
| R30
| BHARAT
| R20
| BOARD
| R19
| CANADIAN
| R5
| CARS
| R12
| CHAEK
| R10
| CHEMICAL
| R4
| CHEMICAL
| R11
| COMPANY
| R1
| COMPANY
| R2
| COMPANY
| R12
| COMPANY
| R18
| COMPANY
| R21
| COMPANY
| R22
| COMPANY
| R23
| COMPANY
| R25
| COMPANY
| R28
| COMPLEX
| R3
| COMPLEX
| R6
| COMPLEX
| R7
| COMPLEX
| R9
| COMPLEX
| R10
| COMPLEX
| R11
| COMPLEX
| R13
| COMPLEX
| R15
| COMPLEX
| R16
| COMPLEX
| R18
| COMPLEX
| R22
| COMPLEX
| R24
| CONSTRUCTION
| R1
| CONSTRUCTION
| R2
| CONSTRUCTION
| R18
| CONSTRUCTION
| R25
| CORPORATION
| R5
| DANBEL
| R14
| DESIGN
| R21
| DESIGN
| R24
| DOOSAN
| R1
| ELECTRICAL
| R13
| ELECTRICALS
| R20
| ELECTRONICS
| R29
| ENERGY
| R18
| ENGEENIRING
| R21
| ENGINEERING
| R25
| ENTERPRISE
| R24
| ESFAHAN
| R4
| FARASAKHT
| R26
| FEDERAL
| R24
| FUEL
| R9
| GIAD
| R3
| GIAD
| R6
| GIAD
| R12
| GIAD
| R17
| GUAN
| R30
| HADID
| R7
| HADID
| R8
| HEAVY
| R1
| HEAVY
| R2
| HEAVY
| R3
| HEAVY
| R12
| HEAVY
| R13
| HEAVY
| R16
| HEAVY
| R19
| HEAVY
| R20
| HEAVY
| R21
| INCORPORATED
| R14
| INDUSTRIAL
| R6
| INDUSTRIAL
| R7
| INDUSTRIAL
| R24
| INDUSTRIES
| R1
| INDUSTRIES
| R2
| INDUSTRIES
| R3
| INDUSTRIES
| R4
| INDUSTRIES
| R5
| INDUSTRIES
| R8
| INDUSTRIES
| R14
| INDUSTRIES
| R17
| INDUSTRIES
| R22
| INDUSTRIES
| R23
| INDUSTRIES
| R25
| INDUSTRIES
| R26
| INDUSTRIES
| R27
| INDUSTRIES
| R28
| INDUSTRIES
| R29
| INDUSTRIES
| R30
| IRAN
| R22
| IRAN
| R27
| IRON
| R10
| JOINT
| R18
| JOINT
| R21
| JOINT
| R23
| JOINT
| R25
| JOINT
| R28
| KHARTOUM
| R6
| KIM
| R10
| KOREA
| R2
| LIMITED
| R1
| LIMITED
| R2
| LIMITED
| R13
| LIMITED
| R20
| MANAGEMENT
| R23
| MANUFACTURING
| R27
| MECHANICAL
| R16
| METAL
| R17
| MOSCOW
| R24
| NAMHUNG
| R11
| NUCLEAR
| R9
| OF
| R18
| OF
| R18
| OFFSHORE
| R22
| OIL
| R23
| OIL
| R25
| PAKISTAN
| R15
| POWER
| R18
| PRIVATE
| R13
| PRIVATE
| R21
| PRIVATE
| R23
| PRIVATE
| R28
| PUBLIC
| R25
| RUSSIA
| R18
| SAIRAN
| R28
| SERVICES
| R23
| SHIPBUILDING
| R22
| SHIRAZ
| R29
| SHOHADAYEH
| R8
| SPOONER
| R5
| STATE
| R24
| STEEL
| R10
| STOCK
| R18
| STOCK
| R21
| STOCK
| R23
| STOCK
| R25
| STOCK
| R28
| SYSTEM
| R18
| TELECOMMUNCATION
| R28
| THONG
| R30
| TRUCKS
| R12
| UNIFIED
| R18
| UNION
| R11
| UNITARY
| R24
| UNIVERSAL
| R24
| VEHICLES
| R21
| WATER
| R19
| 表二
【0028】 在本範例中,待查找文件的內容如下: 「REGARDING OUR ACKNOWLEDGEMENT CONCERNING GIAD HEAVY INDUSTRIES COMPLEX DATED DD 20200929 WE HAVE TODAY SENT A SECOND REMINDER ON YOUR BEHALF. FOR ANY FUTURE CORRESPONDENCE RELATED TO THIS CASE PLEASE QUOTE OUR ENQUIRY REFERENCE USP200928-000830. REGARDS CLIENT SERVICES」
【0029】 根據步驟S401所建立的待查找列表如下方的表三所示。其中,示例性地設定該單次比對字數為5,因此每一組待查找單字中包含5個連續的待查找單字,表三中總共列出了32組待查單字(WL1~WL32):
| 待查找列表
| WL1
| REGARDING,OUR,ACKNOWLEDGEMENT,CONCERNING,GIAD
| WL2
| OUR,ACKNOWLEDGEMENT,CONCERNING,GIAD,HEAVY
| WL3
| ACKNOWLEDGEMENT,CONCERNING,GIAD,HEAVY,INDUSTRIES
| WL4
| CONCERNING,GIAD,HEAVY,INDUSTRIES,COMPLEX
| WL5
| GIAD,HEAVY,INDUSTRIES,COMPLEX,DATED
| WL6
| HEAVY,INDUSTRIES,COMPLEX,DATED,DD
| WL7
| INDUSTRIES,COMPLEX,DATED,DD,WE
| WL8
| COMPLEX,DATED,DD,WE,HAVE
| WL9
| DATED,DD,WE,HAVE,TODAY
| WL10
| DD,WE,HAVE,TODAY,SENT
| WL11
| WE,HAVE,TODAY,SENT,SECOND
| WL12
| HAVE,TODAY,SENT,SECOND,REMINDER
| WL13
| TODAY,SENT,SECOND,REMINDER,ON
| WL14
| SENT,SECOND,REMINDER,ON,YOUR
| WL15
| SECOND,REMINDER,ON,YOUR,BEHALF
| WL16
| REMINDER,ON,YOUR,BEHALF,FOR
| WL17
| ON,YOUR,BEHALF,FOR,ANY
| WL18
| YOUR,BEHALF,FOR,ANY,FUTURE
| WL19
| BEHALF,FOR,ANY,FUTURE,CORRESPONDENCE
| WL20
| FOR,ANY,FUTURE,CORRESPONDENCE,RELATED
| WL21
| ANY,FUTURE,CORRESPONDENCE,RELATED,TO
| WL22
| FUTURE,CORRESPONDENCE,RELATED,TO,THIS
| WL23
| CORRESPONDENCE,RELATED,TO,THIS,CASE
| WL24
| RELATED,TO,THIS,CASE,PLEASE
| WL25
| TO,THIS,CASE,PLEASE,QUOTE
| WL26
| THIS,CASE,PLEASE,QUOTE,OUR
| WL27
| CASE,PLEASE,QUOTE,OUR,ENQUIRY
| WL28
| PLEASE,QUOTE,OUR,ENQUIRY,REFERENCE
| WL29
| QUOTE,OUR,ENQUIRY,REFERENCE,USP
| WL30
| OUR,ENQUIRY,REFERENCE,USP,REGARDS
| WL31
| ENQUIRY,REFERENCE,USP,REGARDS,CLIENT
| WL32
| REFERENCE,USP,REGARDS,CLIENT,SERVICES
| 表三
【0030】 在步驟S104中,該處理模組10將各組待查找單字中的待查找單字與黑名單單字列表(表二)互相比對,將與黑名單單字列表中的單字相同的任一個待查找單字以及該黑名單單字列表中的單字對應的紀錄編號建立為目標單字列表。例如由第一組待查找單字(WL1)進行比對後建立的目標單字列表如下方的表四所示: 紀錄編號
| | 無
| REGARDING
| 無
| OUR
| 無
| ACKNOWLEDGEMENT
| 無
| CONCERNING
| R3
| GIAD
| R6
| GIAD
| R12
| GIAD
| R17
| GIAD
| 表四
【0031】 在步驟S105中,計算該目標單字列表中對應相同紀錄編號的單字的數量,並將該數量紀錄為對應該紀錄編號的命中字數。舉例而言,該目標單字列表中,對應紀錄編號「R3」的單字為「GIAD」,即對應該紀錄編號「R3」的單字只有1個,因此命中字數紀錄為C1。此一步驟中可將沒有比對到黑名單單字列表中單字的待查找單字移除,例如移除“REGARDING”、“OUR”、“ACKNOWLEDGEMENT”、“CONCERNING”等單字。進一步在該目標單字列表中記錄該命中字數,如下方的表五所示: 紀錄編號
| 命中單字
| 命中字數
| R3
| GIAD
| C1
| R6
| GIAD
| C1
| R12
| GIAD
| C1
| R17
| GIAD
| C1
| 表五
【0032】 接著,在步驟S106至S107中,判斷該組待查找單字中是否包含有一組命中名字資料,其中,示例性地設定該命中範圍為「1」。在上一步驟(S105)判斷完每一紀錄編號對應的命中單字的數量後,進一步根據表一查詢每一紀錄編號對應的字數資料;接著,判斷對應各紀錄編號的「命中字數」與「字數資料」的差值是否小於該命中範圍;若是,表示該紀錄編號對應的名字資料為命中名字資料,該組待查找單字中包含黑名單資料庫中的該筆名字資料。比對結果如下方的表六所示: 紀錄編號
| 命中字數
| 字數資料
| 比對差值
| 是否命中
| R3
| C1
| C4
| 3
| 否
| R6
| C1
| C4
| 3
| 否
| R12
| C1
| C5
| 4
| 否
| R17
| C1
| C3
| 2
| 否
| 表六
【0033】 根據表六的「是否命中」欄位可知,由本發明的方法可判斷該待查找文件中的第一組待查找單字(WL1)中不包含有該黑名單資料庫30中的任一筆名字資料,因此第一組待查找單字(WL1)中沒有包含命中名字資料。
【0034】 當比對完成該第一組待查找單字(WL1)後,該處理模組10依序對該待查找列表中的第二組、第三組….待查找單字(WL2、WL3、…)進行比對,直到完成每一組待查找單字的比對。
【0035】 以下再以第四組待查找單字(WL4)為例說明比對方式,其中,第四組待查找單字(WL4)的內容為「CONCERNING,GIAD,HEAVY,INDUSTRIES,COMPLEX」。在步驟S104中,根據該第四組待查找單字(WL4)建立的目標單字列表如下: 紀錄編號
|
| 無
| CONCERNING
| R3
| GIAD
| R6
| GIAD
| R12
| GIAD
| R17
| GIAD
| R1
| HEAVY
| R2
| HEAVY
| R3
| HEAVY
| R12
| HEAVY
| R13
| HEAVY
| R16
| HEAVY
| R19
| HEAVY
| R20
| HEAVY
| R21
| HEAVY
| R1
| INDUSTRIES
| R2
| INDUSTRIES
| R3
| INDUSTRIES
| R4
| INDUSTRIES
| R5
| INDUSTRIES
| R8
| INDUSTRIES
| R14
| INDUSTRIES
| R17
| INDUSTRIES
| R22
| INDUSTRIES
| R23
| INDUSTRIES
| R25
| INDUSTRIES
| R26
| INDUSTRIES
| R27
| INDUSTRIES
| R28
| INDUSTRIES
| R29
| INDUSTRIES
| R30
| INDUSTRIES
| R3
| COMPLEX
| R6
| COMPLEX
| R7
| COMPLEX
| R9
| COMPLEX
| R10
| COMPLEX
| R11
| COMPLEX
| R13
| COMPLEX
| R15
| COMPLEX
| R16
| COMPLEX
| R18
| COMPLEX
| R22
| COMPLEX
| R24
| COMPLEX
|
【0036】 根據步驟S105,計算該目標單字列表中對應相同紀錄編號的單字的數量。舉例而言,該目標單字列表中,對應紀錄編號「R2」的單字為“HEAVY”及“INDUSTRIES”,即對應該紀錄編號「R2」的單字有2個,因此命中字數紀錄為C2;對應紀錄編號「R3」的單字為“GIAD”、“HEAVY”及“INDUSTRIES”及“COMPLEX”,即對應該記錄編號「R3」的單字有4個,因此命中字數紀錄為C4。紀錄該命中字數資料的目標單字列表如下: 紀錄編號
| 命中單字
| 命中字數
| R1
| HEAVY,INDUSTRIES
| C2
| R2
| HEAVY,INDUSTRIES
| C2
| R3
| GIAD,HEAVY,INDUSTRIES, COMPLEX
| C4
| R4
| INDUSTRIES
| C1
| R5
| INDUSTRIES
| C1
| R6
| GIAD, COMPLEX
| C2
| R7
| COMPLEX
| C1
| R8
| INDUSTRIES
| C1
| R9
| COMPLEX
| C1
| R10
| COMPLEX
| C1
| R11
| COMPLEX
| C1
| R12
| GIAD,HEAVY
| C2
| R13
| HEAVY,COMPLEX
| C2
| R14
| INDUSTRIES
| C1
| R15
| COMPLEX
| C1
| R16
| HEAVY, COMPLEX
| C2
| R17
| GIAD,INDUSTRIES
| C2
| R18
| COMPLEX
| C1
| R19
| HEAVY
| C1
| R20
| HEAVY
| C1
| R21
| HEAVY
| C1
| R22
| INDUSTRIES,COMPLEX
| C2
| R23
| INDUSTRIES
| C1
| R24
| COMPLEX
| C1
| R25
| INDUSTRIES
| C1
| R26
| INDUSTRIES
| C1
| R27
| INDUSTRIES
| C1
| R28
| INDUSTRIES
| C1
| R29
| INDUSTRIES
| C1
| R30
| INDUSTRIES
| C1
|
【0037】 在步驟S106至S107中,判斷該組待查找單字中是否包含有一組命中名字資料。同樣的,查詢目標單字列表中對應每一紀錄編號的字數資料,以判斷對應各紀錄編號的「命中字數」與「字數資料」的差值是否小於該命中範圍「1」,若是,則判斷該紀錄編號對應的名字資料為命中名字資料。完整比對結果列表如下表所示: 紀錄編號
| 命中字數
| 字數資料
| 比對差值
| 是否命中
| R1
| C2
| C6
| 4
| 否
| R2
| C2
| C6
| 4
| 否
| R3
| C4
| C4
| 0
| 是
| R4
| C1
| C3
| 2
| 否
| R5
| C1
| C4
| 3
| 否
| R6
| C2
| C4
| 2
| 否
| R7
| C1
| C3
| 2
| 否
| R8
| C1
| C3
| 2
| 否
| R9
| C1
| C3
| 2
| 否
| R10
| C1
| C6
| 5
| 否
| R11
| C1
| C4
| 3
| 否
| R12
| C2
| C5
| 3
| 否
| R13
| C2
| C5
| 3
| 否
| R14
| C1
| C3
| 2
| 否
| R15
| C1
| C3
| 2
| 否
| R16
| C2
| C3
| 1
| 否
| R17
| C2
| C3
| 1
| 否
| R18
| C1
| C12
| 11
| 否
| R19
| C1
| C3
| 2
| 否
| R20
| C1
| C4
| 3
| 否
| R21
| C1
| C9
| 8
| 否
| R22
| C1
| C7
| 6
| 否
| R23
| C1
| C8
| 7
| 否
| R24
| C1
| C9
| 8
| 否
| R25
| C1
| C8
| 7
| 否
| R26
| C1
| C2
| 1
| 否
| R27
| C1
| C4
| 3
| 否
| R28
| C1
| C7
| 6
| 否
| R29
| C1
| C3
| 2
| 否
| R30
| C1
| C4
| 3
| 否
|
【0038】 該第四組待查找單字(WL4)的內容為「CONCERNING,GIAD,HEAVY,INDUSTRIES,COMPLEX」,即由該待查找文件中的第4個開始的連續5個待查找單字中,共包含了4個與紀錄編號為R3的名字資料「GIAD HEAVY INDUSTRIES COMPLEX」相同的待查找單字,且其命中字數C4與R3對應的字數資料C4差值為0,小於命中範圍1,因此判斷該R3對應的該筆名字資料為命中名字資料。
【0039】 綜上所述,本發明的於文件中快速查找預設名單之方法及系統能夠在一待查找文件中,由文件起始單字開始每次抓取特定長度的連續複數待查找單字,依序掃描全篇文件,依各待查找單字與事先建立好的黑名單單字列表依序比對單字,比對完成後計算對應相同紀錄編號的命中字數,再將命中字數與該筆名字資料的字數資料比對,而得到是否命中之結果。方法過程中是藉由先建立好依名字資料中的單字值排列的該黑名單單字列表,在真正進行比對判斷是否為命中名字資料時,僅須比對單字是否相同,以及簡單比較命中字數與字數資料,執行運算負擔低且速度快。且由於比對待查找單字及黑名單單字列表時是單字分別之比對,無論各組待查找單字中包含的命中名字的單字排列與原始黑名單資料庫中的名字資料中的單字順序是否相同,皆能夠找出與名字資料差異在一定範圍內的所有待查找單字,解決由整篇文件中連續多個不特定文字無法模糊比對黑名單資料庫中的名字資料之問題。
【0040】 以上所述僅是本發明的實施例而已,並非對本發明做任何形式上的限制,雖然本發明已以實施例揭露如上,然而並非用以限定本發明,任何熟悉本專業的技術人員,在不脫離本發明技術方案的範圍內,當可利用上述揭示的技術內容做出些許更動或修飾為等同變化的等效實施例,但凡是未脫離本發明技術方案的內容,依據本發明的技術實質對以上實施例所作的任何簡單修改、等同變化與修飾,均仍屬於本發明技術方案的範圍內。
【圖式簡單說明】
【0041】 圖1係本發明於文件中快速查找預設名單之方法的一判斷流程圖。 圖2係本發明於文件中快速查找預設名單之系統的一方塊示意圖。 圖3係本發明於文件中快速查找預設名單之方法的一實施例的部分的判斷流程圖。 圖4係本發明於文件中快速查找預設名單之方法的一實施例的部分的判斷流程圖。 |