已修改密碼,請重新登入
關閉
說明提示
  • 複製連結
  • 更多功能
純文字分析運算之以文找文系統
System for searching texts with texts through pure text analysis and calculationTB001693737
 1 / 1 
書目
公告號 M638064
公告日 2023/02/21
公報卷期 50-06
證書號 M638064
申請號 111212618 E
申請日 2022/11/17
公報IPC G06F 16/33(2019.01); G06F 40/237(2020.01); G06F 40/279(2020.01)
當前IPC G06F 16/33(2019.01); G06F 40/237(2020.01); G06F 40/279(2020.01)
申請人 大鐸資訊股份有限公司 臺北市信義區基隆路2段149之16號3樓 (中華民國);
TUDOR TECH SYSTEMS CO., LTD. (TW)
當前專利權人 大鐸資訊股份有限公司
發明人 王振安 (中華民國); WANG, ZHEN-AN (TW);
施淑芸 (中華民國); SHI, SHU-YUN (TW);
鐘令淑 (中華民國); ZHONG, LING-SHU (TW);
林芊華 (中華民國); LIN, QIAN-HUA (TW)
代理人 閻啓泰; 林景郁
當前代理人 閻啓泰; 林景郁
一案兩請 相同的創作已於同日申請發明專利
摘要 本新型的純文字分析運算之以文找文系統包含使用者裝置及伺服器,伺服器從使用者裝置接收一段待分析文字,並提取其中複數特徵字組,特徵字組包含連續複數特徵字,該些特徵字組涵蓋全部的特徵字,且相鄰的特徵字組頭尾重疊;伺服器判斷目標資料庫中的文字資料的內容中是否符合特徵字組鄰近群聚條件,再分別計算各筆文字資料的一命中分數,當文字資料的命中分數高於預設分數門檻,則判斷為分析命中資料;本新型以純文字分析運算找出與待分析文字內容相似的文字資料,避免以提取關鍵詞進行檢索容易漏判或失誤的問題。
專利範圍   0:936 原始格式
專利範圍 1.一種純文字分析運算之以文找文系統,連接一目標資料庫,該目標資料庫包含複數筆文字資料,該系統包含: 一使用者裝置,接收一段待分析文字,該段待分析文字包含具有順序性的複數個特徵字; 一伺服器,通訊連接該目標資料庫及該使用者裝置,以從該使用者裝置接收該段待分析文字,並由該等特徵字中依序提取複數特徵字組;其中,每一特徵字組包含連續的第一數量個特徵字,該等特徵字組涵蓋全部的特徵字,且相鄰的兩特徵字組具有第二數量個頭尾重疊的特徵字; 該伺服器分別針對各該特徵字組,判斷該目標資料庫中的各筆文字資料的內容是否符合一特徵字組鄰近群聚條件,以產生每一特徵字組的一命中資料結果清單,再根據各該特徵字組的命中資料結果清單計算出各筆文字資料的一命中分數; 該伺服器從該目標資料庫讀取並輸出命中分數高於一預設分數門檻的至少一筆文字資料作為至少一分析命中資料。

2.如請求項1所述之純文字分析運算之以文找文系統,該伺服器進一步根據一預存之資料庫字頻統計結果,移除該段待分析文字中的至少一高頻字,以保留該段待分析文字中的該複數個特徵字。

3.如請求項1所述之純文字分析運算之以文找文系統,該伺服器進一步判斷該段待分析文字的一總字數是否高於一字數門檻;若是,則根據一預存之資料庫字頻統計結果,移除該段待分析文字中的至少一高頻字,以保留該段待分析文字中的該複數個特徵字。

4.如請求項1所述之純文字分析運算之以文找文系統, 其中,該特徵字組鄰近群聚條件包含有:該特徵字組中的該等特徵字出現在文字資料的內容中的一預設字數距離範圍內。

5.如請求項1所述之純文字分析運算之以文找文系統,其中: 當該伺服器針對各該特徵字組,判斷該目標資料庫中的各筆文字資料的內容是否符合一特徵字組鄰近群聚條件,以產生每一特徵字組的一命中資料結果清單時,係進一步包含: 分別根據每一特徵字組對每一文字資料讀取該筆文字資料的一內容字元位置表,該內容字元位置表包含該筆文字資料中複數字的編號及位置座標; 判斷該特徵字組中的各該特徵字是否出現在該內容字元位置表中,若該特徵字組中的各該特徵字均出現在該內容字元表中,根據各該特徵字對應的位置座標判斷各該特徵字中任二個特徵字之間的字數距離;以及 判斷各該特徵字中任二個特徵字之間的字數距離是否均小於該預設字數距離門檻,若是,判斷該特徵字組在該筆文字資料中符合特徵字組鄰近群聚條件,並且判斷該筆文字資料為該特徵字組的一命中資料,並將該命中資料紀錄於對應該特徵字組的該命中資料結果清單中。

6.如請求項1所述之純文字分析運算之以文找文系統,其中,當該伺服器根據各該特徵字組的命中資料結果清單計算出各筆文字資料的一命中分數時,係進一步包含: 建立一評分統計表,該評分統計表包含對應各筆文字資料的一分數欄位; 依序讀取各該特徵字組的命中資料結果清單,當在其中一命中資料結果清單中讀取到其中一文字資料的紀錄時,在一評分統計表中對應該其中一筆文字資料的分數欄位累加1分,以計算該其中一筆文字資料的該命中分數; 當完成讀取各該特徵字組的命中資料結果清單,根據對應各筆文字資料的分數欄位中的命中分數的高低將該評分統計表中的各筆文字資料進行一重新排序。

7.如請求項1所述之純文字分析運算之以文找文系統,其中,該預設分數門檻係根據該等特徵字組之數量以及一預設命中分數比率計算產生。
詳細說明
詳細說明 【技術領域】

【0001】 一種以文找文系統,尤指一種純文字分析運算之以文找文系統。

【先前技術】

【0002】 「以文找文」是指根據一段具有完整語意的文字語句在目標資料庫中找到相似文字資料的功能。現有的以文找文之技術大多是從該段語句中提取關鍵詞,並以關鍵詞進行目標資料庫的檢索,以尋找包含有相同關鍵詞的文字資料,並根據結果的命中狀態來決定哪些文字資料符合條件。

【0003】 其中,在常用的西方語文例如英文中,其語句中的「字」本身就是一「詞」(例如:Circuit),通常具有特定的詞意,故可以直接提取語句中具有特性的「字」當作關鍵詞,在檢索中用於尋找包含有相同字/詞的文字資料。

【0004】 然而,以中文而言,中文的「字」具有「有限文字無限組合」之特性,單一「字」(例如:電)難以代表其在原語句中所表示的完整詞意(例如:電路板),故在一段語句中,必須先進行斷詞、斷字,或進行語意分析等步驟才能提取出可用的關鍵詞,以進一步用於關鍵詞檢索。若初步「提取關鍵詞」之結果有失準確,沒有提取到該段語句中重要的關鍵詞,則檢索的結果也不會準確,即難以找到與該段語句具有相似內容的有效文字資料。此外,中文的文字表達方法千變萬化,單一關鍵詞可能有許多表述方法或近義字詞,用於判斷是否為關鍵詞之目標資料庫難以蒐集完全。再者,即使正確提取出語句中的一詞,也未必是該語句中真正具有關鍵意義之關鍵詞。以不具關鍵意義之關鍵詞進行檢索也難以找到真正具有相關內容之文字資料,或者往往找到許多相關度不足的內容。

【0005】 綜上所述,現有的以文找文之技術勢必須進一步改進。

【新型內容】

【0006】 有鑑於現有的以文找文分析技術具有中文關鍵詞提取不易、檢索精確度不足的問題,本新型提供一種純文字分析運算之以文找文系統,連接一目標資料庫,該目標資料庫包含複數筆文字資料,該系統包含: 一使用者裝置,接收一段待分析文字,該段待分析文字包含具有順序性的複數個特徵字; 一伺服器,通訊連接該目標資料庫及該使用者裝置,以從該使用者裝置接收該段待分析文字,並由該等特徵字中依序提取複數特徵字組;其中,每一特徵字組包含連續的第一數量個特徵字,該等特徵字組涵蓋全部的特徵字,且相鄰的兩特徵字組具有第二數量個頭尾重疊的特徵字; 該伺服器分別針對各該特徵字組,判斷該目標資料庫中的各筆文字資料的內容是否符合一特徵字組鄰近群聚條件,以產生每一特徵字組的一命中資料結果清單,再根據各該特徵字組的命中資料結果清單計算出各筆文字資料的一命中分數; 該伺服器從該目標資料庫讀取並輸出命中分數高於一預設分數門檻的至少一筆文字資料作為至少一分析命中資料。

【0007】 從該目標資料庫讀取並輸出命中分數高於一預設分數門檻的至少一筆文字資料作為至少一分析命中資料。以中文而言,一段用以描述一特定內容的文字可能涉及結構、材料、形狀等特性之敘述,且不同人其寫法、用詞、用字亦不同。但以「字」之間的組合來說,有其人眼看不出的相似性。簡言之,一段文字中若將個別「字」切割開來,以不具順序的「字組」的方式看待,以人眼、人腦判斷可能幾乎沒有特殊或明確意義,但就文字的組合性而言,可以在某種程度上代表對特定內容的描述方式。

【0008】 根據上述原理,本新型的純文字分析運算之以文找文系統通過由待分析文字的特徵字中直接提取複數特徵字組,判斷目標資料庫中的文字資料是否有各該特徵字組鄰近群聚之情形以取得各該特徵字組的命中資料結果清單,並進一步統合所有特徵字組的命中資料結果清單以計算各筆文字資料對應的命中分數,從而判斷各筆文字資料與原始待分析文字資料的相關性是否足夠高。當同一筆文字資料出現在其中一特徵字組的命中資料結果清單中時,則代表該命中資料中具有與該待分析文字使用了相似的「文字組合」。進一步而言,該些特徵字組除了包含待分析文字全部的特徵字,且相鄰的特徵字組分別包含互相重疊的特徵字,故該些特徵字組之間兩兩互有直接關聯,或者有間隔的兩特徵字組之間有間接關聯的鏈條結構。

【0009】 當一筆文字資料出現於多個特徵字組的命中資料結果清單中時,代表該筆文字資料的內容與該待分析文字具有高的相似性。故當該命中分數越高,則代表該筆文字資料的內容與該待分析文字所使用的文字組合的相似度越高,該筆文字資料與該待分析文字具有相似內容的可能性也越高,從而找出該目標資料庫中與待分析文字具有高相似內容之文字資料。

【0010】 本新型純文字分析運算之以文找文系統利用由待分析文字中依預設規則直接提取的特徵字組,以判斷特徵字組在文字資料中是否有鄰近群聚之方式對該筆文字資料與待分析文字的內容相似度進行評分,從而找出與待分析文字具有高相似內容之文字資料。避免需要由待分析文字中擷取關鍵字之步驟,從而避免提取關鍵字之步驟中關鍵詞近義詞目標資料庫不完整、文意判斷不正確、關鍵詞提取錯誤等問題,提高以文找文之準確性。

【實施方式】

【0011】 請參閱圖1所示,本新型的純文字分析運算之以文找文系統10包含一使用者裝置11及一伺服器12,該使用者裝置11與該伺服器12通訊連接,該伺服器12與一目標資料庫20通訊連接,該目標資料庫20中包含複數筆文字資料,該目標資料庫20例如是設置於相對該伺服器12的一遠端或近端儲存裝置。其中,該目標資料庫20中之文字資料係指包含有完整語意之語句之資料,例如論文資料或專利資料等。該使用者裝置11供一使用者操作以接收一段待分析文字,並發送至該伺服器12。該使用者裝置11例如是智慧型手機、個人電腦、平板電腦等。該伺服器12例如是一伺服器的主處理單元,該使用者裝置11與該伺服器12,以及該伺服器12與該目標資料庫20可以通過網際網路實現通訊連接。

【0012】 請一併參閱圖2所示,該伺服器12用以執行本新型的純文字分析運算之以文找文方法,該方法包含以下步驟: 從該使用者裝置11接收一段待分析文字,該段待分析文字包含具有順序性的複數個特徵字(S101); 由該等特徵字中依序提取複數特徵字組;其中,每一特徵字組包含連續的第一數量個特徵字,該等特徵字組涵蓋全部的特徵字,且相鄰的兩特徵字組具有第二數量個頭尾重疊的特徵字(S102); 分別針對各該特徵字組,判斷該目標資料庫中的各筆文字資料的內容是否符合一特徵字組鄰近群聚條件,以產生每一特徵字組的一命中資料結果清單;(S103); 根據各該特徵字組的命中資料結果清單計算出各筆文字資料的一命中分數(S104); 從該目標資料庫20讀取並輸出命中分數高於一預設分數門檻的至少一筆文字資料作為至少一分析命中資料(S105)。

【0013】 以下將配合實際舉例針對各該步驟進一步詳細說明。

【0014】 在步驟S101中,該段待分析文字例如是一段文章摘要,將標點符號移除,保留純文字後之所有字元即可作為原始的複數特徵字,而所述順序性即係該些字元在該待分析文字中的排列順序。

【0015】 舉例而言,一段第一待分析文字是「一種隱形眼鏡包含一中心區、一環形區以及一周邊區。中心區包含隱形眼鏡的中心點,環形區對稱環繞中心區,周邊區對稱環繞環形區,隱形眼鏡包含至少一色樣部,環形區包含至少一臨界點值。當滿足特定條件,可緩和離開中心區的屈光度提升幅度,而可提供較緩和的離焦程度,有助於提升長時間配戴的舒適性,進而有利於預防或控制近視。」

【0016】 將其中的標點符號移除以保留純文字後,該段第一待分析文字中原始的特徵字為: 「一」、「種」、「隱」、「形」、「眼」、「鏡」、「包」、「含」、「一」、「中」、「心」、「區」、「一」、「環」、「形」、「區」、「以」、「及」、「一」、「周」、「邊」、「區」、「中」、「心」、「區」、「包」、「含」、「隱」、「形」、「眼」、「鏡」、「的」、「中」、「心」、「點」、「環」、「形」、「區」、「對」、「稱」、「環」、「繞」、「中」、「心」、「區」、「周」、「邊」、「區」、「對」、「稱」、「環」、「繞」、「環」、「形」、「區」、「隱」、「形」、「眼」、「鏡」、「包」、「含」、「至」、「少」、「一」、「色」、「樣」、「部」、「環」、「形」、「區」、「包」、「含」、「至」、「少」、「一」、「臨」、「界」、「點」、「值」、「當」、「滿」、「足」、「特」、「定」、「條」、「件」、「可」、「緩」、「和」、「離」、「開」、「中」、「心」、「區」、「的」、「屈」、「光」、「度」、「提」、「升」、「幅」、「度」、「而」、「可」、「提」、「供」、「較」、「緩」、「和」、「的」、「離」、「焦」、「程」、「度」、「有」、「助」、「於」、「提」、「升」、「長」、「時」、「間」、「配」、「戴」、「的」、「舒」、「適」、「性」、「進」、「而」、「有」、「利」、「於」、「預」、「防」、「或」、「控」、「制」、「近」、「視」,共140字。

【0017】 請參閱圖3所示,在進行特徵字組的提取之前,為了精簡特徵字之字數以降低伺服器12的運算負擔,還可進一步包含以下步驟: 根據一預存之資料庫字頻統計結果,移除該段待分析文字中的至少一高頻字,以保留該段待分析文字中的該複數個特徵字(S301)。

【0018】 其中,所述資料庫字頻統計結果係事先根據一資料庫中所包含的所有文字資料的文字內容,統計每一個字元的出現次數,並進一步根據該資料庫中所有文字資料的內容的字數總和,計算出該資料庫中每一個字元的出現頻率,即「字頻」。根據一預設的字頻門檻(例如:10%),則可以將該段待分析文字中的所有字元分為「高頻字」以及「低頻字」,高頻字在該目標資料庫20中的字頻高於該字頻門檻,低頻字則在該目標資料庫20中的字頻低於該字頻門檻。該資料庫較佳是前述的該目標資料庫20,也可以是相同文字資料領域中的另一資料庫。

【0019】 由於高頻字在整體目標資料庫20中出現的頻率較高,推論其屬於不具特殊意義的字元,例如是連接詞、助詞如「的」、「一」、「或」、「和」等字元,或者慣用詞如「包含」、「具有」、「其中」等字元。故移除待分析文字中的高頻字,將不影響待分析文字中有意義之字元之組合性,且降低伺服器12後續之運算負擔。

【0020】 請參閱圖4所示,在一更佳實施例中,在執行移除該段待分析文字中的至少一高頻字(S301)的步驟前,該伺服器12先判斷該段待分析文字的一總字數是否高於一字數門檻(S401);若該段待分析文字的總字數高於該字數門檻,該伺服器12才移除該段待分析文字中的至少一高頻字(S301)。在本實施例中,當待分析文字字數過多時減少特徵字字數,而若待分析文字字數過少時則無須進一步移除高頻字。該字數門檻根據系統10設置需求而定,例如為70字。

【0021】 延續前述的待分析文字之例子,根據一示例性的資料庫字頻統計結果,該段原始的第一待分析文字中,「一」、「種」、「形」、「中」、「環」、「包」、「含」、…「控」、「制」等為高頻字。將該些高頻字由原始的第一待分析文字中移除後,保留的複數特徵字為 「隱」、「眼」、「鏡」、「心」、「區」、「區」、「周」、「邊」、「區」、「心」、「區」、「隱」、「眼」、「鏡」、「心」、「區」、「稱」、「繞」、「心」、「區」、「周」、「邊」、「區」、「稱」、「繞」、「區」、「隱」、「眼」、「鏡」、「少」、「色」、「樣」、「區」、「少」、「臨」、「界」、「滿」、「足」、「條」、「緩」、「心」、「區」、「屈」、「升」、「幅」、「較」、「緩」、「焦」、「助」、「升」、「長」、「戴」、「舒」、「適」、「預」、「防」、「近」、「視」,共58字。

【0022】 需注意的是,在移除高頻字後,不影響剩餘的特徵字之順序性。

【0023】 請一併參閱圖5所示,在步驟102中,由該些特徵字中依序提取複數包含第一數量個特徵字的特徵字組,而且相鄰的兩特徵字組具有第二數量個重疊的特徵字。其中,第一數量大於第二數量。也就是說,由該些特徵字組的第一個字元開始,每第一數量個特徵字為一個特徵字組,並且前一個特徵字組的末第二數量個特徵字與後一個特徵字組的頭第二數量個特徵字組重疊。舉例而言,該第一數量為3,該第二數量為2,並延續前述移除高頻字後的第一待分析文字中的特徵字為例,所提取的特徵字組共56個,列表如下: 隱、眼、鏡 眼、鏡、心 鏡、心、區 心、區、區 區、區、周 區、周、邊 周、邊、區 邊、區、心 區、心、區 心、區、隱 區、隱、眼 隱、眼、鏡 眼、鏡、心 鏡、心、區 心、區、稱 區、稱、繞 稱、繞、心 繞、心、區 心、區、周 區、周、邊 周、邊、區 邊、區、稱 區、稱、繞 稱、繞、區 繞、區、隱 區、隱、眼 隱、眼、鏡 眼、鏡、少 鏡、少、色 少、色、樣 色、樣、區 樣、區、少 區、少、臨 少、臨、界 臨、界、滿 界、滿、足 滿、足、條 足、條、緩 條、緩、心 緩、心、區 心、區、屈 區、屈、升 屈、升、幅 升、幅、較 幅、較、緩 較、緩、焦 緩、焦、助 焦、助、升 助、升、長 升、長、戴 長、戴、舒 戴、舒、適 舒、適、預 適、預、防 預、防、近 防、近、視

【0024】 所有的特徵字組形成如圖5所示的鏈條結構,鍊條30中,每一個環31為一個特徵字組,相鄰的二環31之間以重疊的特徵字相連,非相鄰但相近的特徵字組之間,藉由該鍊條30結構而具有一定程度的相關性。較佳的,若其中有特徵字全部相同的多個特徵字組,亦可移除重複的特徵字組。舉例而言,前述保留的複數特徵字中,[隱、眼、鏡]共出現3次,故移除重複的2次,保留1特徵字組為條件即可;[區、周、邊]、[周、邊、區]中之特徵字亦全部重複,故移除其中一組,保留一組即可。延續前述例子,由該56個特徵字組中移除重複的特徵字組後,將保留48個特徵字組,列表如下: 隱、眼、鏡 眼、鏡、心 鏡、心、區 心、區、區 區、區、周 區、周、邊 邊、區、心 心、區、隱 區、隱、眼 區、心、區 心、區、稱 稱、繞、區 稱、繞、心 繞、心、區 心、區、周 邊、區、稱 區、稱、繞 繞、區、隱 周、邊、區 眼、鏡、少 鏡、少、色 少、色、樣 色、樣、區 樣、區、少 區、少、臨 少、臨、界 臨、界、滿 界、滿、足 滿、足、條 足、條、緩 條、緩、心 緩、心、區 心、區、屈 區、屈、升 屈、升、幅 升、幅、較 幅、較、緩 較、緩、焦 緩、焦、助 焦、助、升 助、升、長 升、長、戴 長、戴、舒 戴、舒、適 舒、適、預 適、預、防 預、防、近 防、近、視

【0025】 請參閱圖6所示,在步驟S103中,係以每一特徵字組作為一尋找條件,根據各該特徵字組,判斷該目標資料庫20中的各筆文字資料的內容中是否符合一特徵字組鄰近群聚條件。所述特徵字組鄰近群聚條件係指該特徵字組中的各該特徵字出現在文字資料的內容中的一預設字數距離範圍內,即出現特徵字組在文字資料中鄰近群聚之情形。更詳細的說,步驟S103係分別針對每一特徵字組對每一筆文字資料進行以下子步驟: 讀取該筆文字資料的一內容字元位置表,該內容字元位置表包含該筆文字資料中複數字的編號及位置座標(S1031); 判斷該特徵字組中的各該特徵字是否出現在該內容字元位置表中(S1032); 若該特徵字組中的各該特徵字均出現在該內容字元表中,根據各該特徵字對應的位置座標判斷各該特徵字中任二個特徵字之間的字數距離(S1033); 判斷各該特徵字中任二個特徵字之間的字數距離是否小於一預設字數距離門檻(S1034); 若是,判斷該特徵字組在該筆文字資料中符合特徵字組鄰近群聚條件,並且判斷該筆文字資料為該特徵字組的一命中資料(S1035); 將該命中資料紀錄於對應該特徵字組的該命中資料結果清單中(S1036)。

【0026】 步驟S1032、S1034中,若判斷為否,表示該特徵字組在該筆文字資料中不符合該特徵字組鄰近群聚條件,故讀取下一筆文字資料並進行相同判斷。假設設定該距離門檻值為6,也就是說,當該筆文字資料的內容中出現其中一特徵字組的特徵字,且該些特徵字組係在6個字的範圍內,判斷該筆文字資料為該特徵字組的一命中資料。較佳的,相較原始的待分析文字中之特徵字或移除高頻字的待分析文字中之特徵字具有順序性,在提取特徵字組後,特徵字組中之特徵字已不具順序性。換言之,在判斷特徵字組是否在文字資料中鄰近群聚時,無須考慮該特徵字組的該等特徵字在待分析文字中的順序性。

【0027】 舉例而言,該目標資料庫20的該複數筆文字資料中包含一第一文字資料,該第一文字資料包含的一段文字內容為: 「本新型題爲“高加中心治療區鏡片設計以及用於預防和/或减慢近視發展的方法”。本新型公開了接觸鏡片結合减慢、延緩或預防近視發展中的至少一個且最小化光環效應的高加或ADD光焦度分布。鏡片包括包含用於近視發展治療的ADD光焦度的中心區和在圍繞中心區的周邊區域中的至少一個近視視力矯正光焦度。」

【0028】 須說明的是,該第一文字資料的文字內容僅係示例性擷取的部分段落,用以說明特徵字組在文字資料中鄰近群聚之態樣。在實際實施上,該伺服器12係對目標資料庫20的全部文字段落,或者使用者通過使用者裝置11指定之指定欄位的文字內容進行判斷。

【0029】 根據該第一文字資料的文字內容產生的內容字元位置表如下。 座標 內容 座標 內容 座標 內容 座標 內容 座標 內容 [1] 本 [31] 的 [61] 一 [91] 發 [121] 個 [2] 發 [32] 方 [62] 個 [92] 展 [122] 近 [3] 明 [33] 法 [63] 且 [93] 治 [123] 視 [4] 題 [34] 本 [64] 最 [94] 療 [124] 視 [5] 爲 [35] 發 [65] 小 [95] 的 [125] 力 [6] 高 [36] 明 [66] 化 [96] ADD [126] 矯 [7] 加 [37] 公 [67] 光 [97] 光 [127] 正 [8] 中 [38] 開 [68] 環 [98] 焦 [128] 光 [9] 心 [39] 了 [69] 效 [99] 度 [129] 焦 [10] 治 [40] 接 [70] 應 [100] 的 [130] 度 [11] 療 [41] 觸 [71] 的 [101] 中 [12] 區 [42] 鏡 [72] 高 [102] 心 [13] 鏡 [43] 片 [73] 加 [103] 區 [14] 片 [44] 結 [74] 或 [104] 和 [15] 設 [45] 合 [75] ADD [105] 在 [16] 計 [46] 减 [76] 光 [106] 圍 [17] 以 [47] 慢 [77] 焦 [107] 繞 [18] 及 [48] 延 [78] 度 [108] 中 [19] 用 [49] 緩 [79] 分 [109] 心 [20] 於 [50] 或 [80] 布 [110] 區 [21] 預 [51] 預 [81] 鏡 [111] 的 [22] 防 [52] 防 [82] 片 [112] 周 [23] 和 [53] 近 [83] 包 [113] 邊 [24] 或 [54] 視 [84] 括 [114] 區 [25] 减 [55] 發 [85] 包 [115] 域 [26] 慢 [56] 展 [86] 含 [116] 中 [27] 近 [57] 中 [87] 用 [117] 的 [28] 視 [58] 的 [88] 於 [118] 至 [29] 發 [59] 至 [89] 近 [119] 少 [30] 展 [60] 少 [90] 視 [120] 一

【0030】 接著,針對每一特徵字組,判斷該特徵字組中的特徵字是否出現在該內容字元位置表中,若有,則進一步讀取各該特徵字在該第一資料中的座標,並判斷各該徵字中任二個特徵字之間的字數距離。該字數距離例如是將二個特徵字的座標相減計算而得。當任二個特徵字之間的字數距離均小於該預設字數距離門檻,代表該特徵字組中的特徵字出現在該文字資料的內容中的預設字數距離範圍內,故判斷該特徵字組中在該筆文字資料中符合特徵字組鄰近群聚條件。

【0031】 示例性地將該預設字數距離門檻設定為16,可將各該特徵字組在該第一資料中之命中情形表列如下以檢視之。其中,最大字數距離係該特徵字組的任二特徵字的字數距離中最大者,當該最大字數距離小於該字數距離門檻,代表該特徵字組中的任二個特徵字之間的字數距離均小於該字數距離門檻。「未命中」係表示該特徵字組中的至少一特徵字未出現在該第一資料中,或該最大字數距離大於該預設字數距離門檻。 第n組 特徵字組 命中座標 最大字數距離 1 隱、眼、鏡 未命中 2 眼、鏡、心 未命中 3 鏡、心、區 [9]心、[12]區、[13]鏡 4 4 心、區、區 [102]心、[103]區、[110]區 8 5 區、區、周 [103]區、[110]區、[112]周 9 6 區、周、邊 [103]區、[112]周、[113]邊 10 7 邊、區、心 [102]心、[103]區、[113]邊 11 8 心、區、隱 未命中 . . . 47 預、防、近 [21]預、[22]防、[27]近 6 48 防、近、視 [22]防、[27]近、[28]視 6

【0032】 由上表中可看出,由該第一待分析文字提取的48個特徵字組中,至少其中第3~7、47,48組的特徵字之間的字數距離在該第一資料中的字數距離門檻內,即16個字的字數距離範圍內,符合特徵字組鄰近群聚條件,故該第一資料至少會被記錄於第3~7、47,48組的特徵字組的命中資料結果清單中。

【0033】 通過上述步驟,根據每一特徵字組之條件,都會產生一對應的命中資料結果清單。須注意的是,當該筆文字資料的內容中出現同一特徵字組在不同地方有多次鄰近群聚之情形,即一特徵字組在該筆文字資料的內容中多次出現,該命中資料結果清單中僅記錄該筆文字資料1次,避免局部重複性高的文字資料內容影響計分結果。

【0034】 在實做上,當該伺服器12判斷其中一特徵字組在該筆文字資料的內容中出現鄰近群聚,即可終止針對該特徵字組在該筆文字資料的內容中是否有鄰近群聚的判斷運算,並完成紀錄該筆文字資料,以節省運算資源。

【0035】 請參閱圖7所示,在步驟S104中,當完成產生各該特徵字組的命中結果清單後,根據各該特徵字組的命中資料結果清單進行命中統計,以分別計算該目標資料庫20中之各筆文字資料的命中分數。更詳細的說,其包含以下子步驟: 建立一評分統計表,該評分統計表包含對應各筆文字資料的一分數欄位(S1041); 依序讀取各該特徵字組的命中資料結果清單,當在其中一命中資料結果清單中讀取到其中一文字資料的紀錄時,在該評分統計表中對應該其中一文字資料的分數欄位累加1分,以計算該其中一文字資料的該命中分數(S1042); 當完成讀取各該特徵字組的命中資料結果清單,根據對應各筆文字資料的分數欄位中的命中分數的高低將該評分統計表中的各筆文字資料進行一重新排序(S1043)。

【0036】 通過上述步驟完成的該統計評分表中,每一文字資料均被賦予一命中分數。對應其中一文字資料的該命中分數代表了在該等特徵字組中,共有幾組曾在該筆文字資料的內容中出現鄰近群聚。若共有N個特徵字組,該命中分數的滿分即為N分。以該第一文字資料的該段內容為例,該第一文字資料的該段內容中出現3個特徵字組鄰近群聚之情形,故該第一文字資料由該段內容中取得3分。

【0037】 在步驟S105中,該預設分數門檻係根據該等特徵字組之數量以及一預設命中分數比率計算產生。舉例而言,該預設命中分數比率為60%(即0.6),且有N個特徵字組,故命中分數為N*(1-0.6)以上的文字資料,即判斷為分析命中資料。延續前述例子,特徵字組共48個,預設命中分數比率為60%,故預設分數門檻為48*0.4=19.2。故命中分數高於19.2分的文字資料,判定為分析命中資料。該伺服器12可將判定為分析命中資料的文字資料輸出至使用者裝置11,供使用者查看。

【0038】 綜上所述,本新型的純文字分析運算以文找文系統及方法通過將待分析文字分解為具有相連重疊關係的特徵字組,且每一個特徵字組分別作為條件在各筆文字資料中搜尋鄰近群聚之情形,若有,則表示該筆文字資料可能有與該特徵字組之所在語句相似的文字組合。通過所有特徵字組的搜尋結果,對資料庫中的所有文字資料進行評分統計,從而找出與該原始的待分析文字具有高度相似文字組合的結果。此外,藉由待分析文字的字數判斷、高頻字的移除,降低伺服器的運算負擔,確保系統輸出待分析命中資料之速率。由於本新型不涉及從待分析文字中提取關鍵詞的步驟,故不受關鍵詞提取運算準確度、關鍵詞資料庫完整度的影響,達到更有效且精準的以文找文之目標。

【圖式簡單說明】

【0039】 圖1係本新型純文字分析運算之以文找文系統之系統方塊圖。 圖2係本新型純文字分析運算之以文找文方法之方法流程圖。 圖3係本新型純文字分析運算之以文找文方法的一較佳實施例的方法流程圖。 圖4係本新型純文字分析運算之以文找文方法之一更佳實施例的方法流程圖。 圖5係本新型純文字分析運算之以文找文方法中特徵字組提取之視覺化示意圖。 圖6係本新型純文字分析運算之以文找文方法步驟S103的子步驟方法流程圖。 圖7係本新型純文字分析運算之以文找文方法步驟S104的子步驟方法流程圖。
符號說明
符號說明 10:純文字分析運算之以文找文系統 11:使用者裝置 12:伺服器 20:目標資料庫 30:鍊條 31:環 S101~S105:步驟 S301,S401:步驟 S1031~S1036:步驟 S1041~S1043:步驟