A.統計詞頻率
B.刪除停止詞與低頻詞
C.中文分詞
D.潛在語義分析
E.計算詞頻率-逆文檔頻率
第1题
A.詞袋模型(bag-of-words model)適用於描述文本的一個簡單的數學模型,也是常用的一種文本特徵提取方式
B.詞袋模型對文檔進行了很大程度的簡化,但一定程度上仍然保留了文檔的主題信息
C.對文本建構詞袋之前,需要先借著額外的手段將文本中的詞語分開,這項技術稱之為分詞 (word-segment)
D.在文檔中,例如『的』、『也』這樣構成一個句子的基本字詞對文檔的主題區分並無幫助,且不攜帶任何主題信息的高頻詞稱為停止詞 (Stop word),在構建詞典時必須去除
E.一個詞在文檔中出現的頻率稱為詞頻率 (term frequency) 其定義為該詞語在文本中出現的次數與這段文本中詞語的總數的商
第3题
A.詞頻統計的方法中,對於要將單一主題的文檔從海量的語料庫中發掘出來是很輕易的,不需要借助額外的技術來獲取詞頻向量
B.主題模型 (topic model) 是描述語料庫及其中潛在的一類數字模型,首先考慮到的是如何用數學語言去描述一個主題
C.詞頻向量是由所有的詞頻組合在一起,同時,詞頻為該字詞在文本出現的總數除以文檔中的總詞語數
D.文黨的詞頻、主題的比重、主題的詞頻三者之間的關係為D(文檔詞頻) = W(主題比重)* T(主題詞頻)
E.文本挖掘技術基本上屬於無監督學習方法
第6题
A.一個文字區塊被妥善排列,以顯示區塊中的文字都是互相有關係的
B.選用的詞條適合目標對象
C.閱讀字詞,字句和文字模塊時,所需花的力氣相對的低
D.文件在視覺上的吸引力這項特性
第7题
A.對複音虛詞與單音虛詞同等重視
B.重視虛詞“史”的說明。
C.釋義力求擺脫傳統的辭訓式的解說,儘量從語法的角度進行分析和描寫。
D.有些詞條設有辨析一欄,用來辨析該詞和其他詞古今用法或意義的差異。
第8题
A.詞袋模型是用於描述文本的一個簡單的數學模型
B.詞袋模型是常用的一種文本特徵提取方式
C.詞袋模型只考慮詞語在文檔中出現的次數
D.詞袋模型不忽略詞語的順序和句子的結構
E.詞袋模型忽略詞語的順序和句子的結構
第9题
請指出下列句子中加括號的兩個字各屬於合成詞、詞組還是單純詞,同時說明它們各自的特點。
①把酒臨風,其喜(洋洋)者矣。(范仲淹《岳陽樓記》)
②(盈盈)公府步,(冉冉)府中趣。(《陌上桑》)
③秦人開關延敵,九國之師(逡巡)而不敢進。(賈誼《過秦論》)
④嗚呼!(死生),晝夜事也。(文天祥《指南錄後序》)
⑤璧有瑕,請(指示)王。(《史記•廉頗藺相如列傅》)
⑥青冥(浩蕩)不見底,日月照耀金銀台。(李白《夢游天姥吟留别》
⑦芳草鮮美,落英(繽紛)。(陶淵明《桃花源記》)
⑧率(妻子)邑人來此絕境,不復出焉,遂與外人間隔。(陶淵明《桃花源記》)
⑨便可白(公姥),及時相遺歸。(《孔雀東南飛》)
⑩夫子(喟然)嘆曰:“吾與點也。"(《論語•先進》
第10题
A.分文不值 為期不遠 大快人心 遲疑不決
B.一乾二淨 為期不遠 十拿九穩 莫名其妙
C.一乾二淨 指日可待 十拿九穩 捉摸不透
D.分文不值 指日可待 大快人心 煩躁不安
为了保护您的账号安全,请在“上学吧”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!