日韩av片子_国产自在自线午夜精品视频在_使劲快高潮了国语对白在线_久久免费毛片大全_激情丁香综合_欧美成人精品欧美一级乱黄码

中培偉業IT資訊頻道
您現在的位置:首頁 > IT資訊 > 大數據 > 文本獲取與預處理

文本獲取與預處理

2018-05-09 14:39:03 | 來源:中培企業IT培訓網

(2)輿情分析在大數據時代的背景下,網絡上存在大量以文本為代表的非結構化數據,特別是互聯網上的新聞、社交媒體數據,其中更不乏與商業銀行有關的輿情信息。對這些信息進行有效的挖掘和利用,將為商業銀行及時掌握在互聯網上傳播的潛在風險事件提供一個全新的視角。

實現輿情風險管理的文本挖掘技術過程一般分為文本獲取、預處理、分析挖掘、可視化展現等步驟。

1)文本獲取:商業銀行獲取文本的方式包括已采購的財經新聞、行業動態、研究報告等外部資訊信息,還可以通過開發采集工具來進一步擴大新聞媒體的采集范圍,比如對以微博、論壇為代表的社交媒體信息進行采集。采集方式包括搜索引擎(通過搜索引擎進行關鍵詞搜索,之后將所有結果通過爬網程序進行采集)、新聞網站、論壇頁面適配(通過Web爬蟲程序抓取微博或論壇頁面,并從頁面結構中解析出正文和評論數據)、微博頁面適配(通過模擬實際用戶登錄后對微博信息進行采集)。

2)預處理:包括中文分詞和文本去重等步驟,從而實現文本的預處理。前者是在獲取到文本數據之后,將文本切分成詞匯的集合,使得機器能夠更好地理解詞匯組成的文本。后者則通過相似哈希算法快速對海量文本相似程度進行計算:將文檔看成特征詞的集合,為每個特征詞分配唯一編碼;根據特征詞的編碼以及在文檔中的權重,通過相似哈希算法生成文檔的信息指紋(可比較的64位二進制編碼);文檔指紋完全相同的文檔,則認定為內容相同;指紋間不同的位數越少,則說明文檔內容越相似。文本虛詞的增減、語句位置的變換將不會影響近似文本的發現。

標簽: 輿情分析

相關閱讀

主站蜘蛛池模板: 麻豆精品人妻一区二区三区蜜桃 | av色区| 91chinesevideo永久地址 | 青青久久av | 偿还的影视高清在线观看 | 国产午夜精品一区二区三区软件 | 日日射天天操 | 日本精品777777免费视频 | 无码午夜人妻一区二区三区不卡视频 | 少妇作爱bbbb免费看 | 日韩成人在线一区二区三区 | 国语精品91自产拍在线观看二区 | ZZIJZZIJ亚洲日本少妇 | 高清精品一区二区三区 | 国模少妇一区二区三区咪咕 | 亚洲色婷婷久久久综合 | 久久精品黄AA片一区二区三区 | 亚洲成av人片在线观看无码不卡 | 久久久久久三区 | 日韩欧美综合一区 | 不卡在线 | 中文av网| 丰满熟妇人妻Av无码区 | 欧美日韩黄色一级片 | 99国产精品久久久久久久... | 香蕉97人人乳视频观看 | 99精品国自产在线 | 超碰在线个人 | 韩国成人精品a∨在线观看 成年人视频在线网站 | 边吃奶边做爰高潮免费视频 | 国产毛片精品一区二区色欲黄A片 | 国产成人精品一区二区秒播 | 日韩欧美中文 | chinese河北hd乱子伦 | 91天堂在线| 国语精品91自产拍在线观看二区 | 欧美一区二区三区成人精品 | 绯色av一区二区三区在线观看 | 国产伦精品一区三区视频 | 最近av在线 | 国产高清免费看 |