日韩av片子_国产自在自线午夜精品视频在_使劲快高潮了国语对白在线_久久免费毛片大全_激情丁香综合_欧美成人精品欧美一级乱黄码

中培偉業(yè)IT資訊頻道
您現(xiàn)在的位置:首頁 > IT資訊 > 大數(shù)據(jù) > 文本獲取與預(yù)處理

文本獲取與預(yù)處理

2018-05-09 14:39:03 | 來源:中培企業(yè)IT培訓(xùn)網(wǎng)

(2)輿情分析在大數(shù)據(jù)時代的背景下,網(wǎng)絡(luò)上存在大量以文本為代表的非結(jié)構(gòu)化數(shù)據(jù),特別是互聯(lián)網(wǎng)上的新聞、社交媒體數(shù)據(jù),其中更不乏與商業(yè)銀行有關(guān)的輿情信息。對這些信息進(jìn)行有效的挖掘和利用,將為商業(yè)銀行及時掌握在互聯(lián)網(wǎng)上傳播的潛在風(fēng)險事件提供一個全新的視角。

實現(xiàn)輿情風(fēng)險管理的文本挖掘技術(shù)過程一般分為文本獲取、預(yù)處理、分析挖掘、可視化展現(xiàn)等步驟。

1)文本獲取:商業(yè)銀行獲取文本的方式包括已采購的財經(jīng)新聞、行業(yè)動態(tài)、研究報告等外部資訊信息,還可以通過開發(fā)采集工具來進(jìn)一步擴(kuò)大新聞媒體的采集范圍,比如對以微博、論壇為代表的社交媒體信息進(jìn)行采集。采集方式包括搜索引擎(通過搜索引擎進(jìn)行關(guān)鍵詞搜索,之后將所有結(jié)果通過爬網(wǎng)程序進(jìn)行采集)、新聞網(wǎng)站、論壇頁面適配(通過Web爬蟲程序抓取微博或論壇頁面,并從頁面結(jié)構(gòu)中解析出正文和評論數(shù)據(jù))、微博頁面適配(通過模擬實際用戶登錄后對微博信息進(jìn)行采集)。

2)預(yù)處理:包括中文分詞和文本去重等步驟,從而實現(xiàn)文本的預(yù)處理。前者是在獲取到文本數(shù)據(jù)之后,將文本切分成詞匯的集合,使得機(jī)器能夠更好地理解詞匯組成的文本。后者則通過相似哈希算法快速對海量文本相似程度進(jìn)行計算:將文檔看成特征詞的集合,為每個特征詞分配唯一編碼;根據(jù)特征詞的編碼以及在文檔中的權(quán)重,通過相似哈希算法生成文檔的信息指紋(可比較的64位二進(jìn)制編碼);文檔指紋完全相同的文檔,則認(rèn)定為內(nèi)容相同;指紋間不同的位數(shù)越少,則說明文檔內(nèi)容越相似。文本虛詞的增減、語句位置的變換將不會影響近似文本的發(fā)現(xiàn)。

標(biāo)簽: 輿情分析

相關(guān)閱讀

主站蜘蛛池模板: 老师课后辅导乳揉搓H在线观看 | 欧美性大战久久久久久久蜜桃 | 91无吗 | 一个色综合国产色综合 | 美女自卫慰黄网站 | 麻豆av福利av久久av | 日韩精品无码免费专区午夜不卡 | www.77伦理bt.com | 一个人看的免费高清视频www | 免费特级黄色片 | 国产九九精品 | 日韩欧美大片在线观看 | 狠狠躁日日躁夜夜躁2022麻豆 | 嫩草视频91 | 欧美乱妇高清无乱码免费 | 免费无码又爽又高潮视频 | 国产看片网址最新在线 | 日韩一级片免费视频 | 天天鲁啊鲁在线看 | 成全视频免费观看在线与鸭 | 黄色中文字幕在线观看 | 欧美精品无码一区二区三区 | 国产精品国语自产拍在线观看 | 精品女同一区二区三区在线绯色 | 欧美日韩激情在线 | 亚洲欧美日韩久久精品 | 卡一卡2卡3卡4精品乱码免费 | 亚洲理论在线a中文字幕 | 国产良心大作白丝精厕 | 亚洲中文字幕aⅴ天堂 | 一本一本久久a久久精品综合妖精 | 最色网ww | 国产尤物在线视频 | 无码国模大尺度视频在线观看 | 久久久久看片 | 东京热加勒比无码少妇 | 97视频久久久 | 精品国产免费观看久久久 | 国产精品久久久久久999 | 裸体写真av在线1080p | 日本护士毛茸茸 |