文學城首頁博客首頁

登錄注冊

昊源媽

首頁文章列表博文目錄

個人資料

昊源媽

昊源媽

給我悄悄話

博客訪問：

最新文章

文章分類

我的文章 (276)

歸檔

2014 (25)

2015 (22)

2018 (3)

2019 (4)

2021 (97)

2022 (93)

2023 (11)

2024 (12)

2025 (9)

最新評論

正文

幾乎最全的中文NLP資源庫

(2021-11-18 22:02:19) 下一個

最近對信息抽取和文本匹配產生了興趣，搜索到這個網址。網上多是能人！GitHub - fighting41love/funNLP: 中英文敏感詞、語言檢測、中外手機/電話歸屬地/運營商查詢、名字推斷性別、手機號抽取、身份證抽取、郵箱抽取、中日文人名庫、中文縮寫庫、拆字詞典、詞匯情感值、停用詞、反動詞表、暴恐詞表、繁簡體轉換、英文模擬中文發音、汪峰歌詞生成器、職業名稱詞庫、同義詞庫、反義詞庫、否定詞庫、汽車品牌詞庫、汽車零件詞庫、連續英文切割、各種中文詞向量、公司名字大全、古詩詞庫、IT詞庫、財經詞庫、成語詞庫、地名詞庫、曆史名人詞庫、詩詞詞庫、醫學詞庫、飲食詞庫、法律詞庫、汽車詞庫、動物詞庫、中文聊天語料、中文謠言數據、百度中文問答數據集、句子相似度匹配算法集合、bert資源、文本生成&摘要相關工具、cocoNLP信息抽取工具、國內電話號碼正則匹配、清華大學XLORE:中英文跨語言百科知識圖譜、清華大學人工智能技術係列報告、自然語言生成、NLU太難了係列、自動對聯數據及機器人、用戶名黑名單列表、罪名法務名詞及分類模型、微信公眾號語料、cs224n深度學習自然語言處理課程、中文手寫漢字識別、中文自然語言處理語料/數據集、變量命名神器、分詞語料庫+代碼、任務型對話英文數據集、ASR 語音數據集 + 基於深度學習的中文語音識別係統、笑聲檢測器、Microsoft多語言數字/單位/如日期時間識別包、中華新華字典數據庫及api(包括常用歇後語、成語、詞語和漢字)、文檔圖譜自動生成、SpaCy 中文模型、Common Voice語音識別數據集新版、神經網絡關係抽取、基於bert的命名實體識別、關鍵詞(Keyphrase)抽取包pke、基於醫療領域知識圖譜的問答係統、基於依存句法與語義角色標注的事件三元組抽取、依存句法分析4萬句高質量標注數據、cnocr：用來做中文OCR的Python3包、中文人物關係知識圖譜項目、中文nlp競賽項目及代碼匯總、中文字符數據、speech-aligner: 從“人聲語音”及其“語言文本”產生音素級別時間對齊標注的工具、AmpliGraph: 知識圖譜表示學習(Python)庫：知識圖譜概念鏈接預測、Scattertext 文本可視化(python)、語言/知識表示工具：BERT & ERNIE、中文對比英文自然語言處理NLP的區別綜述、Synonyms中文近義詞工具包、HarvestText領域自適應文本挖掘工具（新詞發現-情感分析-實體鏈接等）、word2word：(Python)方便易用的多語言詞-詞對集：62種語言/3,564個多語言對、語音識別語料生成工具：從具有音頻/字幕的在線視頻創建自動語音識別(ASR)語料庫、構建醫療實體識別的模型（包含詞典和語料標注）、單文檔非監督的關鍵詞抽取、Kashgari中使用gpt-2語言模型、開源的金融投資數據提取工具、文本自動摘要庫TextTeaser: 僅支持英文、人民日報語料處理工具集、一些關於自然語言的基本模型、基於14W歌曲知識庫的問答嚐試--功能包括歌詞接龍and已知歌詞找歌曲以及歌曲歌手歌詞三角關係的問答、基於Siamese bilstm模型的相似句子判定模型並提供訓練數據集和測試數據集、用Transformer編解碼模型實現的根據Hacker News文章標題自動生成評論、用BERT進行序列標記和文本分類的模板代碼、LitBank：NLP數據集——支持自然語言處理和計算人文學科任務的100部帶標記英文小說語料、百度開源的基準信息抽取係統、虛假新聞數據集、Facebook: LAMA語言模型分析，提供Transformer-XL/BERT/ELMo/GPT預訓練語言模型的統一訪問接口、CommonsenseQA：麵向常識的英文QA挑戰、中文知識圖譜資料、數據及工具、各大公司內部裏大牛分享的技術文檔 PDF 或者 PPT、自然語言生成SQL語句（英文）、中文NLP數據增強（EDA）工具、英文NLP數據增強工具、基於醫藥知識圖譜的智能問答係統、京東商品知識圖譜、基於mongodb存儲的軍事領域知識圖譜問答項目、基於遠監督的中文關係抽取、語音情感分析、中文ULMFiT-情感分析-文本分類-語料及模型、一個拍照做題程序、世界各國大規模人名庫、一個利用有趣中文語料庫 qingyun 訓練出來的中文聊天機器人、中文聊天機器人seqGAN、省市區鎮行政區劃數據帶拚音標注、教育行業新聞語料庫包含自動文摘功能、開放了對話機器人-知識圖譜-語義理解-自然語言處理工具及數據、中文知識圖譜：基於百度百科中文頁麵-抽取三元組信息-構建中文知識圖譜、masr: 中文語音識別-提供預訓練模型-高識別率、Python音頻數據增廣庫、中文全詞覆蓋BERT及兩份閱讀理解數據、ConvLab：開源多域端到端對話係統平台、中文自然語言處理數據集、基於最新版本rasa搭建的對話係統、基於TensorFlow和BERT的管道式實體及關係抽取、一個小型的證券知識圖譜/知識庫、複盤所有NLP比賽的TOP方案、OpenCLaP：多領域開源中文預訓練語言模型倉庫、UER：基於不同語料+編碼器+目標任務的中文預訓練模型倉庫、中文自然語言處理向量合集、基於金融-司法領域(兼有閑聊性質)的聊天機器人、g2pC：基於上下文的漢語讀音自動標記模塊、Zincbase 知識圖譜構建工具包、詩歌質量評價/細粒度情感詩歌語料庫、快速轉化「中文數字」和「阿拉伯數字」、百度知道問答語料庫、基於知識圖譜的問答係統、jieba_fast 加速版的jieba、正則表達式教程、中文閱讀理解數據集、基於BERT等最新語言模型的抽取式摘要提取、Python利用深度學習進行文本摘要的綜合指南、知識圖譜深度學習相關資料整理、維基大規模平行文本語料、StanfordNLP 0.2.0：純Python版自然語言處理包、NeuralNLP-NeuralClassifier：騰訊開源深度學習文本分類工具、端到端的封閉域對話係統、中文命名實體識別：NeuroNER vs. BertNER、新聞事件線索抽取、2019年百度的三元組抽取比賽：“科學空間隊”源碼、基於依存句法的開放域文本知識三元組抽取和知識庫構建、中文的GPT2訓練代碼、ML-NLP - 機器學習(Machine Learning)NLP麵試中常考到的知識點和代碼實現、nlp4han:中文自然語言處理工具集(斷句/分詞/詞性標注/組塊/句法分析/語義分析/NER/N元語法/HMM/代詞消解/情感分析/拚寫檢查、XLM：Facebook的跨語言預訓練語言模型、用基於BERT的微調和特征提取方法來進行知識圖譜百度百科人物詞條屬性抽取、中文自然語言處理相關的開放任務-數據集-當前最佳結果、CoupletAI - 基於CNN+Bi-LSTM+Attention 的自動對對聯係統、抽象知識圖譜、MiningZhiDaoQACorpus - 580萬百度知道問答數據挖掘項目、brat rapid annotation tool: 序列標注工具、大規模中文知識圖譜數據：1.4億實體、數據增強在機器翻譯及其他nlp任務中的應用及效果、allennlp閱讀理解:支持多種數據和模型、PDF表格數據提取工具、 Graphbrain：AI開源軟件庫和科研工具，目的是促進自動意義提取和文本理解以及知識的探索和推斷、簡曆自動篩選係統、基於命名實體識別的簡曆自動摘要、中文語言理解測評基準，包括代表性的數據集&基準模型&語料庫&排行榜、樹洞 OCR 文字識別、從包含表格的掃描圖片中識別表格和文字、語聲遷移、Python口語自然語言處理工具集(英文)、 similarity：相似度計算工具包，java編寫、海量中文預訓練ALBERT模型、Transformers 2.0 、基於大規模音頻數據集Audioset的音頻增強、Poplar：網頁版自然語言標注工具、圖片文字去除，可用於漫畫翻譯、186種語言的數字叫法庫、Amazon發布基於知識的人-人開放領域對話數據集、中文文本糾錯模塊代碼、繁簡體轉換、 Python實現的多種文本可讀性評價指標、類似於人名/地名/組織機構名的命名體識別數據集、東南大學《知識圖譜》研究生課程(資料)、. 英文拚寫檢查庫、 wwsearch是企業微信後台自研的全文檢索引擎、CHAMELEON：深度學習新聞推薦係統元架構、 8篇論文梳理BERT相關模型進展與反思、DocSearch：免費文檔搜索引擎、 LIDA：輕量交互式對話標注工具、aili - the fastest in-memory index in the East 東半球最快並發索引、知識圖譜車音工作項目、自然語言生成資源大全、中日韓分詞庫mecab的Python接口庫、中文文本摘要/關鍵詞提取、漢字字符特征提取器 (featurizer)，提取漢字的特征（發音特征、字形特征）用做深度學習的特征、中文生成任務基準測評、中文縮寫數據集、中文任務基準測評 - 代表性的數據集-基準(預訓練)模型-語料庫-baseline-工具包-排行榜、PySS3：麵向可解釋AI的SS3文本分類器機器可視化工具、中文NLP數據集列表、COPE - 格律詩編輯程序、doccano：基於網頁的開源協同多語言文本標注工具、PreNLP：自然語言預處理庫、簡單的簡曆解析器，用來從簡曆中提取關鍵信息、用於中文閑聊的GPT2模型：GPT2-chitchat、基於檢索聊天機器人多輪響應選擇相關資源列表(Leaderboards、Datasets、Papers)、(Colab)抽象文本摘要實現集錦(教程、詞語拚音數據、高效模糊搜索工具、NLP數據增廣資源集、微軟對話機器人框架、 GitHub Typo Corpus：大規模GitHub多語言拚寫錯誤/語法錯誤數據集、TextCluster：短文本聚類預處理模塊

[ 打印 ]

[ 加入書簽 ]

閱讀 () ┆ 評論

評論

目前還沒有任何評論

登錄後才可評論.