正文

幾乎最全的中文NLP資源庫

(2021-11-18 22:02:19) 下一個

最近對信息抽取和文本匹配產生了興趣,搜索到這個網址。網上多是能人!GitHub - fighting41love/funNLP: 中英文敏感詞、語言檢測、中外手機/電話歸屬地/運營商查詢、名字推斷性別、手機號抽取、身份證抽取、郵箱抽取、中日文人名庫、中文縮寫庫、拆字詞典、詞匯情感值、停用詞、反動詞表、暴恐詞表、繁簡體轉換、英文模擬中文發音、汪峰歌詞生成器、職業名稱詞庫、同義詞庫、反義詞庫、否定詞庫、汽車品牌詞庫、汽車零件詞庫、連續英文切割、各種中文詞向量、公司名字大全、古詩詞庫、IT詞庫、財經詞庫、成語詞庫、地名詞庫、曆史名人詞庫、詩詞詞庫、醫學詞庫、飲食詞庫、法律詞庫、汽車詞庫、動物詞庫、中文聊天語料、中文謠言數據、百度中文問答數據集、句子相似度匹配算法集合、bert資源、文本生成&摘要相關工具、cocoNLP信息抽取工具、國內電話號碼正則匹配、清華大學XLORE:中英文跨語言百科知識圖譜、清華大學人工智能技術係列報告、自然語言生成、NLU太難了係列、自動對聯數據及機器人、用戶名黑名單列表、罪名法務名詞及分類模型、微信公眾號語料、cs224n深度學習自然語言處理課程、中文手寫漢字識別、中文自然語言處理 語料/數據集、變量命名神器、分詞語料庫+代碼、任務型對話英文數據集、ASR 語音數據集 + 基於深度學習的中文語音識別係統、笑聲檢測器、Microsoft多語言數字/單位/如日期時間識別包、中華新華字典數據庫及api(包括常用歇後語、成語、詞語和漢字)、文檔圖譜自動生成、SpaCy 中文模型、Common Voice語音識別數據集新版、神經網絡關係抽取、基於bert的命名實體識別、關鍵詞(Keyphrase)抽取包pke、基於醫療領域知識圖譜的問答係統、基於依存句法與語義角色標注的事件三元組抽取、依存句法分析4萬句高質量標注數據、cnocr:用來做中文OCR的Python3包、中文人物關係知識圖譜項目、中文nlp競賽項目及代碼匯總、中文字符數據、speech-aligner: 從“人聲語音”及其“語言文本”產生音素級別時間對齊標注的工具、AmpliGraph: 知識圖譜表示學習(Python)庫:知識圖譜概念鏈接預測、Scattertext 文本可視化(python)、語言/知識表示工具:BERT & ERNIE、中文對比英文自然語言處理NLP的區別綜述、Synonyms中文近義詞工具包、HarvestText領域自適應文本挖掘工具(新詞發現-情感分析-實體鏈接等)、word2word:(Python)方便易用的多語言詞-詞對集:62種語言/3,564個多語言對、語音識別語料生成工具:從具有音頻/字幕的在線視頻創建自動語音識別(ASR)語料庫、構建醫療實體識別的模型(包含詞典和語料標注)、單文檔非監督的關鍵詞抽取、Kashgari中使用gpt-2語言模型、開源的金融投資數據提取工具、文本自動摘要庫TextTeaser: 僅支持英文、人民日報語料處理工具集、一些關於自然語言的基本模型、基於14W歌曲知識庫的問答嚐試--功能包括歌詞接龍and已知歌詞找歌曲以及歌曲歌手歌詞三角關係的問答、基於Siamese bilstm模型的相似句子判定模型並提供訓練數據集和測試數據集、用Transformer編解碼模型實現的根據Hacker News文章標題自動生成評論、用BERT進行序列標記和文本分類的模板代碼、LitBank:NLP數據集——支持自然語言處理和計算人文學科任務的100部帶標記英文小說語料、百度開源的基準信息抽取係統、虛假新聞數據集、Facebook: LAMA語言模型分析,提供Transformer-XL/BERT/ELMo/GPT預訓練語言模型的統一訪問接口、CommonsenseQA:麵向常識的英文QA挑戰、中文知識圖譜資料、數據及工具、各大公司內部裏大牛分享的技術文檔 PDF 或者 PPT、自然語言生成SQL語句(英文)、中文NLP數據增強(EDA)工具、英文NLP數據增強工具 、基於醫藥知識圖譜的智能問答係統、京東商品知識圖譜、基於mongodb存儲的軍事領域知識圖譜問答項目、基於遠監督的中文關係抽取、語音情感分析、中文ULMFiT-情感分析-文本分類-語料及模型、一個拍照做題程序、世界各國大規模人名庫、一個利用有趣中文語料庫 qingyun 訓練出來的中文聊天機器人、中文聊天機器人seqGAN、省市區鎮行政區劃數據帶拚音標注、教育行業新聞語料庫包含自動文摘功能、開放了對話機器人-知識圖譜-語義理解-自然語言處理工具及數據、中文知識圖譜:基於百度百科中文頁麵-抽取三元組信息-構建中文知識圖譜、masr: 中文語音識別-提供預訓練模型-高識別率、Python音頻數據增廣庫、中文全詞覆蓋BERT及兩份閱讀理解數據、ConvLab:開源多域端到端對話係統平台、中文自然語言處理數據集、基於最新版本rasa搭建的對話係統、基於TensorFlow和BERT的管道式實體及關係抽取、一個小型的證券知識圖譜/知識庫、複盤所有NLP比賽的TOP方案、OpenCLaP:多領域開源中文預訓練語言模型倉庫、UER:基於不同語料+編碼器+目標任務的中文預訓練模型倉庫、中文自然語言處理向量合集、基於金融-司法領域(兼有閑聊性質)的聊天機器人、g2pC:基於上下文的漢語讀音自動標記模塊、Zincbase 知識圖譜構建工具包、詩歌質量評價/細粒度情感詩歌語料庫、快速轉化「中文數字」和「阿拉伯數字」、百度知道問答語料庫、基於知識圖譜的問答係統、jieba_fast 加速版的jieba、正則表達式教程、中文閱讀理解數據集、基於BERT等最新語言模型的抽取式摘要提取、Python利用深度學習進行文本摘要的綜合指南、知識圖譜深度學習相關資料整理、維基大規模平行文本語料、StanfordNLP 0.2.0:純Python版自然語言處理包、NeuralNLP-NeuralClassifier:騰訊開源深度學習文本分類工具、端到端的封閉域對話係統、中文命名實體識別:NeuroNER vs. BertNER、新聞事件線索抽取、2019年百度的三元組抽取比賽:“科學空間隊”源碼、基於依存句法的開放域文本知識三元組抽取和知識庫構建、中文的GPT2訓練代碼、ML-NLP - 機器學習(Machine Learning)NLP麵試中常考到的知識點和代碼實現、nlp4han:中文自然語言處理工具集(斷句/分詞/詞性標注/組塊/句法分析/語義分析/NER/N元語法/HMM/代詞消解/情感分析/拚寫檢查、XLM:Facebook的跨語言預訓練語言模型、用基於BERT的微調和特征提取方法來進行知識圖譜百度百科人物詞條屬性抽取、中文自然語言處理相關的開放任務-數據集-當前最佳結果、CoupletAI - 基於CNN+Bi-LSTM+Attention 的自動對對聯係統、抽象知識圖譜、MiningZhiDaoQACorpus - 580萬百度知道問答數據挖掘項目、brat rapid annotation tool: 序列標注工具、大規模中文知識圖譜數據:1.4億實體、數據增強在機器翻譯及其他nlp任務中的應用及效果、allennlp閱讀理解:支持多種數據和模型、PDF表格數據提取工具 、 Graphbrain:AI開源軟件庫和科研工具,目的是促進自動意義提取和文本理解以及知識的探索和推斷、簡曆自動篩選係統、基於命名實體識別的簡曆自動摘要、中文語言理解測評基準,包括代表性的數據集&基準模型&語料庫&排行榜、樹洞 OCR 文字識別 、從包含表格的掃描圖片中識別表格和文字、語聲遷移、Python口語自然語言處理工具集(英文)、 similarity:相似度計算工具包,java編寫、海量中文預訓練ALBERT模型 、Transformers 2.0 、基於大規模音頻數據集Audioset的音頻增強 、Poplar:網頁版自然語言標注工具、圖片文字去除,可用於漫畫翻譯 、186種語言的數字叫法庫、Amazon發布基於知識的人-人開放領域對話數據集 、中文文本糾錯模塊代碼、繁簡體轉換 、 Python實現的多種文本可讀性評價指標、類似於人名/地名/組織機構名的命名體識別數據集 、東南大學《知識圖譜》研究生課程(資料)、. 英文拚寫檢查庫 、 wwsearch是企業微信後台自研的全文檢索引擎、CHAMELEON:深度學習新聞推薦係統元架構 、 8篇論文梳理BERT相關模型進展與反思、DocSearch:免費文檔搜索引擎、 LIDA:輕量交互式對話標注工具 、aili - the fastest in-memory index in the East 東半球最快並發索引 、知識圖譜車音工作項目、自然語言生成資源大全 、中日韓分詞庫mecab的Python接口庫、中文文本摘要/關鍵詞提取、漢字字符特征提取器 (featurizer),提取漢字的特征(發音特征、字形特征)用做深度學習的特征、中文生成任務基準測評 、中文縮寫數據集、中文任務基準測評 - 代表性的數據集-基準(預訓練)模型-語料庫-baseline-工具包-排行榜、PySS3:麵向可解釋AI的SS3文本分類器機器可視化工具 、中文NLP數據集列表、COPE - 格律詩編輯程序、doccano:基於網頁的開源協同多語言文本標注工具 、PreNLP:自然語言預處理庫、簡單的簡曆解析器,用來從簡曆中提取關鍵信息、用於中文閑聊的GPT2模型:GPT2-chitchat、基於檢索聊天機器人多輪響應選擇相關資源列表(Leaderboards、Datasets、Papers)、(Colab)抽象文本摘要實現集錦(教程 、詞語拚音數據、高效模糊搜索工具、NLP數據增廣資源集、微軟對話機器人框架 、 GitHub Typo Corpus:大規模GitHub多語言拚寫錯誤/語法錯誤數據集、TextCluster:短文本聚類預處理模塊

[ 打印 ]
閱讀 ()評論 (0)
評論
目前還沒有任何評論
登錄後才可評論.