書き起こし(文字起こし)とは?意味・やり方・活用法を徹底解説
書き起こし(文字起こし)とは
書き起こし(文字起こし)とは、講演・インタビュー・会議・スピーチなどの音声や映像コンテンツを、正確にテキスト(文字)に変換する作業のことです。「テープ起こし」「トランスクリプション」とも呼ばれます。
音声や映像は「聞く・観る」ためのメディアであり、検索したり、引用したり、流し読みしたりすることには向いていません。書き起こしは、話された言葉をテキストという扱いやすい形式に変換することで、情報の検索性・引用性・保存性を大きく高める作業です。議事録の作成、報道での発言引用、研究データの分析、字幕制作など、さまざまな場面で必要とされています。
書き起こし.comは2011年の運営開始以来、15年以上にわたって講演・スピーチ・インタビューの書き起こしに特化したメディアを運営してきました。本ページでは、その実務経験をもとに、書き起こしの基礎知識から具体的なやり方、AIツールとの付き合い方までを体系的に解説します。
「書き起こし」「文字起こし」「テープ起こし」の違い
書き起こしには複数の呼び方があり、初めて調べる方は戸惑うかもしれません。結論からいえば、どの呼び方も指している作業はほぼ同じで、使われる場面や時代背景が異なるだけです。
- 書き起こし ― 音声・映像を文字にする作業全般を指す、もっとも広い言葉です。メディアや出版の現場でよく使われます。
- 文字起こし ― 「書き起こし」とほぼ同義です。近年はAI音声認識ツールの普及にともない、「文字起こし」という呼び方が一般化しつつあります。
- テープ起こし ― カセットテープに録音した音声を文字に起こしていた時代の名残のある呼び方です。録音媒体がデジタルに移行した現在も、業界用語として広く通用しています。詳しくはテープ起こしの基本情報をご覧ください。
- トランスクリプション(transcription) ― 英語圏での呼称です。書き起こされたテキストそのものは「トランスクリプト(transcript)」と呼ばれます。海外の研究論文や字幕制作の文脈で登場します。
このほか、議事録作成や反訳(裁判関係の用語)など、用途に特化した呼び方もあります。発注や情報収集の際は、呼び方の違いにこだわるよりも、「どの仕上げ方式を求めているか」を明確にするほうが重要です。次の章で詳しく説明します。
書き起こしの3つの仕上げ方式
書き起こしには、仕上がりの形式によって主に3つの方式があります。同じ音源でも、どの方式を選ぶかによって作業時間も成果物の性質も大きく変わるため、目的に応じた選択が欠かせません。
1. 素起こし(逐語起こし)
話者の発言を一言一句そのまま文字に起こす方式です。「えーと」「あのー」などのフィラー(つなぎ言葉)、言い間違い、言い直し、笑い声などもすべて忠実に記録します。
発言の正確な記録そのものに価値がある場合に選ばれる方式で、裁判記録、言語学などの学術研究、カウンセリングや質的調査の分析資料などで用いられます。話し方の癖や間合いまで含めて分析対象となる場面では、素起こし以外の方式は適しません。一方で、読み物としては冗長になるため、一般的なビジネス文書には向きません。
2. ケバ取り
フィラーや言い間違い、意味のない重複表現といった「ケバ」を取り除き、発言の内容を変えずに読みやすく整える方式です。話者の言葉づかいや語り口は残しつつ、不要な要素だけを除去します。
多くのビジネス用途や報道で標準的に使われる方式で、議事録、セミナー記録、インタビュー記事の素材などに適しています。書き起こし.comでも、この方式を基本として記事を制作しています。話者の個性を残しながら可読性を確保できる、バランスの取れた方式といえます。
3. 整文(リライト)
話し言葉を書き言葉に変換し、文法的に正しく、文章として完成された形に整える方式です。語順の入れ替え、冗長な表現の整理、「ら抜き言葉」の修正などを行います。
書籍化やウェブ記事化など、独立した読み物として公開することを前提とした場合に用いられます。ただし、整える度合いが大きくなるほど話者本来のニュアンスから離れるリスクもあるため、発言の趣旨を損なわない編集判断が求められます。
3方式の使い分け早見表
| 比較項目 | 素起こし | ケバ取り | 整文 |
|---|---|---|---|
| 忠実度 | 最も高い | 高い | 内容の趣旨を保持 |
| 読みやすさ | 低い | 高い | 最も高い |
| 作業負荷 | 入力量が多い | 標準的 | 編集スキルが必要 |
| 主な用途 | 裁判記録・学術研究・発言分析 | 議事録・取材記録・報道 | 書籍・ウェブ記事・広報資料 |
| 向かない用途 | 一般的な読み物 | そのままの出版 | 発言の厳密な記録 |
迷った場合は、まずケバ取りを基準に考えるのが実務的です。素起こしは「あとからケバを取る」ことができますが、ケバ取りや整文から素起こしに戻すことはできないため、研究用途など忠実性が問われる可能性がある場合は、最初から素起こしを選んでおくと安全です。
書き起こしの主な活用シーン
- メディア・報道 ― 政治家の演説、記者会見、インタビューの記録・引用。発言を正確に引用するための一次資料になります。
- ビジネス ― 会議議事録、セミナー記録、商談メモの作成。議事録作成の具体的な手順は議事録の書き方ガイドで詳しく解説しています。
- 学術研究 ― インタビュー調査のデータ化、質的研究の基礎資料。分析の前提となるため、忠実性の高い書き起こしが求められます。
- 法務 ― 裁判記録、証言の文字化。一言一句の正確さが重視される領域です。
- コンテンツ制作 ― ポッドキャストやYouTube動画のテキスト版作成。音声・動画の内容を検索エンジンから見つけてもらえるようになります。
- アクセシビリティ ― 聴覚障がい者への情報保障、字幕制作。音声情報を必要とするすべての人に届けるための基盤です。
実際の書き起こしがどのようなものかは、当サイトの記事でご確認いただけます。たとえばスティーブ・ジョブズのスタンフォード大学卒業式スピーチ、オバマ大統領の「Yes We Can」勝利宣言スピーチ、村上春樹氏のカタルーニャ国際賞受賞スピーチ全文などは、講演・演説の書き起こしの代表的な例です。有名スピーチ・名演説のまとめやTED Talksの日本語書き起こし一覧もあわせてご覧ください。
自分で書き起こしをする手順
書き起こしは特別な資格がなくても始められますが、段取りの良し悪しで作業時間と品質が大きく変わります。当編集部の実務経験をふまえ、4つのステップに分けて解説します。
ステップ1:録音の準備(書き起こしは録音前から始まっている)
書き起こしの品質を最も大きく左右するのは、実は元の音源の品質です。聞き取れない音声は、どれだけ時間をかけても正確には起こせません。録音の段階で次の点に注意しておくと、後工程が格段に楽になります。
- 録音機器(ICレコーダーやスマートフォン)は話者のできるだけ近くに置く
- 空調や道路騒音などのノイズ源から離れた場所を選ぶ
- 複数人の会話では、冒頭に参加者が名乗ると話者特定がしやすくなる
- 可能であれば予備の録音機器を用意し、二重に録音する
- 登壇資料や参加者名簿など、固有名詞の確認に使える資料を入手しておく
依頼する場合も自分で起こす場合も、この準備段階の重要性は変わりません。詳しくはご依頼準備のポイントにまとめています。
ステップ2:再生環境を整える
作業効率は再生環境でほぼ決まります。最低限、次の3点を整えることをおすすめします。
- 再生速度の調整機能 ― 聞き取りにくい箇所は0.5〜0.75倍速に落とし、聞き取りやすい箇所は等倍〜やや速めで進めると効率的です。
- 数秒単位の巻き戻し操作 ― 書き起こし作業では数秒の巻き戻しを何百回と繰り返します。キーボードショートカットやフットペダルで手を止めずに操作できると、作業時間を大幅に短縮できます。
- ヘッドホン・イヤホン ― スピーカー再生よりも細部の聞き取りがしやすく、ノイズの中の発言も拾いやすくなります。
作業を速くするコツは書き起こすスピードを10倍にする裏技でも紹介しています。
ステップ3:聴きながら入力する
音声を聴きながらテキストを入力していきます。最初から完璧を目指さず、1周目は多少の聞き取り漏れを許容してざっくり起こし、2周目で穴を埋めるという進め方が、結果的に速くなることが多いです。聞き取れない箇所は「●●(00:12:34)」のようにタイムスタンプ付きの印を残して先に進み、後でまとめて確認します。
複数人の会話では、話者の区別(「A:」「B:」など)を入力の段階から付けておきます。後から付け直すのは非常に手間がかかるためです。
ステップ4:校正・仕上げ
入力が終わったら、テキストを音声と照合しながら誤りを修正します。校正で特に注意すべきポイントは次のとおりです。
- 固有名詞・専門用語 ― 人名、社名、製品名、業界用語は公式資料やウェブで表記を確認します。聞き取りだけに頼ると誤変換が残りやすい部分です。
- 同音異義語 ― 「保証/保障/補償」「異動/移動」など、文脈で判断が必要な語は重点的に確認します。
- 数字・日付 ― 金額や日付の誤りは実害につながりやすいため、必ず音声と再照合します。
最後に、段落分け、話者表記の統一、見出しの付与などを行い、用途に応じた読みやすい形に整えれば完成です。
所要時間の現実的な目安
書き起こしを初めて行う方が最も驚くのが、作業にかかる時間です。一般的に、1時間の音源を書き起こすには4〜6時間程度かかるとされます。つまり音源の長さの4〜6倍です。タイピングに慣れていない方や、音質・話者数などの条件が悪い場合には、それ以上かかることも珍しくありません。
所要時間を左右する主な要因は次のとおりです。
- 音質 ― ノイズが多い、音が小さい、反響があるなどの条件は、聞き直しの回数を大きく増やします。
- 話者数 ― 1人の講演よりも、複数人が発言を重ねる会議のほうが、話者特定と聞き分けに時間がかかります。
- 話し方 ― 早口、方言、専門用語の多さは作業時間を押し上げる要因です。
- 仕上げ方式 ― 素起こしは入力量が多く、整文は編集に時間がかかります。
- 作業者の習熟度 ― タイピング速度と書き起こしの経験値によって、同じ音源でも所要時間は大きく変わります。
「会議の録音を自分で起こすつもりだったが、想像以上に時間がかかって本来の業務を圧迫してしまった」というのは非常によくある失敗です。作業時間を見積もったうえで、自分でやるか、AIツールを使うか、外部に依頼するかを判断することをおすすめします。
AI文字起こしと人力書き起こしの違い
近年、AI音声認識技術の進歩により、自動文字起こしツールが広く使われるようになりました。それぞれの特徴を整理します。
| 比較項目 | AI文字起こし | 人力書き起こし |
|---|---|---|
| 速度 | リアルタイム〜数分程度 | 音源の4〜6倍程度の時間が一般的 |
| 精度 | 音質や話者数などの条件に大きく左右される | 聞き直しと調査により高い精度を確保できる |
| 専門用語・固有名詞 | 誤変換が起きやすい | 資料やウェブで調査・確認が可能 |
| 話者の識別 | ツールにより対応に差がある | 文脈と声から正確に識別可能 |
| ケバ取り・整文の判断 | 機械的になりやすい | 文脈と趣旨をふまえて判断できる |
| コスト | 無料〜比較的安価なものが多い | 時間または外注費がかかる |
AIの認識精度は年々向上していますが、固有名詞の誤変換、同音異義語の取り違え、話者の混同などは依然として起こります。「AIか人力か」の二択ではなく、両者を組み合わせるのが現在の実務では現実的です。主要ツールの特徴と選び方はAI文字起こしツール比較ガイドにまとめています。
AI+人力の併用ワークフロー
書き起こし.comの編集部でも採用している、AIと人力を組み合わせた標準的なワークフローを紹介します。
- AIで一次起こし ― 音源をAI文字起こしツールにかけ、たたき台となるテキストを数分で生成します。
- 音声と照合して修正 ― AIの出力を音声と突き合わせ、誤認識・脱落・話者の混同を修正します。ゼロから入力するより大幅に速いことが多い一方、AIの出力を過信して照合を省くと誤りがそのまま残ります。
- 固有名詞・専門用語の調査 ― 人名・社名・用語の表記を資料で確認し、統一します。AIが最も間違えやすい部分であり、人間の確認が最も価値を発揮する工程です。
- ケバ取り・整形 ― 用途に応じた仕上げ方式で整え、段落・見出し・話者表記を整理します。
この方法なら、ゼロから人力で起こす場合に比べて作業時間を抑えながら、AI任せでは到達できない品質を確保できます。なお、録音の段階で重要発言の時刻をメモしておくと照合作業が一段と速くなります。具体的な方法は文字起こし前に残すべき「タイムスタンプメモ」の作り方で解説しています。当サイト運営会社が開発するメモアプリSimpleMemoFastも、こうした録音時のメモ管理に活用できます。※SimpleMemoFastは当サイト運営会社(株式会社ユリカ)が開発するプロダクトです。
用途別・書き起こし方法の選び方
「自分でやる」「AIを使う」「人に依頼する」のどれが適しているかは、用途によって変わります。代表的な4つの用途について、選び方の考え方を整理します。
会議・打ち合わせの場合
社内会議の議事録であれば、AIツールの一次出力を担当者が確認・整形する運用で十分なケースが多いでしょう。一方、取締役会や労使交渉など発言の正確性が問われる会議では、人手による丁寧な確認が欠かせません。議事録に求められる構成やテンプレートは議事録の書き方ガイドを、ZoomやTeamsなどのWeb会議録画の扱いはWeb会議の書き起こしのご案内をご参照ください。
インタビューの場合
インタビューは話者の言葉づかいそのものに価値があるため、ケバ取りを基本に、ニュアンスを損なわない丁寧な書き起こしが適しています。記事化を前提とする場合は、書き起こし後の編集工程まで見据えた段取りが重要です。準備から校正までの全工程はインタビュー書き起こし完全ガイドで詳しく解説しています。
講演・セミナーの場合
話者が1人で音質も安定していることが多く、AIとの相性が比較的良い用途です。ただし、講演は専門用語や固有名詞が集中して登場するため、配布資料と照合する校正工程を省かないことが品質の分かれ目になります。講演書き起こしの実例は、ウルグアイのムヒカ大統領による「真実の幸福とは何か」スピーチや孫正義氏のソフトバンク決算説明会など、当サイトの記事でご覧いただけます。
研究・調査の場合
質的研究のインタビューデータなどでは、分析の前提として忠実性が求められるため、素起こしが基本となります。フィラーや沈黙も分析対象になり得るため、どこまで記録するかの基準(トランスクリプションルール)を事前に定めておくことが重要です。AIツールを使う場合も、必ず音声との全文照合を行うことをおすすめします。
よくある質問
書き起こしと文字起こしはどう違いますか?
指している作業は同じで、呼び方が違うだけです。音声や映像の内容をテキストに変換する作業を、出版・メディア業界では「書き起こし」、AIツールの文脈では「文字起こし」と呼ぶ傾向がありますが、厳密な使い分けの決まりはありません。
1時間の音声の書き起こしにはどれくらい時間がかかりますか?
人力でゼロから起こす場合、一般的に音源の4〜6倍、つまり4〜6時間程度かかるとされます。音質や話者数、作業者の習熟度によってはさらに長くなることもあります。AIで一次起こしをしてから人が修正する方法を使えば、作業時間を大きく短縮できる場合が多いです。
素起こし・ケバ取り・整文はどれを選べばよいですか?
迷ったらケバ取りが基準です。発言を読みやすく残せるため、議事録や取材記録など多くの用途に適しています。裁判や研究など発言の忠実な記録が必要なら素起こし、書籍やウェブ記事としてそのまま公開するなら整文を選びます。
AI文字起こしだけで十分ですか?
用途によります。社内の参考メモ程度であればAIの出力だけで足りることもありますが、固有名詞の誤変換や話者の混同が残るため、公開・引用・記録を目的とする場合は人による照合と校正を行うことをおすすめします。実務ではAIで一次起こしをして人が仕上げる併用方式が現実的です。
書き起こしを依頼する場合、何を準備すればよいですか?
音源データに加えて、仕上げ方式(素起こし・ケバ取り・整文)の指定、登壇資料や参加者名簿など固有名詞を確認できる資料、納品形式の希望を伝えるとスムーズです。詳しくはご依頼準備のポイントとご依頼の流れをご覧ください。
書き起こしは副業としてできますか?
可能です。特別な資格は不要で、タイピングと丁寧な聞き取りができれば在宅で始められます。ただし前述のとおり作業には相応の時間がかかるため、収入の目安や始め方は文字起こし・テープ起こしの副業ガイドで確認してから検討することをおすすめします。
書き起こし.comの取り組み
書き起こし.comは2011年から15年以上にわたり、講演・スピーチ・インタビューの書き起こしに特化したメディアを運営しています。これまでに143本以上の記事を公開し、累計78万ページビューを超える閲覧実績があります。
私たちは「話された言葉を、読める知識に」をミッションに掲げ、話し手の言葉をそのまま正確に記録することで、動画や音声では見つけにくい情報を検索・引用しやすい形で提供しています。AI技術も活用しつつ、最終的には人間の編集者が校正・監修を行うハイブリッド方式で、本ページで解説したワークフローを日々実践しています。